このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230703となっている論文です。

PDF登録状況(公開日: 20230703)

TitleAuthorsAbstract論文公表日・翻訳日
# エレベータ分散アルゴリズムにおけるデルタデバッグアルゴリズムの適用と拡張(実験論文)

Applying and Extending the Delta Debugging Algorithm for Elevator Dispatching Algorithms (Experience Paper) ( http://arxiv.org/abs/2305.17803v2 )

ライセンス: Link先を確認
Pablo Valle, Aitor Arrieta, Maite Arratibel(参考訳) エレベータシステムはサイバーフィジカルシステム(cps)の一種であり、テストケースは通常複雑で長い時間を要する。 これは主に現実的なテストシナリオが採用されているためである(例えば、エレベーターの発送アルゴリズムのテストでは、通常、エレベーターシステムを通過する乗客の1日1日が使用される)。 しかし、そのような状況下では、失敗を再現する必要がある場合、ソフトウェア開発者に最小限のテストインプットを提供することは、非常に有益である。 このようにして、失敗の根本原因を分析してローカライズしようとするのは、より簡単でアジャイルである。 デルタデバッギングは、フェール誘導テストインプットを減らすための効率的なテクニックであることが判明した。 本稿では,まずCPSが動作する環境と物理状態をモニタリングすることにより,この手法を強化する。 監視された情報を用いて,シミュレーションの実行中にCPSの安定状態を探索する。 第2のステップでは、このような安定した状態を用いて、デルタデバッギングアルゴリズムがより効率的にフェール誘導テストインプットを分離するのを助ける。 産業用エレベーター発送アルゴリズムに我々のアプローチを適用した経験を報告する。 実際のエレベーター設置時の実運用データを用いた実験評価から,提案手法は従来のデルタデバッグの1.3倍から1.8倍高速であり,故障誘発テスト入力の大幅な削減が期待できることがわかった。 異なる実装されたdeltaデバッギングアルゴリズムのバージョンによって提供される結果は、ドメインエキスパートによって定性的に評価されます。 この評価は、deltaデバッギングアルゴリズムのデバッグ以外の応用の可能性など、新たな洞察と教訓を提供する。

Elevator systems are one kind of Cyber-Physical Systems (CPSs), and as such, test cases are usually complex and long in time. This is mainly because realistic test scenarios are employed (e.g., for testing elevator dispatching algorithms, typically a full day of passengers traveling through a system of elevators is used). However, in such a context, when needing to reproduce a failure, it is of high benefit to provide the minimal test input to the software developers. This way, analyzing and trying to localize the root-cause of the failure is easier and more agile. Delta debugging has been found to be an efficient technique to reduce failure-inducing test inputs. In this paper, we enhance this technique by first monitoring the environment at which the CPS operates as well as its physical states. With the monitored information, we search for stable states of the CPS during the execution of the simulation. In a second step, we use such identified stable states to help the delta debugging algorithm isolate the failure-inducing test inputs more efficiently. We report our experience of applying our approach into an industrial elevator dispatching algorithm. An empirical evaluation carried out with real operational data from a real installation of elevators suggests that the proposed environment-wise delta debugging algorithm is between 1.3 to 1.8 times faster than the traditional delta debugging, while producing a larger reduction in the failure-inducing test inputs. The results provided by the different implemented delta debugging algorithm versions are qualitatively assessed with domain experts. This assessment provides new insights and lessons learned, such as, potential applications of the delta debugging algorithm beyond debugging.
翻訳日:2023-10-24 05:27:28 公開日:2023-07-03
# フレキシブルGLSPに基づくWebモデリングツールのビジョン

A Vision for Flexibile GLSP-based Web Modeling Tools ( http://arxiv.org/abs/2307.01352v1 )

ライセンス: Link先を確認
Dominik Bork, Philip Langer and Tobias Ortmayr(参考訳) 過去10年間、モデリングコミュニティは、モデリング標準だけでなく、特に多くのドメイン固有言語のために、多くの機能豊富なモデリングエディタとツールのプロトタイプを作成してきました。 しかし、最近では、Webベースのモデリングツールが、業界におけるそのような言語に固執するモデルを視覚化し、編集するために人気が高まっている。 この新しい世代のモデリングツールは、webテクノロジで構築されており、ユーザエクスペリエンス、アクセシビリティ、再利用、デプロイメントオプションに関して、はるかに柔軟性を提供します。 この新しい世代のツールを支える技術のひとつが、eclipse foundationでホストされているオープンソースのクライアントサーバフレームワークであるgraphical language server platform(glsp)である。これにより、ツールプロバイダは、ブラウザ上で動作し、eclipse、vs code、eclipse theiaといったideに簡単に統合可能なモデリングツール用のモダンなダイアグラムエディタを構築できる。 本稿では,GLSPベースのモデリングツールの開発経験を基にした,より柔軟なモデリングツールの展望について述べる。 これにより、モデリングツール開発のプラクティスをモデル化するためのモデリングコミュニティにおける新たな研究とイノベーションの線引きと、webベースのモデリングツールの機会、利点、限界の探求と、科学的ツールのプロトタイプと実際に使用されている産業ツールとのギャップを埋めることを目指している。

In the past decade, the modeling community has produced many feature-rich modeling editors and tool prototypes not only for modeling standards but particularly also for many domain-specific languages. More recently, however, web-based modeling tools have started to become increasingly popular for visualizing and editing models adhering to such languages in the industry. This new generation of modeling tools is built with web technologies and offers much more flexibility when it comes to their user experience, accessibility, reuse, and deployment options. One of the technologies behind this new generation of tools is the Graphical Language Server Platform (GLSP), an open-source client-server framework hosted under the Eclipse foundation, which allows tool providers to build modern diagram editors for modeling tools that run in the browser or can be easily integrated into IDEs such as Eclipse, VS Code, or Eclipse Theia. In this paper, we describe our vision of more flexible modeling tools which is based on our experiences from developing several GLSP-based modeling tools. With that, we aim at sparking a new line of research and innovation in the modeling community for modeling tool development practices and to explore opportunities, advantages, or limitations of web-based modeling tools, as well as bridge the gap between scientific tool prototypes and industrial tools being used in practice.
翻訳日:2023-10-23 18:26:28 公開日:2023-07-03
# 心筋炎診断のためのデジタル組織像における心筋炎症浸潤の自動同定と定量化

Automated identification and quantification of myocardial inflammatory infiltration in digital histological images to diagnose myocarditis ( http://arxiv.org/abs/2307.01098v1 )

ライセンス: Link先を確認
Yanyun Liu, Xiumeng Hua, Shouping Zhu, Congrui Wang, Xiao Chen, Yu Shi, Jiangping Song, Weihua Zhou(参考訳) 本研究の目的は、デジタルHE画像における心筋炎症浸潤の同定と定量化を自動化し、心筋炎の定量的組織学的診断を提供する新しい計算病理手法を開発することである。 本研究は心筋炎および拡張型心筋症(DCM)と診断された154例の心筋全スライド画像(WSI)を収録した。 心筋WSIの細胞核密度 (LND) を定量化するために, 自動DLベースの計算病理学的手法を開発した。 LNDの定量化に基づく遮断値は, 心筋炎症浸潤の有無を判定するために提案された。 本手法は5倍のクロスバリデーション実験で評価され, 心筋炎群からの内部テストセットを用いてテストし, 二重盲検群からの外部テストで確認した。 1.02/mm2のLNDで心筋炎と診断できた。 5倍クロスバリデーション実験における受信機動作特性曲線(auc)の精度,感度,特異性,面積はそれぞれ0.899+,minus 0.035+,0.971+,minus 0.017+0728+,minus 0.073+0.849+またはminus 0.044であった。 内部試験では, 精度, 感度, 特異度, AUCはそれぞれ0.887, 0.971, 0.737, 0.854であった。 外部試験セットの精度,感度,特異性,aucはそれぞれ0.853,0.846,0.858,0.852であった。 我々の新しいアプローチは、心筋WSIのLNDの正確かつ確実な定量化を可能にし、HE画像による心筋炎の自動定量診断を容易にする。

This study aims to develop a new computational pathology approach that automates the identification and quantification of myocardial inflammatory infiltration in digital HE-stained images to provide a quantitative histological diagnosis of myocarditis.898 HE-stained whole slide images (WSIs) of myocardium from 154 heart transplant patients diagnosed with myocarditis or dilated cardiomyopathy (DCM) were included in this study. An automated DL-based computational pathology approach was developed to identify nuclei and detect myocardial inflammatory infiltration, enabling the quantification of the lymphocyte nuclear density (LND) on myocardial WSIs. A cutoff value based on the quantification of LND was proposed to determine if the myocardial inflammatory infiltration was present. The performance of our approach was evaluated with a five-fold cross-validation experiment, tested with an internal test set from the myocarditis group, and confirmed by an external test from a double-blind trial group. An LND of 1.02/mm2 could distinguish WSIs with myocarditis from those without. The accuracy, sensitivity, specificity, and area under the receiver operating characteristic curve (AUC) in the five-fold cross-validation experiment were 0.899 plus or minus 0.035, 0.971 plus or minus 0.017, 0.728 plus or minus 0.073 and 0.849 plus or minus 0.044, respectively. For the internal test set, the accuracy, sensitivity, specificity, and AUC were 0.887, 0.971, 0.737, and 0.854, respectively. The accuracy, sensitivity, specificity, and AUC for the external test set reached 0.853, 0.846, 0.858, and 0.852, respectively. Our new approach provides accurate and reliable quantification of the LND of myocardial WSIs, facilitating automated quantitative diagnosis of myocarditis with HE-stained images.
翻訳日:2023-10-23 18:26:05 公開日:2023-07-03
# クラウドネイティブなソフトウェアエンジニアリング

Cloud Native Software Engineering ( http://arxiv.org/abs/2307.01045v1 )

ライセンス: Link先を確認
Brian S. Mitchell(参考訳) 2000年代初頭の開始以来、クラウドコンピューティングの採用は増え続けており、世界規模でのこの市場の規模は2021年の700億ドルから2025年の1.3兆ドルに増加すると見積もられている。 クラウドコンピューティング技術には大きな研究活動がありますが、現在および次世代のクラウドネイティブアプリケーションをサポートするために必要なソフトウェアエンジニアリングプラクティスの進展にはほとんど注意が払われていません。 クラウドネイティブとは,現代的なクラウドプラットフォームへのデプロイ用に設計,構築されたソフトウェアという意味です。 本稿では,クラウドネイティブソフトウェア工学の展望を実践者の立場から捉え,検討すべきソフトウェア工学研究の機会をいくつか挙げる。 クラウドアプリケーションで一般的に使用されるソフトウェアアーキテクチャに関連する特定のエンジニアリング上の課題と、新たなIoT/Edgeコンピューティングユースケースで期待される漸進的な課題について取り上げる。

Cloud compute adoption has been growing since its inception in the early 2000's with estimates that the size of this market in terms of worldwide spend will increase from \$700 billion in 2021 to \$1.3 trillion in 2025. While there is a significant research activity in many areas of cloud computing technologies, we see little attention being paid to advancing software engineering practices needed to support the current and next generation of cloud native applications. By cloud native, we mean software that is designed and built specifically for deployment to a modern cloud platform. This paper frames the landscape of Cloud Native Software Engineering from a practitioners standpoint, and identifies several software engineering research opportunities that should be investigated. We cover specific engineering challenges associated with software architectures commonly used in cloud applications along with incremental challenges that are expected with emerging IoT/Edge computing use cases.
翻訳日:2023-10-23 18:25:34 公開日:2023-07-03
# Gitの物語: コード上のシークレットの検出と開発者のパスワード選択の評価を自動化する

Tales from the Git: Automating the detection of secrets on code and assessing developers' passwords choices ( http://arxiv.org/abs/2307.00892v1 )

ライセンス: Link先を確認
Nikolaos Lykousas and Constantinos Patsakis(参考訳) 典型的なユーザーは弱いパスワードを使い再利用することが知られている。 しかし、サイバーセキュリティの懸念が高まるにつれ、ソフトウェア開発者のパスワードの慣行を理解することがますます重要になる。 本研究では,公開リポジトリ上の開発者のパスワードについて検討する。 当社の専用クローラは、公開GitHubリポジトリから数百万のパスワードを収集しましたが、そのユニークな特徴に重点を置いています。 この目的のために、eメールやデータベースなど、さまざまなプログラミング言語やコンテキストにわたるパスワード選択における開発者特性を調査する最初の研究である。 開発者が公開リポジトリに不注意にコードをリークしたという事実にもかかわらず、基礎となるプログラミング言語やコンテキストに関係なく、よりセキュアなパスワードを使用する傾向があることが分かりました。 それでも、コンテキストが許す場合、一般的なユーザーと同様のパスワード選択基準を採用することが多い。 このような情報をクリアテキスト形式で公開することは、まだ改善の余地があり、さらなるターゲット意識キャンペーンが必要であることを示している。

Typical users are known to use and reuse weak passwords. Yet, as cybersecurity concerns continue to rise, understanding the password practices of software developers becomes increasingly important. In this work, we examine developers' passwords on public repositories. Our dedicated crawler collected millions of passwords from public GitHub repositories; however, our focus is on their unique characteristics. To this end, this is the first study investigating the developer traits in password selection across different programming languages and contexts, e.g. email and database. Despite the fact that developers may have carelessly leaked their code on public repositories, our findings indicate that they tend to use significantly more secure passwords, regardless of the underlying programming language and context. Nevertheless, when the context allows, they often resort to similar password selection criteria as typical users. The public availability of such information in a cleartext format indicates that there is still much room for improvement and that further targeted awareness campaigns are necessary.
翻訳日:2023-10-23 18:25:21 公開日:2023-07-03
# 資産管理シェルとオントロジーを用いた能力・技能モデルのマッピングに向けて

Toward a Mapping of Capability and Skill Models using Asset Administration Shells and Ontologies ( http://arxiv.org/abs/2307.00827v1 )

ライセンス: Link先を確認
Luis Miguel Vieira da Silva, Aljosha K\"ocher, Milapji Singh Gill, Marco Weiss, Alexander Fay(参考訳) 生産の変化に効率的に反応するために、資源とその機能はプラグと生産原理に従って植物に統合されなければならない。 この文脈では、いわゆる能力と技能の研究が約束されている。 しかしながら、モデリング機能とスキルには2つの非互換なアプローチがある。 一方,オントロジーを用いた形式記述が開発されている。 一方で、この目的のために資産管理シェル(aas)のサブモデルを標準化する取り組みがある。 本稿では,これら2つの非互換モデリングアプローチを接続する研究について述べる。 どちらのモデルも、類似したモデル要素を識別するために分析される。 次に,AASサブモデルと能力オントロジーの双方向マッピングの概念を提案する。 この目的のために、一方のモデリングアプローチから他方への変換を実装する2つの一方向の宣言的マッピングが適用される。

In order to react efficiently to changes in production, resources and their functions must be integrated into plants in accordance with the plug and produce principle. In this context, research on so-called capabilities and skills has shown promise. However, there are currently two incompatible approaches to modeling capabilities and skills. On the one hand, formal descriptions using ontologies have been developed. On the other hand, there are efforts to standardize submodels of the Asset Administration Shell (AAS) for this purpose. In this paper, we present ongoing research to connect these two incompatible modeling approaches. Both models are analyzed to identify comparable as well as dissimilar model elements. Subsequently, we present a concept for a bidirectional mapping between AAS submodels and a capability and skill ontology. For this purpose, two unidirectional, declarative mappings are applied that implement transformations from one modeling approach to the other - and vice versa.
翻訳日:2023-10-23 18:25:05 公開日:2023-07-03
# 学際的創造的コーディングは創造性を高めるか? 混合手法のアプローチ

Does Interdisciplinary Creative Coding Boost Creativity? A Mixed Methods Approach ( http://arxiv.org/abs/2307.00800v1 )

ライセンス: Link先を確認
Arne Duyver, Wouter Groeneveld, Kris Aerts(参考訳) 本研究は,学際介入が創造的問題解決能力に及ぼす影響を考察する。 文学は、高等教育におけるソフトウェア工学(SE)の学生にとって不可欠なスキルとみなす。 39人のse学生とグラフィックデザイン(gd)の学生がランダムにペアになって、p5.jsでオープンエンドのクリエイティブコーディングの課題に取り組んだ。これは、初心者が素早く簡単にビジュアルwebページをコーディングできる、オンラインのjsベースの処理エディタである。 テスト群se+gd(18名)とコントロール群se+se(10名)とgd+gd(11名)の3つのカテゴリーが形成された。 amabileのコンセンサス・アセスメント・テクニックは、完成した製品に対するグローバルなクリエイティビティスコアを提供し、creative programming problem solve testは、創造的なプロセスの3次元(可能性、マインドセット、インタラクション)を評価し、9つの半構造化されたフォローアップ・インタビューがコンテキストを提供し、基礎となるテーマを明らかにする。 その結果, エンドプロダクトの創造性は最初は打撃を受けたが, SE+GDグループの社会的相互作用性は上昇した。 また、将来の仕事を求める創造性に対する固定的な考え方(“デザイン学生は私たちよりも創造的”)も観察しました。

This study explores the influence of an interdisciplinary intervention on creative problem-solving skills. Literature deems such skills as vital for software engineering (SE) students in higher education. 39 SE students and graphic design (GD) students were randomly paired to work on an open-ended creative coding assignment in p5.js, an online JS-based Processing editor that makes it easy for novices to quickly and easily code visual webpages. Three categories were formed: the test group SE+GD (18 students), and control groups SE+SE (10) and GD+GD (11). A mixed methods approach was taken to gather and interpret results: Amabile's Consensual Assessment Technique provided a global creativity score for the finished product, the Creative Programming Problem Solving Test assessed three dimensions of the creative process (Ability, Mindset, Interaction), and 9 semi-structured follow-up interviews provided context and revealed underlying themes. The results indicate that, while the creativity of the end product initially takes a hit, the SE+GD groups' socio-interactive creativity levels increased. We also observed fixed mindsets towards creativity ("design students are more creative than we") that call for future work.
翻訳日:2023-10-23 18:24:54 公開日:2023-07-03
# シークレット検出ツールによるソフトウェアシークレット報告の比較研究

A Comparative Study of Software Secrets Reporting by Secret Detection Tools ( http://arxiv.org/abs/2307.00714v1 )

ライセンス: Link先を確認
Setu Kumar Basak, Jamison Cox, Bradley Reaves and Laurie Williams(参考訳) 背景: GitGuardianの公開GitHubリポジトリの監視によると、2022年にはシークレットが2021年に比べて67%増加し、1000万以上のシークレット(APIキーなど)が公開されている。 多くのオープンソースおよびプロプライエタリなシークレット検出ツールが利用可能だが、これらのツールは多くの偽陽性を出力しているため、開発者はアクションを取るのが難しく、チームは多くのツールを選択できる。 我々の知る限りでは、秘密検出ツールはまだ比較・評価されていない。 Aims: 私たちの研究の目的は、開発者が秘密検出ツールを選択して、既存の秘密検出ツールを実証的に調査することで、秘密の露出を減らすことです。 方法:ベンチマークデータセットに対する5つのオープンソースと4つのプロプライエタリなツールの評価を行う。 結果: 精度に基づくツールのトップ3は、GitHub Secret Scanner (75%)、Gitleaks (46%)、Commercial X (25%)、リコールに基づくツールは、Gitleaks (88%)、SpectralOps (67%)、TruffleHog (52%)である。 報告された秘密を手作業で分析したところ,偽陽性は一般的な正規表現と非効率的なエントロピー計算によるものであることが明らかとなった。 対照的に偽陰性は正規表現の不備、特定のファイルタイプのスキップ、不十分なルールセットによるものである。 結論: 開発者は、プロジェクトのシークレットタイプに基づいたツールを選択して、行方不明のシークレットを防ぐことを推奨します。 さらに,ツールベンダによる検出ルールの定期的かつ正確な更新には,APIベンダとのコラボレーションによるシークレット検証機構の利用が推奨される。

Background: According to GitGuardian's monitoring of public GitHub repositories, secrets sprawl continued accelerating in 2022 by 67% compared to 2021, exposing over 10 million secrets (API keys and other credentials). Though many open-source and proprietary secret detection tools are available, these tools output many false positives, making it difficult for developers to take action and teams to choose one tool out of many. To our knowledge, the secret detection tools are not yet compared and evaluated. Aims: The goal of our study is to aid developers in choosing a secret detection tool to reduce the exposure of secrets through an empirical investigation of existing secret detection tools. Method: We present an evaluation of five open-source and four proprietary tools against a benchmark dataset. Results: The top three tools based on precision are: GitHub Secret Scanner (75%), Gitleaks (46%), and Commercial X (25%), and based on recall are: Gitleaks (88%), SpectralOps (67%) and TruffleHog (52%). Our manual analysis of reported secrets reveals that false positives are due to employing generic regular expressions and ineffective entropy calculation. In contrast, false negatives are due to faulty regular expressions, skipping specific file types, and insufficient rulesets. Conclusions: We recommend developers choose tools based on secret types present in their projects to prevent missing secrets. In addition, we recommend tool vendors update detection rules periodically and correctly employ secret verification mechanisms by collaborating with API vendors to improve accuracy.
翻訳日:2023-10-23 18:24:28 公開日:2023-07-03
# アジャイルガバナンス理論のマルチシナリオ実証評価:技術報告

Multi-Scenario Empirical Assessment of Agile Governance Theory: A Technical Report ( http://arxiv.org/abs/2307.13635v1 )

ライセンス: Link先を確認
Alexandre J. H. de O. Luna, Marcelo L. M. Marinho(参考訳) コンテキスト: アジャイルガバナンス理論(AGT)は、ビジネスユニットやチーム間での責任の組織的連鎖の潜在的なモデルとして現れました。 目的:本研究はAGTが実際にどのように反映されているかを評価することを目的としている。 方法:AGTは16の検証可能な仮説で運用された。 全仮説は、86の組織と19の国から118人の実践者を対象に、8つの理論的シナリオをアレンジすることで検証された。 フィードバックは構造方程式モデリング (sem) と確認因子分析 (cfa) を用いて解析された。 結果: 分析は,アジャイル能力とガバナンス機能によるビジネス運用の仲介など,キー理論の構成要素と仮説をサポートしました。 結論: この研究は理論を支持し、agtはチームがアジャイルな文脈で組織のガバナンスをよりよく理解するのに役立つことを示唆する。 より深い理解は、不明確な意思決定チャネルによって生じる可能性のある遅延や誤解を取り除くのに役立つ。

Context: Agile Governance Theory (AGT) has emerged as a potential model for organizational chains of responsibility across business units and teams. Objective: This study aims to assess how AGT is reflected in practice. Method: AGT was operationalized down into 16 testable hypotheses. All hypotheses were tested by arranging eight theoretical scenarios with 118 practitioners from 86 organizations and 19 countries who completed an in-depth explanatory scenario-based survey. The feedback results were analyzed using Structural Equation Modeling (SEM) and Confirmatory Factor Analysis (CFA). Results: The analyses supported key theory components and hypotheses, such as mediation between agile capabilities and business operations through governance capabilities. Conclusion: This study supports the theory and suggests that AGT can assist teams in gaining a better understanding of their organization governance in an agile context. A better understanding can help remove delays and misunderstandings that can come about with unclear decision-making channels, which can jeopardize the fulfillment of the overall strategy.
翻訳日:2023-10-23 16:23:15 公開日:2023-07-03
# 人工知能でラテン語を翻訳する

Translating Latin with Artificial Intelligence ( http://arxiv.org/abs/2307.07520v1 )

ライセンス: Link先を確認
Sylvio R. Bistafa(参考訳) 初期の科学文献の研究における大きな障害は、ラテン語の現代語への翻訳が可能であることである。 これは、約850の写本を書き、1000通の手紙を書き、約2,000通の手紙を受け取ったオイラーの作品に特に当てはまる。 これら多くの写本、本、手紙の翻訳は過去2世紀にわたって様々な文献で出版されてきたが、まだ多くは登場していない。 幸いなことに、人工知能のAI翻訳は、膨大な数のテキストを翻訳する難題を回避するために利用することができる。 このツールを検証するために、google translateとchatgptという2つの人気のあるai翻訳アルゴリズムのパフォーマンスを比較するベンチマークテストが行われた。 チャットgptはこれらのテストで良く機能していたことが判明したため、この翻訳支援は1739年にヨハン・ベルヌーイからオイラーへ送られた手紙の抜粋に使われ、そこで彼は彼の原稿水理学の最初の部分であるオイラーに送っていると知らせた。 この発見は、chatgptがラテン語の一般的な実践者だけでなく、特殊なラテン語の翻訳者にとっても有益であることを示す貴重な翻訳ツールであることを示している。

The major hindrance in the study of earlier scientific literature is the availability of Latin translations into modern languages. This is particular true for the works of Euler who authored about 850 manuscripts and wrote a thousand letters and received back almost two thousand more. The translation of many of these manuscripts, books and letters have been published in various sources over the last two centuries, but many more have not yet appeared. Fortunately, nowadays, the artificial intelligence AI translation can be used to circumvent the challenges of translating such substantial number of texts. To validate this tool, benchmark tests have been performed to compare the performance of two popular AI translating algorithms, namely Google Translate and ChatGPT. Since it was found that ChatGPT performed better on these tests, this translating support was then used on an excerpt of a 1739 letter from Johann Bernoulli to Euler, where he notifies that he was sending to Euler the first part of his manuscript Hydraulica. The findings highlight ChatGPT as a valuable translation tool, catering not only to general Latin practitioners but also proving beneficial for specialized Latin translators.
翻訳日:2023-07-23 12:29:13 公開日:2023-07-03
# デュアル・ステルス・バックドア:空間的・周波数的両面から

A Dual Stealthy Backdoor: From Both Spatial and Frequency Perspectives ( http://arxiv.org/abs/2307.10184v1 )

ライセンス: Link先を確認
Yudong Gao, Honglong Chen, Peng Sun, Junjian Li, Anqing Zhang, Zhibo Wang(参考訳) バックドア攻撃はディープニューラルネットワーク(DNN)に深刻なセキュリティ脅威をもたらす。 バックドアモデルでは、適切に設計されたトリガーが埋め込まれた入力に対して、任意の(ターゲット化された)誤った予測を行う。 多くの研究は、攻撃のステルスネスを改善するためにバックドアトリガーの視認性を探求してきた。 しかし、多くは空間領域の可視性のみを考慮し、周波数領域における見えないトリガーの発生を明示的に考慮せず、近年の防御手法により、生成した有毒画像を容易に検出できる。 この問題に対処するために,本論文では,空間領域と周波数領域の両方におけるトリガの可視性を同時に考慮し,高いステルス性を確保しつつ,望ましい攻撃性能を実現するための, DuBA と呼ばれる2次元ステルス型 BAckdoor 攻撃手法を提案する。 具体的には,まず離散ウェーブレット変換を用いて,トリガ画像の高周波情報をクリーン画像に埋め込み,攻撃効果を確保する。 そして、強いステルス性を達成するために、フーリエ変換と離散コサイン変換を組み込んで、有毒画像と周波数領域の清浄画像を混合する。 さらに,提案手法では,モデルが弱いトリガで訓練され,強いトリガで攻撃され,攻撃性能とステルス性がさらに向上する,新たな攻撃戦略を採用する。 4つのデータセット上の一般的な画像分類器に対してDUBAを広範囲に評価した。 その結果,攻撃成功率とステルス性という点で,最先端のバックドア攻撃を大きく上回ることがわかった。

Backdoor attacks pose serious security threats to deep neural networks (DNNs). Backdoored models make arbitrarily (targeted) incorrect predictions on inputs embedded with well-designed triggers while behaving normally on clean inputs. Many works have explored the invisibility of backdoor triggers to improve attack stealthiness. However, most of them only consider the invisibility in the spatial domain without explicitly accounting for the generation of invisible triggers in the frequency domain, making the generated poisoned images be easily detected by recent defense methods. To address this issue, in this paper, we propose a DUal stealthy BAckdoor attack method named DUBA, which simultaneously considers the invisibility of triggers in both the spatial and frequency domains, to achieve desirable attack performance, while ensuring strong stealthiness. Specifically, we first use Discrete Wavelet Transform to embed the high-frequency information of the trigger image into the clean image to ensure attack effectiveness. Then, to attain strong stealthiness, we incorporate Fourier Transform and Discrete Cosine Transform to mix the poisoned image and clean image in the frequency domain. Moreover, the proposed DUBA adopts a novel attack strategy, in which the model is trained with weak triggers and attacked with strong triggers to further enhance the attack performance and stealthiness. We extensively evaluate DUBA against popular image classifiers on four datasets. The results demonstrate that it significantly outperforms the state-of-the-art backdoor attacks in terms of the attack success rate and stealthiness
翻訳日:2023-07-23 11:36:39 公開日:2023-07-03
# 正規化相互情報は、分類とコミュニティ検出のための偏りのある尺度である

Normalized mutual information is a biased measure for classification and community detection ( http://arxiv.org/abs/2307.01282v1 )

ライセンス: Link先を確認
Maximilian Jerdee, Alec Kirkley, M. E. J. Newman(参考訳) 正規化相互情報はクラスタリングと分類アルゴリズムの性能を評価するための類似度尺度として広く利用されている。 本稿では,正規化された相互情報によって返される結果が,一致表の情報内容を無視していること,対称正規化がアルゴリズムの出力に急激な依存をもたらすこと,の2つの理由から偏りがあることを示す。 これら2つの欠点を解消する相互情報の修正版を導入する。 偏りのない尺度を用いることの重要性を実証するため,ネットワークコミュニティ検出のための人気アルゴリズムのバスケット上で広範囲に数値実験を行い,従来の相互情報のバイアスの影響が,どのアルゴリズムが最適かという結論に大きく影響していることを示す。

Normalized mutual information is widely used as a similarity measure for evaluating the performance of clustering and classification algorithms. In this paper, we show that results returned by the normalized mutual information are biased for two reasons: first, because they ignore the information content of the contingency table and, second, because their symmetric normalization introduces spurious dependence on algorithm output. We introduce a modified version of the mutual information that remedies both of these shortcomings. As a practical demonstration of the importance of using an unbiased measure, we perform extensive numerical tests on a basket of popular algorithms for network community detection and show that one's conclusions about which algorithm is best are significantly affected by the biases in the traditional mutual information.
翻訳日:2023-07-16 04:18:43 公開日:2023-07-03
# ゲノム学のためのディープラーニング: 簡潔な概要

Deep Learning for Genomics: A Concise Overview ( http://arxiv.org/abs/1802.00810v3 )

ライセンス: Link先を確認
Tianwei Yue, Wenping Wang, Haohan Wang(参考訳) 高スループットシーケンシング技術などのゲノム研究の進歩は、現代のゲノム研究を「大きなデータ」分野へと駆り立てている。 このデータ爆発は、ゲノム学で使われる従来の手法に常に挑戦している。 堅牢なアルゴリズムの急激な需要と並行して、ディープラーニングは視覚、音声、テキスト処理といった様々な分野に成功している。 しかし、ゲノム学は、私たちの知識を越えてゲノムを解釈する超人的な知能を深層学習から期待しているため、深層学習に固有の課題を伴います。 強力なディープラーニングモデルは、タスク固有の知識の洞察に頼らなければならない。 本稿では,それぞれのタスクを適切な深層アーキテクチャに適合させるために,ゲノムの観点から異なる深層学習モデルの強みを簡潔に論じるとともに,現代的深層学習アーキテクチャの開発に関する実践的考察について述べる。 また、ゲノム研究のさまざまな側面における深層学習応用の簡潔なレビューを行い、将来的なゲノム応用の可能性と障害を指摘した。

Advancements in genomic research such as high-throughput sequencing techniques have driven modern genomic studies into "big data" disciplines. This data explosion is constantly challenging conventional methods used in genomics. In parallel with the urgent demand for robust algorithms, deep learning has succeeded in a variety of fields such as vision, speech, and text processing. Yet genomics entails unique challenges to deep learning since we are expecting from deep learning a superhuman intelligence that explores beyond our knowledge to interpret the genome. A powerful deep learning model should rely on insightful utilization of task-specific knowledge. In this paper, we briefly discuss the strengths of different deep learning models from a genomic perspective so as to fit each particular task with a proper deep architecture, and remark on practical considerations of developing modern deep learning architectures for genomics. We also provide a concise review of deep learning applications in various aspects of genomic research, as well as pointing out potential opportunities and obstacles for future genomics applications.
翻訳日:2023-07-16 04:18:03 公開日:2023-07-03
# ChatGPTはポケット電卓ではない -- 地理学を教えるAIボットの問題点

ChatGPT is not a pocket calculator -- Problems of AI-chatbots for teaching Geography ( http://arxiv.org/abs/2307.03196v1 )

ライセンス: Link先を確認
Simon Scheider, Harm Bartholomeus, Judith Verstegen(参考訳) 様々な知識領域におけるChatGPTのような大規模言語モデルやAIチャットボットの成功は、地理学とGIScienceの教育と学習に大きな影響を与えている。 基礎となる革命はしばしばポケット電卓の導入と比較され、他の学習コンテンツよりも高いレベルのスキルを優先する類似の適応を示唆している。 しかし、ChatGPTの使用は、評価の妥当性を脅かすため、不正である可能性がある。 このような戦略の成功は、低レベルの学習目標がAIによって置換可能であり、監督と評価は高レベルの目標に再焦点を絞ることができるという仮定にかかっている。 図学とGIScienceにおける質問への回答におけるChatGPTの質に関する予備調査に基づいて、この仮定がかなり単純であり、評価と監督の効果的な制御が必要であることを実証する。

The recent success of large language models and AI chatbots such as ChatGPT in various knowledge domains has a severe impact on teaching and learning Geography and GIScience. The underlying revolution is often compared to the introduction of pocket calculators, suggesting analogous adaptations that prioritize higher-level skills over other learning content. However, using ChatGPT can be fraudulent because it threatens the validity of assessments. The success of such a strategy therefore rests on the assumption that lower-level learning goals are substitutable by AI, and supervision and assessments can be refocused on higher-level goals. Based on a preliminary survey on ChatGPT's quality in answering questions in Geography and GIScience, we demonstrate that this assumption might be fairly naive, and effective control in assessments and supervision is required.
翻訳日:2023-07-16 04:13:49 公開日:2023-07-03
# タレント分析のための人工知能技術に関する総合調査

A Comprehensive Survey of Artificial Intelligence Techniques for Talent Analytics ( http://arxiv.org/abs/2307.03195v1 )

ライセンス: Link先を確認
Chuan Qin, Le Zhang, Rui Zha, Dazhong Shen, Qi Zhang, Ying Sun, Chen Zhu, Hengshu Zhu, Hui Xiong(参考訳) 今日の競争力と進化の早いビジネス環境では、組織は人材に関する意思決定を定量的に行う方法を考え直すことが重要です。 実際、最近のビッグデータと人工知能(AI)技術の発展は、人的資源管理に革命をもたらした。 大規模な人材とマネジメント関連のデータの提供は、ビジネスリーダにとって、組織行動を理解し、データサイエンスの観点から具体的な知識を得るための別途の機会を提供する。 過去10年間で、人材分析は人間の資源管理に応用データ科学の有望な分野として現れ、AIコミュニティから大きな注目を集め、多くの研究努力を刺激している。 この目的のために,人的資源管理の分野で人材分析に使用されるAI技術について,最新の総合調査を行った。 具体的には,まずタレント分析の背景知識を提供し,関連するデータを分類する。 次に,タレント管理,組織管理,労働市場分析という3つの異なるアプリケーション駆動シナリオに基づいて分類した,関連する研究活動の包括的分類法を提案する。 結論として、AIによる人材分析の分野における今後の研究方向性に関するオープンな課題と可能性についてまとめる。

In today's competitive and fast-evolving business environment, it is a critical time for organizations to rethink how to make talent-related decisions in a quantitative manner. Indeed, the recent development of Big Data and Artificial Intelligence (AI) techniques have revolutionized human resource management. The availability of large-scale talent and management-related data provides unparalleled opportunities for business leaders to comprehend organizational behaviors and gain tangible knowledge from a data science perspective, which in turn delivers intelligence for real-time decision-making and effective talent management at work for their organizations. In the last decade, talent analytics has emerged as a promising field in applied data science for human resource management, garnering significant attention from AI communities and inspiring numerous research efforts. To this end, we present an up-to-date and comprehensive survey on AI technologies used for talent analytics in the field of human resource management. Specifically, we first provide the background knowledge of talent analytics and categorize various pertinent data. Subsequently, we offer a comprehensive taxonomy of relevant research efforts, categorized based on three distinct application-driven scenarios: talent management, organization management, and labor market analysis. In conclusion, we summarize the open challenges and potential prospects for future research directions in the domain of AI-driven talent analytics.
翻訳日:2023-07-16 04:13:36 公開日:2023-07-03
# 物理制約付き機械学習による無空地表面温度のマッピング

A physics-constrained machine learning method for mapping gapless land surface temperature ( http://arxiv.org/abs/2307.04817v1 )

ライセンス: Link先を確認
Jun Ma, Huanfeng Shen, Menghui Jiang, Liupeng Lin, Chunlei Meng, Chao Zeng, Huifang Li, Penghai Wu(参考訳) より正確で時空間的、物理的に一貫したLST推定は、地球系の研究において大きな関心を集めてきた。 物理駆動機構モデルとデータ駆動機械学習(ML)モデルの開発はギャップレスLST推定の2つの主要なパラダイムであり、それぞれに利点と欠点がある。 本稿では,メカニズムモデルとMLモデルの強度を組み合わせた物理制約型MLモデルを提案する。 ハイブリッドモデルはMLを主アーキテクチャとして採用し、入力変数の物理的制約を組み込んでモデルの解釈可能性と外挿能力を高める。 具体的には、リモートセンシングデータのみを入力として使用する光勾配ブースティングマシン(LGBM)モデルが、純粋なMLモデルとして機能する。 物理制約(PC)は、LGBMモデルへの入力として、重要なコミュニティランドモデル(CLM)にデータ(原因)とCLMシミュレーションデータ(効果)を強制的に組み込むことによって結合される。 この統合は、表面エネルギー収支(SEB)制約をバイオ物理フレームワーク内のCLM-LSTモデリングに組み込んだPC-LGBMモデルを形成する。 純粋な物理法や純粋なML法と比較して、PC-LGBMモデルはLSTの予測精度と物理的解釈性を改善する。 また,PC-LGBMモデルでは,データから経験的学習が可能であるだけでなく,理論から合理的に導出できることが示唆された。 提案手法は,地表面プロセスにおける知識発見と地理的パラメータ推定におけるデータマイニングの促進を図り,高精度かつ物理的に解釈可能なギャップレスLSTをマッピングする革新的な方法である。

More accurate, spatio-temporally, and physically consistent LST estimation has been a main interest in Earth system research. Developing physics-driven mechanism models and data-driven machine learning (ML) models are two major paradigms for gapless LST estimation, which have their respective advantages and disadvantages. In this paper, a physics-constrained ML model, which combines the strengths in the mechanism model and ML model, is proposed to generate gapless LST with physical meanings and high accuracy. The hybrid model employs ML as the primary architecture, under which the input variable physical constraints are incorporated to enhance the interpretability and extrapolation ability of the model. Specifically, the light gradient-boosting machine (LGBM) model, which uses only remote sensing data as input, serves as the pure ML model. Physical constraints (PCs) are coupled by further incorporating key Community Land Model (CLM) forcing data (cause) and CLM simulation data (effect) as inputs into the LGBM model. This integration forms the PC-LGBM model, which incorporates surface energy balance (SEB) constraints underlying the data in CLM-LST modeling within a biophysical framework. Compared with a pure physical method and pure ML methods, the PC-LGBM model improves the prediction accuracy and physical interpretability of LST. It also demonstrates a good extrapolation ability for the responses to extreme weather cases, suggesting that the PC-LGBM model enables not only empirical learning from data but also rationally derived from theory. The proposed method represents an innovative way to map accurate and physically interpretable gapless LST, and could provide insights to accelerate knowledge discovery in land surface processes and data mining in geographical parameter estimation.
翻訳日:2023-07-16 04:04:54 公開日:2023-07-03
# 到着時の非局所的干渉

Non-local interference in arrival time ( http://arxiv.org/abs/2307.04811v1 )

ライセンス: Link先を確認
Ali Ayatollah Rafsanjani, MohammadJavad Kazemi, Vahid Hosseinzadeh, and Mehdi Golshani(参考訳) 位置と時間は量子力学において異なる数学的役割を持ち、一方は作用素、もう一方はパラメータであるが、量子現象には時空双対性があり、空間領域で観測される多くの現象は時間領域でも観測される。 そこで本研究では, 交絡原子を用いた2つの二重スリット実験の修正版を提案し, 到着時間分布における非局所干渉を観測する。 数値シミュレーションにより,到着時刻分布における1粒子と2粒子の干渉可視性の間に相補的関係が示され,これは到着位置分布で観測される相補的関係と類似している。 量子力学における到着時刻分布の計算の複雑さを克服するために、ボヘミアン処理を用いる。 本実験のアプローチは幅広い現象に適用でき, 予測された非局所的時間的干渉と関連する相補性関係は, 様々な現象に現れるかもしれない絡み合った量子系の普遍的挙動であると考えられる。

Although position and time have different mathematical roles in quantum mechanics, with one being an operator and the other being a parameter, there is a space-time duality in quantum phenomena; Many phenomena observed in the spatial domain are also observed in the temporal domain. In this context, we propose a modified version of the two double-slit experiment using entangled atoms to observe a non-local interference in the arrival time distribution. Our numerical simulations demonstrate a complementary relationship between the one-particle and two-particle interference visibility in the arrival time distribution, which is analogous to the complementary relationship observed in the arrival position distribution. To overcome the complexities of computing the arrival time distribution in quantum mechanics, we employ a Bohmian treatment. Our approach to investigating this experiment can be applied to a wide range of phenomena, and it appears that the predicted non-local temporal interference and associated complementarity relationship are universal behaviors of entangled quantum systems that may manifest in various phenomena.
翻訳日:2023-07-16 04:04:02 公開日:2023-07-03
# SSNetによる脳波,EOG,EMG信号からの睡眠段階の分類

Classification of sleep stages from EEG, EOG and EMG signals by SSNet ( http://arxiv.org/abs/2307.05373v1 )

ライセンス: Link先を確認
Haifa Almutairi, Ghulam Mubashar Hassan and Amitava Datta(参考訳) 睡眠段階の分類は、睡眠障害ブレスティング(SDB)病を含む睡眠関連疾患の診断に重要である。 本研究では,畳み込みニューラルネットワーク(CNN)とLong Short Term Memory(LSTM)に基づく2つのディープラーニングネットワークからなる,SSNetというエンドツーエンドのディープラーニングアーキテクチャを提案する。 どちらの深層学習ネットワークも、睡眠段階の分類に役立つ特徴があるため、脳波(Electrooculogram, EOG)、脳波(Electroencephalogram, EEEG)、筋電図(Electromyogram, EEMG)の信号の組み合わせから特徴を抽出する。 深層学習ネットワークが生成する特徴を連結して完全に接続された層に渡して分類を行う。 提案モデルの性能を,Sleep-EDF拡張データセットとISRUC-Sleepデータセットの2つの公開データセットを用いて評価した。 スリープedf拡張データセットを用いて3種類の睡眠ステージを分類するための精度とkappa係数はそれぞれ96.36%と93.40%である。 一方、sleep-edf拡張データセットを用いた5つの睡眠ステージの精度は96.57%、kappa係数は83.05%である。 本モデルは,最先端技術と比較して,睡眠段階の分類において最高の性能を得る。

Classification of sleep stages plays an essential role in diagnosing sleep-related diseases including Sleep Disorder Breathing (SDB) disease. In this study, we propose an end-to-end deep learning architecture, named SSNet, which comprises of two deep learning networks based on Convolutional Neuron Networks (CNN) and Long Short Term Memory (LSTM). Both deep learning networks extract features from the combination of Electrooculogram (EOG), Electroencephalogram (EEG), and Electromyogram (EMG) signals, as each signal has distinct features that help in the classification of sleep stages. The features produced by the two-deep learning networks are concatenated to pass to the fully connected layer for the classification. The performance of our proposed model is evaluated by using two public datasets Sleep-EDF Expanded dataset and ISRUC-Sleep dataset. The accuracy and Kappa coefficient are 96.36% and 93.40% respectively, for classifying three classes of sleep stages using Sleep-EDF Expanded dataset. Whereas, the accuracy and Kappa coefficient are 96.57% and 83.05% respectively for five classes of sleep stages using Sleep-EDF Expanded dataset. Our model achieves the best performance in classifying sleep stages when compared with the state-of-the-art techniques.
翻訳日:2023-07-16 03:56:53 公開日:2023-07-03
# Capafoldable:コンデンサ付き自走式折りたたみ式スマート織物

Capafoldable: self-tracking foldable smart textiles with capacitive sensing ( http://arxiv.org/abs/2307.05370v1 )

ライセンス: Link先を確認
Lala Shakti Swarup Ray, Daniel Gei{\ss}ler, Bo Zhou, Paul Lukowicz, Berit Greinke(参考訳) 折り畳みは、運動や3次元の機械的特性を持つ平面材料を可能にするユニークな構造技術である。 繊維系容量センサは導電性織物の形状変形と相対運動に敏感であることが示されている。 本研究では,折りたたみ布構造と静電容量センシングを組み合わせて,最先端のセンシング回路とディープラーニング技術を用いて構造運動を検出する,新しい自己追跡型折り畳み型スマート織物を提案する。 我々はアコーディオンとチェブロンという2つの折りたたみパターンを作り、それぞれ熱結合導電性繊維パッチの形で容量センサを配置した。 折り畳みパターンのパッチを手作業で移動させる実験で,視覚追跡されたパッチの形状を学習し,再構成するためのディープニューラルネットワークを開発した。 提案手法により,R二乗値95\%の容量的信号からパッチ形状を定義する幾何学的プリミティブを再構成し,長さ22.5cmのパッチに対して1cmの誤差を追尾する。 機械的、電気的、およびセンサー的特性により、Capafoldableはさまざまなスマート織物の応用を可能にした。

Folding is an unique structural technique to enable planer materials with motion or 3D mechanical properties. Textile-based capacitive sensing has shown to be sensitive to the geometry deformation and relative motion of conductive textiles. In this work, we propose a novel self-tracking foldable smart textile by combining folded fabric structures and capacitive sensing to detect the structural motions using state-of-the-art sensing circuits and deep learning technologies. We created two folding patterns, Accordion and Chevron, each with two layouts of capacitive sensors in the form of thermobonded conductive textile patches. In an experiment of manually moving patches of the folding patterns, we developed deep neural network to learn and reconstruct the vision-tracked shape of the patches. Through our approach, the geometry primitives defining the patch shape can be reconstructed from the capacitive signals with R-squared value of up to 95\% and tracking error of 1cm for 22.5cm long patches. With mechanical, electrical and sensing properties, Capafoldable could enable a new range of smart textile applications.
翻訳日:2023-07-16 03:56:19 公開日:2023-07-03
# ウェアラブルとEHRデータによる無バイアス痛評価:多属性公正損失に基づくCNNアプローチ

Unbiased Pain Assessment through Wearables and EHR Data: Multi-attribute Fairness Loss-based CNN Approach ( http://arxiv.org/abs/2307.05333v1 )

ライセンス: Link先を確認
Sharmin Sultana, Md Mahmudur Rahman, Atqiya Munawara Mahi, Shao-Hsien Liu, Mohammad Arif Ul Alam(参考訳) 多様な健康データ(IoT, EHR, 臨床調査)とスケーラブル適応人工知能(AI)の組み合わせにより、痛み状態の身体的、行動的、精神社会的指標の発見が可能になった。 技術的進歩によって医療システムを根本的に変えるという誇大宣伝と約束にもかかわらず、臨床的な痛みの評価におけるaiの採用は、問題自体の多様性やパーソナライゼーションや公平性といった他の課題によって妨げられている。 研究により、多くのAIモデル(機械学習やディープラーニング)が偏見を示し、特定の人口セグメント(性別や民族に基づくものなど)を識別していることが判明した。 本稿では,多属性フェアネス損失(mafl)に基づくcnnモデルを提案する。このモデルでは,データに含まれるすべての敏感な属性を考慮し,特権群と非特権群との差異を最小限に抑えつつ,患者の痛み状態をかなり予測することを目的としている。 精度と公平性のトレードオフを満足できるかどうかを判断するために,提案モデルと既知の緩和手順を比較し,実装モデルが最先端手法と対照的に良好に機能することを示す。 NIH All-Of-USデータを用いて、ウェアラブルとEHRのデータを1500日以上収集した858人の個人をコホートし、提案した公正な痛み評価システムを分析する。

The combination of diverse health data (IoT, EHR, and clinical surveys) and scalable-adaptable Artificial Intelligence (AI), has enabled the discovery of physical, behavioral, and psycho-social indicators of pain status. Despite the hype and promise to fundamentally alter the healthcare system with technological advancements, much AI adoption in clinical pain evaluation has been hampered by the heterogeneity of the problem itself and other challenges, such as personalization and fairness. Studies have revealed that many AI (i.e., machine learning or deep learning) models display biases and discriminate against specific population segments (such as those based on gender or ethnicity), which breeds skepticism among medical professionals about AI adaptability. In this paper, we propose a Multi-attribute Fairness Loss (MAFL) based CNN model that aims to account for any sensitive attributes included in the data and fairly predict patients' pain status while attempting to minimize the discrepancies between privileged and unprivileged groups. In order to determine whether the trade-off between accuracy and fairness can be satisfied, we compare the proposed model with well-known existing mitigation procedures, and studies reveal that the implemented model performs favorably in contrast to state-of-the-art methods. Utilizing NIH All-Of-US data, where a cohort of 868 distinct individuals with wearables and EHR data gathered over 1500 days has been taken into consideration to analyze our suggested fair pain assessment system.
翻訳日:2023-07-16 03:54:35 公開日:2023-07-03
# BOLD-fMRIを用いたヒトコネクトーム開発コーホートにおける呼吸量(RTV)と呼吸変動(RV)の畳み込みニューラルネットワーク(CNN)による計算

Using BOLD-fMRI to Compute the Respiration Volume per Time (RTV) and Respiration Variation (RV) with Convolutional Neural Networks (CNN) in the Human Connectome Development Cohort ( http://arxiv.org/abs/2307.05426v1 )

ライセンス: Link先を確認
Abdoljalil Addeh, Fernando Vega, Rebecca J Williams, Ali Golestani, G. Bruce Pike, M. Ethan MacDonald(参考訳) 多くのfMRI研究では、呼吸信号は利用できないか、許容できる品質を持っていない。 そのため、BOLD信号からの低周波呼吸変動の直接除去は不可能である。 本研究は, rvとrvtの2つの呼吸指標の再構成のための1次元cnnモデルを提案する。 その結果、CNNはBOLD信号の静止から情報的特徴を捉え、現実的なRVとRVTのタイムリーを再構築できることがわかった。 提案手法の適用により,fMRI研究のコストを低減し,複雑さを低減し,呼吸鐘を装着する必要がなくなるため,参加者の負担を軽減することが期待される。

In many fMRI studies, respiratory signals are unavailable or do not have acceptable quality. Consequently, the direct removal of low-frequency respiratory variations from BOLD signals is not possible. This study proposes a one-dimensional CNN model for reconstruction of two respiratory measures, RV and RVT. Results show that a CNN can capture informative features from resting BOLD signals and reconstruct realistic RV and RVT timeseries. It is expected that application of the proposed method will lower the cost of fMRI studies, reduce complexity, and decrease the burden on participants as they will not be required to wear a respiratory bellows.
翻訳日:2023-07-16 03:45:10 公開日:2023-07-03
# xAIによるAIループの人間と視覚検査のためのアクティブラーニング

Human in the AI loop via xAI and Active Learning for Visual Inspection ( http://arxiv.org/abs/2307.05508v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec and Elias Montini and Vincenzo Cutrona and Dimitrios Papamartzivanos and Timotej Klemen\v{c}i\v{c} and Bla\v{z} Fortuna and Dunja Mladeni\'c and Entso Veliou and Thanassis Giannetsos and Christos Emmanouilidis(参考訳) 産業革命は歴史的に製造業を混乱させてきた。 自動化の増大は、人間労働者の役割を再形作る。 ロボットと人工知能の進歩は、人間と機械のコラボレーションの新たなフロンティアを開く。 本章では,まず産業5.0,人間機械協調,品質検査に関する最先端技術,視覚検査を強調する。 次に、視覚検査において、人間と機械のコラボレーションをどのように実現し、強化するかという視点を提供する。 最後に、人工知能、人間のデジタル双生児、サイバーセキュリティを考慮して、EU H2020 STARプロジェクトで得られた結果の一部を公開します。

Industrial revolutions have historically disrupted manufacturing by introducing automation into production. Increasing automation reshapes the role of the human worker. Advances in robotics and artificial intelligence open new frontiers of human-machine collaboration. In this chapter, we first describe Industry 5.0, human-machine collaboration, and state-of-the-art regarding quality inspection, emphasizing visual inspection. We then provide our perspective on how human-machine collaboration could be realized and enhanced in visual inspection. Finally, we share some of the results obtained in the EU H2020 STAR project regarding visual inspection, considering artificial intelligence, human digital twins, and cybersecurity.
翻訳日:2023-07-16 03:35:54 公開日:2023-07-03
# 深層学習に基づく人間のポーズ推定:調査

Deep Learning-Based Human Pose Estimation: A Survey ( http://arxiv.org/abs/2012.13392v5 )

ライセンス: Link先を確認
Ce Zheng and Wenhan Wu and Chen Chen and Taojiannan Yang and Sijie Zhu and Ju Shen and Nasser Kehtarnavaz and Mubarak Shah(参考訳) 人間のポーズ推定は、人体の部位を特定し、画像やビデオなどの入力データから人体表現(体骨格など)を構築することを目的としている。 この技術は過去10年間で注目を集め、人間とコンピュータのインタラクション、モーション分析、拡張現実、バーチャルリアリティーなど幅広い用途で利用されてきた。 最近開発されたディープラーニングベースのソリューションは、人間のポーズ推定において高いパフォーマンスを達成しているが、トレーニングデータ不足、深度あいまいさ、閉塞性などの問題はまだ残っている。 本研究の目的は,近年の深層学習に基づく2次元・3次元ポーズ推定手法の総合的なレビューを,入力データと推論手順に基づいて,体系的な解析と比較により提供することである。 2014年以降、250以上の研究論文が調査の対象となっている。 さらに、2次元および3次元の人格推定データセットおよび評価指標を含む。 一般的なデータセットに対するレビュー手法の定量的性能比較を要約し,考察した。 最後に、関連する課題、応用、今後の研究の方向性をまとめる。 定期的に更新されたプロジェクトページ: \url{https://github.com/zczcwh/dl-hpe}

Human pose estimation aims to locate the human body parts and build human body representation (e.g., body skeleton) from input data such as images and videos. It has drawn increasing attention during the past decade and has been utilized in a wide range of applications including human-computer interaction, motion analysis, augmented reality, and virtual reality. Although the recently developed deep learning-based solutions have achieved high performance in human pose estimation, there still remain challenges due to insufficient training data, depth ambiguities, and occlusion. The goal of this survey paper is to provide a comprehensive review of recent deep learning-based solutions for both 2D and 3D pose estimation via a systematic analysis and comparison of these solutions based on their input data and inference procedures. More than 250 research papers since 2014 are covered in this survey. Furthermore, 2D and 3D human pose estimation datasets and evaluation metrics are included. Quantitative performance comparisons of the reviewed methods on popular datasets are summarized and discussed. Finally, the challenges involved, applications, and future research directions are concluded. A regularly updated project page is provided: \url{https://github.com/zczcwh/DL-HPE}
翻訳日:2023-07-07 01:05:27 公開日:2023-07-03
# 転写, 音声, ビデオ間での政治音声のディープフェイク検出

Human Detection of Political Speech Deepfakes across Transcripts, Audio, and Video ( http://arxiv.org/abs/2202.12883v3 )

ライセンス: Link先を確認
Matthew Groh, Aruna Sankaranarayanan, Nikhil Singh, Dong Young Kim, Andrew Lippman, Rosalind Picard(参考訳) 超現実的な視覚効果の技術の最近の進歩は、政治演説のディープフェイクビデオが、真のビデオ記録とはすぐに区別できないという懸念を引き起こしている。 コミュニケーション理論における従来の知恵は、ストーリーの同じバージョンがビデオ対テキストとして提示される場合、人々はよりフェイクニュースに陥るであろうと予測している。 2,015名を対象に,事前登録されたランダム化実験を4回実施し,実際の政治演説と,誤情報,音声ソース,メディアモダリティのベースレートを比較検討した。 音声アクターの音声と同一のディープフェイクよりも、最先端のテキスト音声合成アルゴリズムが生成するオーディオでは、誤情報のベースレートが識別やディープフェイクに最小限に影響を及ぼすことがわかった。 さらに、音声や視覚情報は、テキストのみよりも正確な識別を可能にする。人間の識別は、音声コンテンツよりも、音声と視覚の手がかり、というよりも、何かの発言の仕方に依拠している。

Recent advances in technology for hyper-realistic visual effects provoke the concern that deepfake videos of political speeches will soon be visually indistinguishable from authentic video recordings. The conventional wisdom in communication theory predicts people will fall for fake news more often when the same version of a story is presented as a video versus text. We conduct 4 pre-registered randomized experiments with 2,015 participants to evaluate how accurately humans distinguish real political speeches from fabrications across base rates of misinformation, audio sources, and media modalities. We find base rates of misinformation minimally influence discernment and deepfakes with audio produced by the state-of-the-art text-to-speech algorithms are harder to discern than the same deepfakes with voice actor audio. Moreover, we find audio and visual information enables more accurate discernment than text alone: human discernment relies more on how something is said, the audio-visual cues, than what is said, the speech content.
翻訳日:2023-07-07 00:46:02 公開日:2023-07-03
# 単一モデルを越えた継続的学習

Continual Learning Beyond a Single Model ( http://arxiv.org/abs/2202.09826v3 )

ライセンス: Link先を確認
Thang Doan, Seyed Iman Mirzadeh, Mehrdad Farajtabar(参考訳) 継続的な学習における研究は、破滅的な忘れの問題に焦点を当てている。 この問題を軽減するために多くの試みがなされているが、ほとんどの手法は連続的な学習設定において単一のモデルを想定している。 本稿では,この仮定に疑問を呈し,アンサンブルモデルの採用が,連続的パフォーマンスを改善するための単純かつ効果的な方法であることを示す。 しかし、アンサンブルのトレーニングと推論コストは、モデルの数が増加するにつれて大幅に増加する。 この制限により、我々は異なるアンサンブルモデルを研究し、継続的な学習シナリオにおけるそれらの利点と欠点を理解する。 最後に、アンサンブルの高計算コストを克服するために、ニューラルネットワークサブスペースの最近の進歩を活用し、単一のモデルに類似したランタイムを持つ計算コストの低いアルゴリズムを提案する。

A growing body of research in continual learning focuses on the catastrophic forgetting problem. While many attempts have been made to alleviate this problem, the majority of the methods assume a single model in the continual learning setup. In this work, we question this assumption and show that employing ensemble models can be a simple yet effective method to improve continual performance. However, ensembles' training and inference costs can increase significantly as the number of models grows. Motivated by this limitation, we study different ensemble models to understand their benefits and drawbacks in continual learning scenarios. Finally, to overcome the high compute cost of ensembles, we leverage recent advances in neural network subspace to propose a computationally cheap algorithm with similar runtime to a single model yet enjoying the performance benefits of ensembles.
翻訳日:2023-07-07 00:45:42 公開日:2023-07-03
# 世界規模のAI倫理:AIガバナンスに関する200のガイドラインと勧告のレビュー

Worldwide AI Ethics: a review of 200 guidelines and recommendations for AI governance ( http://arxiv.org/abs/2206.11922v6 )

ライセンス: Link先を確認
Nicholas Kluge Corr\^ea, Camila Galv\~ao, James William Santos, Carolina Del Pino, Edson Pontes Pinto, Camila Barbosa, Diogo Massmann, Rodrigo Mambrini, Luiza Galv\~ao, Edmund Terem, Nythamar de Oliveira(参考訳) 人工知能(ai)アプリケーションの利用は近年大きく成長し、多くの利点と利便性をもたらしている。 しかし、この拡張はプライバシー侵害、アルゴリズムによる差別、セキュリティと信頼性の問題、透明性、その他の意図しない結果などの倫理的懸念を引き起こしている。 本稿では,AI適用を統制する倫理原則に関する世界的コンセンサスが存在するかどうかを判断し,今後の規制の形成に寄与するために,公共機関,学術機関,民間企業,市民社会団体が世界規模で発行するAI利用に関する200のガバナンス方針と倫理ガイドラインのメタ分析を行う。 私たちは、オープンソースのデータベースとツールとしてリリースされたデータセットのポリシーとガイドラインに共通する少なくとも17の共鳴原則を特定しました。 本研究は, 今後の規制に組み込むべき合意の領域を提示し, 分析結果の批判的分析と組み合わせたグローバルスケール分析研究の実施の限界を提示する。

The utilization of artificial intelligence (AI) applications has experienced tremendous growth in recent years, bringing forth numerous benefits and conveniences. However, this expansion has also provoked ethical concerns, such as privacy breaches, algorithmic discrimination, security and reliability issues, transparency, and other unintended consequences. To determine whether a global consensus exists regarding the ethical principles that should govern AI applications and to contribute to the formation of future regulations, this paper conducts a meta-analysis of 200 governance policies and ethical guidelines for AI usage published by public bodies, academic institutions, private companies, and civil society organizations worldwide. We identified at least 17 resonating principles prevalent in the policies and guidelines of our dataset, released as an open-source database and tool. We present the limitations of performing a global scale analysis study paired with a critical analysis of our findings, presenting areas of consensus that should be incorporated into future regulatory efforts.
翻訳日:2023-07-07 00:25:36 公開日:2023-07-03
# 計測による量子力学の局所性と誤差補正

Locality and error correction in quantum dynamics with measurement ( http://arxiv.org/abs/2206.09929v4 )

ライセンス: Link先を確認
Aaron J. Friedman, Chao Yin, Yifan Hong, and Andrew Lucas(参考訳) 光の速さ$c$は、古典系と量子系の両方における情報転送の速さに厳格な上限を与える。 非相対論的量子系において、リーブ・ロビンソン定理は創発的な速度限界$v \hspace{-0.2mm} \ll \hspace{-0.2mm} c$を課し、ユニタリ進化の下で局所性を確立し、有用な量子タスクを実行するのに必要な時間を制限する。 我々はリーブ・ロビンソン理論を測定を伴う量子力学に拡張する。 測定値が空間的局所性に任意に違反する可能性があるという期待とは対照的に、m$ローカル領域における測定結果が分かっているならば、最大で$(m \hspace{-0.5mm} +\hspace{-0.5mm} 1)$-fold enhancement to the speed $v$ of quantum information となる。 これは古典的なコミュニケーションが瞬時に行われ、射影測定を越えて弱い測定や非単体チャネルにまで拡張される。 我々の境界は漸近的に最適であり、既存の測定に基づくプロトコルによって飽和している。 我々は,量子計算,誤り訂正,テレポーテーション,絡み合った資源状態(bell, ghz, quantum-critical, dicke, w, spin-squeezed states)の資源要件を短距離の初期状態から厳しく制約する。 その結果、量子情報処理の高速化、量子力学における測定の性質に関する根本的な疑問の解決、幅広い量子技術のスケーラビリティの制約など、測定値とアクティブフィードバックの使用に制限が課せられた。

The speed of light $c$ sets a strict upper bound on the speed of information transfer in both classical and quantum systems. In nonrelativistic quantum systems, the Lieb-Robinson Theorem imposes an emergent speed limit $v \hspace{-0.2mm} \ll \hspace{-0.2mm} c$, establishing locality under unitary evolution and constraining the time needed to perform useful quantum tasks. We extend the Lieb-Robinson Theorem to quantum dynamics with measurements. In contrast to the expectation that measurements can arbitrarily violate spatial locality, we find at most an $(M \hspace{-0.5mm} +\hspace{-0.5mm} 1)$-fold enhancement to the speed $v$ of quantum information, provided the outcomes of measurements in $M$ local regions are known. This holds even when classical communication is instantaneous, and extends beyond projective measurements to weak measurements and other nonunitary channels. Our bound is asymptotically optimal, and saturated by existing measurement-based protocols. We tightly constrain the resource requirements for quantum computation, error correction, teleportation, and generating entangled resource states (Bell, GHZ, quantum-critical, Dicke, W, and spin-squeezed states) from short-range-entangled initial states. Our results impose limits on the use of measurements and active feedback to speed up quantum information processing, resolve fundamental questions about the nature of measurements in quantum dynamics, and constrain the scalability of a wide range of proposed quantum technologies.
翻訳日:2023-07-07 00:25:16 公開日:2023-07-03
# Refign: セマンティックセグメンテーションの逆条件適応のためのアライメントとリファクション

Refign: Align and Refine for Adaptation of Semantic Segmentation to Adverse Conditions ( http://arxiv.org/abs/2207.06825v3 )

ライセンス: Link先を確認
David Bruggemann, Christos Sakaridis, Prune Truong, Luc Van Gool(参考訳) 画像に対する高密度画素レベルのセマンティックアノテーションの欠如により、そのような画像のセマンティックセマンティックセグメンテーションにおいて、教師なし領域適応(UDA)に強い関心が寄せられている。 UDAは、通常の条件で訓練されたモデルをターゲットの悪条件領域に適応させる。 一方、駆動シーンを持つ複数のデータセットは、複数の条件にまたがって同じシーンの対応する画像を提供する。 本稿では,これらのクロスドメイン対応を利用した自己学習型UDA手法の汎用拡張であるRefignを提案する。 Refign は,(1) 不確実性を認識した高密度マッチングネットワークを用いて,正常条件画像と対応する悪条件画像とを整列させ,(2) 適応ラベル補正機構を用いて正常予測で悪条件予測を精査する。 ACDCやダークチューリッヒなど,いくつかの悪条件ベンチマークでドメイン適応セマンティックセマンティックセマンティックセグメンテーションを実現するために,両方のステップを合理化するためのカスタムモジュールを設計する。 このアプローチでは、追加のトレーニングパラメータを導入しず、計算オーバーヘッドを最小限に抑え、任意の自己トレーニングベースのudaメソッドを改善するためのドロップイン拡張として使用できる。 コードはhttps://github.com/brdav/refign.comで入手できる。

Due to the scarcity of dense pixel-level semantic annotations for images recorded in adverse visual conditions, there has been a keen interest in unsupervised domain adaptation (UDA) for the semantic segmentation of such images. UDA adapts models trained on normal conditions to the target adverse-condition domains. Meanwhile, multiple datasets with driving scenes provide corresponding images of the same scenes across multiple conditions, which can serve as a form of weak supervision for domain adaptation. We propose Refign, a generic extension to self-training-based UDA methods which leverages these cross-domain correspondences. Refign consists of two steps: (1) aligning the normal-condition image to the corresponding adverse-condition image using an uncertainty-aware dense matching network, and (2) refining the adverse prediction with the normal prediction using an adaptive label correction mechanism. We design custom modules to streamline both steps and set the new state of the art for domain-adaptive semantic segmentation on several adverse-condition benchmarks, including ACDC and Dark Zurich. The approach introduces no extra training parameters, minimal computational overhead -- during training only -- and can be used as a drop-in extension to improve any given self-training-based UDA method. Code is available at https://github.com/brdav/refign.
翻訳日:2023-07-07 00:14:36 公開日:2023-07-03
# 測定誘起物質相はフィードバックを必要とする

Measurement-induced phases of matter require feedback ( http://arxiv.org/abs/2210.07256v2 )

ライセンス: Link先を確認
Aaron J. Friedman, Oliver Hart, Rahul Nandkishore(参考訳) カオス時間進化と射影測定を組み合わせたハイブリッド量子力学における普遍性と物質相について検討する。 我々は,Stinespring Theoremに基づく測定のユニタリ表現を開発し,システムと測定装置の時間的進化を重要視し,技術的優位性とハイブリッド力学に関する概念的洞察を与える。 我々は, 初めて測定値の存在下でのスペクトル特性を, 標準で実験的に導出可能な位相構造のプローブとともに診断し, フィードバックの欠如による非自明な効果は認められなかった。 また、密度行列の非線形性は遷移を見るのに十分でも必要でもなく、代わりに測定結果(すなわち、'feedback'')の有効利用を重要成分として特定する。 物質相の定義をレビューした後、適応型ハイブリッド力学における非自明な順序を同定し、測定結果が将来のユニタリゲートを決定する -- 適応型量子イーストモデルにおいて真の測定誘起吸収状態相転移を見つける。 一般に、アクティブフィードバックと連続対称性がなければ、決定論的かつ制約されたハールランダムダイナミクスだけが、真の測定誘起物質相を実現することができる。

We explore universality and phases of matter in hybrid quantum dynamics combining chaotic time evolution and projective measurements. We develop a unitary representation of measurements based on the Stinespring Theorem, which we crucially identify with the time evolution of the system and measurement apparatus, affording significant technical advantages and conceptual insight into hybrid dynamics. We diagnose spectral properties in the presence of measurements for the first time, along with standard, experimentally tractable probes of phase structure, finding no nontrivial effects due to measurements in the absence of feedback. We also establish that nonlinearity in the density matrix is neither sufficient nor necessary to see a transition, and instead identify utilization of the measurement outcomes (i.e., ``feedback'') as the crucial ingredient. After reviewing the definition of a phase of matter, we identify nontrivial orders in adaptive hybrid dynamics -- in which measurement outcomes determine future unitary gates -- finding a genuine measurement-induced absorbing-state phase transition in an adaptive quantum East model. In general, we find that only deterministic and constrained Haar-random dynamics with active feedback and without continuous symmetries can realize genuine, measurement-induced phases of matter.
翻訳日:2023-07-07 00:05:55 公開日:2023-07-03
# 学習MDP準同型を用いた状態-作用抽象化の一手法

A Simple Approach for State-Action Abstraction using a Learned MDP Homomorphism ( http://arxiv.org/abs/2209.06356v2 )

ライセンス: Link先を確認
Augustine N. Mavor-Parker, Matthew J. Sargent, Andrea Banino, Lewis D. Griffin, Caswell Barry(参考訳) 状態アクションペアのセットが等価な報酬と遷移ダイナミクスを持つ場合、動物は限られた経験から素早く推測することができる。 On the other hand, modern reinforcement learning systems must painstakingly learn through trial and error that sets of state action pairs are value equivalent -- requiring an often prohibitively large amount of samples from their environment. MDP homomorphisms have been proposed that reduce the observed MDP of an environment to an abstract MDP, which can enable more sample efficient policy learning. Consequently, impressive improvements in sample efficiency have been achieved when a suitable MDP homomorphism can be constructed a priori -- usually by exploiting a practioner's knowledge of environment symmetries. 本研究では, 離散的作用空間における準同型を構築するための新しい手法を提案する。この手法では, 状態作用対が同じ状態につながるかを推定するために, 環境力学の偏モデルを用い, 状態-作用空間の大きさを作用空間の濃度に等しい係数で減少させる。 我々はこのメソッドを等価エフェクト抽象化と呼ぶ。 グリッドワールド環境では、等価効果抽象化がモデルベースアプローチのモデルフリー設定と計画効率においてサンプル効率を向上させることを実証的に実証する。 さらに,本手法は33倍のトレーニングデータを用いながら,既存の準同型学習法よりも優れていることを示す。

Animals are able to rapidly infer from limited experience when sets of state action pairs have equivalent reward and transition dynamics. On the other hand, modern reinforcement learning systems must painstakingly learn through trial and error that sets of state action pairs are value equivalent -- requiring an often prohibitively large amount of samples from their environment. MDP homomorphisms have been proposed that reduce the observed MDP of an environment to an abstract MDP, which can enable more sample efficient policy learning. Consequently, impressive improvements in sample efficiency have been achieved when a suitable MDP homomorphism can be constructed a priori -- usually by exploiting a practioner's knowledge of environment symmetries. We propose a novel approach to constructing a homomorphism in discrete action spaces, which uses a partial model of environment dynamics to infer which state action pairs lead to the same state -- reducing the size of the state-action space by a factor equal to the cardinality of the action space. We call this method equivalent effect abstraction. In a gridworld setting, we demonstrate empirically that equivalent effect abstraction can improve sample efficiency in a model-free setting and planning efficiency for modelbased approaches. Furthermore, we show on cartpole that our approach outperforms an existing method for learning homomorphisms, while using 33x less training data.
翻訳日:2023-07-07 00:03:18 公開日:2023-07-03
# DriftRec: ブラインドJPEG復元に拡散モデルを適用する

DriftRec: Adapting diffusion models to blind JPEG restoration ( http://arxiv.org/abs/2211.06757v2 )

ライセンス: Link先を確認
Simon Welker, Henry N. Chapman, Timo Gerkmann(参考訳) 本研究では,拡散モデルの高忠実度生成能力を利用して,高圧縮レベルでのブラインドJPEG復元を解く。 本研究では, 拡散モデルの前方確率微分方程式のエレガントな修正法を提案する。 同一ネットワークアーキテクチャの$l_2$レグレッションベースラインとjpeg復元のための2つの最先端技術との比較を行った結果,提案手法は,ぼやけた画像を生成する他の手法の傾向を回避し,より忠実にクリーン画像の分布を回復できることを示した。 このため、クリーン/ラップ画像ペアのデータセットと腐敗操作に関する知識は不要であり、他の修復タスクへの適用性がより拡大される。 他の条件付き拡散モデルや非条件付き拡散モデルとは対照的に、きれいで破損した画像の分布が拡散モデルにおける逆過程の通常のガウス的過程よりもずっと近いという考え方を利用する。 したがって,本手法では低レベルの付加雑音しか必要とせず,さらなる最適化がなくても比較的少ないサンプリングステップが必要である。 DriftRecは、トレーニング中にそのような例に遭遇することなく、オンラインで見いだされたJPEGの非整合二重圧縮やブラインド復元といった現実的で困難なシナリオに自然に一般化することを示す。

In this work, we utilize the high-fidelity generation abilities of diffusion models to solve blind JPEG restoration at high compression levels. We propose an elegant modification of the forward stochastic differential equation of diffusion models to adapt them to this restoration task and name our method DriftRec. Comparing DriftRec against an $L_2$ regression baseline with the same network architecture and two state-of-the-art techniques for JPEG restoration, we show that our approach can escape the tendency of other methods to generate blurry images, and recovers the distribution of clean images significantly more faithfully. For this, only a dataset of clean/corrupted image pairs and no knowledge about the corruption operation is required, enabling wider applicability to other restoration tasks. In contrast to other conditional and unconditional diffusion models, we utilize the idea that the distributions of clean and corrupted images are much closer to each other than each is to the usual Gaussian prior of the reverse process in diffusion models. Our approach therefore requires only low levels of added noise, and needs comparatively few sampling steps even without further optimizations. We show that DriftRec naturally generalizes to realistic and difficult scenarios such as unaligned double JPEG compression and blind restoration of JPEGs found online, without having encountered such examples during training.
翻訳日:2023-07-06 23:46:04 公開日:2023-07-03
# 超振動光トラップにおける単一原子

Single atom in a superoscillatory optical trap ( http://arxiv.org/abs/2211.00274v2 )

ライセンス: Link先を確認
Hamim Mahmud Rivy, Syed A. Aljunid, Emmanuel Lassalle, Nikolay I. Zheludev, David Wilkowski(参考訳) 光ツイーザーは、原子や分子を単一の粒子レベルで操作するための必須のツールとなっている。 しかし、標準回折制限光学系を用いると、トラップの横サイズは光波長によって狭くなり、光ツイーザーの適用範囲が制限される。 本稿では、標準的なエアリー焦点から通常のアブブの回折限界よりも小さい波長以下のホットスポットまで連続的に調整できる光トラップにおける単一超低温原子のトラップについて報告する。 ホットスポットは、複数の自由空間コヒーレント波の正確な干渉によって超振動の効果を用いて生成された。 超振動トラップと連続ポテンシャルチューニングは、量子シミュレーターのためのコンパクトで持続可能な原子アンサンブルを生成するだけでなく、単一分子量子化学や量子エミッタのサブ波長アレイ内の協調原子-光子相互作用の研究にも有用であると主張している。

Optical tweezers have become essential tools to manipulate atoms or molecules at a single particle level. However, using standard diffracted-limited optical systems, the transverse size of the trap is lower bounded by the optical wavelength, limiting the application range of optical tweezers. Here we report trapping of single ultracold atom in an optical trap that can be continuously tuned from a standard Airy focus to a subwavelength hotspot smaller than the usual Abbe's diffraction limit. The hotspot was generated using the effect of superoscillations, by the precise interference of multiple free-space coherent waves. We argue that superoscillatory trapping and continuous potential tuning offer not only a way to generate compact and tenable ensembles of trapped atoms for quantum simulators but will also be useful in single molecule quantum chemistry and the study of cooperative atom-photon interaction within subwavelength arrays of quantum emitters.
翻訳日:2023-07-06 23:44:51 公開日:2023-07-03
# 気候モデルエミュレーションのためのランダム有線ニューラルネットワークの検討

Exploring Randomly Wired Neural Networks for Climate Model Emulation ( http://arxiv.org/abs/2212.03369v3 )

ライセンス: Link先を確認
William Yik, Sam J. Silva, Andrew Geiss, Duncan Watson-Parris(参考訳) 様々な人為的排出シナリオの気候影響を探索することは、気候変動の緩和と適応のための情報的な決定を下す鍵となる。 最先端の地球システムモデルは、これらの影響について詳細な知見を提供することができるが、シナリオごとに計算コストが大きい。 この膨大な計算負荷は、気候モデルエミュレーションのタスクのための安価な機械学習モデルの開発に近年の関心を惹き付けている。 本稿では,この課題に対するランダム配線ニューラルネットワークの有効性について検討する。 本稿では、climatebenchデータセットを用いて、それらの構築方法を記述し、標準feedforwardと比較する。 具体的には,多層パーセプトロン,畳み込みニューラルネットワーク,畳み込み型長期記憶ネットワークの直列接続層をランダムに結合した密集層で置き換え,100万から1000万のパラメータを持つモデルにおけるモデル性能への影響を評価する。 複雑なアーキテクチャの少ないモデルでは、ランダムな配線(多層パーセプトロンでは最大30.4%)で最大の性能向上が見られる。 さらに、24の異なるモデルアーキテクチャ、パラメータ数、予測タスクの組み合わせのうち、標準のネットワークに比べて統計的に有意な性能低下がみられ、14のケースで統計的に有意な改善が見られた。 また,標準フィードフォワード密度層を持つネットワークとランダムに有線層を有するネットワークとの間には,予測速度に有意な差は認められなかった。 これらの結果は、ランダムに配線されたニューラルネットワークが、多くの標準モデルにおいて従来の高密度層を直接置き換えるのに適していることを示唆している。

Exploring the climate impacts of various anthropogenic emissions scenarios is key to making informed decisions for climate change mitigation and adaptation. State-of-the-art Earth system models can provide detailed insight into these impacts, but have a large associated computational cost on a per-scenario basis. This large computational burden has driven recent interest in developing cheap machine learning models for the task of climate model emulation. In this manuscript, we explore the efficacy of randomly wired neural networks for this task. We describe how they can be constructed and compare them to their standard feedforward counterparts using the ClimateBench dataset. Specifically, we replace the serially connected dense layers in multilayer perceptrons, convolutional neural networks, and convolutional long short-term memory networks with randomly wired dense layers and assess the impact on model performance for models with 1 million and 10 million parameters. We find that models with less complex architectures see the greatest performance improvement with the addition of random wiring (up to 30.4% for multilayer perceptrons). Furthermore, out of 24 different model architecture, parameter count, and prediction task combinations, only one saw a statistically significant performance deficit in randomly wired networks compared to their standard counterparts, with 14 cases showing statistically significant improvement. We also find no significant difference in prediction speed between networks with standard feedforward dense layers and those with randomly wired layers. These findings indicate that randomly wired neural networks may be suitable direct replacements for traditional dense layers in many standard models.
翻訳日:2023-07-06 23:37:12 公開日:2023-07-03
# HARP:単眼のRGBビデオから手作りのパーソナライズ

HARP: Personalized Hand Reconstruction from a Monocular RGB Video ( http://arxiv.org/abs/2212.09530v3 )

ライセンス: Link先を確認
Korrawe Karunratanakul, Sergey Prokudin, Otmar Hilliges, Siyu Tang(参考訳) 本稿では,ヒトの手の短い単眼RGB映像を入力とし,高忠実な外観と形状を示す忠実な手のアバターを再構成する,パーソナライズされた手指アバター作成手法であるHARP(HAnd Reconstruction and Personalization)を提案する。 神経暗黙表現の大きな傾向とは対照的に、HARPは、メッシュベースのパラメトリックハンドモデル、頂点変位マップ、正規マップ、神経成分のないアルベドで手をモデル化する。 実験で検証されたように、私たちの表現の明示的な性質は、真にスケーラブルで堅牢で効率的なアプローチを可能にします。 HARPは携帯端末が取得した短いシーケンスからの勾配勾配によって最適化されており、リアルタイムレンダリング機能を備えたAR/VRアプリケーションで直接使用できる。 これを実現するため,手動シーケンスに常在する高次調音や自己シャドーイングに頑健なシャドーア認識の識別可能なレンダリング手法を慎重に設計し,実装し,照明条件に挑戦する。 また、見知らぬポーズや新しい視点に一般化し、高調波運動を行う手動アニメーションの写実的なレンダリングを生成する。 さらに、学習されたHARP表現は、挑戦的な視点で3次元ポーズ推定品質を改善するために使用できる。 HARPの重要な利点は, 外観再構成, 新規視点, 新規ポーズ合成, 3次元ポーズ精細化の詳細な解析によって検証された。 ar/vr対応のパーソナライズドハンド表現で、忠実性とスケーラビリティに優れています。

We present HARP (HAnd Reconstruction and Personalization), a personalized hand avatar creation approach that takes a short monocular RGB video of a human hand as input and reconstructs a faithful hand avatar exhibiting a high-fidelity appearance and geometry. In contrast to the major trend of neural implicit representations, HARP models a hand with a mesh-based parametric hand model, a vertex displacement map, a normal map, and an albedo without any neural components. As validated by our experiments, the explicit nature of our representation enables a truly scalable, robust, and efficient approach to hand avatar creation. HARP is optimized via gradient descent from a short sequence captured by a hand-held mobile phone and can be directly used in AR/VR applications with real-time rendering capability. To enable this, we carefully design and implement a shadow-aware differentiable rendering scheme that is robust to high degree articulations and self-shadowing regularly present in hand motion sequences, as well as challenging lighting conditions. It also generalizes to unseen poses and novel viewpoints, producing photo-realistic renderings of hand animations performing highly-articulated motions. Furthermore, the learned HARP representation can be used for improving 3D hand pose estimation quality in challenging viewpoints. The key advantages of HARP are validated by the in-depth analyses on appearance reconstruction, novel-view and novel pose synthesis, and 3D hand pose refinement. It is an AR/VR-ready personalized hand representation that shows superior fidelity and scalability.
翻訳日:2023-07-06 23:25:53 公開日:2023-07-03
# clip-tsa: 弱教師付きビデオ異常検出のためのクリップ支援時間的セルフアテンション

CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised Video Anomaly Detection ( http://arxiv.org/abs/2212.05136v3 )

ライセンス: Link先を確認
Hyekang Kevin Joo, Khoa Vo, Kashu Yamazaki, Ngan Le(参考訳) ビデオ異常検出(VAD: Video Anomaly Detection) - 労働集約性による弱い監督によるマルチインスタンス学習問題として一般的に定式化されている - は、ビデオ監視において、異常のフレームを非トリミングビデオにローカライズする必要があるという課題である。 本稿ではまず,従来のC3DやI3Dとは異なり,CLIPの視覚的特徴をViTで符号化し,その特徴を効果的に抽出する手法を提案する。 次に,時間依存をモデル化し,提案する時間的自己着想(tsa)を活用し,関心のスニペットを付与する。 アブレーション試験では, TSAとViTの有用性が確認された。 提案したCLIP-TSAは、VAD問題(UCF-Crime, ShanghaiTech Campus, XD-Violence)における3つの一般的なベンチマークデータセットに対して、既存の最先端(SOTA)手法よりも高い性能を示した。 ソースコードはhttps://github.com/joos2010kj/CLIP-TSAで公開されています。

Video anomaly detection (VAD) -- commonly formulated as a multiple-instance learning problem in a weakly-supervised manner due to its labor-intensive nature -- is a challenging problem in video surveillance where the frames of anomaly need to be localized in an untrimmed video. In this paper, we first propose to utilize the ViT-encoded visual features from CLIP, in contrast with the conventional C3D or I3D features in the domain, to efficiently extract discriminative representations in the novel technique. We then model temporal dependencies and nominate the snippets of interest by leveraging our proposed Temporal Self-Attention (TSA). The ablation study confirms the effectiveness of TSA and ViT feature. The extensive experiments show that our proposed CLIP-TSA outperforms the existing state-of-the-art (SOTA) methods by a large margin on three commonly-used benchmark datasets in the VAD problem (UCF-Crime, ShanghaiTech Campus, and XD-Violence). Our source code is available at https://github.com/joos2010kj/CLIP-TSA.
翻訳日:2023-07-06 23:24:24 公開日:2023-07-03
# embeddeddistill:情報検索のための幾何学的知識蒸留

EmbedDistill: A Geometric Knowledge Distillation for Information Retrieval ( http://arxiv.org/abs/2301.12005v2 )

ライセンス: Link先を確認
Seungyeon Kim, Ankit Singh Rawat, Manzil Zaheer, Sadeep Jayasumana, Veeranjaneyulu Sadhanala, Wittawat Jitkrittum, Aditya Krishna Menon, Rob Fergus, Sanjiv Kumar(参考訳) 大規模なニューラルモデル(トランスフォーマーなど)は、情報検索(IR)の最先端のパフォーマンスを達成する。 本稿では,これらのモデルの資源効率のよい展開への道を開く蒸留法を改善することを目的としている。 IRモデルに対する教師/学生の一般化ギャップの理論的分析から着想を得て,大規模教師モデルで学習したクエリと文書間の相対幾何学を利用した蒸留手法を提案する。 既存の教師スコアベースの蒸留法とは異なり,提案手法では,教師と生徒モデルの表現を整合させるために,より強固なシグナルを与えるためにマッチングタスクを組み込む。 また、クエリ生成を利用してデータ多様体を探索し、学習データが不足している生徒と教師との差異を低減する。 さらに,オンライン推論コストを増加させることなく,より優れた埋め込みアライメントを実現する学生モデルのための新しい非対称アーキテクチャの動機付けも行った。 MSMARCOのような標準ベンチマークでは,両エンコーダ (DE) とクロスエンコーダ (CE) の両方の教師モデルから,95~97%の教師性能を維持できる1/10の非対称な学生に抽出に成功した。

Large neural models (such as Transformers) achieve state-of-the-art performance for information retrieval (IR). In this paper, we aim to improve distillation methods that pave the way for the resource-efficient deployment of such models in practice. Inspired by our theoretical analysis of the teacher-student generalization gap for IR models, we propose a novel distillation approach that leverages the relative geometry among queries and documents learned by the large teacher model. Unlike existing teacher score-based distillation methods, our proposed approach employs embedding matching tasks to provide a stronger signal to align the representations of the teacher and student models. In addition, it utilizes query generation to explore the data manifold to reduce the discrepancies between the student and the teacher where training data is sparse. Furthermore, our analysis also motivates novel asymmetric architectures for student models which realizes better embedding alignment without increasing online inference cost. On standard benchmarks like MSMARCO, we show that our approach successfully distills from both dual-encoder (DE) and cross-encoder (CE) teacher models to 1/10th size asymmetric students that can retain 95-97% of the teacher performance.
翻訳日:2023-07-06 23:16:19 公開日:2023-07-03
# エキスパートアドバイザとランダム化リトルストーン次元を用いた最適予測

Optimal Prediction Using Expert Advice and Randomized Littlestone Dimension ( http://arxiv.org/abs/2302.13849v2 )

ライセンス: Link先を確認
Yuval Filmus, Steve Hanneke, Idan Mehalel and Shay Moran(参考訳) オンライン学習における古典的な結果は、リトルストーン次元を用いて決定論的学習者によって達成可能な最適誤り境界を特徴づける(littlestone '88)。 クラス $\mathcal{h}$ を学習する際の最適な期待誤差は、そのランダム化されたリトルストーン次元に等しいことを示し、これは$\mathcal{h}$ の平均深さが 2d$ であるような$\mathcal{h}$ で砕かれた木が存在する最大の$d$である。 我々はさらに、独立な場合における最適な誤り境界を、$k$ で表される$\mathcal{h}$ における最善の関数によってなされる誤り数の関数として研究する。 リトルストーン次元$d$を持つクラスを学ぶための最適ランダム化ミスは、$k + \Theta (\sqrt{k d} + d )$であることを示す。 これはまた、2k + o (\sqrt{k d} + d )$ の最適決定論的誤りであり、auer と long ['99] によって研究されたオープン問題を解くことを意味する。 約30年前、cesa-bianchi, freund, haussler, helmbold, schapire, warmuth は、専門家のアドバイスを使って予測を研究し、n$の専門家のベストが最大$k$の間違いを犯し、最適な誤り境界は何であるかを尋ねた。 Cesa-Bianchi, Freund, Helmbold, Warmuth ['93, '96] は、決定論的学習者にほぼ最適な境界を与え、ランダム化されたケースをオープンな問題として残した。 ランダム化の場合、最適学習規則を提供することでこの問題を解決し、その予測誤りが決定論的境界の半分に等しいことを、無視可能な加法項まで示す。 これは、Cesa-Bianchi, Freund, Haussler, Helmbold, Schapire and Warmuth ['93, '97], Abernethy, Langford, and Warmuth ['06], Br\^anzei and Peres ['19] による以前の作品で改善され、$k \ll \log n$ あるいは $k \gg \log n$ が扱われた。

A classical result in online learning characterizes the optimal mistake bound achievable by deterministic learners using the Littlestone dimension (Littlestone '88). We prove an analogous result for randomized learners: we show that the optimal expected mistake bound in learning a class $\mathcal{H}$ equals its randomized Littlestone dimension, which is the largest $d$ for which there exists a tree shattered by $\mathcal{H}$ whose average depth is $2d$. We further study optimal mistake bounds in the agnostic case, as a function of the number of mistakes made by the best function in $\mathcal{H}$, denoted by $k$. We show that the optimal randomized mistake bound for learning a class with Littlestone dimension $d$ is $k + \Theta (\sqrt{k d} + d )$. This also implies an optimal deterministic mistake bound of $2k + O (\sqrt{k d} + d )$, thus resolving an open question which was studied by Auer and Long ['99]. As an application of our theory, we revisit the classical problem of prediction using expert advice: about 30 years ago Cesa-Bianchi, Freund, Haussler, Helmbold, Schapire and Warmuth studied prediction using expert advice, provided that the best among the $n$ experts makes at most $k$ mistakes, and asked what are the optimal mistake bounds. Cesa-Bianchi, Freund, Helmbold, and Warmuth ['93, '96] provided a nearly optimal bound for deterministic learners, and left the randomized case as an open problem. We resolve this question by providing an optimal learning rule in the randomized case, and showing that its expected mistake bound equals half of the deterministic bound, up to negligible additive terms. This improves upon previous works by Cesa-Bianchi, Freund, Haussler, Helmbold, Schapire and Warmuth ['93, '97], by Abernethy, Langford, and Warmuth ['06], and by Br\^anzei and Peres ['19], which handled the regimes $k \ll \log n$ or $k \gg \log n$.
翻訳日:2023-07-06 22:57:16 公開日:2023-07-03
# BenCoref: 名詞句と代名詞参照アノテーションのマルチドメインデータセット

BenCoref: A Multi-Domain Dataset of Nominal Phrases and Pronominal Reference Annotations ( http://arxiv.org/abs/2304.03682v3 )

ライセンス: Link先を確認
Shadman Rohan, Mojammel Hossain, Mohammad Mamun Or Rashid, Nabeel Mohammed(参考訳) 干渉分解能はNLPにおいてよく研究されている問題である。 英語や他の資源豊富な言語で広く研究されているが、ベンガル語における共参照分解の研究は、関連するデータセットがないため、ほとんど未調査のままである。 ベンガル語は低資源言語であり、英語に比べて形態的豊かである。 本稿では,4つの異なるドメインから収集したベンガルテキストのコリファレンスアノテーションを含む,新しいデータセットであるbencorefを紹介する。 この比較的小さなデータセットには、48,569トークン内に502の参照クラスタを形成する5200の参照アノテーションが含まれている。 本稿では,BenCorefを用いてトレーニングした複数のモデルの性能を報告する。 我々はベンガルのいくつかの領域におけるコア参照現象の変動に関する貴重な洞察を提供し、ベンガルのための追加資源の開発を促進することを期待している。 さらに、英語からゼロショット設定での言語横断性能が悪く、このタスクのための言語固有のリソースの必要性が強調された。

Coreference Resolution is a well studied problem in NLP. While widely studied for English and other resource-rich languages, research on coreference resolution in Bengali largely remains unexplored due to the absence of relevant datasets. Bengali, being a low-resource language, exhibits greater morphological richness compared to English. In this article, we introduce a new dataset, BenCoref, comprising coreference annotations for Bengali texts gathered from four distinct domains. This relatively small dataset contains 5200 mention annotations forming 502 mention clusters within 48,569 tokens. We describe the process of creating this dataset and report performance of multiple models trained using BenCoref. We expect that our work provides some valuable insights on the variations in coreference phenomena across several domains in Bengali and encourages the development of additional resources for Bengali. Furthermore, we found poor crosslingual performance at zero-shot setting from English, highlighting the need for more language-specific resources for this task.
翻訳日:2023-07-06 22:36:45 公開日:2023-07-03
# 複数の単一光子の時間と周波数を直接測定したハイゼンベルク限界付近の高速分光計

Fast spectrometer near the Heisenberg limit with direct measurement of time and frequency for multiple single photons ( http://arxiv.org/abs/2304.11999v3 )

ライセンス: Link先を確認
Jakub Jirsa, Sergei Kulkov, Raphael A. Abrahao, Jesse Crawford, Aaron Mueninghoff, Ermanno Bernasconi, Claudio Bruschini, Samuel Burri, Stephen Vintskevich, Michal Marcisovsky, Edoardo Charbon and Andrei Nomerotski(参考訳) 我々は、0.04nmのスペクトルと40psの時間分解能を持つ512個の単光子アバランシェダイオードの線形アレイに基づく単光子感度分光計を提案する。 我々は、同時単一光子の時間と周波数を直接測定できる高速なデータ駆動演算を用いる。 優れた時間分解能とスペクトル分解能を組み合わせることで、実験装置の単純さにもかかわらず、hbar/2 の Heisenberg Uncertainty Principle limit よりも10倍高い値となる。 この研究は量子フォトニクスにおける多くの応用、特に単一光子のスペクトル特性と時間特性の両方を利用した場合に開放される。

We present a single-photon-sensitive spectrometer, based on a linear array of 512 single-photon avalanche diodes, with 0.04 nm spectral and 40 ps temporal resolutions. We employ a fast data-driven operation that allows direct measurement of time and frequency for simultaneous single photons. Combining excellent temporal and spectral resolution, our result is only a factor of ten above the Heisenberg Uncertainty Principle limit of hbar/2 for energy and time, despite the simplicity of our experimental setup. This work opens numerous applications in quantum photonics, especially when both spectral and temporal properties of single photons are exploited.
翻訳日:2023-07-06 22:25:54 公開日:2023-07-03
# ゼロショットクローズドブック生成質問応答における中大言語モデルの評価

Evaluation of medium-large Language Models at zero-shot closed book generative question answering ( http://arxiv.org/abs/2305.11991v2 )

ライセンス: Link先を確認
Ren\'e Peinl and Johannes Wirth(参考訳) 大型言語モデル (LLM) は注目されているが、"大規模"の定義には明確さがない。 本稿では,少なくとも60億のパラメータを持つと定義される中規模言語モデル(MLM)に焦点を当てる。 本研究は,ゼロショット生成質問応答に関するMDMを評価し,外部文書検索を行なわずに精巧な回答を提供するモデルを提案する。 本論文は、独自のテストデータセットを導入し、人間の評価結果を示す。 その結果、異なるMLMからの最良の回答を組み合わせることで、全体の正解率は82.7%となり、ChatGPTの60.9%より優れていることがわかった。 最高のMLMは71.8%を達成し、33Bパラメータを持ち、パラメータの数にのみ依存するのではなく、微調整に適切なトレーニングデータを使用することの重要性を強調している。 よりきめ細かいフィードバックは、回答の質をさらに改善するために使われるべきです。 オープンソースコミュニティは、最高の商用モデルとのギャップを急速に埋めています。

Large language models (LLMs) have garnered significant attention, but the definition of "large" lacks clarity. This paper focuses on medium-sized language models (MLMs), defined as having at least six billion parameters but less than 100 billion. The study evaluates MLMs regarding zero-shot generative question answering, which requires models to provide elaborate answers without external document retrieval. The paper introduces an own test dataset and presents results from human evaluation. Results show that combining the best answers from different MLMs yielded an overall correct answer rate of 82.7% which is better than the 60.9% of ChatGPT. The best MLM achieved 71.8% and has 33B parameters, which highlights the importance of using appropriate training data for fine-tuning rather than solely relying on the number of parameters. More fine-grained feedback should be used to further improve the quality of answers. The open source community is quickly closing the gap to the best commercial models.
翻訳日:2023-07-06 22:19:32 公開日:2023-07-03
# 古典的計画における探索と搾取のスケール適応的バランス

Scale-Adaptive Balancing of Exploration and Exploitation in Classical Planning ( http://arxiv.org/abs/2305.09840v2 )

ライセンス: Link先を確認
Stephen Wissow, Masataro Asai(参考訳) ゲームツリー探索と自動計画において,探索と利用のバランスが重要な問題となっている。 しかし,MAB(Multi-Armed Bandit)の文献では,この問題は広く分析されているものの,これらの結果を適用しようとすると,計画コミュニティは限られた成功を収めている。 さらに,mab文献のより詳細な理論的理解は,モンテカルロ木探索 (mcts) / 試行ベースのヒューリスティック木探索 (thts) に基づく既存の計画アルゴリズムの改善に役立つことを示す。 特に、THTS は UCB1 MAB アルゴリズムをアドホックな方法で使用しており、UTB1 の固定有界サポート報酬分布の理論的な要件は、古典的な計画のヒューリスティックな探索では満たされない。 主な問題は、 UCB1 の報酬の異なるスケールへの適応の欠如にある。 提案するMCTS/THTSアルゴリズムであるGreedyUCT-Normal, UCB1-Normal bandit for agile classical Planningでは,報奨分散を考慮した分散処理を行うとともに,Greedy Best First Searchと既存のMCTS/THTSベースのアルゴリズム(GreedyUCT,GreedyUCT*)より優れたアルゴリズム性能(ノード拡張が少ない計画が多い)を実現した。

Balancing exploration and exploitation has been an important problem in both game tree search and automated planning. However, while the problem has been extensively analyzed within the Multi-Armed Bandit (MAB) literature, the planning community has had limited success when attempting to apply those results. We show that a more detailed theoretical understanding of MAB literature helps improve existing planning algorithms that are based on Monte Carlo Tree Search (MCTS) / Trial Based Heuristic Tree Search (THTS). In particular, THTS uses UCB1 MAB algorithms in an ad hoc manner, as UCB1's theoretical requirement of fixed bounded support reward distributions is not satisfied within heuristic search for classical planning. The core issue lies in UCB1's lack of adaptations to the different scales of the rewards. We propose GreedyUCT-Normal, a MCTS/THTS algorithm with UCB1-Normal bandit for agile classical planning, which handles distributions with different scales by taking the reward variance into consideration, and resulted in an improved algorithmic performance (more plans found with less node expansions) that outperforms Greedy Best First Search and existing MCTS/THTS-based algorithms (GreedyUCT,GreedyUCT*).
翻訳日:2023-07-06 22:18:50 公開日:2023-07-03
# グラフエコー状態ネットワークを用いたノード分類におけるヘテロフォリーの対応

Addressing Heterophily in Node Classification with Graph Echo State Networks ( http://arxiv.org/abs/2305.08233v2 )

ライセンス: Link先を確認
Alessio Micheli, Domenico Tortorella(参考訳) グラフ上のノード分類タスクは、ノード近傍の複数の集約を通してノード表現の階層を学習する、完全に訓練されたディープメッセージパッシングモデルによって処理される。 クラス内エッジの比率が高いグラフでは有効であるが、このアプローチは反対のケース、すなわちヘテロフィリー(英語版)では、同じクラスに属するノードが通常はさらに離れている。 ヘテロフィアの高いグラフでは、畳み込みモデルによって計算された近接近傍に基づく平滑化表現はもはや有効ではない。 これまでのところ、入力グラフの過度な平滑化や切り替えを低減し、長距離メッセージパッシングを改善するためのメッセージパッシングモデルのアーキテクチャ上のバリエーションが提案されている。 本稿では,ノード分類のためのグラフエコー状態ネットワーク(GESN)を用いた異種グラフの課題に対処する。 gesnはグラフの貯水池計算モデルであり、ノード埋め込みは未学習のメッセージパッシング関数によって再帰的に計算される。 我々の実験では,アーキテクチャバイアスのアドホックなバリエーションを実装したり,インプットグラフの事前処理ステップとして再処理を行う,最も完全に訓練された深層モデルに対して,リザーバモデルの方が,効率/正確性のトレードオフという面で改善した。 さらに,gesnは再帰的埋め込み関数の反復とグラフ内の最短経路の分布との相関を示すことにより,グラフノードの構造的関係を効果的にエンコードできることを示した。

Node classification tasks on graphs are addressed via fully-trained deep message-passing models that learn a hierarchy of node representations via multiple aggregations of a node's neighbourhood. While effective on graphs that exhibit a high ratio of intra-class edges, this approach poses challenges in the opposite case, i.e. heterophily, where nodes belonging to the same class are usually further apart. In graphs with a high degree of heterophily, the smoothed representations based on close neighbours computed by convolutional models are no longer effective. So far, architectural variations in message-passing models to reduce excessive smoothing or rewiring the input graph to improve longer-range message passing have been proposed. In this paper, we address the challenges of heterophilic graphs with Graph Echo State Network (GESN) for node classification. GESN is a reservoir computing model for graphs, where node embeddings are recursively computed by an untrained message-passing function. Our experiments show that reservoir models are able to achieve better or comparable accuracy with respect to most fully trained deep models that implement ad hoc variations in the architectural bias or perform rewiring as a preprocessing step on the input graph, with an improvement in terms of efficiency/accuracy trade-off. Furthermore, our analysis shows that GESN is able to effectively encode the structural relationships of a graph node, by showing a correlation between iterations of the recursive embedding function and the distribution of shortest paths in a graph.
翻訳日:2023-07-06 22:18:22 公開日:2023-07-03
# マルチモーダル感情分析:調査

Multimodal Sentiment Analysis: A Survey ( http://arxiv.org/abs/2305.07611v3 )

ライセンス: Link先を確認
Songning Lai, Xifeng Hu, Haoxuan Xu, Zhaoxia Ren and Zhi Liu(参考訳) マルチモーダル感情分析は人工知能の分野で重要な研究領域となっている。 ディープラーニングの最新技術により、この技術は新たな高度に達した。 応用と研究の両方に大きな可能性を秘めており、人気のある研究テーマとなっている。 本稿では,マルチモーダル感情分析の定義,背景,開発の概要について述べる。 また、最近のデータセットと高度なモデルもカバーし、この技術の課題と今後の展望を強調している。 最後に、今後の研究の方向性を推し進める。 このレビューは、有望な研究の方向性と、この分野の研究者に役立つマルチモーダル感情分析モデルの構築のための建設的な提案を提供していることに注意すべきである。

Multimodal sentiment analysis has become an important research area in the field of artificial intelligence. With the latest advances in deep learning, this technology has reached new heights. It has great potential for both application and research, making it a popular research topic. This review provides an overview of the definition, background, and development of multimodal sentiment analysis. It also covers recent datasets and advanced models, emphasizing the challenges and future prospects of this technology. Finally, it looks ahead to future research directions. It should be noted that this review provides constructive suggestions for promising research directions and building better performing multimodal sentiment analysis models, which can help researchers in this field.
翻訳日:2023-07-06 22:17:45 公開日:2023-07-03
# 分解密度を持つ文字列図形

String Diagrams with Factorized Densities ( http://arxiv.org/abs/2305.02506v4 )

ライセンス: Link先を確認
Eli Sennesh and Jan-Willem van de Meent(参考訳) 確率的プログラムと因果モデルに関する研究の活発化は、有向グラフィカルモデルを拡張するモデルクラスについて構成的に考える必要性を強調している。 確率的プログラムと因果モデルの両方は、ランダム変数の集合上の合同確率密度を定義し、因果関係と条件独立性を推論するために使用できるスパース構造を示す。 この研究は、確率写像のマルコフ圏に関する最近の研究に基づいて、射が各サンプル空間上で分解された結合密度と、サンプルから戻り値への決定論的写像を組み合わせた圏を定義する。 これは、確率測度に関する最近のカテゴリー論的記述と、確率計画法や因果推論によく用いられる分解密度の操作的定義とのギャップを埋めるためのステップである。

A growing body of research on probabilistic programs and causal models has highlighted the need to reason compositionally about model classes that extend directed graphical models. Both probabilistic programs and causal models define a joint probability density over a set of random variables, and exhibit sparse structure that can be used to reason about causation and conditional independence. This work builds on recent work on Markov categories of probabilistic mappings to define a category whose morphisms combine a joint density, factorized over each sample space, with a deterministic mapping from samples to return values. This is a step towards closing the gap between recent category-theoretic descriptions of probability measures, and the operational definitions of factorized densities that are commonly employed in probabilistic programming and causal inference.
翻訳日:2023-07-06 22:16:35 公開日:2023-07-03
# WHAT, WHEN, HOW to Ground: Engaging Dialogue のためのユーザペルソナ対応対話エージェントの設計

WHAT, WHEN, and HOW to Ground: Designing User Persona-Aware Conversational Agents for Engaging Dialogue ( http://arxiv.org/abs/2306.03361v3 )

ライセンス: Link先を確認
Deuksin Kwon, Sunwoo Lee, Ki Hyun Kim, Seojin Lee, Taeyoon Kim, Eric Davis(参考訳) 本稿では,自然応答生成のwwh(what, when, how)問題に対処するために,パーソナライズされたオープンドメイン対話システムを構築する手法を提案する。 提案手法は、重み付きデータセットブレンディング、負のペルソナ情報拡張手法、パーソナライズされたオープンドメイン対話システムにおけるwwhの課題に対処するパーソナライズされた会話データセットの設計を含む。 本研究は,対話の流速と接地傾向のバランスを効果的に保ちつつ,接地応答の制御性と説明性を向上させるための応答型ラベルを導入する。 これらの手法の組み合わせは、主観的人間評価や客観的評価によって示されるように、より流動的な会話につながる。

This paper presents a method for building a personalized open-domain dialogue system to address the WWH (WHAT, WHEN, and HOW) problem for natural response generation in a commercial setting, where personalized dialogue responses are heavily interleaved with casual response turns. The proposed approach involves weighted dataset blending, negative persona information augmentation methods, and the design of personalized conversation datasets to address the challenges of WWH in personalized, open-domain dialogue systems. Our work effectively balances dialogue fluency and tendency to ground, while also introducing a response-type label to improve the controllability and explainability of the grounded responses. The combination of these methods leads to more fluent conversations, as evidenced by subjective human evaluations as well as objective evaluations.
翻訳日:2023-07-06 20:24:46 公開日:2023-07-03
# 分子動力学シミュレーションとマルコフ状態モデリングによるTi-Al系の界面ダイナミクスの解明

Elucidating Interfacial Dynamics of Ti-Al Systems Using Molecular Dynamics Simulation and Markov State Modeling ( http://arxiv.org/abs/2306.14568v2 )

ライセンス: Link先を確認
Tianjiao Li, Chenxi Tian, Atieh Moridi, Jingjie Yeo(参考訳) 特筆すべき機械的および化学的性質のため、Ti-Al系材料は自動車、航空宇宙、防衛など多くの工学分野に多大な関心を集めている。 低密度、高強度、耐食性、耐酸化性により、これらの金属間合金と複合金属-金属複合材料は様々な用途に応用されている。 本研究は,これらのTi-Al系の界面力学,特に実験熱処理条件下でのTiAl$_3$粒界の存在下でのTiおよびAl原子の挙動に着目したものである。 分子動力学とマルコフ状態モデル解析の組み合わせを用いて,TiAl$_3$の生成に関わる運動過程を精査する。 分子動力学シミュレーションは、熱処理の初期段階において、前駆プロセスはTiAl$_3$粒界を通ってTi表面へのAl原子の拡散であることを示している。 マルコフ状態モデリング(Markov State Modeling)は、Ti/Al混合物中のAl原子の3つの異なる動的状態を特定し、それぞれ独自の空間分布を示す。 遷移時間スケールを力学の速さの定性的尺度として用いると,Al表面よりもTi表面付近ではAlのダイナミクスが著しく速くなることが観察された。 その結果, 界面力学の包括的理解が得られ, 3段階拡散機構が明らかになった。 このプロセスはAlの予融によって開始され、Al原子がTi表面に向かって拡散し、最終的に混合物中のTi濃度が徐々に増加するにつれて停止する。 この研究から得られた知見は、これらの高性能Ti-Al基材料の製造プロセスの制御と最適化に大きく貢献する可能性がある。

Due to their remarkable mechanical and chemical properties, Ti-Al based materials are attracting considerable interest in numerous fields of engineering, such as automotive, aerospace, and defense. With their low density, high strength, and resistance to corrosion and oxidation, these intermetallic alloys and compound metal-metallic composites have found diverse applications. The present study delves into the interfacial dynamics of these Ti-Al systems, particularly focusing on the behavior of Ti and Al atoms in the presence of TiAl$_3$ grain boundaries under experimental heat treatment conditions. Using a combination of Molecular Dynamics and Markov State Model analyses, we scrutinize the kinetic processes involved in the formation of TiAl$_3$. The Molecular Dynamics simulation indicates that at the early stage of heat treatment, the predominating process is the diffusion of Al atoms towards the Ti surface through the TiAl$_3$ grain boundaries. The Markov State Modeling identifies three distinct dynamic states of Al atoms within the Ti/Al mixture that forms during the process, each exhibiting a unique spatial distribution. Using transition timescales as a qualitative measure of the rapidness of the dynamics, it is observed that the Al dynamics is significantly less rapid near the Ti surface compared to the Al surface. Put together, the results offer a comprehensive understanding of the interfacial dynamics and reveals a three-stage diffusion mechanism. The process initiates with the premelting of Al, proceeds with the prevalent diffusion of Al atoms towards the Ti surface, and eventually ceases as the Ti concentration within the mixture progressively increases. The insights gained from this study could contribute significantly to the control and optimization of manufacturing processes for these high-performing Ti-Al based materials.
翻訳日:2023-07-06 20:06:46 公開日:2023-07-03
# $\left\{ h(1) \oplus h(1) \right\} \uplus u(2)$ Time-dependent quantum Hamiltonian; ファインマンの不協和規則に基づく自己整合分解法

Time evolution operator for a $\left\{ h(1) \oplus h(1) \right\} \uplus u(2)$ time-dependent quantum Hamiltonian; a self-consistent resolution method based on Feynman's disentangling rules ( http://arxiv.org/abs/2306.14231v2 )

ライセンス: Link先を確認
Nibaldo-Edmundo Alvarez-Moraga(参考訳) 本稿では、ハミルトニアンが複素数 $\left\{ h(1) \oplus h(1) \right\} \uplus u(2)$ algebra の元である2つの相互作用する量子振動子の時間発展作用素を、ファインマン時間順序演算子法を用いて解析する。 この方法は条件を常に生成し、そのような演算子に対する明示的な不整合式を正式に見つけるために使われる。 このようにして、全ての問題は複素リッカティ型微分方程式を解くために減少することが示される。 この微分方程式のいくつかの閉解が発見され、時間順序進化作用素に対する具体的な解が与えられる。 最後に、等方性2次元量子発振器に関連付けられたコヒーレント状態の時間進化を時間依存ハミルトニアン系で解析する。

In this article the time evolution operator of two interacting quantum oscillators, whose Hamiltonian is an element of the complex $\left\{ h(1) \oplus h(1) \right\} \uplus u(2)$ algebra, is analyzed using the Feynman time ordering operator techniques. This method is consistently used to generate the conditions and to formally find explicit disentangled expressions for such operator. In this way, it is shown that all the problem reduces to solve a complex Riccati-type differential equation. Some closed solutions to this differential equation are found and then concrete disentangling expressions for the time-ordered evolution operator are given. Finally, the time evolution of the coherent states linked to the isotropic 2D quantum oscillator are analyzed under alternative time-independent an time-dependent Hamiltonian systems.
翻訳日:2023-07-06 20:05:32 公開日:2023-07-03
# ボットネット検出における量子サイバーセキュリティ分析の活用:ツリーアルゴリズムによる安定したアーキテクチャとスピードアップ

Enabling Quantum Cybersecurity Analytics in Botnet Detection: Stable Architecture and Speed-up through Tree Algorithms ( http://arxiv.org/abs/2306.13727v3 )

ライセンス: Link先を確認
Madjid Tehrani, Eldar Sultanow, William J Buchanan, Malik Amir, Anja Jeschke, Raymond Chow, Mouad Lemoudden(参考訳) 本研究では,100個のデータサンプルと5,000個のデータサンプルを持つ実量子コンピュータ上でのハイブリッド機械学習手法の実行を初めて可能とし,1000個のデータサンプルと量子シミュレータ(純粋なソフトウェアベースのエミュレータ)のみを扱う2022年の研究状況よりも優れていた。 さらに、報告された精度が78.8\%$で、平均精度は89.0\%$で、総実行時間は382秒でした。 %で,実行時間は報告されなかった。 まず、実際の量子デバイス上でHQMLアルゴリズムを実行できる安定した量子アーキテクチャを構築します。 次に,hoeffding decision treeアルゴリズムに基づく新しいハイブリッド量子二分分類アルゴリズムを提案する。 これらのアルゴリズムはバッチ実行によってプロセスを高速化し、実際の量子デバイスに必要なショット数を従来のループベースのオプティマイザと比較して削減する。 彼らのインクリメンタルな性質は、DGAボットネット検出のためのオンライン大規模データストリーミングの目的に役立ち、サイバーセキュリティ分析の分野にハイブリッド量子機械学習を適用することができる。 我々は、QiskitライブラリとAer量子シミュレータを用いて実験を行い、MS Azure QuantumのIonQ、Rigetti、Quantinuumの3種類の実量子デバイス上で実験を行った。 このようなツールが組み合わされるのは,これが初めてです。

For the first time, we enable the execution of hybrid machine learning methods on real quantum computers with 100 data samples and real-device-based simulations with 5,000 data samples, thereby outperforming the current state of research of Suryotrisongko and Musashi from 2022 who were dealing with 1,000 data samples and quantum simulators (pure software-based emulators) only. Additionally, we beat their reported accuracy of $76.8\%$ by an average accuracy of $89.0\%$, all within a total execution time of 382 seconds. %They did not report their execution time. We achieve this significant progress through two-step strategy: Firstly, we establish a stable quantum architecture that enables us to execute HQML algorithms on real quantum devices. Secondly, we introduce new hybrid quantum binary classification algorithms based on Hoeffding decision tree algorithms. These algorithms speed up the process via batch-wise execution, reducing the number of shots required on real quantum devices compared to conventional loop-based optimizers. Their incremental nature serves the purpose of online large-scale data streaming for DGA botnet detection, and allows us to apply hybrid quantum machine learning to the field of cybersecurity analytics. We conduct our experiments using the Qiskit library with the Aer quantum simulator, and on three different real quantum devices from MS Azure Quantum: IonQ, Rigetti, and Quantinuum. This is the first time these tools are combined in this manner.
翻訳日:2023-07-06 20:05:10 公開日:2023-07-03
# エンティティリンクのためのRetriever-Reader Paradigmの双方向エンドツーエンド学習

Bidirectional End-to-End Learning of Retriever-Reader Paradigm for Entity Linking ( http://arxiv.org/abs/2306.12245v2 )

ライセンス: Link先を確認
Yinghui Li, Yong Jiang, Shen Huang, Xingyu Lu, Yangning Li, Pengjun Xie, Fei Huang, Hai-Tao Zheng, Ying Shen(参考訳) エンティティリンク(EL)は情報抽出と知識グラフの基本的なタスクである。 ELの一般的な形式(すなわち、エンドツーエンドのEL)は、まず与えられた入力文書に言及を見つけ、次に特定の知識ベースで対応するエンティティにリンクすることを目的としている。 近年,レトリバーリーダーのパラダイムは,エンティティ検索と機械読解の利点を生かして,エンドツーエンドelの進歩を促進する。 しかし、既存の研究は、レトリバーとリーダーをパイプライン形式で別々に訓練するだけであり、レトリバーとリーダーの相互作用がタスクにもたらし得る利点を無視している。 RetrieverとReaderのための双方向エンドツーエンドトレーニングフレームワークであるBEER$^2$を提案する。 beer$^2$は,双方向のエンドツーエンドトレーニングを通じて,レトリバーとリーダが相互に学習し,共に進捗し,最終的にelパフォーマンスを改善するためのガイドを提供します。 複数の領域のベンチマーク実験により,提案したBEER$^2$の有効性が示された。

Entity Linking (EL) is a fundamental task for Information Extraction and Knowledge Graphs. The general form of EL (i.e., end-to-end EL) aims to first find mentions in the given input document and then link the mentions to corresponding entities in a specific knowledge base. Recently, the paradigm of retriever-reader promotes the progress of end-to-end EL, benefiting from the advantages of dense entity retrieval and machine reading comprehension. However, the existing study only trains the retriever and the reader separately in a pipeline manner, which ignores the benefit that the interaction between the retriever and the reader can bring to the task. To advance the retriever-reader paradigm to perform more perfectly on end-to-end EL, we propose BEER$^2$, a Bidirectional End-to-End training framework for Retriever and Reader. Through our designed bidirectional end-to-end training, BEER$^2$ guides the retriever and the reader to learn from each other, make progress together, and ultimately improve EL performance. Extensive experiments on benchmarks of multiple domains demonstrate the effectiveness of our proposed BEER$^2$.
翻訳日:2023-07-06 20:03:35 公開日:2023-07-03
# milli Flow:人間のモーションセンシングのためのミリ波レーダ点雲のシーンフロー推定

milliFlow: Scene Flow Estimation on mmWave Radar Point Cloud for Human Motion Sensing ( http://arxiv.org/abs/2306.17010v2 )

ライセンス: Link先を確認
Fangqiang Ding, Zhen Luo, Peijun Zhao, Chris Xiaoxuan Lu(参考訳) ユビキタスコンピューティングの時代に近づいているヒューマンモーションセンシングは、意思決定、ユーザインタラクション、パーソナライズサービスといったスマートシステムにおいて重要な役割を果たす。 人間の追跡、ポーズ推定、ジェスチャー認識、行動認識に関する大規模な研究が行われ、従来の方法では主にカメラに基づく。 しかし、カメラの侵入性は、スマートホームアプリケーションでの使用を制限する。 これに対処するため、mmwaveレーダーはプライバシーに優しい機能のために人気を集めている。 本研究では,mmWave 点雲の相補的な動き情報としてのシーンフロー推定のための新しい深層学習手法である \textit{milliFlow} を提案する。 実験の結果,平均3dエンドポイント誤差が4.6cmで,本手法の優れた性能を示すことができた。 さらに,シーンフロー情報を組み込むことにより,人間の行動認識,解析,身体部位追跡の大幅な改善を実現する。 この領域のさらなる研究を促進するため、オープンアクセスのためのコードベースとデータセットを提供しています。

Approaching the era of ubiquitous computing, human motion sensing plays a crucial role in smart systems for decision making, user interaction, and personalized services. Extensive research has been conducted on human tracking, pose estimation, gesture recognition, and activity recognition, which are predominantly based on cameras in traditional methods. However, the intrusive nature of cameras limits their use in smart home applications. To address this, mmWave radars have gained popularity due to their privacy-friendly features. In this work, we propose \textit{milliFlow}, a novel deep learning method for scene flow estimation as a complementary motion information for mmWave point cloud, serving as an intermediate level of features and directly benefiting downstream human motion sensing tasks. Experimental results demonstrate the superior performance of our method with an average 3D endpoint error of 4.6cm, significantly surpassing the competing approaches. Furthermore, by incorporating scene flow information, we achieve remarkable improvements in human activity recognition, human parsing, and human body part tracking. To foster further research in this area, we provide our codebase and dataset for open access.
翻訳日:2023-07-06 19:55:43 公開日:2023-07-03
# 差別かサマリア人 -- 人類に必要なAIはどれか? ハイブリッド型AI人口の進化ゲーム理論解析

Discriminatory or Samaritan -- which AI is needed for humanity? An Evolutionary Game Theory Analysis of Hybrid Human-AI populations ( http://arxiv.org/abs/2306.17747v2 )

ライセンス: Link先を確認
Tim Booker, Manuel Miranda, Jes\'us A. Moreno L\'opez, Jos\'e Mar\'ia Ramos Fern\'andez, Max Reddel, Valeria Widler, Filippo Zimmaro, Alberto Antonioni, The Anh Han(参考訳) 人工知能(AI)システムが私たちの生活にますます埋め込まれていくにつれて、その存在は私たちの行動、意思決定、社会的相互作用を形成する相互作用につながります。 既存の理論的研究は主に人間と人間の相互作用に焦点を当てており、AIの存在によって引き起こされるユニークなダイナミクスを見下ろしている。 本稿では,進化ゲーム理論の手法を用いて,aiの異なる形態が人間集団における協調の進化にどのように影響するかを考察する。 その結果,不在者を含む全員を無条件で支援するサマリア人のAIエージェントは,特に変化を注意や抵抗(選択の強度が小さい)で見なすスロームーブメント社会において,価値/協力性にのみ寄与する識別的AIよりも高いレベルの協力を促進することができることがわかった。 直感的には、素早く動く社会(選択の強度が高い)では、差別的AIはサマリア人のAIよりも高いレベルの協力を促進する。

As artificial intelligence (AI) systems are increasingly embedded in our lives, their presence leads to interactions that shape our behaviour, decision-making, and social interactions. Existing theoretical research has primarily focused on human-to-human interactions, overlooking the unique dynamics triggered by the presence of AI. In this paper, resorting to methods from evolutionary game theory, we study how different forms of AI influence the evolution of cooperation in a human population playing the one-shot Prisoner's Dilemma game in both well-mixed and structured populations. We found that Samaritan AI agents that help everyone unconditionally, including defectors, can promote higher levels of cooperation in humans than Discriminatory AI that only help those considered worthy/cooperative, especially in slow-moving societies where change is viewed with caution or resistance (small intensities of selection). Intuitively, in fast-moving societies (high intensities of selection), Discriminatory AIs promote higher levels of cooperation than Samaritan AIs.
翻訳日:2023-07-06 19:45:13 公開日:2023-07-03
# MapKurator System: 歴史地図からのテキストの抽出とリンクのための完全なパイプライン

The mapKurator System: A Complete Pipeline for Extracting and Linking Text from Historical Maps ( http://arxiv.org/abs/2306.17059v2 )

ライセンス: Link先を確認
Jina Kim, Zekun Li, Yijun Lin, Min Namgung, Leeje Jang, Yao-Yi Chiang(参考訳) 図書館やアーカイブのスキャンされた歴史地図は、他の場所には存在しないことが多い地理データの貴重な記録である。 これらのマップから機械可読フォーマットに自動的にテキストを変換するGoogle Vision APIのような機械学習ツールの可能性にもかかわらず、大規模な画像(例えば高解像度スキャンされた文書)ではうまく機能せず、認識されたテキストと他のデータセットとの関係を推測できず、後処理ツールとの統合が困難である。 本稿では,機械学習モデルと包括的データ処理パイプラインを統合するエンドツーエンドシステムであるmapKuratorシステムを紹介する。 mapKuratorは、大量の歴史的地図スキャンからテキストラベルの自動抽出、後処理、リンクを可能にする。 出力データは、境界ポリゴンと認識されたテキストから構成され、標準のGeoJSONフォーマットであり、地理情報システム(GIS)内で容易に変更できる。 提案システムでは, 地図内容の詳細な分析を行うために, 多数の歴史地図から, 地図検索, アクセシビリティ, インターオペラビリティ, 再利用可能性(FAIR原則)を迅速に生成することができる。 我々はmapKuratorシステムをデプロイし、David Rumsey Historical Mapコレクションに6万以上の地図と1億以上のテキスト/場所名の処理を可能にしました。 我々はまた、過去の地図スキャンや集合的な作業からテキストラベルを抽出・リンクするための自動アプローチへのアクセスを可能にするために、mapKuratorと協調的なWebプラットフォームとのシームレスな統合を実証した。

Scanned historical maps in libraries and archives are valuable repositories of geographic data that often do not exist elsewhere. Despite the potential of machine learning tools like the Google Vision APIs for automatically transcribing text from these maps into machine-readable formats, they do not work well with large-sized images (e.g., high-resolution scanned documents), cannot infer the relation between the recognized text and other datasets, and are challenging to integrate with post-processing tools. This paper introduces the mapKurator system, an end-to-end system integrating machine learning models with a comprehensive data processing pipeline. mapKurator empowers automated extraction, post-processing, and linkage of text labels from large numbers of large-dimension historical map scans. The output data, comprising bounding polygons and recognized text, is in the standard GeoJSON format, making it easily modifiable within Geographic Information Systems (GIS). The proposed system allows users to quickly generate valuable data from large numbers of historical maps for in-depth analysis of the map content and, in turn, encourages map findability, accessibility, interoperability, and reusability (FAIR principles). We deployed the mapKurator system and enabled the processing of over 60,000 maps and over 100 million text/place names in the David Rumsey Historical Map collection. We also demonstrated a seamless integration of mapKurator with a collaborative web platform to enable accessing automated approaches for extracting and linking text labels from historical map scans and collective work to improve the results.
翻訳日:2023-07-06 19:43:47 公開日:2023-07-03
# マルチタスク学習によるモノのインターネットの故障検出と分類

Internet of Things Fault Detection and Classification via Multitask Learning ( http://arxiv.org/abs/2307.01234v1 )

ライセンス: Link先を確認
Mohammad Arif Ul Alam(参考訳) 本稿では,実世界のIIoTアプリケーションを対象とした断層検出・分類システムの開発に関する包括的調査を行う。 この研究は、データ収集、アノテーション、アルゴリズム開発、デプロイメントにおける課題に対処する。 実世界のIIoTシステムを使用して、データ収集の3つのフェーズは、事前に定義された11の障害カテゴリをシミュレートする。 我々は,IIoTにおける故障検出と分類のためのSMTCNNを提案し,実世界のデータを用いた性能評価を行った。 smtcnnは優れた特異性(3.5%)を達成し、既存の技術と比べて精度、リコール、およびf1の測定が大幅に改善されている。

This paper presents a comprehensive investigation into developing a fault detection and classification system for real-world IIoT applications. The study addresses challenges in data collection, annotation, algorithm development, and deployment. Using a real-world IIoT system, three phases of data collection simulate 11 predefined fault categories. We propose SMTCNN for fault detection and category classification in IIoT, evaluating its performance on real-world data. SMTCNN achieves superior specificity (3.5%) and shows significant improvements in precision, recall, and F1 measures compared to existing techniques.
翻訳日:2023-07-06 19:36:15 公開日:2023-07-03
# RobustL2S:自己教師付き表現を利用した話者特異的唇音声合成

RobustL2S: Speaker-Specific Lip-to-Speech Synthesis exploiting Self-Supervised Representations ( http://arxiv.org/abs/2307.01233v1 )

ライセンス: Link先を確認
Neha Sahipjohn, Neil Shah, Vishal Tambrahalli, Vineet Gandhi(参考訳) 話者依存型Lip-to-Speech合成において,話し言葉の無声ビデオから音声を生成することが重要な進歩である。 現在の最先端のアプローチでは、主に非自己回帰シーケンスツーシーケンスアーキテクチャを使用して、唇表現からメルスペクトログラムやオーディオ波形を直接予測している。 本研究は,環境情報と話者特性を有する音声コンテンツの絡み合いによるトレーニング/モデル効率の低下を想定した。 そこで我々は,Lip-to-Speech合成のためのモジュール化フレームワークRobostL2Sを提案する。 まず,非自己回帰列列列モデルを用いて,教師付き視覚特徴を非絡み合った音声内容の表現にマッピングする。 ボコーダは音声の特徴を生の波形に変換する。 大規模評価により,制約のないLip2Wavデータセットと制約付きGRIDおよびTCD-TIMITデータセットの最先端性能が得られた。 RobustL2Sの音声サンプルはhttps://neha-sherin.github.io/RobustL2S/にある。

Significant progress has been made in speaker dependent Lip-to-Speech synthesis, which aims to generate speech from silent videos of talking faces. Current state-of-the-art approaches primarily employ non-autoregressive sequence-to-sequence architectures to directly predict mel-spectrograms or audio waveforms from lip representations. We hypothesize that the direct mel-prediction hampers training/model efficiency due to the entanglement of speech content with ambient information and speaker characteristics. To this end, we propose RobustL2S, a modularized framework for Lip-to-Speech synthesis. First, a non-autoregressive sequence-to-sequence model maps self-supervised visual features to a representation of disentangled speech content. A vocoder then converts the speech features into raw waveforms. Extensive evaluations confirm the effectiveness of our setup, achieving state-of-the-art performance on the unconstrained Lip2Wav dataset and the constrained GRID and TCD-TIMIT datasets. Speech samples from RobustL2S can be found at https://neha-sherin.github.io/RobustL2S/
翻訳日:2023-07-06 19:36:06 公開日:2023-07-03
# 雑音を伴う内視鏡映像におけるロバストな手術器具検出

Robust Surgical Tools Detection in Endoscopic Videos with Noisy Data ( http://arxiv.org/abs/2307.01232v1 )

ライセンス: Link先を確認
Adnan Qayyum, Hassan Ali, Massimo Caputo, Hunaid Vohra, Taofeek Akinosho, Sofiat Abioye, Ilhem Berrou, Pawe{\l} Capik, Junaid Qadir, and Muhammad Bilal(参考訳) 過去数年間、外科データ科学は機械学習(ML)コミュニティからかなりの関心を集めてきた。 外科的データ、特に手術記録を分析し、術前計画、文脈対応意思決定、手術スキル評価などの臨床および非臨床機能のデジタル化にML技術が有効であることを示す様々な研究がある。 しかし、この分野はまだ初期段階であり、中間MLタスクで堅牢なモデルをトレーニングするための、代表的で十分に注釈付けされたデータセットが欠けている。 また、既存のデータセットは不正確なラベルに苦しめられ、信頼できるモデルの開発を妨げている。 本稿では,騒音データを用いた手術用ツール検出のためのロバストモデルを構築するための体系的手法を提案する。 本手法では,(1)人間の専門家による最小限のデータセット識別とラベル修正のための知的能動的学習戦略,(2)教師付き14種類の手術器具の堅牢な分類を実現するための学生教師モデルに基づく自己学習フレームワークの組み立て戦略を紹介する。 さらに,重み付きデータローダを用いて,難しいクラスラベルとアドレスクラスの不均衡問題に対処する。 提案手法は,クラス重み付きアンサンブルモデルに基づく自己学習では平均85.88 %,うるさいラベルでは80.88 %のF1スコアを達成する。 また,提案手法は既存の手法を大幅に上回り,有効性を示す。

Over the past few years, surgical data science has attracted substantial interest from the machine learning (ML) community. Various studies have demonstrated the efficacy of emerging ML techniques in analysing surgical data, particularly recordings of procedures, for digitizing clinical and non-clinical functions like preoperative planning, context-aware decision-making, and operating skill assessment. However, this field is still in its infancy and lacks representative, well-annotated datasets for training robust models in intermediate ML tasks. Also, existing datasets suffer from inaccurate labels, hindering the development of reliable models. In this paper, we propose a systematic methodology for developing robust models for surgical tool detection using noisy data. Our methodology introduces two key innovations: (1) an intelligent active learning strategy for minimal dataset identification and label correction by human experts; and (2) an assembling strategy for a student-teacher model-based self-training framework to achieve the robust classification of 14 surgical tools in a semi-supervised fashion. Furthermore, we employ weighted data loaders to handle difficult class labels and address class imbalance issues. The proposed methodology achieves an average F1-score of 85.88\% for the ensemble model-based self-training with class weights, and 80.88\% without class weights for noisy labels. Also, our proposed method significantly outperforms existing approaches, which effectively demonstrates its effectiveness.
翻訳日:2023-07-06 19:35:50 公開日:2023-07-03
# 深い)学習に基づくマッチングアルゴリズムのためのベンチマークデータセットの批判的再評価

A Critical Re-evaluation of Benchmark Datasets for (Deep) Learning-Based Matching Algorithms ( http://arxiv.org/abs/2307.01231v1 )

ライセンス: Link先を確認
George Papadakis, Nishadi Kirielle, Peter Christen, Themis Palpanas(参考訳) エンティティ解決(ER)は、1つまたは複数のデータベースで同じエンティティを参照するレコードを識別するプロセスである。 近年、マッチングフェーズにおける機械学習とディープラーニングの手法に重点が置かれ、er課題に取り組むために多くの技術が開発されている。 しかし、学習に基づくマッチングアルゴリズムの実験的評価で一般的に用いられるベンチマークデータセットの品質は、文献では検討されていない。 このギャップを補うために,13の確立したデータセットの難易度と妥当性を評価するための4つの異なるアプローチを提案する。新しい線形性尺度と既存の複雑性尺度を含む2つの理論的アプローチと,最良の非線形と線形マッチングの違いと,最高の学習ベースのマッチングと完璧なオラクルの違いという,2つの実践的アプローチを提案する。 分析の結果、一般的なデータセットのほとんどが、かなり簡単に分類できることがわかった。 その結果、学習に基づくマッチングアルゴリズムを適切に評価するには適していない。 この問題に対処するため,ベンチマークデータセットを出力する新しい手法を提案する。 4つの新しいマッチングタスクを作成して実践し、これらの新しいベンチマークがより困難であり、それゆえこの分野のさらなる進歩に適していることを検証します。

Entity resolution (ER) is the process of identifying records that refer to the same entities within one or across multiple databases. Numerous techniques have been developed to tackle ER challenges over the years, with recent emphasis placed on machine and deep learning methods for the matching phase. However, the quality of the benchmark datasets typically used in the experimental evaluations of learning-based matching algorithms has not been examined in the literature. To cover this gap, we propose four different approaches to assessing the difficulty and appropriateness of 13 established datasets: two theoretical approaches, which involve new measures of linearity and existing measures of complexity, and two practical approaches: the difference between the best non-linear and linear matchers, as well as the difference between the best learning-based matcher and the perfect oracle. Our analysis demonstrates that most of the popular datasets pose rather easy classification tasks. As a result, they are not suitable for properly evaluating learning-based matching algorithms. To address this issue, we propose a new methodology for yielding benchmark datasets. We put it into practice by creating four new matching tasks, and we verify that these new benchmarks are more challenging and therefore more suitable for further advancements in the field.
翻訳日:2023-07-06 19:35:26 公開日:2023-07-03
# 工学設計最適化のための大規模言語とテキスト間3次元モデル

Large Language and Text-to-3D Models for Engineering Design Optimization ( http://arxiv.org/abs/2307.01230v1 )

ライセンス: Link先を確認
Thiago Rios, Stefan Menzel, Bernhard Sendhoff (Honda Research Institute Europe)(参考訳) 大規模なニューラルネットワークモデルを学ぶための生成AIの現在の進歩は、テキストからエッセイ、画像、音楽、さらには3Dアセットを生成する能力によって、さまざまな分野の機会を生み出している。 本稿では,工学領域における深いテキストから3dモデルの可能性について検討し,計算シミュレーションに基づく設計最適化における3dアセットの統合と相互作用の機会と課題について考察する。 車両空力最適化において、bスプライン面や変形パラメータといった数値表現を用いて最適な設計を求める3次元ジオメトリの従来の設計最適化とは対照的に、自然言語は、変動演算子の異なる解釈を必要とすると同時に、人間のユーザインタラクションを容易かつモチベーションにすることで最適化フレームワークに挑戦する。 本稿では,OpenAIが最近発表した3DアセットネットワークであるShap-Eを空力車両最適化の文脈において,完全に自動化された進化的設計最適化フレームワークを提案する。 進化最適化におけるテキストプロンプトの表現について (a)プロンプトテンプレートとWordnetサンプルに基づく単語の袋のアプローチ (b)gpt4からのプロンプトテンプレートとバイトペア符号化法に基づくトークン化アプローチ。 最適化から得られた主な知見は、まず、プロンプトから生成された設計が、対象のクラス内にあること、すなわち、多様で斬新な設計が現実的である必要があること、そして、テキストの強さと結果の3D設計のバリエーションが、最適化を改善するためにある程度の因果関係を共有する方法を開発するためには、さらなる研究が必要であることを示唆している。

The current advances in generative AI for learning large neural network models with the capability to produce essays, images, music and even 3D assets from text prompts create opportunities for a manifold of disciplines. In the present paper, we study the potential of deep text-to-3D models in the engineering domain, with focus on the chances and challenges when integrating and interacting with 3D assets in computational simulation-based design optimization. In contrast to traditional design optimization of 3D geometries that often searches for the optimum designs using numerical representations, such as B-Spline surface or deformation parameters in vehicle aerodynamic optimization, natural language challenges the optimization framework by requiring a different interpretation of variation operators while at the same time may ease and motivate the human user interaction. Here, we propose and realize a fully automated evolutionary design optimization framework using Shap-E, a recently published text-to-3D asset network by OpenAI, in the context of aerodynamic vehicle optimization. For representing text prompts in the evolutionary optimization, we evaluate (a) a bag-of-words approach based on prompt templates and Wordnet samples, and (b) a tokenisation approach based on prompt templates and the byte pair encoding method from GPT4. Our main findings from the optimizations indicate that, first, it is important to ensure that the designs generated from prompts are within the object class of application, i.e. diverse and novel designs need to be realistic, and, second, that more research is required to develop methods where the strength of text prompt variations and the resulting variations of the 3D designs share causal relations to some degree to improve the optimization.
翻訳日:2023-07-06 19:35:08 公開日:2023-07-03
# EmoGen:感情音楽生成における主観バイアスの除去

EmoGen: Eliminating Subjective Bias in Emotional Music Generation ( http://arxiv.org/abs/2307.01229v1 )

ライセンス: Link先を確認
Chenfei Kang, Peiling Lu, Botao Yu, Xu Tan, Wei Ye, Shikun Zhang, Jiang Bian(参考訳) 音楽は感情を伝えるために使用され、したがって感情音楽を生成することは音楽の自動生成において重要である。 感情音楽生成に関する以前の研究では、注釈付き感情ラベルを制御信号として直接使用しており、主観的バイアスに苦しめられている: 異なる人は同じ音楽で異なる感情を注釈し、ある人は異なる状況下で異なる感情を感じる。 したがって、感情ラベルをエンドツーエンドの方法で音楽シーケンスに直接マッピングすることで、学習プロセスが混乱し、一般的な感情でモデルが音楽を生成するのを妨げる。 本稿では,感情関連音楽属性の集合を感情と音楽の橋渡しとして利用する感情音楽生成システムであるemogenを提案し,その生成を教師付きクラスタリングによる感情から属性へのマッピングと,自己教師付き学習による属性から音楽への生成の2段階に分けた。 第1段階では、クラスタリング中心の周りの属性値はこれらのサンプルの一般的な感情を表すため、感情ラベルの主観的バイアスの影響を排除し、第2段階では、生成は感情ラベルから完全に切り離され、従って主観的バイアスから解放される。 主観的評価と客観的評価は,感情制御の精度と音楽品質において,EmoGenが従来の方法よりも優れており,感情音楽の生成における優位性を示している。 EmoGenが生成した音楽サンプルは以下のリンクから入手できる:https://ai-muzic.github.io/emogen/, コードはこのリンクで入手できる。

Music is used to convey emotions, and thus generating emotional music is important in automatic music generation. Previous work on emotional music generation directly uses annotated emotion labels as control signals, which suffers from subjective bias: different people may annotate different emotions on the same music, and one person may feel different emotions under different situations. Therefore, directly mapping emotion labels to music sequences in an end-to-end way would confuse the learning process and hinder the model from generating music with general emotions. In this paper, we propose EmoGen, an emotional music generation system that leverages a set of emotion-related music attributes as the bridge between emotion and music, and divides the generation into two stages: emotion-to-attribute mapping with supervised clustering, and attribute-to-music generation with self-supervised learning. Both stages are beneficial: in the first stage, the attribute values around the clustering center represent the general emotions of these samples, which help eliminate the impacts of the subjective bias of emotion labels; in the second stage, the generation is completely disentangled from emotion labels and thus free from the subjective bias. Both subjective and objective evaluations show that EmoGen outperforms previous methods on emotion control accuracy and music quality respectively, which demonstrate our superiority in generating emotional music. Music samples generated by EmoGen are available via this link:https://ai-muzic.github.io/emogen/, and the code is available at this link:https://github.com/microsoft/muzic/.
翻訳日:2023-07-06 19:34:36 公開日:2023-07-03
# ESGCN: トラフィックフロー予測のためのエッジスクイーズ注意グラフ畳み込みネットワーク

ESGCN: Edge Squeeze Attention Graph Convolutional Network for Traffic Flow Forecasting ( http://arxiv.org/abs/2307.01227v1 )

ライセンス: Link先を確認
Sangrok Lee(参考訳) トラヒックフローの動的時空間依存性のため,トラヒック予測は非常に難しい課題である。 そこで我々は,時空間力学をモデル化することに集中し,複数の領域におけるトラフィックフローを予測するためのエッジスクイーズグラフ畳み込みネットワーク (ESGCN) を提案する。 ESGCN は W-module と ES module の2つのモジュールから構成される。 W-moduleは完全にノードワイドの畳み込みネットワークである。 各トラフィック領域の時系列を別々にエンコードし、様々なスケールで時系列を分解して、細かで粗い特徴を捉える。 ESモジュールは、グラフ畳み込みネットワーク(GCN)を使用して時空間ダイナミクスをモデル化し、時間的特徴を持つ適応的適応行列(AAM)を生成する。 AAMの精度を向上させるために,3つの重要な概念を紹介した。 1) 領域間の時空間流の表現を直接捉えるためにエッジ特徴を用いる。 2)GCNにエッジアテンション機構を適用してエッジ特徴からAAMを抽出する。 ここでは、注意機構が重要な時空間隣接関係を効果的に決定できる。 3)妨害接続を抑制し,関連接続を強調するために,新しいノードのコントラスト損失を提案する。 実験結果から,ESGCNは4つの実世界のデータセット(PEMS03,04,07,08)に対して,計算コストを低くすることで,最先端の性能を達成することが示された。

Traffic forecasting is a highly challenging task owing to the dynamical spatio-temporal dependencies of traffic flows. To handle this, we focus on modeling the spatio-temporal dynamics and propose a network termed Edge Squeeze Graph Convolutional Network (ESGCN) to forecast traffic flow in multiple regions. ESGCN consists of two modules: W-module and ES module. W-module is a fully node-wise convolutional network. It encodes the time-series of each traffic region separately and decomposes the time-series at various scales to capture fine and coarse features. The ES module models the spatio-temporal dynamics using Graph Convolutional Network (GCN) and generates an Adaptive Adjacency Matrix (AAM) with temporal features. To improve the accuracy of AAM, we introduce three key concepts. 1) Using edge features to directly capture the spatiotemporal flow representation among regions. 2) Applying an edge attention mechanism to GCN to extract the AAM from the edge features. Here, the attention mechanism can effectively determine important spatio-temporal adjacency relations. 3) Proposing a novel node contrastive loss to suppress obstructed connections and emphasize related connections. Experimental results show that ESGCN achieves state-of-the-art performance by a large margin on four real-world datasets (PEMS03, 04, 07, and 08) with a low computational cost.
翻訳日:2023-07-06 19:34:08 公開日:2023-07-03
# vONTSS: 最適輸送を用いたvMFに基づく半教師付きニューラルトピックモデリング

vONTSS: vMF based semi-supervised neural topic modeling with optimal transport ( http://arxiv.org/abs/2307.01226v1 )

ライセンス: Link先を確認
Weijie Xu, Xiaoyu Jiang, Srinivasan H. Sengamedu, Francis Iannacci, Jinjin Zhao(参考訳) 近年,変分オートエンコーダにインスパイアされたニューラルトピックモデル (NTM) が注目されているが,これらの手法は人間の知識を取り入れることの難しさから,現実世界での応用が限られている。 この研究は、von Mises-Fisher (vMF) ベースの変分オートエンコーダと最適なトランスポートを用いた半教師付きニューラルトピックモデリング手法 vONTSS を提案する。 トピック毎にいくつかのキーワードが提供されると、半教師付きセッティングのvONTSSは潜在的なトピックを生成し、トピックキーワードの品質とトピック分類を最適化する。 実験により、vONTSSは、分類精度と多様性において、既存の半教師付きトピックモデリング手法よりも優れていることが示された。 vONTSSは教師なしトピックモデリングもサポートする。 定量的および定性的な実験により、教師なし設定におけるvONTSSは、複数の面で最近のNTMよりも優れていた。 また、類似の分類性能を達成しつつ、最先端の弱教師付きテキスト分類法よりもはるかに高速である。 さらに,世界最小での最適輸送損失とクロスエントロピー損失の等価性を示す。

Recently, Neural Topic Models (NTM), inspired by variational autoencoders, have attracted a lot of research interest; however, these methods have limited applications in the real world due to the challenge of incorporating human knowledge. This work presents a semi-supervised neural topic modeling method, vONTSS, which uses von Mises-Fisher (vMF) based variational autoencoders and optimal transport. When a few keywords per topic are provided, vONTSS in the semi-supervised setting generates potential topics and optimizes topic-keyword quality and topic classification. Experiments show that vONTSS outperforms existing semi-supervised topic modeling methods in classification accuracy and diversity. vONTSS also supports unsupervised topic modeling. Quantitative and qualitative experiments show that vONTSS in the unsupervised setting outperforms recent NTMs on multiple aspects: vONTSS discovers highly clustered and coherent topics on benchmark datasets. It is also much faster than the state-of-the-art weakly supervised text classification method while achieving similar classification performance. We further prove the equivalence of optimal transport loss and cross-entropy loss at the global minimum.
翻訳日:2023-07-06 19:33:47 公開日:2023-07-03
# テクスト逆数例(IT-DT)の解釈可能性と透明性駆動検出と変換

Interpretability and Transparency-Driven Detection and Transformation of Textual Adversarial Examples (IT-DT) ( http://arxiv.org/abs/2307.01225v1 )

ライセンス: Link先を確認
Bushra Sabir, M. Ali Babar, Sharif Abuadbba(参考訳) BERT、Roberta、T5、GPT-3などのトランスフォーマーベースのテキスト分類器は、NLPで顕著な性能を示している。 しかし、敵の例に対する脆弱性はセキュリティリスクを引き起こす。 既存の防御方法は解釈性に欠けており、敵の分類を理解し、モデルの脆弱性を特定するのが困難である。 そこで本稿では,IT-DT(Interpretability and Transparency-Driven Detection and Transformation)フレームワークを提案する。 テキストの逆例の検出と変換において、解釈可能性と透明性に焦点を当てている。 IT-DTは、アテンションマップ、統合された勾配、モデルフィードバックなどの技術を使用して、検出時の解釈可能性を向上させる。 これは、敵の分類に寄与する有能な特徴や摂動語を特定するのに役立つ。 トランスフォーメーションフェーズでは、IT-DTはトレーニング済みの埋め込みとモデルフィードバックを使用して、摂動単語の最適な置換を生成する。 適切な置換を見出すことにより,テキストの意味を保ちながら,モデルが意図する振る舞いと一致した,敵対的な例を非敵対的な事例に変換することを目指す。 透明性は専門家の関与を通じて強調される。 専門家は、特に複雑なシナリオにおいて、検出と変換の結果をレビューし、フィードバックします。 このフレームワークは洞察と脅威知性を生成し、アナリストに脆弱性を特定し、モデルの堅牢性を改善する。 総合的な実験は、敵のサンプルの検出と変換におけるIT-DTの有効性を示す。 このアプローチは解釈可能性を高め、透明性を提供し、敵入力の正確な識別と変換を成功させる。 技術的分析と人間の専門知識を組み合わせることで、IT-DTは、逆攻撃に対するトランスフォーマーベースのテキスト分類器のレジリエンスと信頼性を大幅に改善する。

Transformer-based text classifiers like BERT, Roberta, T5, and GPT-3 have shown impressive performance in NLP. However, their vulnerability to adversarial examples poses a security risk. Existing defense methods lack interpretability, making it hard to understand adversarial classifications and identify model vulnerabilities. To address this, we propose the Interpretability and Transparency-Driven Detection and Transformation (IT-DT) framework. It focuses on interpretability and transparency in detecting and transforming textual adversarial examples. IT-DT utilizes techniques like attention maps, integrated gradients, and model feedback for interpretability during detection. This helps identify salient features and perturbed words contributing to adversarial classifications. In the transformation phase, IT-DT uses pre-trained embeddings and model feedback to generate optimal replacements for perturbed words. By finding suitable substitutions, we aim to convert adversarial examples into non-adversarial counterparts that align with the model's intended behavior while preserving the text's meaning. Transparency is emphasized through human expert involvement. Experts review and provide feedback on detection and transformation results, enhancing decision-making, especially in complex scenarios. The framework generates insights and threat intelligence empowering analysts to identify vulnerabilities and improve model robustness. Comprehensive experiments demonstrate the effectiveness of IT-DT in detecting and transforming adversarial examples. The approach enhances interpretability, provides transparency, and enables accurate identification and successful transformation of adversarial inputs. By combining technical analysis and human expertise, IT-DT significantly improves the resilience and trustworthiness of transformer-based text classifiers against adversarial attacks.
翻訳日:2023-07-06 19:33:27 公開日:2023-07-03
# INGB:雑音不均衡分類のためのインフォームド非線形グラニュラーボールオーバーサンプリングフレームワーク

INGB: Informed Nonlinear Granular Ball Oversampling Framework for Noisy Imbalanced Classification ( http://arxiv.org/abs/2307.01224v1 )

ライセンス: Link先を確認
Min Li, Hao Zhou, Qun Liu, Yabin Shao, and Guoying Wang(参考訳) 分類問題では、データセットは通常、不均衡、ノイズ、複雑である。 ほとんどのサンプリングアルゴリズムは、合成マイノリティオーバーサンプリング技術(SMOTE)の線形サンプリング機構を若干改善するだけである。 それでも、線形オーバーサンプリングには避けられない欠点がいくつかある。 線形オーバーサンプリングは過剰フィッティングの影響を受けやすく、合成試料は多様性を欠き、元の分布特性をほとんど考慮しない。 本稿では,粒状球(ingb)をオーバーサンプリングの新たな方向とする非線形オーバーサンプリングフレームワークを提案する。 グラニュラーボールを用いてデータセットの空間分布特性をシミュレーションし、インフォームドエントロピーを用いてさらにグラニュラーボール空間を最適化する。 そして、高次元空間と等方性ガウス分布を追従して非線形オーバーサンプリングを行う。 さらに、INGBは互換性が良い。 ほとんどのSMOTEベースのサンプリングアルゴリズムと組み合わせて性能を向上させるだけでなく、ノイズの多い多重分類問題にも容易に拡張できる。 ingbの数学的モデルと理論的証明はこの研究で与えられる。 広範な実験により、ingbは複雑なデータセットのオーバーサンプリングにおいて、従来の線形サンプリングフレームワークやアルゴリズムよりも優れていることが示されている。

In classification problems, the datasets are usually imbalanced, noisy or complex. Most sampling algorithms only make some improvements to the linear sampling mechanism of the synthetic minority oversampling technique (SMOTE). Nevertheless, linear oversampling has several unavoidable drawbacks. Linear oversampling is susceptible to overfitting, and the synthetic samples lack diversity and rarely account for the original distribution characteristics. An informed nonlinear oversampling framework with the granular ball (INGB) as a new direction of oversampling is proposed in this paper. It uses granular balls to simulate the spatial distribution characteristics of datasets, and informed entropy is utilized to further optimize the granular-ball space. Then, nonlinear oversampling is performed by following high-dimensional sparsity and the isotropic Gaussian distribution. Furthermore, INGB has good compatibility. Not only can it be combined with most SMOTE-based sampling algorithms to improve their performance, but it can also be easily extended to noisy imbalanced multi-classification problems. The mathematical model and theoretical proof of INGB are given in this work. Extensive experiments demonstrate that INGB outperforms the traditional linear sampling frameworks and algorithms in oversampling on complex datasets.
翻訳日:2023-07-06 19:33:05 公開日:2023-07-03
# ランダム化測定による量子システムの解析

Analysing quantum systems with randomised measurements ( http://arxiv.org/abs/2307.01251v1 )

ライセンス: Link先を確認
Pawe{\l} Cie\'sli\'nski, Satoya Imai, Jan Dziewior, Otfried G\"uhne, Lukas Knips, Wies{\l}aw Laskowski, Jasmin Meinecke, Tomasz Paterek, Tam\'as V\'ertesi(参考訳) ランダム化測定は、共有参照フレームや測定装置の校正を必要としない物理量を決定する方法を提供する。 したがって、量子通信の文脈における量子特性のベンチマークや局所参照フレームを整列させるのが難しい計算といった状況で自然に出現する。 本稿では,量子エンタングルメントとベルの不等式に着目した様々な量子情報問題において,そのような測定を活用した進歩について述べる。 本稿では,真の多部絡みや有界絡みなど,様々な形の絡みを検知し,特徴付ける方法について述べる。 ベルの不等式は、特に粒子や設定の増大に対して、ランダムな測定でも一般的に違反される。 さらに,量子状態の他の関連する非線形関数を推定したり,ランダム化測定からシャドウトモグラフィーを行ったりする方法について概説する。 レビューを通して, 重要な実験を説明することによって, 理論的アイデアの説明を補完する。

Randomised measurements provide a way of determining physical quantities without the need for a shared reference frame nor calibration of measurement devices. Therefore, they naturally emerge in situations such as benchmarking of quantum properties in the context of quantum communication and computation where it is difficult to keep local reference frames aligned. In this review, we present the advancements made in utilising such measurements in various quantum information problems focusing on quantum entanglement and Bell inequalities. We describe how to detect and characterise various forms of entanglement, including genuine multipartite entanglement and bound entanglement. Bell inequalities are discussed to be typically violated even with randomised measurements, especially for a growing number of particles and settings. Additionally, we provide an overview of estimating other relevant nonlinear functions of a quantum state or performing shadow tomography from randomised measurements. Throughout the review, we complement the description of theoretical ideas by explaining key experiments.
翻訳日:2023-07-06 19:27:28 公開日:2023-07-03
# 超流動ヘルムホルツ共振器の3トーンコヒーレントマイクロ波電気機械計測

Three-Tone Coherent Microwave Electromechanical Measurement of a Superfluid Helmholtz Resonator ( http://arxiv.org/abs/2307.01250v1 )

ライセンス: Link先を確認
Sebastian Spence (1), Emil Varga (2), Clinton A. Potts (3), John P. Davis (1) ((1) Department of Physics, University of Alberta, (2) Faculty of Mathematics and Physics, Charles University, (3) Kavli Institute of NanoScience, Delft University of Technology)(参考訳) 超流動メカニカルモードとマイクロ波モードとの電気力学的結合をパターン化されたマイクロ流体チップと3次元キャビティで示す。 チップキャビティマイクロ波共振器の電界は、幾何学的閉じ込めによって予測される純粋なスーパーフローヘルムホルツモードの運動の駆動と検出の両方に利用できる。 この結合は、サイドバンド未解決レジームの深い弱結合を測定するために開発されたコヒーレント測定技術を用いて特徴づけられる。 この手法は振幅変調を用いた2プローブの光学的透過/増幅に基づく。 2つのプローブ音を別々に測定する代わりに、機械的な動きと整合した信号のみを保持するよう干渉される。 この方法では、従来の超流動電気機械実験よりも3桁大きく、真空電気機械結合強度が$g_0 = 2\pi \times 23.3$ $\mathrm{\mu}$hzである。

We demonstrate electromechanical coupling between a superfluid mechanical mode and a microwave mode formed by a patterned microfluidic chip and a 3D cavity. The electric field of the chip-cavity microwave resonator can be used to both drive and detect the motion of a pure superflow Helmholtz mode, which is dictated by geometric confinement. The coupling is characterized using a coherent measurement technique developed for measuring weak couplings deep in the sideband unresolved regime. The technique is based on two-probe optomechanically induced transparency/amplification using amplitude modulation. Instead of measuring two probe tones separately, they are interfered to retain only a signal coherent with the mechanical motion. With this method, we measure a vacuum electromechanical coupling strength of $g_0 = 2\pi \times 23.3$ $\mathrm{\mu}$Hz, three orders of magnitude larger than previous superfluid electromechanical experiments.
翻訳日:2023-07-06 19:27:13 公開日:2023-07-03
# 外部平衡系に対する動的射影演算法(DPOA)とそのTR-ARPESへの応用

Dynamical Projective Operatorial Approach (DPOA) for out-of-equilibrium systems and its application to TR-ARPES ( http://arxiv.org/abs/2307.01244v1 )

ライセンス: Link先を確認
Amir Eskandari-asl and Adolfo Avella (University of Salerno, Italy)(参考訳) TR-ARPES信号や微分過渡光学特性など、関連する応答関数の時間的進化を確実に計算し、時間依存の場を応用した実物質を効果的にシミュレーションすることは、実験外平衡物理学のあらゆる分野における最近の発展に対応する現代の凝縮物質理論の主要な関心事の一つとなっている。 本稿では,現在利用可能な手法の限界と欠点を克服するために,動的射影演算法 (DPOA) を新たに提案する。 リライジング (i)多体第二量子化形式と複合作用素、DPOAは原則として弱相関系と強相関系の両方を扱うことができる。 (II)DFTバンド構造の強結合アプローチと弱化、DPOAは自然に実物質の複雑さと非常に多くの自由度を扱う。 三 双極子ゲージ及びピエルス置換DPOAは、ポンプ式システム、特にポンププローブ分光器に対処するために構築されている。 (iv)我々はアドホックを考案し、dpoaは数値的に非常に効率的で高速である。 後者の拡張は、単光子共鳴、剛性シフト、バンドドレッシング、および異なる種類のサイドバンドがどのように出現し、関連する現象の理解を可能にするかを明らかにする。 dpoaを単粒子密度行列法とヒューストン法(後者は第二量子化形式に一般化されている)と比較し、多粒子多時間相関関数を計算し、実材料に対するこれらのアプローチを越え得る方法を示す。 また,単光子および多光子共鳴の強度を評価し,各結晶運動量およびバンドの残留励起電子集団を特定の励起過程に割り当てるプロトコルを提案する。 その表現は...

Efficiently simulating real materials under the application of a time-dependent field and computing reliably the evolution over time of relevant response functions, such as the TR-ARPES signal or differential transient optical properties, has become one of the main concerns of modern condensed matter theory in response to the recent developments in all areas of experimental out-of-equilibrium physics. In this manuscript, we propose a novel model-Hamiltonian method, the dynamical projective operatorial approach (DPOA), designed and developed to overcome some of the limitations and drawbacks of currently available methods. Relying on (i) many-body second-quantization formalism and composite operators, DPOA is in principle capable of handling both weakly and strongly correlated systems, (ii) tight-binding approach and wannierization of DFT band structures, DPOA naturally deals with the complexity and the very many degrees of freedom of real materials, (iii) dipole gauge and Peierls substitution, DPOA is built to address pumped systems and, in particular, pump-probe spectroscopies, (iv) a Peierls expansion we have devised ad hoc, DPOA is numerically extremely efficient and fast. The latter expansion clarifies how single- and multi-photon resonances, rigid shifts, band dressings, and different types of sidebands emerge and allows understanding the related phenomenologies. Comparing DPOA to the single-particle density-matrix approach and the Houston method (this latter is generalized to second-quantization formalism), we show how it can compute multi-particle multi-time correlation functions and go well beyond these approaches for real materials. We also propose protocols for evaluating the strength of single- and multi-photon resonances and for assigning the residual excited electronic population at each crystal momentum and band to a specific excitation process. The expression for ...
翻訳日:2023-07-06 19:26:55 公開日:2023-07-03
# 単結晶ダイヤモンドにおける窒素空孔アンサンブルの最適制御理論技術

Optimal Control Theory Techniques for Nitrogen Vacancy Ensembles in Single Crystal Diamond ( http://arxiv.org/abs/2307.01242v1 )

ライセンス: Link先を確認
Madelaine S.Z. Liddy, Troy Borneman, Peter Sprenger and David Cory(参考訳) 窒素Vacancy Center Ensemblesは、ベクトル磁力計能力、室温での展開性、単純な光学初期化と読み出しにより、量子センサーの優れた候補である。 本研究は,nvアンサンブルの4つの原理軸系(p.a.s.)すべてを静磁場を印加することなく制御するために必要な工学的・キャラクタリゼーション手法について述べる。 円偏光マイクロ波は、スピンロック実験と(100)ダイヤモンドの最適制御理論(OCT)を用いた集団制御による任意の同時制御を可能にする。 これらの技術はさらに改良され、4つのP.A.S.システム全てを用いて高感度NVベースの量子センシングデバイスを実現するために統合される。

Nitrogen Vacancy Center Ensembles are excellent candidates for quantum sensors due to their vector magnetometry capabilities, deployability at room temperature and simple optical initialization and readout. This work describes the engineering and characterization methods required to control all four Principle Axis Systems (P.A.S.) of NV ensembles in a single crystal diamond without an applied static magnetic field. Circularly polarized microwaves enable arbitrary simultaneous control with spin-locking experiments and collective control using Optimal Control Theory (OCT) in a (100) diamond. These techniques may be further improved and integrated to realize high sensitivity NV-based quantum sensing devices using all four P.A.S. systems.
翻訳日:2023-07-06 19:26:18 公開日:2023-07-03
# グラフニューラルネットワークを用いた量子誤り訂正符号のデータ駆動復号

Data-driven decoding of quantum error correcting codes using graph neural networks ( http://arxiv.org/abs/2307.01241v1 )

ライセンス: Link先を確認
Moritz Lange, Pontus Havstr\"om, Basudha Srivastava, Valdemar Bergentall, Karl Hammar, Olivia Heuts, Evert van Nieuwenburg, and Mats Granath(参考訳) 量子誤り訂正安定化符号の可能性を最大限に活用するには、効率的で正確なデコーダを持つことが不可欠である。 より効率的なアルゴリズムに基づくデコーダは最適な性能を与えるが、正確で最大確率のデコーダは計算量が非常に高価である。 さらに、精度はモデルの品質や、キュービット、ゲート、測定値、リセットのエラー率の見積にも依存し、典型的には対称なエラーチャネルを想定する。 そこで本研究では,グラフニューラルネットワーク(GNN)を用いて,モデルフリーでデータ駆動型のデコーディングアプローチを提案する。 復号問題は、ニューラルネットワークが最も起こりうる論理誤差クラスを予測する注釈付き検出器グラフに安定化器の測定セットをマッピングするグラフ分類タスクとして定式化される。 gnnベースのデコーダは、シミュレーション実験データのみを与えられた表面符号の回路レベルノイズに対するマッチングデコーダを、基礎となるエラーモデルの完全な情報を与えても上回ることができることを示す。 トレーニングは計算的に要求されるが、推論は高速であり、コードの時空ボリュームとほぼ線形にスケールする。 また、繰り返しコードに対して、Google Quantum AI, Nature {\bf 614}, 676 (2023)] の実際の実験データの大規模なデータセットを使用することで、最小ウェイト完全マッチングと同等のデコード精度が得られることもわかりました。 以上の結果から,デコードに対する純粋にデータ駆動型アプローチは,高速,精度,汎用性の面で競争力のある,実用的な量子誤り訂正の選択肢となる可能性が示唆された。

To leverage the full potential of quantum error-correcting stabilizer codes it is crucial to have an efficient and accurate decoder. Accurate, maximum likelihood, decoders are computationally very expensive whereas decoders based on more efficient algorithms give sub-optimal performance. In addition, the accuracy will depend on the quality of models and estimates of error rates for idling qubits, gates, measurements, and resets, and will typically assume symmetric error channels. In this work, instead, we explore a model-free, data-driven, approach to decoding, using a graph neural network (GNN). The decoding problem is formulated as a graph classification task in which a set of stabilizer measurements is mapped to an annotated detector graph for which the neural network predicts the most likely logical error class. We show that the GNN-based decoder can outperform a matching decoder for circuit level noise on the surface code given only simulated experimental data, even if the matching decoder is given full information of the underlying error model. Although training is computationally demanding, inference is fast and scales approximately linearly with the space-time volume of the code. We also find that we can use large, but more limited, datasets of real experimental data [Google Quantum AI, Nature {\bf 614}, 676 (2023)] for the repetition code, giving decoding accuracies that are on par with minimum weight perfect matching. The results show that a purely data-driven approach to decoding may be a viable future option for practical quantum error correction, which is competitive in terms of speed, accuracy, and versatility.
翻訳日:2023-07-06 19:26:06 公開日:2023-07-03
# MWPRanker:表現類似性に基づく数学語問題検索

MWPRanker: An Expression Similarity Based Math Word Problem Retriever ( http://arxiv.org/abs/2307.01240v1 )

ライセンス: Link先を確認
Mayank Goel, Venktesh V, and Vikram Goyal(参考訳) オンラインアセスメントにおける数学語問題(MWP)は、学習者が言語情報を解釈することで重要な推論を行う能力をテストするのに役立つ。 学習者の数学的推論能力をテストするために、問題を言い換えたり、元のMWPのテーマ設定を変更したりすることがある。 同様の問題モデルを持つMWPを手動で識別することは困難であるため,本研究ではMWP検索のためのツールを提案する。 類似のMWPを同じ問題モデルで検索するハイブリッド手法を提案する。 私たちの研究では、問題モデルはソリューションに到達するために実行する操作のシーケンスを指しています。 本手法は,mwpの算術的・論理的シーケンスを把握できない意味的類似性に基づくアプローチよりも,上記のタスクに有用であることを示す。 ツールのデモはhttps://www.youtube.com/watch? v=gSQWP3chFIs

Math Word Problems (MWPs) in online assessments help test the ability of the learner to make critical inferences by interpreting the linguistic information in them. To test the mathematical reasoning capabilities of the learners, sometimes the problem is rephrased or the thematic setting of the original MWP is changed. Since manual identification of MWPs with similar problem models is cumbersome, we propose a tool in this work for MWP retrieval. We propose a hybrid approach to retrieve similar MWPs with the same problem model. In our work, the problem model refers to the sequence of operations to be performed to arrive at the solution. We demonstrate that our tool is useful for the mentioned tasks and better than semantic similarity-based approaches, which fail to capture the arithmetic and logical sequence of the MWPs. A demo of the tool can be found at https://www.youtube.com/watch?v=gSQWP3chFIs
翻訳日:2023-07-06 19:25:35 公開日:2023-07-03
# 表在性グリカ血症予測のための文法進化型学習方程式

Learning Difference Equations with Structured Grammatical Evolution for Postprandial Glycaemia Prediction ( http://arxiv.org/abs/2307.01238v1 )

ライセンス: Link先を確認
Daniel Parra, David Joedicke, J. Manuel Velasco, Gabriel Kronberger, J. Ignacio Hidalgo(参考訳) 糖尿病患者は、特に食事後に血糖値を注意深く監視する必要がある。 血糖調節には、食物摂取とインスリン代謝の適切な組み合わせが必要である。 グルコースの予測は、糖尿病患者に対する危険な食後合併症を避けるのに不可欠である。 ニューラルネットワークなどの従来の手法は高い精度を示してきたが、解釈能力の欠如により医師によるパーソナライズされた治療には適さない場合もある。 本研究では,解釈可能性を重視した新しいグルコース予測手法を提案する。 前回のクラスタリングと組み合わせることで,食事後最大2時間までの血糖値を予測するための差分式が提供される。 データセットを4時間区分に分割し,食事前の2時間ウィンドウの血糖値に基づいてクラスタリングを行う。 予測モデルは、食事の後2時間のウィンドウで各クラスタでトレーニングされ、15分間のステップで予測が可能となり、異なる時間軸で最大8つの予測が得られる。 予測安全性はParkes Error Grid領域に基づいて評価した。 本手法は,説明可能な表現による安全な予測,ゾーンD(0.2%平均)とE(0%)の回避,ゾーンC(6.2%)の予測の削減などを実現する。 さらに,提案手法は非線形力学や人工ニューラルネットワークのスパース同定など,他の手法よりも若干精度が良い。 以上の結果から,本提案手法は,糖尿病管理におけるグルコース予測に有望なアプローチであり,精度,解釈可能性,計算効率の両立を図っている。

People with diabetes must carefully monitor their blood glucose levels, especially after eating. Blood glucose regulation requires a proper combination of food intake and insulin boluses. Glucose prediction is vital to avoid dangerous post-meal complications in treating individuals with diabetes. Although traditional methods, such as artificial neural networks, have shown high accuracy rates, sometimes they are not suitable for developing personalised treatments by physicians due to their lack of interpretability. In this study, we propose a novel glucose prediction method emphasising interpretability: Interpretable Sparse Identification by Grammatical Evolution. Combined with a previous clustering stage, our approach provides finite difference equations to predict postprandial glucose levels up to two hours after meals. We divide the dataset into four-hour segments and perform clustering based on blood glucose values for the twohour window before the meal. Prediction models are trained for each cluster for the two-hour windows after meals, allowing predictions in 15-minute steps, yielding up to eight predictions at different time horizons. Prediction safety was evaluated based on Parkes Error Grid regions. Our technique produces safe predictions through explainable expressions, avoiding zones D (0.2% average) and E (0%) and reducing predictions on zone C (6.2%). In addition, our proposal has slightly better accuracy than other techniques, including sparse identification of non-linear dynamics and artificial neural networks. The results demonstrate that our proposal provides interpretable solutions without sacrificing prediction accuracy, offering a promising approach to glucose prediction in diabetes management that balances accuracy, interpretability, and computational efficiency.
翻訳日:2023-07-06 19:25:21 公開日:2023-07-03
# 散布過程分類のためのスナップショットマージによる動的グラフエコー状態ネットワーク

Dynamical Graph Echo State Networks with Snapshot Merging for Dissemination Process Classification ( http://arxiv.org/abs/2307.01237v1 )

ライセンス: Link先を確認
Ziqiang Li, Kantaro Fujiwara, Gouhei Tanaka(参考訳) 分散プロセス分類(DPC)は、時間グラフ分類の一般的な応用である。 DPCの目的は、離散時間時間時間グラフで表されるコミュニティ内の異なる情報の拡散パターンや浸透パターンを分類することである。 近年,動的グラフエコー状態ネットワーク(dyngesn)と呼ばれる貯留層計算に基づくモデルが提案されている。 本研究では、dpcタスクを扱うために、スナップショットマージと呼ばれる新しいデータ拡張戦略とdyngesnを組み合わせた新しいモデルを提案する。 本モデルでは,近傍のスナップショットを時間的にマージして新たなスナップショットを生成するためにスナップショットマージ戦略を設計し,その上で,統合スナップショットから時空間的特徴をキャプチャするための複数のリザーバエンコーダを設定する。 その後、ロジスティック回帰は、合計プール埋め込みを分類結果にデコードするために採用される。 6つのベンチマークDPCデータセットによる実験結果から,提案モデルの方がDynGESNやカーネルベースモデルよりも優れた分類性能を示した。

The Dissemination Process Classification (DPC) is a popular application of temporal graph classification. The aim of DPC is to classify different spreading patterns of information or pestilence within a community represented by discrete-time temporal graphs. Recently, a reservoir computing-based model named Dynamical Graph Echo State Network (DynGESN) has been proposed for processing temporal graphs with relatively high effectiveness and low computational costs. In this study, we propose a novel model which combines a novel data augmentation strategy called snapshot merging with the DynGESN for dealing with DPC tasks. In our model, the snapshot merging strategy is designed for forming new snapshots by merging neighboring snapshots over time, and then multiple reservoir encoders are set for capturing spatiotemporal features from merged snapshots. After those, the logistic regression is adopted for decoding the sum-pooled embeddings into the classification results. Experimental results on six benchmark DPC datasets show that our proposed model has better classification performances than the DynGESN and several kernel-based models.
翻訳日:2023-07-06 19:24:56 公開日:2023-07-03
# Rockmate: PyTorchの効率的な、高速、自動、ジェネリックな再物質化ツール

Rockmate: an Efficient, Fast, Automatic and Generic Tool for Re-materialization in PyTorch ( http://arxiv.org/abs/2307.01236v1 )

ライセンス: Link先を確認
Xunyi Zhao, Th\'eotime Le Hellard, Lionel Eyraud, Julia Gusak, Olivier Beaumont(参考訳) PyTorch DNNモデルのトレーニングにおいて,メモリ要求を制御するためにRockmateを提案する。 rockmateは、モデルコードから始まり、アクティベーションのために事前定義されたメモリ量を使用して、いくつかの再計算のコストで等価なモデルを生成する自動ツールである。 Rockmateは計算およびデータ依存の構造を自動的に検出し、初期モデルを複雑なブロックのシーケンスとして書き換える。 このような構造は広く、文献の多くのモデル(Transformerベースのモデル、ResNet、RegNets、...)で見ることができることを示す。 この構造により、個々のブロックのレベルでチェックメイト(モデル全体では遅すぎるが一般的には遅い)の適応と、シーケンス自体のレベルでのローター(高速だがシーケンシャルなモデルに限定される)の適応を用いて、高速で効率的な方法で問題を解決できます。 私たちは、RockmateがRotorと同じくらい高速で、Checkmateと同等の効率で、比較的無視できるオーバーヘッド(10%から20%のオーバヘッド)に対して、アクティベーションのメモリ消費(2~5倍)が著しく低いことを多くのモデルで示しています。 Rockmateはオープンソースでhttps://github.com/topal-team/rockmate.comから入手できる。

We propose Rockmate to control the memory requirements when training PyTorch DNN models. Rockmate is an automatic tool that starts from the model code and generates an equivalent model, using a predefined amount of memory for activations, at the cost of a few re-computations. Rockmate automatically detects the structure of computational and data dependencies and rewrites the initial model as a sequence of complex blocks. We show that such a structure is widespread and can be found in many models in the literature (Transformer based models, ResNet, RegNets,...). This structure allows us to solve the problem in a fast and efficient way, using an adaptation of Checkmate (too slow on the whole model but general) at the level of individual blocks and an adaptation of Rotor (fast but limited to sequential models) at the level of the sequence itself. We show through experiments on many models that Rockmate is as fast as Rotor and as efficient as Checkmate, and that it allows in many cases to obtain a significantly lower memory consumption for activations (by a factor of 2 to 5) for a rather negligible overhead (of the order of 10% to 20%). Rockmate is open source and available at https://github.com/topal-team/rockmate.
翻訳日:2023-07-06 19:24:36 公開日:2023-07-03
# 量子力学における一般化散乱理論

A generalized scattering theory in quantum mechanics ( http://arxiv.org/abs/2307.01235v1 )

ライセンス: Link先を確認
Huai-Yu Wang(参考訳) 量子力学の教科書では、単粒子散乱理論が導入された。 本研究では,任意の粒子数の散乱問題に対して原理的に適用可能な一般化散乱理論を提案する。 実験室では、一般化されたリップマン・シュウィンガー散乱方程式が導出される。 無限小を扱いさえも、導出は厳格であることを強調した。 分析的継続のような手動操作は許されない。 n個の粒子が平面波であり、散乱の後に新しい平面波となる場合、遷移振幅と遷移確率が与えられ、一般化されたs行列が提示される。 平面波の組からn粒子の新しい平面波の組への遷移確率は、逆過程のそれと等しいことが証明された。 一般化理論は、一粒子散乱と二粒子散乱の2つの例に適用される。 単粒子散乱問題に適用すると、我々の一般化された形式論は文学でよく見られる問題に分解される。 一般化された理論を二粒子散乱問題に適用すると、二粒子衝突の遷移確率の式が与えられる。 2つの自由粒子の散乱の遷移確率は相反過程のそれと同一であることが示されている。 この遷移確率とアイデンティティは統計力学におけるボルツマン輸送方程式の導出に必要である。 同一粒子の場合についても考察する。

In quantum mechanics textbooks, a single-particle scattering theory is introduced. In the present work, a generalized scattering theory is presented, which can be in principle applied to the scattering problems of arbitrary number of particle. In laboratory frame, a generalized Lippmann-Schwinger scattering equation is derived. We emphasized that the derivation is rigorous, even for treating infinitesimals. No manual operation such as analytical continuation is allowed. In the case that before scattering N particles are plane waves and after the scattering they are new plane waves, the transition amplitude and transition probability are given and the generalized S matrix is presented. It is proved that the transition probability from a set of plane waves to a new set of plane waves of the N particles equal to that of the reciprocal process. The generalized theory is applied to the cases of one- and two-particle scattering as two examples. When applied to single-particle scattering problems, our generalized formalism degrades to that usually seen in the literature. When our generalized theory is applied to two-particle scattering problems, the formula of the transition probability of two-particle collision is given. It is shown that the transition probability of the scattering of two free particles is identical to that of the reciprocal process. This transition probability and the identity are needed in deriving Boltzmann transport equation in statistical mechanics. The case of identical particles is also discussed.
翻訳日:2023-07-06 19:24:14 公開日:2023-07-03
# クアッドコプター制御のためのハイブリッドアクタクリティカルベースニューラルネットワークによる自己調整型PID制御

Self-Tuning PID Control via a Hybrid Actor-Critic-Based Neural Structure for Quadcopter Control ( http://arxiv.org/abs/2307.01312v1 )

ライセンス: Link先を確認
Iman Sharifi, Aria Alasty(参考訳) Proportional-Integrator-Derivative (PID) コントローラは、幅広い産業および実験プロセスで使用されている。 PIDゲインをチューニングするためのオフラインメソッドはいくつかあります。 しかし、モデルパラメータの不確実性と外乱のため、Quadrotorsのような実際のシステムはより堅牢で信頼性の高いPIDコントローラを必要とする。 本研究では,クアドロレータの姿勢・高度制御のための強化学習型ニューラルネットワークを用いた自己調整型PIDコントローラについて検討した。 静的および動的ゲインを含むインクリメンタルPIDが検討され、可変ゲインのみがチューニングされている。 動的ゲインをチューニングするために、PIDゲインを適切にチューニングできるモデルフリーアクターベースのハイブリッドニューラル構造を使用しており、識別子としても最善を尽くしている。 2つの隠れ層とsgmoidアクティベーション関数を持つニューラルネットワークは, 適応運動量(adam)オプティマイザとバックプロパゲーション(bp)アルゴリズムを用いて学習した。 この方法はオンラインであり、障害に対処し、訓練を素早く行うことができる。 質量不確実性や風のガスト乱に対するロバスト性に加えて, 一定ゲインを有するPIDコントローラと比較して, 提案手法は良好な性能を示した。

Proportional-Integrator-Derivative (PID) controller is used in a wide range of industrial and experimental processes. There are a couple of offline methods for tuning PID gains. However, due to the uncertainty of model parameters and external disturbances, real systems such as Quadrotors need more robust and reliable PID controllers. In this research, a self-tuning PID controller using a Reinforcement-Learning-based Neural Network for attitude and altitude control of a Quadrotor has been investigated. An Incremental PID, which contains static and dynamic gains, has been considered and only the variable gains have been tuned. To tune dynamic gains, a model-free actor-critic-based hybrid neural structure was used that was able to properly tune PID gains, and also has done the best as an identifier. In both tunning and identification tasks, a Neural Network with two hidden layers and sigmoid activation functions has been learned using Adaptive Momentum (ADAM) optimizer and Back-Propagation (BP) algorithm. This method is online, able to tackle disturbance, and fast in training. In addition to robustness to mass uncertainty and wind gust disturbance, results showed that the proposed method had a better performance when compared to a PID controller with constant gains.
翻訳日:2023-07-06 19:16:58 公開日:2023-07-03
# 自動運転車?

Autonomous Vehicles for All? ( http://arxiv.org/abs/2307.01311v1 )

ライセンス: Link先を確認
Sakib Mahmud Khan, M Sabbir Salek, Vareva Harris, Gurcan Comert, Eric Morris, and Mashrur Chowdhury(参考訳) 従来の構築と拡張のアプローチは、道路交通の安全を維持するための有効なソリューションではないため、自律走行車(AV)のような技術ソリューションが好まれる。 AVは、道路の輸送能力を高め、運転の混乱を緩和し、安全を改善し、運転できない人のための移動手段を提供し、環境を助ける大きな可能性を持っている。 しかし、公正性、公平性、透明性などの問題を考慮し、社会的責任があるかどうかという懸念も持ち上がっている。 規制機関は、avの安全性、サイバーセキュリティ、プライバシー、法的責任の問題に焦点を合わせているが、社会的責任に適切に対処できていない。 したがって、既存のav開発者は独自の技術に社会的責任を組み込む必要はない。 したがって、AV技術の開発と展開において逆バイアスが発生する可能性がある。 例えば、avで使用される人工知能ベースの歩行者検出アプリケーションは、限られた照明条件下では、他の人種の歩行者よりも特定の人種の歩行者をより効率的に検出するために偏りがある。 また、av技術はコストがかかる傾向があり、低所得者の手の届かない、ユニークなハードウェアとソフトウェアの設定がある。 さらに、AVがユーザーについて生成したデータは、企業、犯罪者、外国政府などの第三者によって誤用される可能性がある。 avsは、運転に関わる多くの仕事が冗長になるので、労働市場に劇的に影響を与えると約束している。 AV開発と展開を監督する学術機関、産業、政府機関は、AVがすべてに役立ち、我々の社会におけるデジタル格差を増大させないよう、積極的に行動しなければなりません。

The traditional build-and-expand approach is not a viable solution to keep roadway traffic rolling safely, so technological solutions, such as Autonomous Vehicles (AVs), are favored. AVs have considerable potential to increase the carrying capacity of roads, ameliorate the chore of driving, improve safety, provide mobility for those who cannot drive, and help the environment. However, they also raise concerns over whether they are socially responsible, accounting for issues such as fairness, equity, and transparency. Regulatory bodies have focused on AV safety, cybersecurity, privacy, and legal liability issues, but have failed to adequately address social responsibility. Thus, existing AV developers do not have to embed social responsibility factors in their proprietary technology. Adverse bias may therefore occur in the development and deployment of AV technology. For instance, an artificial intelligence-based pedestrian detection application used in an AV may, in limited lighting conditions, be biased to detect pedestrians who belong to a particular racial demographic more efficiently compared to pedestrians from other racial demographics. Also, AV technologies tend to be costly, with a unique hardware and software setup which may be beyond the reach of lower-income people. In addition, data generated by AVs about their users may be misused by third parties such as corporations, criminals, or even foreign governments. AVs promise to dramatically impact labor markets, as many jobs that involve driving will be made redundant. We argue that the academic institutions, industry, and government agencies overseeing AV development and deployment must act proactively to ensure that AVs serve all and do not increase the digital divide in our society.
翻訳日:2023-07-06 19:16:37 公開日:2023-07-03
# 名前付きエンティティ認識の探索:言語横断的な視点

Exploring Spoken Named Entity Recognition: A Cross-Lingual Perspective ( http://arxiv.org/abs/2307.01310v1 )

ライセンス: Link先を確認
Moncef Benaicha, David Thulke, M. A. Tu\u{g}tekin Turan(参考訳) 名前付きエンティティ認識(ner)の最近の進歩は、テキストデータにおけるエンティティの識別を大幅に改善した。 しかし、音声文書検索の専門分野であるNERは、限られた研究と少ないデータセットのために遅れている。 さらに,言語間転置学習はいまだに未検討のままである。 本稿では,パイプラインとエンドツーエンド(e2e)スキームを用いて,オランダ語,英語,ドイツ語間の転送学習を行う。 カスタム擬似注釈データセットにwav2vec2-xls-rモデルを適用し,言語間システムの適応性について検討した。 その結果、End-to-End音声NERは、限られたアノテーションよりもパイプラインベースの代替よりも優れていた。 特に、ドイツ語からオランダ語への移行学習はオランダのE2Eシステムを7%、オランダのパイプラインシステムを4%上回っている。 本研究は, 音声NERにおける伝達学習の実現可能性だけでなく, 今後の評価にも期待できる結果を示すとともに, 総合的なデータ収集の必要性を示唆している。

Recent advancements in Named Entity Recognition (NER) have significantly improved the identification of entities in textual data. However, spoken NER, a specialized field of spoken document retrieval, lags behind due to its limited research and scarce datasets. Moreover, cross-lingual transfer learning in spoken NER has remained unexplored. This paper utilizes transfer learning across Dutch, English, and German using pipeline and End-to-End (E2E) schemes. We employ Wav2Vec2-XLS-R models on custom pseudo-annotated datasets and investigate several architectures for the adaptability of cross-lingual systems. Our results demonstrate that End-to-End spoken NER outperforms pipeline-based alternatives over our limited annotations. Notably, transfer learning from German to Dutch surpasses the Dutch E2E system by 7% and the Dutch pipeline system by 4%. This study not only underscores the feasibility of transfer learning in spoken NER but also sets promising outcomes for future evaluations, hinting at the need for comprehensive data collection to augment the results.
翻訳日:2023-07-06 19:16:11 公開日:2023-07-03
# 最適学習におけるchebyshevバウンド獲得のための数値解法

A numerical algorithm for attaining the Chebyshev bound in optimal learning ( http://arxiv.org/abs/2307.01304v1 )

ライセンス: Link先を確認
Pradyumna Paruchuri, Debasish Chatterjee(参考訳) バナッハ空間のコンパクト部分集合が与えられたとき、チェビシェフ中心問題は集合を含む極小周球を見つけることである。 本稿では、有限個のデータ点から最適学習の文脈において、チェビシェフ中心問題を解くための数値的扱いやすいアルゴリズムを定式化する。 バナッハ空間の有限次元部分空間のコンパクトだが必ずしも凸部分集合として実現されていない仮説空間に対して、このアルゴリズムは、仮説空間のチェビシェフ半径とチェビシェフ中心を計算し、データから関数を最適に回復する問題を解決する。 このアルゴリズム自体は、ターゲットサンプリングによる凸半無限問題のほぼ最適解に対する最近の結果に基づいて、さらに大幅に拡張されている。 チェビシェフ中心の数値計算のいくつかの例は、アルゴリズムの有効性を説明するために含まれている。

Given a compact subset of a Banach space, the Chebyshev center problem consists of finding a minimal circumscribing ball containing the set. In this article we establish a numerically tractable algorithm for solving the Chebyshev center problem in the context of optimal learning from a finite set of data points. For a hypothesis space realized as a compact but not necessarily convex subset of a finite-dimensional subspace of some underlying Banach space, this algorithm computes the Chebyshev radius and the Chebyshev center of the hypothesis space, thereby solving the problem of optimal recovery of functions from data. The algorithm itself is based on, and significantly extends, recent results for near-optimal solutions of convex semi-infinite problems by means of targeted sampling, and it is of independent interest. Several examples of numerical computations of Chebyshev centers are included in order to illustrate the effectiveness of the algorithm.
翻訳日:2023-07-06 19:15:53 公開日:2023-07-03
# 信頼性の高いAI:次世代の量子コンピューティングは必要か?

Reliable AI: Does the Next Generation Require Quantum Computing? ( http://arxiv.org/abs/2307.01301v1 )

ライセンス: Link先を確認
Aras Bacho, Holger Boche, Gitta Kutyniok(参考訳) 本研究では、次世代の人工知能が量子コンピューティングを必要とするかどうかという根本的な疑問を探究する。 人工知能は私たちの日常生活において重要な役割を担っており、第4次産業革命の中心となっている。 したがって、人工知能が信頼性と信頼性を持つことが必須である。 しかし、自動運転、医療、ロボティクスなどの分野において、プライバシ、責任、安全性、セキュリティなど、人工知能の信頼性にはまだ多くの問題がある。 これらの問題には、不十分なデータ、バイアス、堅牢性問題、およびデジタルハードウェアにおける計算可能性問題など、様々な原因がある。 これらの計算可能性問題の原因は、デジタルハードウェアが本質的に離散的なチューリングマシンの計算モデルに基づいているという事実にある。 特に,デジタルハードウェアは最適化,深層学習,微分方程式の問題解決に本質的に制約されている。 したがって、これらの制限は人工知能の分野、特に機械学習に重大な意味を持つ。 さらに、量子コンピュータがある種の問題に対して量子的優位性を示すことはよく知られているが、量子回路や量子チューリングマシンのパラダイムに基づく量子コンピューティングモデルを使用する場合、これらの制限の一部は持続する。 対照的に、Blum-Shub-Smale マシンのようなアナログコンピューティングモデルは、これらの制限を克服する可能性を示している。

In this survey, we aim to explore the fundamental question of whether the next generation of artificial intelligence requires quantum computing. Artificial intelligence is increasingly playing a crucial role in many aspects of our daily lives and is central to the fourth industrial revolution. It is therefore imperative that artificial intelligence is reliable and trustworthy. However, there are still many issues with reliability of artificial intelligence, such as privacy, responsibility, safety, and security, in areas such as autonomous driving, healthcare, robotics, and others. These problems can have various causes, including insufficient data, biases, and robustness problems, as well as fundamental issues such as computability problems on digital hardware. The cause of these computability problems is rooted in the fact that digital hardware is based on the computing model of the Turing machine, which is inherently discrete. Notably, our findings demonstrate that digital hardware is inherently constrained in solving problems about optimization, deep learning, or differential equations. Therefore, these limitations carry substantial implications for the field of artificial intelligence, in particular for machine learning. Furthermore, although it is well known that the quantum computer shows a quantum advantage for certain classes of problems, our findings establish that some of these limitations persist when employing quantum computing models based on the quantum circuit or the quantum Turing machine paradigm. In contrast, analog computing models, such as the Blum-Shub-Smale machine, exhibit the potential to surmount these limitations.
翻訳日:2023-07-06 19:15:39 公開日:2023-07-03
# フィラデルフィア・インクワイアラーにおける物質利用範囲の進化

The Evolution of Substance Use Coverage in the Philadelphia Inquirer ( http://arxiv.org/abs/2307.01299v1 )

ライセンス: Link先を確認
Layla Bouzoubaa, Ramtin Ehsani, Preetha Chatterjee, Rezvaneh Rezapour(参考訳) メディアによる違法物質の使用の表現は、依存症に苦しむ個人に対する有害なステレオタイプやスティグマティゼーションにつながり、最終的には公衆の認識、政策、公衆衛生の結果に影響を及ぼす。 この研究は、10年以上にわたってフィラデルフィア・インクワイアラーに掲載された157,476の論文を分析しました。 具体的には、少なくとも1つの乱用物質について言及した記事に焦点を当て、3,903件のサンプルを作成した。 分析の結果,大麻と麻薬が最も頻繁に議論される薬物クラスであることが判明した。 幻覚剤は他のカテゴリーよりもポジティブに描かれるが、麻薬は最もネガティブに描かれる。 本研究は,メディアにおける薬物使用と依存の正確かつ包括的な描写の必要性を強調することを目的としている。

The media's representation of illicit substance use can lead to harmful stereotypes and stigmatization for individuals struggling with addiction, ultimately influencing public perception, policy, and public health outcomes. To explore how the discourse and coverage of illicit drug use changed over time, this study analyzes 157,476 articles published in the Philadelphia Inquirer over a decade. Specifically, the study focuses on articles that mentioned at least one commonly abused substance, resulting in a sample of 3,903 articles. Our analysis shows that cannabis and narcotics are the most frequently discussed classes of drugs. Hallucinogenic drugs are portrayed more positively than other categories, whereas narcotics are portrayed the most negatively. Our research aims to highlight the need for accurate and inclusive portrayals of substance use and addiction in the media.
翻訳日:2023-07-06 19:15:16 公開日:2023-07-03
# Pareto-Secure Machine Learning (PSML):フィンガープリントとセキュア推論サービングシステム

Pareto-Secure Machine Learning (PSML): Fingerprinting and Securing Inference Serving Systems ( http://arxiv.org/abs/2307.01292v1 )

ライセンス: Link先を確認
Debopam Sanyal (Georgia Institute of Technology), Jui-Tse Hung (Georgia Institute of Technology), Manav Agrawal (Georgia Institute of Technology), Prahlad Jasti (Georgia Institute of Technology), Shahab Nikkhoo (University of California, Riverside), Somesh Jha (University of Wisconsin, Madison), Tianhao Wang (University of Virginia), Sibin Mohan (The George Washington University), Alexey Tumanov (Georgia Institute of Technology)(参考訳) 大規模基礎モデルが出現し、モデル保存システムが普及している。 このようなシステムでは、ユーザはクエリをサーバに送信し、所望のパフォーマンス指標(例えば、精度、レイテンシなど)を指定する。 サーバはバックエンドに一連のモデル(モデルzoo)を保持し、指定されたメトリクスに基づいてクエリを提供する。 本稿では,このようなシステムの安全性,特にモデル抽出攻撃に対する堅牢性について検討する。 既存のブラックボックス攻撃は、モデルが推論サービスインターフェースの背後にあるモデル動物園の中に隠れているため、犠牲者モデルを抽出するために直接適用できない。 すべての入力クエリが犠牲者モデルから出力されることを保証するには、中間ステップが必要である。 そこで本研究では,攻撃者が希望するモデルを連続的にトリガーできるように,クエリ効率のよいフィンガープリントアルゴリズムを提案する。 このフィンガープリントアルゴリズムを用いることで,単一モデル設定でアタックした場合に得られるスコアの1~%以内の忠実度と精度スコア,最大14.6~%の精度向上,最大7.7〜%の忠実度向上が得られることを示す。 最後に,特定の性能指標にノイズを加えることで指紋認証を阻止するノイズベース防御機構を用いて,提案攻撃を阻止する。 我々の防衛戦略は攻撃の精度と忠実度を最大9.8 %$と4.8 %$に下げる(中規模モデル抽出の場合)。 提案する防御は,保護レベルとシステムグッドプットの基本的なトレードオフを生じさせ,許容できるグッドプット (>80\%$) を維持しつつ,構成可能かつ重大な被害者モデル抽出保護を実現する。 コードへの匿名アクセスを提供する。

With the emergence of large foundational models, model-serving systems are becoming popular. In such a system, users send the queries to the server and specify the desired performance metrics (e.g., accuracy, latency, etc.). The server maintains a set of models (model zoo) in the back-end and serves the queries based on the specified metrics. This paper examines the security, specifically robustness against model extraction attacks, of such systems. Existing black-box attacks cannot be directly applied to extract a victim model, as models hide among the model zoo behind the inference serving interface, and attackers cannot identify which model is being used. An intermediate step is required to ensure that every input query gets the output from the victim model. To this end, we propose a query-efficient fingerprinting algorithm to enable the attacker to trigger any desired model consistently. We show that by using our fingerprinting algorithm, model extraction can have fidelity and accuracy scores within $1\%$ of the scores obtained if attacking in a single-model setting and up to $14.6\%$ gain in accuracy and up to $7.7\%$ gain in fidelity compared to the naive attack. Finally, we counter the proposed attack with a noise-based defense mechanism that thwarts fingerprinting by adding noise to the specified performance metrics. Our defense strategy reduces the attack's accuracy and fidelity by up to $9.8\%$ and $4.8\%$, respectively (on medium-sized model extraction). We show that the proposed defense induces a fundamental trade-off between the level of protection and system goodput, achieving configurable and significant victim model extraction protection while maintaining acceptable goodput ($>80\%$). We provide anonymous access to our code.
翻訳日:2023-07-06 19:15:00 公開日:2023-07-03
# 説明可能な機械学習における不一致と合意

Fighting the disagreement in Explainable Machine Learning with consensus ( http://arxiv.org/abs/2307.01288v1 )

ライセンス: Link先を確認
Antonio Jesus Banegas-Luna, Carlos Mart{\i}nez-Cortes, Horacio Perez-Sanchez(参考訳) 機械学習(ML)モデルは、しばしば予測の正確さによって評価される。 しかし、いくつかの科学分野では、モデルの内部動作はその正確さと同じくらい関連性がある。 MLモデルの内部動作を理解するために、解釈可能性アルゴリズムの使用が望ましい選択肢である。 残念ながら、利用可能なアルゴリズムの多様性にもかかわらず、彼らはしばしばモデルを説明することに同意せず、矛盾した説明に繋がる。 この問題に対処するために、モデルが説明されるとコンセンサス関数を適用することができる。 しかしながら、最終結果は選択されたコンセンサス関数やその他の要因に依存するため、問題は完全には解決されない。 本稿では,5つのMLモデルを説明するために,6つのコンセンサス関数を評価した。 このモデルは、前もって内部ルールが知られていた4つの合成データセットでトレーニングされていた。 モデルは、モデルに依存しないローカルおよびグローバル解釈可能性アルゴリズムで説明された。 最後に、コンセンサスは著者らが開発したものを含む6つの異なる関数で計算された。 その結果,提案関数は他の関数よりも公平であり,より一貫性と正確な説明が得られた。

Machine learning (ML) models are often valued by the accuracy of their predictions. However, in some areas of science, the inner workings of models are as relevant as their accuracy. To understand how ML models work internally, the use of interpretability algorithms is the preferred option. Unfortunately, despite the diversity of algorithms available, they often disagree in explaining a model, leading to contradictory explanations. To cope with this issue, consensus functions can be applied once the models have been explained. Nevertheless, the problem is not completely solved because the final result will depend on the selected consensus function and other factors. In this paper, six consensus functions have been evaluated for the explanation of five ML models. The models were previously trained on four synthetic datasets whose internal rules were known in advance. The models were then explained with model-agnostic local and global interpretability algorithms. Finally, consensus was calculated with six different functions, including one developed by the authors. The results demonstrated that the proposed function is fairer than the others and provides more consistent and accurate explanations.
翻訳日:2023-07-06 19:14:29 公開日:2023-07-03
# ギャップ位相間のマップとしての逐次量子回路

Sequential Quantum Circuits as Maps between Gapped Phases ( http://arxiv.org/abs/2307.01267v1 )

ライセンス: Link先を確認
Xie Chen, Arpit Dua, Michael Hermele, David T. Stephen, Nathanan Tantivasadakarn, Robijn Vanhove, Jing-Yu Zhao(参考訳) 有限深度量子回路は、量子状態の長距離絡み合い構造を保存し、ギャップ位相内の状態間をマップする。 異なる位相の状態をマップするために、逐次的にシステムの局所パッチ、ストリップ、その他のサブリージョンにユニタリ変換を適用するシークエンシャル量子回路を用いることができる。 一方の回路のシーケンシャル構造は絡み合い領域の法則を保ち、したがって量子状態のギャップ性を保持する。 一方、回路は一般に線形深さを持つため、量子状態の長距離相関や絡み合いや、それらに属する位相を変化させることができる。 本稿では,GHZ状態,対称性保護トポロジカル状態,固有トポロジカル状態,フラクトン状態に積状態をマッピングする逐次量子回路の定義,基本特性,およびプロトタイプ例について系統的に論じる。 本稿では, 凝縮, クラマース・ワニエ双対性, フラクトン相の葉形成の概念を通じて, 回路の力の物理的解釈について考察する。

Finite-depth quantum circuits preserve the long-range entanglement structure in quantum states and map between states within a gapped phase. To map between states of different gapped phases, we can use Sequential Quantum Circuits which apply unitary transformations to local patches, strips, or other sub-regions of a system in a sequential way. The sequential structure of the circuit on the one hand preserves entanglement area law and hence the gapped-ness of the quantum states. On the other hand, the circuit has generically a linear depth, hence it is capable of changing the long-range correlation and entanglement of quantum states and the phase they belong to. In this paper, we discuss systematically the definition, basic properties, and prototypical examples of sequential quantum circuits that map product states to GHZ states, symmetry-protected topological states, intrinsic topological states, and fracton states. We discuss the physical interpretation of the power of the circuits through connection to condensation, Kramers-Wannier duality, and the notion of foliation for fracton phases.
翻訳日:2023-07-06 19:14:16 公開日:2023-07-03
# 非エルミート量子系における非自明な世界線巻線

Nontrivial worldline winding in non-Hermitian quantum systems ( http://arxiv.org/abs/2307.01260v1 )

ライセンス: Link先を確認
Shi-Xin Hu, Yongxu Fu, Yi Zhang(参考訳) 非エルミート量子システムへの関心が高まっている中、非相互作用モデルが最も注目されている。 ここでは、確率級数展開量子モンテカルロ法を用いて、相互作用する量子系、例えば様々な非エルミート量子スピン鎖における非エルミート物理学を研究する。 計算は開境界条件下で一貫した数値結果をもたらすが、周期境界条件下での非エルミート量子系は、非自明な巻線上の想像時間世界線の異常な濃度を観測し、適切な収束のために巻数セクター間のエルゴード性を高める必要がある。 このような非自明なワールドラインの巻線は、他の非エルミートモデルや解析的アプローチにも存在する創発的な物理現象である。 非エルミート皮膚効果やポイントギャップ分光法と並行して、非エルミート位相現象の同定と解析を、相互作用、有限温度、生物軌道基底、周期境界条件を新規かつ制御された方法で量子系へと大きく拡張する。 最後に,このような非自明なワールドライン巻線の直接的物理的意味について検討し,絡み合いエントロピーに付加的,潜在的に準長距離の寄与をもたらす。

Amid the growing interest in non-Hermitian quantum systems, non-interacting models have received the most attention. Here, through the stochastic series expansion quantum Monte Carlo method, we investigate non-Hermitian physics in interacting quantum systems, e.g., various non-Hermitian quantum spin chains. While calculations yield consistent numerical results under open boundary conditions, non-Hermitian quantum systems under periodic boundary conditions observe an unusual concentration of imaginary-time worldlines over nontrivial winding and require enhanced ergodicity between winding-number sectors for proper convergences. Such nontrivial worldline winding is an emergent physical phenomenon that also exists in other non-Hermitian models and analytical approaches. Alongside the non-Hermitian skin effect and the point-gap spectroscopy, it largely extends the identification and analysis of non-Hermitian topological phenomena to quantum systems with interactions, finite temperatures, biorthogonal basis, and periodic boundary conditions in a novel and controlled fashion. Finally, we study the direct physical implications of such nontrivial worldline winding, which bring additional, potentially quasi-long-range contributions to the entanglement entropy.
翻訳日:2023-07-06 19:13:56 公開日:2023-07-03
# モバイルエッジコンピューティングシステムにおける情報の年齢最小化:Nested Indexアプローチ

Minimizing Age of Information for Mobile Edge Computing Systems: A Nested Index Approach ( http://arxiv.org/abs/2307.01366v1 )

ライセンス: Link先を確認
Shuo Chen, Ning Yang, Meng Zhang, Jun Wang(参考訳) モバイルデバイスとエッジノードの計算の不均一性をエクスプロイトすることで、モバイルエッジ計算(MEC)は、モバイルデバイスからエッジノードにタスクをオフロードすることで、情報の鮮度に敏感なリアルタイムアプリケーションを実現するための効率的なアプローチを提供する。 我々は,情報の新鮮度評価にaoi(metric age-of-information)を用いる。 複数のユーザを持つMECシステムにおいて、AoIを最小化するための効率的なソリューションは、ランダムな計算時間のために得られない。 本稿では,MECシステム内の異種エッジサーバにタスクをオフロードする複数のユーザについて検討する。 我々はまず,この問題をRMAB問題として再検討し,MECシステムにおけるAoIの更新を特徴付ける階層的マルコフ決定プロセス(MDP)を確立する。 階層型mdpに基づいて,ネストインデックスフレームワークを提案し,漸近的最適性を考慮したネストインデックスポリシーを設計する。 最後に、ネストインデックスのクローズドな形式を求め、計算複雑性と精度のトレードオフを可能にする。 提案アルゴリズムは,ベンチマークと比較して最大40%の最適ギャップ削減を実現する。 我々のアルゴリズムはシステムスカラーが十分に大きくなるにつれて下界を漸近的に近似する。

Exploiting the computational heterogeneity of mobile devices and edge nodes, mobile edge computation (MEC) provides an efficient approach to achieving real-time applications that are sensitive to information freshness, by offloading tasks from mobile devices to edge nodes. We use the metric Age-of-Information (AoI) to evaluate information freshness. An efficient solution to minimize the AoI for the MEC system with multiple users is non-trivial to obtain due to the random computing time. In this paper, we consider multiple users offloading tasks to heterogeneous edge servers in a MEC system. We first reformulate the problem as a Restless Multi-Arm-Bandit (RMAB) problem and establish a hierarchical Markov Decision Process (MDP) to characterize the updating of AoI for the MEC system. Based on the hierarchical MDP, we propose a nested index framework and design a nested index policy with provably asymptotic optimality. Finally, the closed form of the nested index is obtained, which enables the performance tradeoffs between computation complexity and accuracy. Our algorithm leads to an optimality gap reduction of up to 40%, compared to benchmarks. Our algorithm asymptotically approximates the lower bound as the system scalar gets large enough.
翻訳日:2023-07-06 19:08:04 公開日:2023-07-03
# 高速でロバストなクラウド登録のための直接スーパーポイントマッチング

Direct Superpoints Matching for Fast and Robust Point Cloud Registration ( http://arxiv.org/abs/2307.01362v1 )

ライセンス: Link先を確認
Aniket Gupta, Yiming Xie, Hanumant Singh, Huaizu Jiang(参考訳) ディープニューラルネットワークは、ダウンサンプリングされたスーパーポイントに識別的特徴表現を付与するが、直接マッチングは通常、主に2つの理由から、最先端の方法では使用されない。 まず、対応が必然的に騒がしいため、通常ランサック的な洗練が採用される。 しかし、このようなアドホックな後処理は遅く、差別化できないため、特徴学習と共同で最適化することはできない。 第二に、スーパーポイントはスパースであり、RANSACのイテレーションがもっと必要である。 既存のアプローチでは、粗大な戦略を用いて、スーパーポイント対応をポイントレベルに伝播させるが、それは十分に識別できないため、後処理の洗練がさらに必要である。 本稿では,大域的ソフトマックス層を用いて直接一致したスーパーポイントをエンド・ツー・エンド方式で抽出し,ソースとターゲットポイント・クラウド間の剛性変換を判定する手法を提案する。 対応点を直接予測する手法と比較して、スーパーポイントマッチングからリッチな情報を活用することで、変換をより正確に推定し、後処理の洗練を伴わずにアウトレーヤを効果的にフィルタリングすることができる。 その結果、我々のアプローチは高速であるだけでなく、挑戦的なModelNetと3DMatchベンチマークの最先端の結果も達成した。 私たちのコードとモデルの重み付けは公開される予定だ。

Although deep neural networks endow the downsampled superpoints with discriminative feature representations, directly matching them is usually not used alone in state-of-the-art methods, mainly for two reasons. First, the correspondences are inevitably noisy, so RANSAC-like refinement is usually adopted. Such ad hoc postprocessing, however, is slow and not differentiable, which can not be jointly optimized with feature learning. Second, superpoints are sparse and thus more RANSAC iterations are needed. Existing approaches use the coarse-to-fine strategy to propagate the superpoints correspondences to the point level, which are not discriminative enough and further necessitates the postprocessing refinement. In this paper, we present a simple yet effective approach to extract correspondences by directly matching superpoints using a global softmax layer in an end-to-end manner, which are used to determine the rigid transformation between the source and target point cloud. Compared with methods that directly predict corresponding points, by leveraging the rich information from the superpoints matchings, we can obtain more accurate estimation of the transformation and effectively filter out outliers without any postprocessing refinement. As a result, our approach is not only fast, but also achieves state-of-the-art results on the challenging ModelNet and 3DMatch benchmarks. Our code and model weights will be publicly released.
翻訳日:2023-07-06 19:07:42 公開日:2023-07-03
# 適応主成分回帰とパネルデータへの応用

Adaptive Principal Component Regression with Applications to Panel Data ( http://arxiv.org/abs/2307.01357v1 )

ライセンス: Link先を確認
Anish Agarwal, Keegan Harris, Justin Whitehouse, Zhiwei Steven Wu(参考訳) 主成分回帰(プリンシパル・コンポーネント・レグレッション、英: principal component regression, PCR)は、観測された共変体がランダムノイズで劣化する線形回帰設定の一般化である。 オンライン(正規化)pcrに対して,データが適応的に収集される場合,最初の時間一様有限サンプル保証を提供する。 固定設計設定におけるpcr分析手法は, オンライン設定に容易には拡張できないため, 現代のマルティンゲール濃度からエラーイン変数設定への適応に依拠している。 本研究では,介入が適応的に割り当てられた場合のパネルデータ設定における実験設計のためのフレームワークを提供する。 提案手法は,適応的介入割当ポリシーによって収集される合成制御と合成介入フレームワークの一般化と考えることができる。

Principal component regression (PCR) is a popular technique for fixed-design error-in-variables regression, a generalization of the linear regression setting in which the observed covariates are corrupted with random noise. We provide the first time-uniform finite sample guarantees for online (regularized) PCR whenever data is collected adaptively. Since the proof techniques for analyzing PCR in the fixed design setting do not readily extend to the online setting, our results rely on adapting tools from modern martingale concentration to the error-in-variables setting. As an application of our bounds, we provide a framework for experiment design in panel data settings when interventions are assigned adaptively. Our framework may be thought of as a generalization of the synthetic control and synthetic interventions frameworks, where data is collected via an adaptive intervention assignment policy.
翻訳日:2023-07-06 19:07:18 公開日:2023-07-03
# フラックス関数演算子による多孔質媒体の多相輸送のための汎用解の学習

Learning Generic Solutions for Multiphase Transport in Porous Media via the Flux Functions Operator ( http://arxiv.org/abs/2307.01354v1 )

ライセンス: Link先を確認
Waleed Diab, Omar Chaabi, Shayma Alkobaisi, Abeeb Awotunde, Mohammed Al Kobaisi(参考訳) 多孔質媒体における流体流動と輸送をシミュレーションする従来の数値スキームは計算コストがかかる。 科学計算のための機械学習の進歩は、多くの科学・工学分野におけるシミュレーション時間の短縮に役立つ可能性がある。 DeepONetは最近、PDEの学習演算子(関数空間間のマッピング)によって偏微分方程式(PDE)の解を加速する強力なツールとして登場した。 本研究では,buckley-leverett pde のフラックス関数の空間と解の空間(飽和)の間の写像について学ぶ。 我々は物理インフォームド・ディープノネット(PI-DeepONets)を用いて、与えられた初期または境界条件のセットを除いて、このマッピングをペアの入出力観測なしで実現します。 モデルトレーニング中のソフトペナルティ制約や、物理情報ニューラルネットワーク(PINN)や独自のディープニューラルネットワークアーキテクチャのような方法で、基礎となる物理法則を活用することにより、提案したPI-DeepONetモデルは、従来の数値解法よりも最大4桁の速度向上を達成しつつ、任意の種類のフラックス関数(凹凸、非凸)を正確に予測することができる。 さらに、トレーニングされたPI-DeepONetモデルは優れた一般化品質を示し、多孔質媒体における輸送問題の解決を加速するための有望なツールである。

Traditional numerical schemes for simulating fluid flow and transport in porous media can be computationally expensive. Advances in machine learning for scientific computing have the potential to help speed up the simulation time in many scientific and engineering fields. DeepONet has recently emerged as a powerful tool for accelerating the solution of partial differential equations (PDEs) by learning operators (mapping between function spaces) of PDEs. In this work, we learn the mapping between the space of flux functions of the Buckley-Leverett PDE and the space of solutions (saturations). We use Physics-Informed DeepONets (PI-DeepONets) to achieve this mapping without any paired input-output observations, except for a set of given initial or boundary conditions; ergo, eliminating the expensive data generation process. By leveraging the underlying physical laws via soft penalty constraints during model training, in a manner similar to Physics-Informed Neural Networks (PINNs), and a unique deep neural network architecture, the proposed PI-DeepONet model can predict the solution accurately given any type of flux function (concave, convex, or non-convex) while achieving up to four orders of magnitude improvements in speed over traditional numerical solvers. Moreover, the trained PI-DeepONet model demonstrates excellent generalization qualities, rendering it a promising tool for accelerating the solution of transport problems in porous media.
翻訳日:2023-07-06 19:07:03 公開日:2023-07-03
# Patch-CNN:最小拡散プロトコルを用いた高忠実拡散テンソル推定のためのデータ効率の学習

Patch-CNN: Training data-efficient deep learning for high-fidelity diffusion tensor estimation from minimal diffusion protocols ( http://arxiv.org/abs/2307.01346v1 )

ライセンス: Link先を確認
Tobias Goodwin-Allcock, Ting Gong, Robert Gray, Parashkev Nachev and Hui Zhang(参考訳) 6方向拡散重み付き画像(DWI)のみを用いた拡散テンソル(DT)推定のための新しい手法であるPatch-CNNを提案する。 近年,voxel-wise full-connected neural networks (fcn) または image-wise convolutional neural networks (cnn) を用いたdmriパラメータ推定法が提案されている。 時間的圧力が画像の方向数を最小に制限する急性臨床状況では、既存のアプローチではトレーニング画像ボリューム(画像ごとにcnn)を必要としないか、気道図推定に必要な繊維方向(voxel-wise fcns)を見積もらないかのどちらかである。 これらの限界を克服するため,我々は,最小(非ボクセル回り)畳み込みカーネル(3$\times$3$\times$3)を持つニューラルネットワークであるpatch-cnnを提案する。 voxel-wise fcnsと比較すると、ネットワークが局所解剖情報を利用できるという利点がある。 イメージ毎のcnnと比較すると、最小カーネルはトレーニングデータ要求を大幅に削減する。 6方向DWIからのスカラーdMRIパラメータと繊維配向の両方の推定を改善するために,従来のモデルフィッティングとボクセルワイドFCNであるPatch-CNNを比較した。 改良された繊維配向推定は、改良されたトラクトグラムを生成する。

We propose a new method, Patch-CNN, for diffusion tensor (DT) estimation from only six-direction diffusion weighted images (DWI). Deep learning-based methods have been recently proposed for dMRI parameter estimation, using either voxel-wise fully-connected neural networks (FCN) or image-wise convolutional neural networks (CNN). In the acute clinical context -- where pressure of time limits the number of imaged directions to a minimum -- existing approaches either require an infeasible number of training images volumes (image-wise CNNs), or do not estimate the fibre orientations (voxel-wise FCNs) required for tractogram estimation. To overcome these limitations, we propose Patch-CNN, a neural network with a minimal (non-voxel-wise) convolutional kernel (3$\times$3$\times$3). Compared with voxel-wise FCNs, this has the advantage of allowing the network to leverage local anatomical information. Compared with image-wise CNNs, the minimal kernel vastly reduces training data demand. Evaluated against both conventional model fitting and a voxel-wise FCN, Patch-CNN, trained with a single subject is shown to improve the estimation of both scalar dMRI parameters and fibre orientation from six-direction DWIs. The improved fibre orientation estimation is shown to produce improved tractogram.
翻訳日:2023-07-06 19:06:34 公開日:2023-07-03
# 非局所性のない非有界ランダム性の証明

Certification of unbounded randomness without nonlocality ( http://arxiv.org/abs/2307.01333v1 )

ライセンス: Link先を確認
Shubhayan Sarkar(参考訳) 乱数生成器は暗号と鍵分布において重要な役割を果たす。 したがって、これらのデバイスから生成された乱数は、あらゆる敵によって予測不可能であるかどうかを検証することが重要である。 近年、量子非局所性はランダム性を証明できる資源として認識されている。 これらのスキームはデバイスに依存しないため非常に安全であるが、量子非局所性の観測は実際的な観点からは非常に困難である。 本研究では,Leggett-Gargの不等式の最大値違反に基づいて,半デバイス独立な方法で非有界ランダム性を証明するためのスキームを提供する。 興味深いことに、このスキームは量子状態の選択とは独立であり、従って「量子」ノイズでさえ自己検定の量子測定に利用でき、非有界ランダム性を生成して、このスキームを実用目的に非常に効率的にすることができる。

Random number generators play an essential role in cryptography and key distribution. It is thus important to verify whether the random numbers generated from these devices are genuine and unpredictable by any adversary. Recently, quantum nonlocality has been identified as a resource that can be utilised to certify randomness. Although these schemes are device-independent and thus highly secure, the observation of quantum nonlocality is extremely difficult from a practical perspective. In this work, we provide a scheme to certify unbounded randomness in a semi-device-independent way based on the maximal violation of Leggett-Garg inequalities. Interestingly, the scheme is independent of the choice of the quantum state, and consequently even "quantum" noise could be utilized to self-test quantum measurements and generate unbounded randomness making the scheme highly efficient for practical purposes.
翻訳日:2023-07-06 19:06:06 公開日:2023-07-03
# 海洋物体の分類のためのロバスト不確かさ推定

Robust Uncertainty Estimation for Classification of Maritime Objects ( http://arxiv.org/abs/2307.01325v1 )

ライセンス: Link先を確認
Jonathan Becktor, Frederik Scholler, Evangelos Boukas, and Lazaros Nalpantidis(参考訳) 海上域における不確実性評価の利用について検討し、おもちゃのデータセット(CIFAR10)に有効性を示し、それを社内データセットShiPSで証明する。 本研究では, モンテカルロドロップアウトによるクラス内不確実性に結合する手法と, 異常検出の分野における最近の発見とを合わせて, より包括的不確実性尺度を得る手法を提案する。 導入した不確実性対策との関係を調査し,cifar10上での動作状況と実生活環境について検討する。 我々の研究はFPR95を8%改善し、アウト・オブ・ディストリビューションデータを使わずにモデルがトレーニングされる場合の現在の最高性能の作業と比較した。 Wide ResNetのバニラ実装と比較してパフォーマンスを77%向上させています。 ベースラインに関してFPR95を44.2%改善し,ShiPSデータセットを公開し,本手法の有効性を示す。 我々のアプローチはモデル非依存であり、実装が容易であり、しばしばモデル再トレーニングを必要としない。

We explore the use of uncertainty estimation in the maritime domain, showing the efficacy on toy datasets (CIFAR10) and proving it on an in-house dataset, SHIPS. We present a method joining the intra-class uncertainty achieved using Monte Carlo Dropout, with recent discoveries in the field of outlier detection, to gain more holistic uncertainty measures. We explore the relationship between the introduced uncertainty measures and examine how well they work on CIFAR10 and in a real-life setting. Our work improves the FPR95 by 8% compared to the current highest-performing work when the models are trained without out-of-distribution data. We increase the performance by 77% compared to a vanilla implementation of the Wide ResNet. We release the SHIPS dataset and show the effectiveness of our method by improving the FPR95 by 44.2% with respect to the baseline. Our approach is model agnostic, easy to implement, and often does not require model retraining.
翻訳日:2023-07-06 19:05:54 公開日:2023-07-03
# 効率的な音声表現へのセマンティックエンリッチメント

Semantic enrichment towards efficient speech representations ( http://arxiv.org/abs/2307.01323v1 )

ライセンス: Link先を確認
Ga\"elle Laperri\`ere, Ha Nguyen, Sahar Ghannay, Bassam Jabaian, Yannick Est\`eve(参考訳) 近年,SLU(Spoken Language Understanding)タスクを解く際に,従来の表面表現の代替として,自己教師付き学習音声表現が出現している。 同時に、大量のテキストデータに基づいて訓練された多言語モデルを導入し、言語に依存しないセマンティクスを符号化した。 近年、SAMU-XLSRアプローチは、言語に依存しないセマンティクスで多言語言語表現を豊かにするための、このようなテキストモデルから利益を得る方法を導入している。 本研究は,難解な音声言語理解タスクにおけるより優れた意味抽出を目指して,計算コストを考慮して,下流タスクからの少量の転写データに特化することにより,samu-xlsrモデルの特定のドメイン内意味化について検討する。 さらに,同領域のフランス語とイタリア語のベンチマークを低リソース言語のポータビリティに活用することのメリットを示し,拡張SAMU-XLSRのクロスドメイン能力について検討する。

Over the past few years, self-supervised learned speech representations have emerged as fruitful replacements for conventional surface representations when solving Spoken Language Understanding (SLU) tasks. Simultaneously, multilingual models trained on massive textual data were introduced to encode language agnostic semantics. Recently, the SAMU-XLSR approach introduced a way to make profit from such textual models to enrich multilingual speech representations with language agnostic semantics. By aiming for better semantic extraction on a challenging Spoken Language Understanding task and in consideration with computation costs, this study investigates a specific in-domain semantic enrichment of the SAMU-XLSR model by specializing it on a small amount of transcribed data from the downstream task. In addition, we show the benefits of the use of same-domain French and Italian benchmarks for low-resource language portability and explore cross-domain capacities of the enriched SAMU-XLSR.
翻訳日:2023-07-06 19:05:37 公開日:2023-07-03
# イントロスペクティブロボット組立のための正規化フローを用いた密度ベースフィージビリティ学習

Density-based Feasibility Learning with Normalizing Flows for Introspective Robotic Assembly ( http://arxiv.org/abs/2307.01317v1 )

ライセンス: Link先を確認
Jianxiang Feng, Matan Atad, Ismael Rodr\'iguez, Maximilian Durner, Stephan G\"unnemann, Rudolph Triebel(参考訳) ロボットアセンブリシーケンスプランニング(RASP)における機械学習(ML)モデルは、予測されたソリューション、すなわち、潜在的効率劣化を回避するために、イントロスペクティブである必要がある。 以前の作業では、トレーニング中に実現可能な例と実行不可能な例の両方が必要です。 しかし、新しい製品に素早く適応するために再トレーニングが必要な場合、実現不可能なものは十分な収集が困難である。 本研究では,実例のみを必要とする密度ベース実現可能性学習手法を提案する。 具体的には,複雑な確率分布を推定するための強力な生成モデルである正規化フロー(nf)を用いて,分散(ood)検出として実現可能性学習問題を定式化する。 実証的に,提案手法はロボットアセンブリのユースケースで実証され,実現不可能なアセンブリの検出において,他の単一クラスベースラインよりも優れる。 さらに,本手法の内部動作機構について検討し,NFの高度変種に基づいて大きなメモリ節約が得られることを示す。

Machine Learning (ML) models in Robotic Assembly Sequence Planning (RASP) need to be introspective on the predicted solutions, i.e. whether they are feasible or not, to circumvent potential efficiency degradation. Previous works need both feasible and infeasible examples during training. However, the infeasible ones are hard to collect sufficiently when re-training is required for swift adaptation to new product variants. In this work, we propose a density-based feasibility learning method that requires only feasible examples. Concretely, we formulate the feasibility learning problem as Out-of-Distribution (OOD) detection with Normalizing Flows (NF), which are powerful generative models for estimating complex probability distributions. Empirically, the proposed method is demonstrated on robotic assembly use cases and outperforms other single-class baselines in detecting infeasible assemblies. We further investigate the internal working mechanism of our method and show that a large memory saving can be obtained based on an advanced variant of NF.
翻訳日:2023-07-06 19:05:21 公開日:2023-07-03
# ニューロシンボリックディープ強化学習アプローチによる安全な自動運転政策に向けて

Towards Safe Autonomous Driving Policies using a Neuro-Symbolic Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2307.01316v1 )

ライセンス: Link先を確認
Iman Sharifi, Mustafa Yildirim, Saber Fallah(参考訳) 運転環境のダイナミックな性質と多様な道路利用者の存在は、自動運転における意思決定に重大な課題をもたらす。 深層強化学習(DRL)は,この問題に対処するための一般的なアプローチである。 しかし、既存のDRLソリューションの適用は主に、安全性上の懸念からシミュレーション環境に限られており、現実世界への展開を妨げている。 この制限を克服するために、DRLとDRLSL(Symbolic Logics)と呼ばれる新しいニューロシンボリックモデルフリーDRLアプローチを導入し、DRLの強み(経験からの学習)と記号的一階述語論理(知識駆動推論)を組み合わせて、実環境における自律運転のリアルタイムインタラクションにおける安全な学習を可能にする。 この革新的なアプローチは、安全を確保しつつ物理的環境に積極的に関与することで、自動運転ポリシーを学ぶ手段を提供する。 我々は,ハイDデータセットを用いた自律走行にDRLSLフレームワークを実装し,トレーニングとテストの両段階において,安全でない動作を回避できることを実証した。 さらに,drllは,従来のdrl法と比較して,学習時の収束が速く,新たな運転シナリオへの一般化性が向上することを示す。

The dynamic nature of driving environments and the presence of diverse road users pose significant challenges for decision-making in autonomous driving. Deep reinforcement learning (DRL) has emerged as a popular approach to tackle this problem. However, the application of existing DRL solutions is mainly confined to simulated environments due to safety concerns, impeding their deployment in real-world. To overcome this limitation, this paper introduces a novel neuro-symbolic model-free DRL approach, called DRL with Symbolic Logics (DRLSL) that combines the strengths of DRL (learning from experience) and symbolic first-order logics knowledge-driven reasoning) to enable safe learning in real-time interactions of autonomous driving within real environments. This innovative approach provides a means to learn autonomous driving policies by actively engaging with the physical environment while ensuring safety. We have implemented the DRLSL framework in autonomous driving using the highD dataset and demonstrated that our method successfully avoids unsafe actions during both the training and testing phases. Furthermore, our results indicate that DRLSL achieves faster convergence during training and exhibits better generalizability to new driving scenarios compared to traditional DRL methods.
翻訳日:2023-07-06 19:05:02 公開日:2023-07-03
# alberti : 詩分析のための多言語ドメイン特化言語モデル

ALBERTI, a Multilingual Domain Specific Language Model for Poetry Analysis ( http://arxiv.org/abs/2307.01387v1 )

ライセンス: Link先を確認
Javier de la Rosa, \'Alvaro P\'erez Pozo, Salvador Ros, Elena Gonz\'alez-Blanco(参考訳) 詩の計算分析は、詩を自動的に分析しスキャンするツールの不足によって制限される。 多言語設定では、個々の言語にのみスキャンと韻律システムが存在するため、比較研究は非常に困難で時間がかかり、問題が悪化する。 本稿では,詩文のための最初の多言語事前学習型大言語モデルである \textsc{alberti} を提案する。 ドメイン特化事前学習(DSP)を通じて、12言語から1200万節以上のコーパスで多言語BERTを訓練した。 スペイン語のスタンザ型分類と,スペイン語,英語,ドイツ語のメートル法パターン予測という2つの構造詩課題において,その性能を評価した。 どちらの場合も、textsc{Alberti} は多言語BERT や他の変圧器ベースモデルよりも優れており、ルールベースシステムと比較してドイツ語の最先端の結果も得られ、詩領域における DSP の有効性と有効性を示している。

The computational analysis of poetry is limited by the scarcity of tools to automatically analyze and scan poems. In a multilingual settings, the problem is exacerbated as scansion and rhyme systems only exist for individual languages, making comparative studies very challenging and time consuming. In this work, we present \textsc{Alberti}, the first multilingual pre-trained large language model for poetry. Through domain-specific pre-training (DSP), we further trained multilingual BERT on a corpus of over 12 million verses from 12 languages. We evaluated its performance on two structural poetry tasks: Spanish stanza type classification, and metrical pattern prediction for Spanish, English and German. In both cases, \textsc{Alberti} outperforms multilingual BERT and other transformers-based models of similar sizes, and even achieves state-of-the-art results for German when compared to rule-based systems, demonstrating the feasibility and effectiveness of DSP in the poetry domain.
翻訳日:2023-07-06 18:58:51 公開日:2023-07-03
# サンプル推論における系統的バイアスと機械学習への影響

Systematic Bias in Sample Inference and its Effect on Machine Learning ( http://arxiv.org/abs/2307.01384v1 )

ライセンス: Link先を確認
Owen O'Neill and Fintan Costello(参考訳) 機械学習モデルで一般的に見られるパターンは、ターゲット特徴の過小評価であり、モデルが予測する特定のカテゴリのメンバーのターゲットレートは、トレーニングセットにおけるそのカテゴリのメンバーの実際のターゲットレートよりも低い。 マイノリティグループでは、この下降率は通常より大きいが、"adult"データセットでは、男性と女性の両方で所得水準が下降するが、例えば、下降率の程度は女性(このデータセットでは少数)では著しく高い。 マイノリティに対するこの過小評価パターンは,小サンプルに対する統計的推測の予測可能な結果として生じると考えられる。 分類のための新しい個人を提示すると、mlモデルはトレーニングセット全体ではなく、何らかの方法で新しい個人に類似したサブセット上で推論を実行します。 このような小さなサンプルの推論は系統的・方向性的な統計バイアスの対象であり、このバイアスがmlモデルに見られる予測不足のパターンを生じさせることを示した。 標準スクラン決定木モデルの予測を'adult'とCompASデータセットの70以上のサブセットで分析した結果,小サンプル推定に基づく偏差予測は,これらのサブセットの予測下降率と有意な正の相関(0.56, 0.85)を示した。

A commonly observed pattern in machine learning models is an underprediction of the target feature, with the model's predicted target rate for members of a given category typically being lower than the actual target rate for members of that category in the training set. This underprediction is usually larger for members of minority groups; while income level is underpredicted for both men and women in the 'adult' dataset, for example, the degree of underprediction is significantly higher for women (a minority in that dataset). We propose that this pattern of underprediction for minorities arises as a predictable consequence of statistical inference on small samples. When presented with a new individual for classification, an ML model performs inference not on the entire training set, but on a subset that is in some way similar to the new individual, with sizes of these subsets typically following a power law distribution so that most are small (and with these subsets being necessarily smaller for the minority group). We show that such inference on small samples is subject to systematic and directional statistical bias, and that this bias produces the observed patterns of underprediction seen in ML models. Analysing a standard sklearn decision tree model's predictions on a set of over 70 subsets of the 'adult' and COMPAS datasets, we found that a bias prediction measure based on small-sample inference had a significant positive correlations (0.56 and 0.85) with the observed underprediction rate for these subsets.
翻訳日:2023-07-06 18:58:34 公開日:2023-07-03
# 閾値とマスクr-cnnアルゴリズムを用いた乳牛縦長体重の深度ビデオデータによる予測

Depth video data-enabled predictions of longitudinal dairy cow body weight using thresholding and Mask R-CNN algorithms ( http://arxiv.org/abs/2307.01383v1 )

ライセンス: Link先を確認
Ye Bi, Leticia M.Campos, Jin Wang, Haipeng Yu, Mark D.Hanigan, Gota Morota(参考訳) 牛の体重のモニタリングは、乳牛の成長、栄養状態、健康と直接関係があるため、農業経営の決定を支援するために重要である。 牛の体重は繰り返し特徴であるが、以前の体重予測研究の大半は1つの時点で収集されたデータのみを使用していた。 また,ビデオを用いた体重予測における深層学習に基づくセグメンテーションの有用性は未解明である。 そこで本研究の目的は,繰り返し測定されたビデオデータから牛の体重を予測し,閾値とマスクr-cnn深層学習手法の性能を比較し,体重回帰モデルの予測能力を評価し,ビデオベースの体重予測のためのソースコードをリリースすることにより,動物科学コミュニティのオープンサイエンスを促進することである。 乳化ホルスタイン乳牛10頭,非乳化ジャージ乳牛2頭から40,405例の深度画像と深度マップファイルを得た。 牛の体を背景から切り離す3つの方法が検討され、その中には1つの閾値、適応しきい値、マスクR-CNNが含まれる。 画像から, 背側, 腹部幅, 高さ, 体積の4つの特徴を推定した。 平均すると, 線形混合モデルと組み合わせたMask-RCNN法は, 平均絶対値誤差0.98, 平均絶対値誤差2.03%の予測係数を得た。 Mask-RCNNのアプローチは、3コップアウトのクロスバリデーションでも最高だった。 線形混合モデルと組み合わされたマスクrcnnの平均絶対パーセンテージ誤差は,それぞれ0.90および4.70%であった。 その結果,深層学習に基づくセグメンテーションにより,長手深度映像データから牛の体重予測性能が向上することが示唆された。

Monitoring cow body weight is crucial to support farm management decisions due to its direct relationship with the growth, nutritional status, and health of dairy cows. Cow body weight is a repeated trait, however, the majority of previous body weight prediction research only used data collected at a single point in time. Furthermore, the utility of deep learning-based segmentation for body weight prediction using videos remains unanswered. Therefore, the objectives of this study were to predict cow body weight from repeatedly measured video data, to compare the performance of the thresholding and Mask R-CNN deep learning approaches, to evaluate the predictive ability of body weight regression models, and to promote open science in the animal science community by releasing the source code for video-based body weight prediction. A total of 40,405 depth images and depth map files were obtained from 10 lactating Holstein cows and 2 non-lactating Jersey cows. Three approaches were investigated to segment the cow's body from the background, including single thresholding, adaptive thresholding, and Mask R-CNN. Four image-derived biometric features, such as dorsal length, abdominal width, height, and volume, were estimated from the segmented images. On average, the Mask-RCNN approach combined with a linear mixed model resulted in the best prediction coefficient of determination and mean absolute percentage error of 0.98 and 2.03%, respectively, in the forecasting cross-validation. The Mask-RCNN approach was also the best in the leave-three-cows-out cross-validation. The prediction coefficients of determination and mean absolute percentage error of the Mask-RCNN coupled with the linear mixed model were 0.90 and 4.70%, respectively. Our results suggest that deep learning-based segmentation improves the prediction performance of cow body weight from longitudinal depth video data.
翻訳日:2023-07-06 18:58:06 公開日:2023-07-03
# 計算効率の良い同時音声翻訳のための命令記憶変換器

Implicit Memory Transformer for Computationally Efficient Simultaneous Speech Translation ( http://arxiv.org/abs/2307.01381v1 )

ライセンス: Link先を確認
Matthew Raffel, Lizhong Chen(参考訳) 同時音声翻訳は人間にとって重要なコミュニケーション課題であり、対向音声入力と同時に翻訳が生成される。 このようなストリーミング処理のために、ブロック処理を用いて入力シーケンスをセグメントに分割する変換器は、最先端の性能を低コストで達成した。 左のコンテキストやメモリバンクを含むセグメント間で情報を伝達するための現在の方法は、表現が不十分で計算に不必要にコストがかかるため、混乱している。 本稿では,メモリバンクを用いてメモリを明示的に表現する必要をなくし,メモリを暗黙的に保持するImplicit Memory Transformerを提案する。 我々は、前のセグメントの注意出力から左コンテキストを生成し、それを現在のセグメントの注意計算のキーと値に含める。 MuST-Cデータセットの実験によると、Implicit Memory Transformerは、左コンテキストとメモリバンクの両方を利用する最先端のアプローチと比較して、エンコーダのフォワードパスをほぼ同じ翻訳品質で大幅に高速化する。

Simultaneous speech translation is an essential communication task difficult for humans whereby a translation is generated concurrently with oncoming speech inputs. For such a streaming task, transformers using block processing to break an input sequence into segments have achieved state-of-the-art performance at a reduced cost. Current methods to allow information to propagate across segments, including left context and memory banks, have faltered as they are both insufficient representations and unnecessarily expensive to compute. In this paper, we propose an Implicit Memory Transformer that implicitly retains memory through a new left context method, removing the need to explicitly represent memory with memory banks. We generate the left context from the attention output of the previous segment and include it in the keys and values of the current segment's attention calculation. Experiments on the MuST-C dataset show that the Implicit Memory Transformer provides a substantial speedup on the encoder forward pass with nearly identical translation quality when compared with the state-of-the-art approach that employs both left context and memory banks.
翻訳日:2023-07-06 18:57:22 公開日:2023-07-03
# 関連性への注意の移り変わり : 大規模言語モデルの不確実性推定に向けて

Shifting Attention to Relevance: Towards the Uncertainty Estimation of Large Language Models ( http://arxiv.org/abs/2307.01379v1 )

ライセンス: Link先を確認
Jinhao Duan, Hao Cheng, Shiqi Wang, Chenan Wang, Alex Zavalny, Renjing Xu, Bhavya Kailkhura, Kaidi Xu(参考訳) 大規模言語モデル(llm)は自然言語生成において大きな可能性を秘めているが、モデル生成の不確実性、すなわちユーザがモデルの出力を信頼できることを特徴付けることは依然として困難である。 我々の研究は、トークンが自己回帰的LLMによって世代の意味を反映する不平等に生成されるというヒューリスティックな事実、すなわち、トークンは他よりも関連性(あるいは代表的)が高いが、不確実性を見積もる場合には、すべてのトークンが等しく評価されるという事実から導かれる。 言語的な冗長性のため、長文の意味を伝えるのに、ほとんどいくつかのキーワードが十分である。 これらの不等式を生成的不等式とみなし、不確実性推定にどのように影響するかを考察する。 その結果,不確実性を推定する際には,限定意味論を含む相当量のトークンや文が等しく重み付けされることが判明した。 生成的不等式によって生じるこれらのバイアスに対処するため,不確実性を推定しつつ,トークンレベルと文レベルの両方から,より関連性の高い(SAR)コンポーネントに注意を移すことを提案する。 我々は,30Bまでのモデルサイズと強力な商用LCM(例えば OpenAI の Davinci など)を,様々な自由形式の質問応答タスクで有望な "オフザシェルフ" LLM (例: OPT, LLaMA) 実験を行う。 実験結果と詳細な人口統計分析は,SARの優れた性能を示している。 コードはhttps://github.com/jinhaoduan/shifting-attention-to-relevanceで入手できる。

Although Large Language Models (LLMs) have shown great potential in Natural Language Generation, it is still challenging to characterize the uncertainty of model generations, i.e., when users could trust model outputs. Our research is derived from the heuristic facts that tokens are created unequally in reflecting the meaning of generations by auto-regressive LLMs, i.e., some tokens are more relevant (or representative) than others, yet all the tokens are equally valued when estimating uncertainty. It is because of the linguistic redundancy where mostly a few keywords are sufficient to convey the meaning of a long sentence. We name these inequalities as generative inequalities and investigate how they affect uncertainty estimation. Our results reveal that considerable tokens and sentences containing limited semantics are weighted equally or even heavily when estimating uncertainty. To tackle these biases posed by generative inequalities, we propose to jointly Shifting Attention to more Relevant (SAR) components from both the token level and the sentence level while estimating uncertainty. We conduct experiments over popular "off-the-shelf" LLMs (e.g., OPT, LLaMA) with model sizes up to 30B and powerful commercial LLMs (e.g., Davinci from OpenAI), across various free-form question-answering tasks. Experimental results and detailed demographic analysis indicate the superior performance of SAR. Code is available at https://github.com/jinhaoduan/shifting-attention-to-relevance.
翻訳日:2023-07-06 18:57:06 公開日:2023-07-03
# Sentinel-1 SARとSentinel-2 MSI時系列を用いた建物の高さマップ推定のためのCNN回帰モデル

A CNN regression model to estimate buildings height maps using Sentinel-1 SAR and Sentinel-2 MSI time series ( http://arxiv.org/abs/2307.01378v1 )

ライセンス: Link先を確認
Ritu Yadav, Andrea Nascetti, Yifang Ban(参考訳) ビルの高さの正確な推定は、都市計画、インフラ管理、環境分析に不可欠である。 本研究では,sentinel-1(s1)とsentinel-2(s2)を用いて10mの空間分解能で建物の高さを推定するマルチモーダルビル高さ回帰ネットワーク(mbhr-net)を提案する。 S1は建築構造に関する貴重な情報を提供するSynthetic Aperture Radar(SAR)データを提供し、S2は異なる土地被覆タイプ、植生表現学、建築影に敏感なマルチスペクトルデータを提供する。 我々のMBHR-Netは,S1画像とS2画像から意味のある特徴を抽出し,画像パターンと建築高さの複雑な時空間関係を学習することを目的としている。 このモデルはオランダの10都市で訓練されテストされている。 Root Mean Squared Error (RMSE)、Intersection over Union (IOU)、R-squared (R2) スコアは、モデルの性能を評価するために使用される。 予備的な結果(3.73m RMSE, 0.95 IoU, 0.61 R2)は, 建物の高さを正確に推定する深層学習モデルの有効性を示し, 都市計画, 環境影響分析などの応用の可能性を示した。

Accurate estimation of building heights is essential for urban planning, infrastructure management, and environmental analysis. In this study, we propose a supervised Multimodal Building Height Regression Network (MBHR-Net) for estimating building heights at 10m spatial resolution using Sentinel-1 (S1) and Sentinel-2 (S2) satellite time series. S1 provides Synthetic Aperture Radar (SAR) data that offers valuable information on building structures, while S2 provides multispectral data that is sensitive to different land cover types, vegetation phenology, and building shadows. Our MBHR-Net aims to extract meaningful features from the S1 and S2 images to learn complex spatio-temporal relationships between image patterns and building heights. The model is trained and tested in 10 cities in the Netherlands. Root Mean Squared Error (RMSE), Intersection over Union (IOU), and R-squared (R2) score metrics are used to evaluate the performance of the model. The preliminary results (3.73m RMSE, 0.95 IoU, 0.61 R2) demonstrate the effectiveness of our deep learning model in accurately estimating building heights, showcasing its potential for urban planning, environmental impact analysis, and other related applications.
翻訳日:2023-07-06 18:56:21 公開日:2023-07-03
# shiftable context: 同時音声翻訳における学習-参照コンテキストミスマッチの解消

Shiftable Context: Addressing Training-Inference Context Mismatch in Simultaneous Speech Translation ( http://arxiv.org/abs/2307.01377v1 )

ライセンス: Link先を確認
Matthew Raffel, Drew Penney, Lizhong Chen(参考訳) セグメントベース処理を用いたトランスフォーマーモデルは同時音声翻訳に有効なアーキテクチャである。 しかし、そのようなモデルはトレーニング環境と推論環境のコンテキストミスマッチを生成し、潜在的な翻訳精度を妨げる。 同時翻訳のストリーミング特性によって部分的に満たされたセグメントが存在する場合でも、トレーニングや推論を通じて一貫したセグメントとコンテキストサイズが維持されることを保証する、シンプルで効果的なスキームであるShiftable Contextを提案する。 シフト可能なコンテキストは、ストリーミングタスク用のセグメントベースのトランスフォーマーにも広く適用できる。 MUST-Cデータセットから得られた英語・ドイツ語・フランス語・英語・スペイン語のペアについて実験した結果,Augmented Memory Transformerに適用した場合,平均29%,1.83,1.95のBLEUスコアが3つの言語ペアのウェイト-k値に対してそれぞれ平均的に増加し,平均ラゲリングに最小の影響が認められた。

Transformer models using segment-based processing have been an effective architecture for simultaneous speech translation. However, such models create a context mismatch between training and inference environments, hindering potential translation accuracy. We solve this issue by proposing Shiftable Context, a simple yet effective scheme to ensure that consistent segment and context sizes are maintained throughout training and inference, even with the presence of partially filled segments due to the streaming nature of simultaneous translation. Shiftable Context is also broadly applicable to segment-based transformers for streaming tasks. Our experiments on the English-German, English-French, and English-Spanish language pairs from the MUST-C dataset demonstrate that when applied to the Augmented Memory Transformer, a state-of-the-art model for simultaneous speech translation, the proposed scheme achieves an average increase of 2.09, 1.83, and 1.95 BLEU scores across each wait-k value for the three language pairs, respectively, with a minimal impact on computation-aware Average Lagging.
翻訳日:2023-07-06 18:55:30 公開日:2023-07-03
# エミッタのアンサンブルによる単一光子非線形性の量子理論

Quantum theory of single-photon nonlinearities generated by ensembles of emitters ( http://arxiv.org/abs/2307.01375v1 )

ライセンス: Link先を確認
Kurt Jacobs, Stefan Krastanov, Mikkel Heuck, Dirk R. Englund(参考訳) 数光子レベルでの2つの光学場間の十分な速さの相互作用の達成は、幅広い量子技術にとって鍵となる。 この取り組みにおける重要なハードルは、エミッターのアンサンブルによる非線形性の生成に関する包括的量子理論の欠如である。 異なる体制に当てはまる個別のアプローチは、重要な洞察をもたらした。 一 半古典的アプローチにより、多光子コヒーレント場において、独立エミッタの寄与が独立に加わり、eitを介して強い光学的非線形性を作り出すことができる。 二 量子解析により、少数光子配位子における集団結合効果は、これらの強い非線形性をアンサンブルが引き起こさないことが示されている。 驚くべきことに、約20個の光子による実験結果は、半古典的予測と一致している。 非線形多体量子システムを扱いにくいため、理論的解析は断片化されてきた。 ここでは、単一エミッタとアンサンブルによる光学非線形性の生成に関する強力な理論を構築することにより、この問題を解決できる。 この構成の鍵は、サブシステムによって生成される摂動への摂動理論の適用である。 この理論は、長い間不明瞭だったアンサンブルの批判的性質を明らかにする。 これらの最も顕著な発見は、量子効果が回転波状態内でのみ単一光子非線形性を生成するアンサンブルを防止していることである。 ここで提示する理論は、任意の多レベル駆動スキームの非線形性を計算する効率的な方法を提供し、この分野におけるさらなる進歩のための強力な基礎となることを期待する。

The achievement of sufficiently fast interactions between two optical fields at the few-photon level would provide a key enabler for a broad range of quantum technologies. One critical hurdle in this endeavor is the lack of a comprehensive quantum theory of the generation of nonlinearities by ensembles of emitters. Distinct approaches applicable to different regimes have yielded important insights: i) a semiclassical approach reveals that, for many-photon coherent fields, the contributions of independent emitters add independently allowing ensembles to produce strong optical nonlinearities via EIT; ii) a quantum analysis has shown that in the few-photon regime collective coupling effects prevent ensembles from inducing these strong nonlinearities. Rather surprisingly, experimental results with around twenty photons are in line with the semi-classical predictions. Theoretical analysis has been fragmented due to the difficulty of treating nonlinear many-body quantum systems. Here we are able to solve this problem by constructing a powerful theory of the generation of optical nonlinearities by single emitters and ensembles. The key to this construction is the application of perturbation theory to perturbations generated by subsystems. This theory reveals critical properties of ensembles that have long been obscure. The most remarkable of these is the discovery that quantum effects prevent ensembles generating single-photon nonlinearities only within the rotating-wave regime; outside this regime single-photon nonlinearities scale as the number of emitters. The theory we present here also provides an efficient way to calculate nonlinearities for arbitrary multi-level driving schemes, and we expect that it will prove a powerful foundation for further advances in this area.
翻訳日:2023-07-06 18:54:51 公開日:2023-07-03
# 知覚システムにおける安全要件の効率的な決定

Efficient Determination of Safety Requirements for Perception Systems ( http://arxiv.org/abs/2307.01371v1 )

ライセンス: Link先を確認
Sydney M. Katz, Anthony L. Corso, Esen Yel, Mykel J. Kochenderfer(参考訳) 知覚システムは一般的な自律スタックのサブコンポーネントとして機能し、認識システム設計者は、全体的な閉ループシステムに対する安全性を維持しながら性能特性を最適化する必要があることが多い。 このため、高レベルの安全要求を知覚システムにおけるコンポーネントレベルの要求に絞り込むことが有用である。 本研究では,完全統合型閉ループシステムのブラックボックスシミュレータにおいて,安全知覚システム性能特性のセットを効率的に決定することに焦点を当てる。 ガウス過程やしきい値バンディットといった一般的なブラックボックス推定手法の利点を組み合わせることで、平滑化バンディットと呼ばれる新しい推定法を開発した。 本稿では,視覚に基づく航空機衝突回避問題について実証し,ガウス過程としきい値帯域ベースラインの精度と効率の両面で改善点を示す。

Perception systems operate as a subcomponent of the general autonomy stack, and perception system designers often need to optimize performance characteristics while maintaining safety with respect to the overall closed-loop system. For this reason, it is useful to distill high-level safety requirements into component-level requirements on the perception system. In this work, we focus on efficiently determining sets of safe perception system performance characteristics given a black-box simulator of the fully-integrated, closed-loop system. We combine the advantages of common black-box estimation techniques such as Gaussian processes and threshold bandits to develop a new estimation method, which we call smoothing bandits. We demonstrate our method on a vision-based aircraft collision avoidance problem and show improvements in terms of both accuracy and efficiency over the Gaussian process and threshold bandit baselines.
翻訳日:2023-07-06 18:54:29 公開日:2023-07-03
# 多言語言語モデルは多文化的ではない:感情のケーススタディ

Multilingual Language Models are not Multicultural: A Case Study in Emotion ( http://arxiv.org/abs/2307.01370v1 )

ライセンス: Link先を確認
Shreya Havaldar, Sunny Rai, Bhumika Singhal, Langchen Liu Sharath Chandra Guntuku, Lyle Ungar(参考訳) 感情は世界中で経験され、表現される。 感情に敏感な多言語タスクにLarge Language Models(LM)を使用するには、感情の文化的変化を反映しなければならない。 本研究では,2023年の多言語LMが,文化や言語間の感情表現の差異を反映しているかどうかを検討する。 LMから得られる埋め込み(例えば、XLM-RoBERTa)はアングロ中心であり、生成的LM(例えば、ChatGPT)は、他の言語のプロンプトに応答しても、西洋のノルムを反映する。 以上の結果から,多言語lmsは感情の文化的に適切なニュアンスを学習できないことを示し,これを修正するための研究の方向性を強調する。

Emotions are experienced and expressed differently across the world. In order to use Large Language Models (LMs) for multilingual tasks that require emotional sensitivity, LMs must reflect this cultural variation in emotion. In this study, we investigate whether the widely-used multilingual LMs in 2023 reflect differences in emotional expressions across cultures and languages. We find that embeddings obtained from LMs (e.g., XLM-RoBERTa) are Anglocentric, and generative LMs (e.g., ChatGPT) reflect Western norms, even when responding to prompts in other languages. Our results show that multilingual LMs do not successfully learn the culturally appropriate nuances of emotion and we highlight possible research directions towards correcting this.
翻訳日:2023-07-06 18:54:15 公開日:2023-07-03
# multi-predictor fusion: 学習ベースとルールベースの軌道予測を組み合わせる

Multi-Predictor Fusion: Combining Learning-based and Rule-based Trajectory Predictors ( http://arxiv.org/abs/2307.01408v1 )

ライセンス: Link先を確認
Sushant Veer, Apoorva Sharma, Marco Pavone(参考訳) 軌道予測モジュールは、特に高度にインタラクティブな交通シナリオにおいて、自動運転車(AV)の安全かつ効率的な計画を可能にする重要な手段である。 近年、学習に基づく軌道予測器は、データから他のエージェントのマルチモーダルな振る舞いを学習できるため、最先端のパフォーマンスを提供する上で大きな成功を収めている。 本稿では,MPF(Multi-predictor fusion)と呼ばれるアルゴリズムを提案する。 MPFは、各予測者のオンラインパフォーマンスを反映した信念分布に従って、両方の独立予測器からの軌道を混合することにより、学習とルールに基づく予測器を確率的に結合する。 以上の結果から,MPFは様々な指標において2つのスタンドアロン予測器より優れ,最も一貫した性能を実現していることがわかった。

Trajectory prediction modules are key enablers for safe and efficient planning of autonomous vehicles (AVs), particularly in highly interactive traffic scenarios. Recently, learning-based trajectory predictors have experienced considerable success in providing state-of-the-art performance due to their ability to learn multimodal behaviors of other agents from data. In this paper, we present an algorithm called multi-predictor fusion (MPF) that augments the performance of learning-based predictors by imbuing them with motion planners that are tasked with satisfying logic-based rules. MPF probabilistically combines learning- and rule-based predictors by mixing trajectories from both standalone predictors in accordance with a belief distribution that reflects the online performance of each predictor. In our results, we show that MPF outperforms the two standalone predictors on various metrics and delivers the most consistent performance.
翻訳日:2023-07-06 18:47:56 公開日:2023-07-03
# マルチユーザ量子ネットワークにおける絡み合いの連続分布に対する性能指標

Performance metrics for the continuous distribution of entanglement in multi-user quantum networks ( http://arxiv.org/abs/2307.01406v1 )

ライセンス: Link先を確認
\'Alvaro G. I\~nesta and Stephanie Wehner(参考訳) 遠方のノード間で共有される絡み合った状態は、量子ネットワークアプリケーションで頻繁に使用される。 量子リソースが豊富な場合、絡み合った状態はネットワーク全体に継続的に分散され、ノードが必要に応じてそれらを消費することができる。 このエンタングルメントの連続分布により、量子ネットワークアプリケーションが連続的に動作し、エンタングル状態が定期的に供給される。 本稿では,エンタングルメントの連続分布のためのプロトコルの定常的性能解析に着目する。 性能指標として,仮想近傍サイズと仮想ノード次数を提案する。 パレート最適性の概念を用いて、多目的最適化問題を定式化し、性能を最大化する。 一例として、木トポロジーを持つ量子ネットワークの問題を解く。 我々の分析から得られた主な結論の1つは、絡み合いの消費率は、忠実度要求よりもプロトコルの性能に大きな影響を及ぼすということである。 本論文で確立した指標は,大規模量子ネットワークにおける絡み合い分散プロトコルの実現可能性を評価するのに有用である。

Entangled states shared among distant nodes are frequently used in quantum network applications. When quantum resources are abundant, entangled states can be continuously distributed across the network, allowing nodes to consume them whenever necessary. This continuous distribution of entanglement enables quantum network applications to operate continuously while being regularly supplied with entangled states. Here, we focus on the steady-state performance analysis of protocols for continuous distribution of entanglement. We propose the virtual neighborhood size and the virtual node degree as performance metrics. We utilize the concept of Pareto optimality to formulate a multi-objective optimization problem to maximize the performance. As an example, we solve the problem for a quantum network with a tree topology. One of the main conclusions from our analysis is that the entanglement consumption rate has a greater impact on the protocol performance than the fidelity requirements. The metrics that we establish in this manuscript can be utilized to assess the feasibility of entanglement distribution protocols for large-scale quantum networks.
翻訳日:2023-07-06 18:47:40 公開日:2023-07-03
# コントラスト学習を用いたコミュニケーション学習

Learning to Communicate using Contrastive Learning ( http://arxiv.org/abs/2307.01403v1 )

ライセンス: Link先を確認
Yat Long Lo, Biswa Sengupta, Jakob Foerster, Michael Noukhovitch(参考訳) コミュニケーションはマルチエージェントRLにおけるコーディネーションの強力なツールである。 しかし、効果的な共通言語の導入は、特に分散環境では難しい課題である。 本稿では,エージェント間で送信されるコミュニケーションメッセージが,環境状態の異なる不完全なビューと見なされる,別の視点を提案する。 受信したメッセージ間の関係を調べることにより,与えられた軌道上のメッセージ間の相互情報を最大化するために,コントラスト学習を用いてコミュニケーションを学ぶことを提案する。 通信環境において,本手法は性能と学習速度の両面で,従来の手法よりも優れていた。 定性的メトリクスと表現探索を用いて,本手法がより対称な通信を誘導し,環境からグローバルな状態情報を取得することを示す。 全体として、コントラスト学習の力と、効果的なコミュニケーションのためのエンコーディングとしてメッセージを活用することの重要性を示す。

Communication is a powerful tool for coordination in multi-agent RL. But inducing an effective, common language is a difficult challenge, particularly in the decentralized setting. In this work, we introduce an alternative perspective where communicative messages sent between agents are considered as different incomplete views of the environment state. By examining the relationship between messages sent and received, we propose to learn to communicate using contrastive learning to maximize the mutual information between messages of a given trajectory. In communication-essential environments, our method outperforms previous work in both performance and learning speed. Using qualitative metrics and representation probing, we show that our method induces more symmetric communication and captures global state information from the environment. Overall, we show the power of contrastive learning and the importance of leveraging messages as encodings for effective communication.
翻訳日:2023-07-06 18:47:26 公開日:2023-07-03
# マルチタスク学習による深部引数マイニングモデルの性能向上

Multi-Task Learning Improves Performance In Deep Argument Mining Models ( http://arxiv.org/abs/2307.01401v1 )

ライセンス: Link先を確認
Amirhossein Farzam, Shashank Shekhar, Isaac Mehlhaff, Marco Morucci(参考訳) ユーザ生成テキストからの議論的手法の分析の成功は、政治や市場分析などの下流業務の中心である。 近年の議論マイニングツールは、様々なオンラインテキストコーパスから議論的手法を抽出し注釈付けするために最先端のディープラーニング手法を用いているが、各タスクは個別に扱われ、各データセットに対して異なる観測モデルが微調整される。 議論マイニングタスクは、同じ問題に対して最先端の手法よりも優れた性能を実現するマルチタスクアプローチにより、共通意味と論理構造を共有することを示す。 我々のモデルは、全てのタスクに共通する入力テキストの共有表現を構築し、パラメータ共有によるパフォーマンス向上のためにタスク間の類似性を利用する。 その結果、異なるタスクが実質的な類似性を共有し、テキストから議論的手法を抽出するための包括的アプローチが示唆されるため、議論マイニングにおいて重要である。

The successful analysis of argumentative techniques from user-generated text is central to many downstream tasks such as political and market analysis. Recent argument mining tools use state-of-the-art deep learning methods to extract and annotate argumentative techniques from various online text corpora, however each task is treated as separate and different bespoke models are fine-tuned for each dataset. We show that different argument mining tasks share common semantic and logical structure by implementing a multi-task approach to argument mining that achieves better performance than state-of-the-art methods for the same problems. Our model builds a shared representation of the input text that is common to all tasks and exploits similarities between tasks in order to further boost performance via parameter-sharing. Our results are important for argument mining as they show that different tasks share substantial similarities and suggest a holistic approach to the extraction of argumentative techniques from text.
翻訳日:2023-07-06 18:47:13 公開日:2023-07-03
# ジェットと高爆発物との相互作用のための時空間サロゲート:その2 -- 極高次元グリッドベースデータのクラスタリング

Spatio-Temporal Surrogates for Interaction of a Jet with High Explosives: Part II -- Clustering Extremely High-Dimensional Grid-Based Data ( http://arxiv.org/abs/2307.01400v1 )

ライセンス: Link先を確認
Chandrika Kamath and Juliette S. Franzman(参考訳) 計算機シミュレーションの時空間出力の正確な代理モデルを構築することは難しい課題である。 surrogateの精度を向上させるための単純なアプローチは、出力を類似性に基づいてクラスタ化し、各クラスタに対して別々のsurrogateモデルを構築することである。 このクラスタリングは、各タイムステップの出力が適度なサイズである場合、比較的単純である。 しかし、空間領域が多数のグリッドポイントで表される場合、数百万個という数字で表される場合、データのクラスタリングはより困難になる。 本報告では,高爆発物と相互作用する噴流のシミュレーションによる出力データについて検討する。 これらのデータは、異なる大きさの空間領域、空間座標の異なるグリッドポイント、シミュレーションの各時間ステップで複数のファイルに出力を分散するフォーマットで利用可能である。 まず、クラスタリングに先立って、これらのデータを一貫したフォーマットにする方法を説明します。 データマイニングからランダムな投影のアイデアを借用することで、データの次元を1000倍に削減し、反復的なk-means法をクラスタリングに利用することが可能になります。 データセット内のクラスタ数を決定するために、ランダムなプロジェクションと、k平均クラスタリングにおける初期センタロイドの選択の両方のランダム性をどのように利用できるかを示す。 提案手法は,ランダム射影に導入された近似にもかかわらず,超高次元データのクラスタリングを扱いやすくし,有意義なクラスタ割り当てを生成する。

Building an accurate surrogate model for the spatio-temporal outputs of a computer simulation is a challenging task. A simple approach to improve the accuracy of the surrogate is to cluster the outputs based on similarity and build a separate surrogate model for each cluster. This clustering is relatively straightforward when the output at each time step is of moderate size. However, when the spatial domain is represented by a large number of grid points, numbering in the millions, the clustering of the data becomes more challenging. In this report, we consider output data from simulations of a jet interacting with high explosives. These data are available on spatial domains of different sizes, at grid points that vary in their spatial coordinates, and in a format that distributes the output across multiple files at each time step of the simulation. We first describe how we bring these data into a consistent format prior to clustering. Borrowing the idea of random projections from data mining, we reduce the dimension of our data by a factor of thousand, making it possible to use the iterative k-means method for clustering. We show how we can use the randomness of both the random projections, and the choice of initial centroids in k-means clustering, to determine the number of clusters in our data set. Our approach makes clustering of extremely high dimensional data tractable, generating meaningful cluster assignments for our problem, despite the approximation introduced in the random projections.
翻訳日:2023-07-06 18:46:57 公開日:2023-07-03
# 高性能データベースにおける並列処理パターンの詳細な解析

In-depth Analysis On Parallel Processing Patterns for High-Performance Dataframes ( http://arxiv.org/abs/2307.01394v1 )

ライセンス: Link先を確認
Niranda Perera, Arup Kumar Sarker, Mills Staylor, Gregor von Laszewski, Kaiying Shan, Supun Kamburugamuve, Chathura Widanage, Vibhatha Abeykoon, Thejaka Amila Kanewela, Geoffrey Fox(参考訳) Data Scienceドメインは、ビッグデータ革命によって、過去10年間に研究コミュニティと業界コミュニティの両方で目立った拡張を遂げてきた。 人工知能(AI)と機械学習(ML)は、データエンジニアリングアプリケーションにさらなる複雑さをもたらし、テラバイトのデータを処理するためにデータ処理パイプラインに統合された。 通常、これらのパイプラインでのデータ前処理にかなりの時間が費やされるため、e能率の改善はパイプライン全体のパフォーマンスに直接影響を与える。 コミュニティは最近、データ表現と操作のためのデファクトデータ構造としてDataframesの概念を受け入れた。 しかし、現在最も広く使われているシリアルデータフレーム(r、pandas)は、中程度の大きなデータセットで作業しながら性能上の制限を経験する。 我々は、この問題を高性能コンピューティングの観点から見ていくことで、改善の余地が十分にあると信じている。 本稿では,分散データフレーム演算子と参照ランタイム実装であるCylon [1]について,並列処理パターンのセットを提示した。 本稿では,そのパターンを評価するためのコストモデルを導入することで,その初期概念を拡大する。 さらに,ORNL SummitスーパーコンピュータにおけるCylonの性能評価を行った。

The Data Science domain has expanded monumentally in both research and industry communities during the past decade, predominantly owing to the Big Data revolution. Artificial Intelligence (AI) and Machine Learning (ML) are bringing more complexities to data engineering applications, which are now integrated into data processing pipelines to process terabytes of data. Typically, a significant amount of time is spent on data preprocessing in these pipelines, and hence improving its e fficiency directly impacts the overall pipeline performance. The community has recently embraced the concept of Dataframes as the de-facto data structure for data representation and manipulation. However, the most widely used serial Dataframes today (R, pandas) experience performance limitations while working on even moderately large data sets. We believe that there is plenty of room for improvement by taking a look at this problem from a high-performance computing point of view. In a prior publication, we presented a set of parallel processing patterns for distributed dataframe operators and the reference runtime implementation, Cylon [1]. In this paper, we are expanding on the initial concept by introducing a cost model for evaluating the said patterns. Furthermore, we evaluate the performance of Cylon on the ORNL Summit supercomputer.
翻訳日:2023-07-06 18:46:30 公開日:2023-07-03
# ジェットと高爆発物との相互作用のための時空間サロゲート:第1報 -- 小型試料による解析

Spatio-Temporal Surrogates for Interaction of a Jet with High Explosives: Part I -- Analysis with a Small Sample Size ( http://arxiv.org/abs/2307.01393v1 )

ライセンス: Link先を確認
Chandrika Kamath and Juliette S. Franzman and Brian H. Daub(参考訳) 計算機シミュレーション、特に複雑な現象は高価であり、高性能な計算資源を必要とする。 多くの場合、現象を理解するために複数のシミュレーションが実行され、それぞれが異なるシミュレーション入力パラメータを持つ。 これらのデータは、対応する入力にシミュレーション出力を関連付ける補間またはサロゲートを作成するために使用される。 入力と出力がスカラーである場合、単純な機械学習モデルで十分である。 しかし、シミュレーション出力がベクトル値であり、しばしば時間成分を持つ2、3次元の場所で利用できる場合、サロゲートを作成することはより困難である。 本報告では,高爆発物と相互作用する噴流の二次元問題を用いて,高品質なサロゲートの製作方法を理解する。 データセットの特徴はユニークで、各シミュレーションからのベクトル値出力は200万以上の空間的位置で利用可能である。各シミュレーションは、比較的少ない時間ステップで実行され、計算領域のサイズはシミュレーションごとに異なり、リソース制約は、実行可能なシミュレーションの数を制限する。 これらの極めて大きなデータセットを解析し、解析に使用するアルゴリズムのパラメータを設定し、必要なシミュレーション数を大幅に増やすことなく、時空間サロゲートの精度を向上させるための簡単な方法を提案する。

Computer simulations, especially of complex phenomena, can be expensive, requiring high-performance computing resources. Often, to understand a phenomenon, multiple simulations are run, each with a different set of simulation input parameters. These data are then used to create an interpolant, or surrogate, relating the simulation outputs to the corresponding inputs. When the inputs and outputs are scalars, a simple machine learning model can suffice. However, when the simulation outputs are vector valued, available at locations in two or three spatial dimensions, often with a temporal component, creating a surrogate is more challenging. In this report, we use a two-dimensional problem of a jet interacting with high explosives to understand how we can build high-quality surrogates. The characteristics of our data set are unique - the vector-valued outputs from each simulation are available at over two million spatial locations; each simulation is run for a relatively small number of time steps; the size of the computational domain varies with each simulation; and resource constraints limit the number of simulations we can run. We show how we analyze these extremely large data-sets, set the parameters for the algorithms used in the analysis, and use simple ways to improve the accuracy of the spatio-temporal surrogates without substantially increasing the number of simulations required.
翻訳日:2023-07-06 18:46:11 公開日:2023-07-03
# 現実世界の不正検出における敵対的学習 : 挑戦と展望

Adversarial Learning in Real-World Fraud Detection: Challenges and Perspectives ( http://arxiv.org/abs/2307.01390v1 )

ライセンス: Link先を確認
Danele Lunghi, Alkis Simitsis, Olivier Caelen, Gianluca Bontempi(参考訳) データ経済はデータ駆動システムに依存しており、複雑な機械学習アプリケーションはそれらによって推進される。 しかし残念なことに、機械学習モデルは不正行為や敵対的攻撃に晒され、セキュリティと信頼性を脅かす。 過去10年ほどで、機械学習に対する研究の関心が大幅に高まり、効果的な攻撃によって学習アプリケーションがどのように影響するかが明らかになった。 敵意機械学習の初期の結果は画像処理のような特定の領域へのアプローチの巨大な可能性を示しているが、他の領域やアプリケーションにおける敵意技術を一般化する方法に関する研究文献と実践にはギャップがある。 フラッド検出は、他のアプリケーションと同様に、データエコノミーにとって重要な防御メカニズムであり、機械学習にいくつかの課題をもたらす。 本稿では,不正検出システムに対する攻撃が,他の機械学習応用とどのように異なるかを説明し,このギャップを埋めるためのいくつかの興味深い方向を提案する。

Data economy relies on data-driven systems and complex machine learning applications are fueled by them. Unfortunately, however, machine learning models are exposed to fraudulent activities and adversarial attacks, which threaten their security and trustworthiness. In the last decade or so, the research interest on adversarial machine learning has grown significantly, revealing how learning applications could be severely impacted by effective attacks. Although early results of adversarial machine learning indicate the huge potential of the approach to specific domains such as image processing, still there is a gap in both the research literature and practice regarding how to generalize adversarial techniques in other domains and applications. Fraud detection is a critical defense mechanism for data economy, as it is for other applications as well, which poses several challenges for machine learning. In this work, we describe how attacks against fraud detection systems differ from other applications of adversarial machine learning, and propose a number of interesting directions to bridge this gap.
翻訳日:2023-07-06 18:45:48 公開日:2023-07-03
# アミロイドβ蓄積とアルツハイマー病進行の因果関係の相反推論による同定

Identification of Causal Relationship between Amyloid-beta Accumulation and Alzheimer's Disease Progression via Counterfactual Inference ( http://arxiv.org/abs/2307.01389v1 )

ライセンス: Link先を確認
Haixing Dai, Mengxuan Hu, Qing Li, Lu Zhang, Lin Zhao, Dajiang Zhu, Ibai Diez, Jorge Sepulcre, Fan Zhang, Xingyu Gao, Manhua Liu, Quanzheng Li, Sheng Li, Tianming Liu and Xiang Li(参考訳) アルツハイマー病(英: alzheimer's disease、ad)は、アミロイドーシス(アミロイドーシス)から始まる神経変性疾患である。 18F-florbetapir (AV45) ポジトロン断層撮影(PET)により測定されたアミロイドベータの脳内蓄積は、ADの早期診断に広く用いられている。 しかし,アミロイドβの蓄積とAD病態との関係は未解明であり,アミロイドβがADの発達にどのような影響を及ぼすかを明らかにするために因果推論アプローチが必要である。 本稿では,グラフ畳み込みニューラルネットワークを用いて,連続処理レベルで個々の治療効果を推定するグラフ変動係数ニューラルネットワーク(gvcnet)を提案する。 我々は,アミロイドβ蓄積とAD病態の局所因果関係を測定するためのGVCNetを含む因果推論アプローチの可能性を強調した。

Alzheimer's disease (AD) is a neurodegenerative disorder that is beginning with amyloidosis, followed by neuronal loss and deterioration in structure, function, and cognition. The accumulation of amyloid-beta in the brain, measured through 18F-florbetapir (AV45) positron emission tomography (PET) imaging, has been widely used for early diagnosis of AD. However, the relationship between amyloid-beta accumulation and AD pathophysiology remains unclear, and causal inference approaches are needed to uncover how amyloid-beta levels can impact AD development. In this paper, we propose a graph varying coefficient neural network (GVCNet) for estimating the individual treatment effect with continuous treatment levels using a graph convolutional neural network. We highlight the potential of causal inference approaches, including GVCNet, for measuring the regional causal connections between amyloid-beta accumulation and AD pathophysiology, which may serve as a robust tool for early diagnosis and tailored care.
翻訳日:2023-07-06 18:45:32 公開日:2023-07-03
# Fraunhofer SIT at CheckThat! 2023:チェックウエア分類の例に基づくモデルソープによる不確かさの対応

Fraunhofer SIT at CheckThat! 2023: Tackling Classification Uncertainty Using Model Souping on the Example of Check-Worthiness Classification ( http://arxiv.org/abs/2307.02377v1 )

ライセンス: Link先を確認
Raphael Frick, Inna Vogel, and Jeong-Eun Choi(参考訳) 本稿では,Fraunhofer SITチームが開発したCLEF-2023 CheckThat! Lab Task 1B for Englishについて述べる。 政治的議論から引用されたテキストスニペットを考えると、このタスクの目的はチェックの妥当性を評価するかどうかを判断することである。 チェック可能なステートメントの検出は、ファクトチェックが最初に考慮すべきクレームを優先順位付けすることで、手動のファクトチェック作業を促進することを目的としている。 また、ファクトチェックシステムの第一段階と見なすこともできる。 提案手法は,モデルスープを中心としたアンサンブル分類方式を活用した。 提案モデルは, 英語データセットに適用すると, f1総合得点0.878点を達成し, コンペティションにおいて2位にランクインした。

This paper describes the second-placed approach developed by the Fraunhofer SIT team in the CLEF-2023 CheckThat! lab Task 1B for English. Given a text snippet from a political debate, the aim of this task is to determine whether it should be assessed for check-worthiness. Detecting check-worthy statements aims to facilitate manual fact-checking efforts by prioritizing the claims that fact-checkers should consider first. It can also be considered as primary step of a fact-checking system. Our best-performing method took advantage of an ensemble classification scheme centered on Model Souping. When applied to the English data set, our submitted model achieved an overall F1 score of 0.878 and was ranked as the second-best model in the competition.
翻訳日:2023-07-06 13:04:30 公開日:2023-07-03
# 偶発的思考の失敗

Failures of Contingent Thinking ( http://arxiv.org/abs/2007.07703v3 )

ライセンス: Link先を確認
Evan Piermont and Peio Zuazo-Garin(参考訳) 本稿では,実際に直面する意思決定問題を誤解・誤解するエージェントを分析・分析するための理論的枠組みを提案する。 実験の場面で観察された行動は, 様々な報酬関係の論理的関係を適切に考慮する上で, 意味を知覚できないことが示される。 本研究は,意識的含意の行動的定義を提示し,エージェントの含意の説明が,行動の基盤となる主観的状態空間を識別することを示す。 この状態空間を解析することにより、経験的現象を駆動する論理的洗練の異なるベンチマークを特徴付ける。 我々は静的および動的合理性を乱す。 したがって,本フレームワークは,エージェントの随伴思考レベルを評価する方法論と,完全合理性がないという信念を識別するための戦略の両方を提供する。

In this paper, we provide a theoretical framework to analyze an agent who misinterprets or misperceives the true decision problem she faces. We show that a wide range of behavior observed in experimental settings manifest as failures to perceive implications, in other words, to properly account for the logical relationships between various payoff relevant contingencies. We present a behavioral definition of perceived implication, thereby providing an elicitation technique, and show that an agent's account of implication identifies a subjective state-space that underlies her behavior. By analyzing this state-space, we characterize distinct benchmarks of logical sophistication that drive empirical phenomena. We disentangle static and dynamic rationality. Thus, our framework delivers both a methodology for assessing an agent's level of contingent thinking and a strategy for identifying her beliefs in the absence full rationality.
翻訳日:2023-07-05 18:31:28 公開日:2023-07-03
# 重み付け実演を用いたメタ適応

Meta Adaptation using Importance Weighted Demonstrations ( http://arxiv.org/abs/1911.10322v2 )

ライセンス: Link先を確認
Kiran Lekkala and Sami Abu-El-Haija and Laurent Itti(参考訳) 模擬学習は, サンプル効率が高いことから, 広く普及している。 しかし、ほとんどのタスクの軌道分布が動的に変化する現実のシナリオでは、連続的に集約されたデータのみに適合するモデルは無駄である。 場合によっては、分散があまりに大きくシフトするため、エージェントが新しいタスクを推測することが困難になる。 本稿では,過去の実演に重み付けを含む,特定のタスクの集合に関する事前知識を活用することで,関連するタスクを一般化する新しいアルゴリズムを提案する。 環境タスクの多様性からロボットを訓練する実験を行い、また、数発の学習を用いて、目に見えない環境に適応できることを示す。 また,視覚ナビゲーションの課題に対して,我々のアプローチをテストするためのプロトタイプロボットシステムを開発した。

Imitation learning has gained immense popularity because of its high sample-efficiency. However, in real-world scenarios, where the trajectory distribution of most of the tasks dynamically shifts, model fitting on continuously aggregated data alone would be futile. In some cases, the distribution shifts, so much, that it is difficult for an agent to infer the new task. We propose a novel algorithm to generalize on any related task by leveraging prior knowledge on a set of specific tasks, which involves assigning importance weights to each past demonstration. We show experiments where the robot is trained from a diversity of environmental tasks and is also able to adapt to an unseen environment, using few-shot learning. We also developed a prototype robot system to test our approach on the task of visual navigation, and experimental results obtained were able to confirm these suppositions.
翻訳日:2023-07-05 18:30:29 公開日:2023-07-03
# 神経ポリトープ

Neural Polytopes ( http://arxiv.org/abs/2307.00721v1 )

ライセンス: Link先を確認
Koji Hashimoto, Tomoya Naito, Hisashi Naito(参考訳) reluアクティベーションを持つ単純なニューラルネットワークは、様々な次元の単位球面の近似としてポリトープを生成する。 ポリトープの種類は、ユニット数や層数などのネットワークアーキテクチャによって規制されている。 様々な活性化関数に対して、ニューラルポリトープと呼ばれるポリトープの一般化が得られる。 ポリトープの滑らかな類似体であり、幾何学的双対性を示す。 この発見は、機械学習と訓練されたネットワークの可視化を通じて、離散幾何学の研究を開始する。

We find that simple neural networks with ReLU activation generate polytopes as an approximation of a unit sphere in various dimensions. The species of polytopes are regulated by the network architecture, such as the number of units and layers. For a variety of activation functions, generalization of polytopes is obtained, which we call neural polytopes. They are a smooth analogue of polytopes, exhibiting geometric duality. This finding initiates research of discrete geometry via machine learning and also a visualization of trained networks.
翻訳日:2023-07-05 14:40:01 公開日:2023-07-03
# ssc3od:lidar point cloudによる協調的3次元物体検出

SSC3OD: Sparsely Supervised Collaborative 3D Object Detection from LiDAR Point Clouds ( http://arxiv.org/abs/2307.00717v1 )

ライセンス: Link先を確認
Yushan Han, Hui Zhang, Honglei Zhang and Yidong Li(参考訳) 複数エージェント間の相互作用の優位性を向上した協調型3次元物体検出は、自律運転において広く研究されている。 しかし、既存のコラボレーティブな3Dオブジェクト検出器は、労働集約的で時間を要する大規模な注釈付き3Dバウンディングボックスに大きく依存している。 この問題に対処するため,我々は,各エージェントがランダムに1つのオブジェクトにラベルを付けるだけでよい,疎密な3dオブジェクト検出フレームワークssc3odを提案する。 具体的には、このモデルは2つの新しいコンポーネント、すなわち柱ベースのマスク付きオートエンコーダ(Pillar-MAE)とインスタンスマイニングモジュールで構成される。 Pillar-MAEモジュールは、自己管理的な方法でハイレベルなセマンティクスを推論することを目的としており、インスタンスマイニングモジュールは、オンラインで協調検知のための高品質な擬似ラベルを生成する。 これらの単純で効果的なメカニズムを導入することで、提案されたssc3odは不完全なアノテーションの悪影響を軽減することができる。 協調認識データセットに基づいてスパースラベルを生成し,提案手法の評価を行う。 3つの大規模データセットに関する広範囲な実験により,提案するssc3odは,比較的教師の少ない3次元物体検出器の性能を効果的に向上できることが判明した。

Collaborative 3D object detection, with its improved interaction advantage among multiple agents, has been widely explored in autonomous driving. However, existing collaborative 3D object detectors in a fully supervised paradigm heavily rely on large-scale annotated 3D bounding boxes, which is labor-intensive and time-consuming. To tackle this issue, we propose a sparsely supervised collaborative 3D object detection framework SSC3OD, which only requires each agent to randomly label one object in the scene. Specifically, this model consists of two novel components, i.e., the pillar-based masked autoencoder (Pillar-MAE) and the instance mining module. The Pillar-MAE module aims to reason over high-level semantics in a self-supervised manner, and the instance mining module generates high-quality pseudo labels for collaborative detectors online. By introducing these simple yet effective mechanisms, the proposed SSC3OD can alleviate the adverse impacts of incomplete annotations. We generate sparse labels based on collaborative perception datasets to evaluate our method. Extensive experiments on three large-scale datasets reveal that our proposed SSC3OD can effectively improve the performance of sparsely supervised collaborative 3D object detectors.
翻訳日:2023-07-05 14:39:56 公開日:2023-07-03
# JourneyDB: 生成イメージ理解のためのベンチマーク

JourneyDB: A Benchmark for Generative Image Understanding ( http://arxiv.org/abs/2307.00716v1 )

ライセンス: Link先を確認
Junting Pan, Keqiang Sun, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang, Aojun Zhou, Zipeng Qin, Yi Wang, Jifeng Dai, Yu Qiao, Hongsheng Li(参考訳) 近年の視覚言語モデルの進歩はマルチモーダル理解に革命をもたらしたが、それらが生成した画像を理解する能力を持っているかどうかは不明である。 実データと比較すると、合成画像は内容とスタイルの両面で高い多様性を示しており、モデルが完全に理解する上で重大な困難がある。 そこで本研究では,生成画像におけるマルチモーダル視覚理解のための大規模データセットである journeydb を提案する。 当社のキュレーションデータセットは,400万の多様で高品質な生成画像と,それら生成に使用するテキストプロンプトを組み合わせることでカバーしています。 さらに,コンテントとスタイル解釈の両方の観点から生成画像理解の性能を定量化するベンチマークを4つ設計した。 これらのベンチマークには、プロンプトインバージョン、スタイル検索、画像キャプション、視覚的質問応答が含まれる。 最後に、journeydbに適用される現在の最先端のマルチモーダルモデルの性能を評価し、その強みとコンテンツ理解の限界を詳細に分析する。 提案したデータセットとベンチマークにより、生成コンテンツ理解の分野での研究が促進されることを期待する。 データセットはhttps://journeydb.github.ioで入手できる。

While recent advancements in vision-language models have revolutionized multi-modal understanding, it remains unclear whether they possess the capabilities of comprehending the generated images. Compared to real data, synthetic images exhibit a higher degree of diversity in both content and style, for which there are significant difficulties for the models to fully apprehend. To this end, we present a large-scale dataset, JourneyDB, for multi-modal visual understanding in generative images. Our curated dataset covers 4 million diverse and high-quality generated images paired with the text prompts used to produce them. We further design 4 benchmarks to quantify the performance of generated image understanding in terms of both content and style interpretation. These benchmarks include prompt inversion, style retrieval, image captioning and visual question answering. Lastly, we assess the performance of current state-of-the-art multi-modal models when applied to JourneyDB, and provide an in-depth analysis of their strengths and limitations in generated content understanding. We hope the proposed dataset and benchmarks will facilitate the research in the field of generative content understanding. The dataset will be available on https://journeydb.github.io.
翻訳日:2023-07-05 14:39:19 公開日:2023-07-03
# 深層学習における知識の価値

Worth of knowledge in deep learning ( http://arxiv.org/abs/2307.00712v1 )

ライセンス: Link先を確認
Hao Xu, Yuntian Chen, Dongxiao Zhang(参考訳) 知識は、人間が世界に対する洞察を得るために使う蓄積した理解と経験を構成する。 ディープラーニングでは、データ依存や一般化能力、制約遵守など、データ駆動モデルの欠点を軽減するには、事前知識が不可欠である。 知識の価値を効率的に評価するために,解釈可能な機械学習にインスパイアされたフレームワークを提案する。 定量的実験により,データ量と推定範囲が知識の価値に与える影響を評価する。 我々の研究結果は、依存、相乗効果、置換効果を含む、データと知識の複雑な関係を解明する。 我々のモデルに依存しないフレームワークは、様々な共通ネットワークアーキテクチャに適用でき、ディープラーニングモデルにおける事前知識の役割を包括的に理解することができる。 また、情報機械学習の性能向上や、不適切な事前知識の識別にも利用できる。

Knowledge constitutes the accumulated understanding and experience that humans use to gain insight into the world. In deep learning, prior knowledge is essential for mitigating shortcomings of data-driven models, such as data dependence, generalization ability, and compliance with constraints. To enable efficient evaluation of the worth of knowledge, we present a framework inspired by interpretable machine learning. Through quantitative experiments, we assess the influence of data volume and estimation range on the worth of knowledge. Our findings elucidate the complex relationship between data and knowledge, including dependence, synergistic, and substitution effects. Our model-agnostic framework can be applied to a variety of common network architectures, providing a comprehensive understanding of the role of prior knowledge in deep learning models. It can also be used to improve the performance of informed machine learning, as well as distinguish improper prior knowledge.
翻訳日:2023-07-05 14:38:48 公開日:2023-07-03
# 超高分解能セグメンテーションのための空間整合性誘導パッチグルーピングウェーブレット変換器

Guided Patch-Grouping Wavelet Transformer with Spatial Congruence for Ultra-High Resolution Segmentation ( http://arxiv.org/abs/2307.00711v1 )

ライセンス: Link先を確認
Deyi Ji, Feng Zhao, Hongtao Lu(参考訳) 既存の超高分解能(UHR)セグメンテーション手法は、メモリコストと局所特性のバランスをとるジレンマに常に苦労している。 この研究において、gpwformerはtransform($\mathcal{t}$)-cnn($\mathcal{c}$)相互傾きフレームワークであり、$\mathcal{t}$はuhrイメージ全体を入力として、局所的な詳細と細かな長距離のコンテキスト依存性の両方を収集する。 高い推論速度と計算の複雑さのために、$\mathcal{t}$ は元の uhr 画像をパッチに分割し、動的にグループ化し、軽量の multi-head wavelet transformer (wformer) ネットワークで低レベルなローカル詳細を学ぶ。 一方で、このプロセスでは、空間領域から遠く離れたパッチを同じグループに割り当てることもできるため、細かな長距離のコンテキスト依存性もキャプチャされる。 さらに、$\mathcal{c}$で生成されるマスクを使用してパッチグループ化プロセスをガイドし、ヒューリスティックス決定を提供する。 さらに、パッチ間の空間的一貫性を維持するために、2つのブランチ間の共役制約も活用する。 全体としては、マルチステージのプロセスをピラミッド的な方法で積み重ねます。 GPWFormerは5つのベンチマークデータセットで大幅に改善され、既存のメソッドよりも優れていた。

Most existing ultra-high resolution (UHR) segmentation methods always struggle in the dilemma of balancing memory cost and local characterization accuracy, which are both taken into account in our proposed Guided Patch-Grouping Wavelet Transformer (GPWFormer) that achieves impressive performances. In this work, GPWFormer is a Transformer ($\mathcal{T}$)-CNN ($\mathcal{C}$) mutual leaning framework, where $\mathcal{T}$ takes the whole UHR image as input and harvests both local details and fine-grained long-range contextual dependencies, while $\mathcal{C}$ takes downsampled image as input for learning the category-wise deep context. For the sake of high inference speed and low computation complexity, $\mathcal{T}$ partitions the original UHR image into patches and groups them dynamically, then learns the low-level local details with the lightweight multi-head Wavelet Transformer (WFormer) network. Meanwhile, the fine-grained long-range contextual dependencies are also captured during this process, since patches that are far away in the spatial domain can also be assigned to the same group. In addition, masks produced by $\mathcal{C}$ are utilized to guide the patch grouping process, providing a heuristics decision. Moreover, the congruence constraints between the two branches are also exploited to maintain the spatial consistency among the patches. Overall, we stack the multi-stage process in a pyramid way. Experiments show that GPWFormer outperforms the existing methods with significant improvements on five benchmark datasets.
翻訳日:2023-07-05 14:38:25 公開日:2023-07-03
# 野生における不均一自己蒸留による貨物列車ブレーキシステムの視覚異常検出

Efficient Visual Fault Detection for Freight Train Braking System via Heterogeneous Self Distillation in the Wild ( http://arxiv.org/abs/2307.00701v1 )

ライセンス: Link先を確認
Yang Zhang, Huilin Pan, Yang Zhou, Mingying Li, Guodong Sun(参考訳) 貨物列車の効率的な視覚的故障検出は、制限されたハードウェア環境下での鉄道の安全運転を確保する重要な部分である。 深層学習に基づくアプローチは物体検出に優れているが, 実世界の工学に応用するには, 貨物列車の故障検出の効率が不十分である。 本稿では,低資源条件を満たしながら検出精度と速度を確保するための不均質な自己蒸留フレームワークを提案する。 出力特徴知識の特権情報は、蒸留により教師から生徒モデルに転送することができ、性能を高めることができる。 まず、軽量なバックボーンを用いて特徴を抽出し、新しいヘテロジニアスな知識ネックを生成する。 このようなネックは、チャネル間の位置情報と長距離依存性を並列符号化によってモデル化し、特徴抽出能力を最適化する。 次に,一般分布を用いて,より信頼性が高く正確な有界ボックス推定値を得る。 最後に,学習効率を向上させるために,ラベル近傍の値にネットワークを集中させる新たな損失関数を採用する。 4つのフォールトデータセットに関する実験により、我々のフレームワークは毎秒37フレーム以上を達成でき、従来の蒸留法と比較して高い精度を維持できることが分かりました。 さらに、最先端手法と比較して、メモリ使用量が少なく、モデルサイズが最小の、より競争力の高い性能を示す。

Efficient visual fault detection of freight trains is a critical part of ensuring the safe operation of railways under the restricted hardware environment. Although deep learning-based approaches have excelled in object detection, the efficiency of freight train fault detection is still insufficient to apply in real-world engineering. This paper proposes a heterogeneous self-distillation framework to ensure detection accuracy and speed while satisfying low resource requirements. The privileged information in the output feature knowledge can be transferred from the teacher to the student model through distillation to boost performance. We first adopt a lightweight backbone to extract features and generate a new heterogeneous knowledge neck. Such neck models positional information and long-range dependencies among channels through parallel encoding to optimize feature extraction capabilities. Then, we utilize the general distribution to obtain more credible and accurate bounding box estimates. Finally, we employ a novel loss function that makes the network easily concentrate on values near the label to improve learning efficiency. Experiments on four fault datasets reveal that our framework can achieve over 37 frames per second and maintain the highest accuracy in comparison with traditional distillation approaches. Moreover, compared to state-of-the-art methods, our framework demonstrates more competitive performance with lower memory usage and the smallest model size.
翻訳日:2023-07-05 14:37:41 公開日:2023-07-03
# ChatGPTからThreatGPTへ - サイバーセキュリティとプライバシにおける生成AIの影響

From ChatGPT to ThreatGPT: Impact of Generative AI in Cybersecurity and Privacy ( http://arxiv.org/abs/2307.00691v1 )

ライセンス: Link先を確認
Maanak Gupta, CharanKumar Akiri, Kshitiz Aryal, Eli Parker, Lopamudra Praharaj(参考訳) 間違いなく、ジェネレーティブAI(GenAI)モデルの進化は、2022年のデジタルトランスフォーメーションのハイライトである。 chatgptやgoogle bardといったさまざまなジェナイモデルが複雑さと能力を高め続けているため、サイバーセキュリティの観点からその結果を理解することが重要です。 いくつかの事例では、サイバーセキュリティの防衛面と攻撃面の両方でGenAIツールの使用を実証し、この技術が持つ社会的、倫理的、プライバシー的影響に焦点を当てている。 本研究は,サイバーセキュリティとプライバシの領域におけるGenAIの限界,課題,潜在的なリスク,および可能性を明らかにする。 この研究はChatGPTの脆弱性を示し、悪意のあるユーザーによって悪用され、モデルの倫理的制約を回避して悪意のある情報を流出させる。 本稿では, ジェイルブレイク, 逆心理学, ChatGPT へのインジェクション攻撃を成功例として示す。 また、サイバー犯罪者がGenAIツールを使ってサイバー攻撃を発生させる方法について検討し、敵がChatGPTを使ってソーシャルエンジニアリング攻撃、フィッシング攻撃、自動ハッキング、攻撃ペイロード生成、マルウェア生成、多形マルウェアを作成するシナリオについて検討する。 次に,防衛技術を調査し,サイバー防衛自動化,報告,脅威情報,セキュアなコード生成と検出,攻撃識別,倫理ガイドラインの開発,インシデント対応計画,マルウェア検出などのセキュリティ対策を改善するためにGenAIツールを使用する。 また、ChatGPTの社会的、法的、倫理的意味についても論じる。 結論として、コミュニティがサイバーセキュリティの影響を理解しているため、このGenAIを安全で、安全で、信頼できる、倫理的にするためのオープンな課題と今後の方向性を強調します。

Undoubtedly, the evolution of Generative AI (GenAI) models has been the highlight of digital transformation in the year 2022. As the different GenAI models like ChatGPT and Google Bard continue to foster their complexity and capability, it's critical to understand its consequences from a cybersecurity perspective. Several instances recently have demonstrated the use of GenAI tools in both the defensive and offensive side of cybersecurity, and focusing on the social, ethical and privacy implications this technology possesses. This research paper highlights the limitations, challenges, potential risks, and opportunities of GenAI in the domain of cybersecurity and privacy. The work presents the vulnerabilities of ChatGPT, which can be exploited by malicious users to exfiltrate malicious information bypassing the ethical constraints on the model. This paper demonstrates successful example attacks like Jailbreaks, reverse psychology, and prompt injection attacks on the ChatGPT. The paper also investigates how cyber offenders can use the GenAI tools in developing cyber attacks, and explore the scenarios where ChatGPT can be used by adversaries to create social engineering attacks, phishing attacks, automated hacking, attack payload generation, malware creation, and polymorphic malware. This paper then examines defense techniques and uses GenAI tools to improve security measures, including cyber defense automation, reporting, threat intelligence, secure code generation and detection, attack identification, developing ethical guidelines, incidence response plans, and malware detection. We will also discuss the social, legal, and ethical implications of ChatGPT. In conclusion, the paper highlights open challenges and future directions to make this GenAI secure, safe, trustworthy, and ethical as the community understands its cybersecurity impacts.
翻訳日:2023-07-05 14:37:17 公開日:2023-07-03
# 階層型メモリネットワークによるグラフレベルの異常検出

Graph-level Anomaly Detection via Hierarchical Memory Networks ( http://arxiv.org/abs/2307.00755v1 )

ライセンス: Link先を確認
Chaoxi Niu, Guansong Pang, Ling Chen(参考訳) グラフレベルの異常検出は、グラフ集合の大多数と比較して、逸脱構造やノード属性を示す異常グラフを特定することを目的としている。 第一の課題は、グラフの細粒度と全体像の両方に現れる正常なパターンを学習し、一部または全体において異常なグラフを特定することである。 この課題に対処するために、グラフオートエンコーダネットワークアーキテクチャを用いて階層メモリモジュール(ノードとグラフメモリモジュール)を学習する階層メモリネットワーク(HimNet)と呼ばれる新しいアプローチを提案する。 ノードレベルメモリモジュールは、局所的異常グラフを検出するノード間の細粒度の内部グラフインタラクションをモデル化するように訓練され、グラフレベルメモリモジュールは、全体的異常グラフを検出するための全体的正規パターンの学習に特化している。 この2つのモジュールは、ローカルグラフとグローバルグラフの両方を検出するために共同で最適化されている。 さまざまなドメインの16の実世界のグラフデータセットに関する広範囲な実証結果から i)HimNetは最先端の手法を著しく上回る 二 異常な汚染に対して堅牢であること。 コードはhttps://github.com/niuchx/himnet。

Graph-level anomaly detection aims to identify abnormal graphs that exhibit deviant structures and node attributes compared to the majority in a graph set. One primary challenge is to learn normal patterns manifested in both fine-grained and holistic views of graphs for identifying graphs that are abnormal in part or in whole. To tackle this challenge, we propose a novel approach called Hierarchical Memory Networks (HimNet), which learns hierarchical memory modules -- node and graph memory modules -- via a graph autoencoder network architecture. The node-level memory module is trained to model fine-grained, internal graph interactions among nodes for detecting locally abnormal graphs, while the graph-level memory module is dedicated to the learning of holistic normal patterns for detecting globally abnormal graphs. The two modules are jointly optimized to detect both locally- and globally-anomalous graphs. Extensive empirical results on 16 real-world graph datasets from various domains show that i) HimNet significantly outperforms the state-of-art methods and ii) it is robust to anomaly contamination. Codes are available at: https://github.com/Niuchx/HimNet.
翻訳日:2023-07-05 14:28:41 公開日:2023-07-03
# ImDiffusion:多変量時系列異常検出のための拡散モデル

ImDiffusion: Imputed Diffusion Models for Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2307.00754v1 )

ライセンス: Link先を確認
Yuhang Chen, Chaoyun Zhang, Minghua Ma, Yudong Liu, Ruomeng Ding, Bowen Li, Shilin He, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang(参考訳) 多変量時系列データにおける異常検出は、多様な領域にわたる大規模システムの効率的な運用を確保する上で重要である。 しかし、そのようなデータの異常を正確に検出することは大きな課題となる。 予測や再構築に基づく手法を含む既存のアプローチは、これらの課題に効果的に取り組むのに苦労している。 これらの限界を克服するために,時系列インプテーションと拡散モデルを組み合わせて高精度でロバストな異常検出を実現するimdiffusionという新しい異常検出フレームワークを提案する。 imdiffusionが採用するインプテーションベースのアプローチは、時系列における隣接値からの情報を活用し、時間的および相互依存の正確なモデリングを可能にし、データの不確かさを低減し、異常検出プロセスの堅牢性を高める。 ImDiffusionはさらに拡散モデルを時系列命令として利用し、複雑な依存関係を正確にキャプチャする。 推定過程中に発生するステップバイステップの分別出力を,異常予測に有用な信号として利用することで,検出プロセスの精度と頑健性が向上した。 我々はImDiffusionの性能をベンチマークデータセットの広範な実験により評価する。 その結果,提案フレームワークは検出精度とタイムラインの点で最先端のアプローチを著しく上回っていることがわかった。 ImDiffusionはMicrosoftの実際のプロダクションシステムにさらに統合されており、従来のアプローチに比べて11.4%のF1検出スコアの増加が目覚ましい。 われわれの知る限りでは、imdiffusionはインプテーションに基づく技術と時系列異常検出を組み合わせた先駆的アプローチであり、拡散モデルの新たな利用をフィールドに導入している。

Anomaly detection in multivariate time series data is of paramount importance for ensuring the efficient operation of large-scale systems across diverse domains. However, accurately detecting anomalies in such data poses significant challenges. Existing approaches, including forecasting and reconstruction-based methods, struggle to address these challenges effectively. To overcome these limitations, we propose a novel anomaly detection framework named ImDiffusion, which combines time series imputation and diffusion models to achieve accurate and robust anomaly detection. The imputation-based approach employed by ImDiffusion leverages the information from neighboring values in the time series, enabling precise modeling of temporal and inter-correlated dependencies, reducing uncertainty in the data, thereby enhancing the robustness of the anomaly detection process. ImDiffusion further leverages diffusion models as time series imputers to accurately capturing complex dependencies. We leverage the step-by-step denoised outputs generated during the inference process to serve as valuable signals for anomaly prediction, resulting in improved accuracy and robustness of the detection process. We evaluate the performance of ImDiffusion via extensive experiments on benchmark datasets. The results demonstrate that our proposed framework significantly outperforms state-of-the-art approaches in terms of detection accuracy and timeliness. ImDiffusion is further integrated into the real production system in Microsoft and observe a remarkable 11.4% increase in detection F1 score compared to the legacy approach. To the best of our knowledge, ImDiffusion represents a pioneering approach that combines imputation-based techniques with time series anomaly detection, while introducing the novel use of diffusion models to the field.
翻訳日:2023-07-05 14:28:22 公開日:2023-07-03
# 深層学習による新型コロナウイルス感染症に対する集団感度

Population Age Group Sensitivity for COVID-19 Infections with Deep Learning ( http://arxiv.org/abs/2307.00751v1 )

ライセンス: Link先を確認
Md Khairul Islam, Tyler Valentine, Royal Wang, Levi Davis, Matt Manner, Judy Fox(参考訳) 新型コロナウイルスのパンデミックは、世界中の政府や医療システムにとって前例のない課題を生み出し、ウイルス感染に寄与する要因を理解することの重要性を強調している。 本研究の目的は,修正モリス法と時系列ディープラーニングを用いて,米国郡レベルでのcovid-19感染率の最も影響力のある年齢層を特定することである。 現状の時系列モデルであるTemporal Fusion Transformerを静的な特徴として,動的特徴として集団ワクチン接種状況について検討した。 本研究では,これらの年齢群が感染率に与える影響を,個々の入力特徴を摂動させて分析し,その感度スコアに基づいて評価した。 調査はCDCとUS Censusの地上の真実データを用いて検証し,各年齢層に対する感染率について検討した。 その結果,2020年3月1日から2021年11月27日までの郡レベルでは,若年層が最も影響力のある年齢層であることが示唆された。 これらの結果を用いることで、公衆衛生政策や予防接種戦略などの介入に役立ち、ウイルスの拡散を抑えることができる。 本研究は、新型コロナウイルス感染に寄与する重要な要因を同定し、他の公衆衛生分野にも適用できる特徴感度分析の有用性を実証する。

The COVID-19 pandemic has created unprecedented challenges for governments and healthcare systems worldwide, highlighting the critical importance of understanding the factors that contribute to virus transmission. This study aimed to identify the most influential age groups in COVID-19 infection rates at the US county level using the Modified Morris Method and deep learning for time series. Our approach involved training the state-of-the-art time-series model Temporal Fusion Transformer on different age groups as a static feature and the population vaccination status as the dynamic feature. We analyzed the impact of those age groups on COVID-19 infection rates by perturbing individual input features and ranked them based on their Morris sensitivity scores, which quantify their contribution to COVID-19 transmission rates. The findings are verified using ground truth data from the CDC and US Census, which provide the true infection rates for each age group. The results suggest that young adults were the most influential age group in COVID-19 transmission at the county level between March 1, 2020, and November 27, 2021. Using these results can inform public health policies and interventions, such as targeted vaccination strategies, to better control the spread of the virus. Our approach demonstrates the utility of feature sensitivity analysis in identifying critical factors contributing to COVID-19 transmission and can be applied in other public health domains.
翻訳日:2023-07-05 14:27:58 公開日:2023-07-03
# 医用画像の異常を知らずに普遍的異常検出の実現可能性

Feasibility of Universal Anomaly Detection without Knowing the Abnormality in Medical Images ( http://arxiv.org/abs/2307.00750v1 )

ライセンス: Link先を確認
Can Cui, Yaohong Wang, Shunxing Bao, Yucheng Tang, Ruining Deng, Lucas W. Remedios, Zuhayr Asad, Joseph T. Roland, Ken S. Lau, Qi Liu, Lori A. Coburn, Keith T. Wilson, Bennett A. Landman, and Yuankai Huo(参考訳) 近年,多くの異常検出手法,特に深層学習法が,訓練中に正常画像のみを用いることで画像形態の異常を識別するために開発されている。 残念なことに、多くの先行異常検出方法は特定の「既知の」異常(例えば、脳腫瘍、骨分画、細胞型)に最適化された。 さらに、トレーニングプロセスでは通常の画像のみを使用していたが、検証プロセス(例えば、エポックセレクション、ハイパーパラメータチューニング)中に異常画像が頻繁に使用され、意図しない「未知」の異常が漏れる可能性がある。 In this study, we investigated these two essential aspects regarding universal anomaly detection in medical images by (1) comparing various anomaly detection methods across four medical datasets, (2) investigating the inevitable but often neglected issues on how to unbiasedly select the optimal anomaly detection model during the validation phase using only normal images, and (3) proposing a simple decision-level ensemble method to leverage the advantage of different kinds of anomaly detection without knowing the abnormality. 実験の結果,評価された手法がすべてのデータセットで常に最高の性能を達成できないことがわかった。 提案手法は一般に性能の堅牢性を高めた(平均AUC 0.956)。

Many anomaly detection approaches, especially deep learning methods, have been recently developed to identify abnormal image morphology by only employing normal images during training. Unfortunately, many prior anomaly detection methods were optimized for a specific "known" abnormality (e.g., brain tumor, bone fraction, cell types). Moreover, even though only the normal images were used in the training process, the abnormal images were oftenly employed during the validation process (e.g., epoch selection, hyper-parameter tuning), which might leak the supposed ``unknown" abnormality unintentionally. In this study, we investigated these two essential aspects regarding universal anomaly detection in medical images by (1) comparing various anomaly detection methods across four medical datasets, (2) investigating the inevitable but often neglected issues on how to unbiasedly select the optimal anomaly detection model during the validation phase using only normal images, and (3) proposing a simple decision-level ensemble method to leverage the advantage of different kinds of anomaly detection without knowing the abnormality. The results of our experiments indicate that none of the evaluated methods consistently achieved the best performance across all datasets. Our proposed method enhanced the robustness of performance in general (average AUC 0.956).
翻訳日:2023-07-05 14:27:33 公開日:2023-07-03
# デコヒーレンスがアンハーモニック発振器をシミュレートするコストを制限

Decoherence Limits the Cost to Simulate an Anharmonic Oscillator ( http://arxiv.org/abs/2307.00748v1 )

ライセンス: Link先を確認
Tzula B. Propp, Sayonee Ray, John B. DeBrota, Tameem Albash, and Ivan Deutsch(参考訳) カー効果によって支配される無調波発振器の量子力学をシミュレートし、デコヒーレンスがいかに効率を高めるかを研究する。 閉量子系における位相空間量子干渉に付随する微細なサブプランク構造をデコヒーレンスで洗い出すと、開量子力学は粗い有限差分積分を用いてより効率的にシミュレートできる。 これをデコヒーレンスが半古典的切断ウィグナー近似(twa)を回復する方法と結びつけ、量子干渉が猫状態やより一般的なコヒーレント状態の重ね合わせに繋がる場合の正確な閉系力学とは大きく異なる。 半古典力学への回帰は、発振器の初期振幅が大きくなるにつれてより顕著になり、ノイズの多いデバイスでアクセス可能な量子的優位性が示唆される。

We study how decoherence increases the efficiency with which we can simulate the quantum dynamics of an anharmonic oscillator, governed by the Kerr effect. As decoherence washes out the fine-grained subPlanck structure associated with phase-space quantum interference in the closed quantum system, the open quantum dynamics can be more efficiently simulated using a coarse-grained finite-difference numerical integration. We tie this to the way in which decoherence recovers the semiclassical truncated Wigner approximation (TWA), which strongly differs from the exact closed-system dynamics at times when quantum interference leads to cat states and more general superpositions of coherent states. The regression to semiclassical dynamics become more pronounced as the initial amplitude of the oscillator grows, with implications for the quantum advantage that might be accessible in noisy devices.
翻訳日:2023-07-05 14:27:14 公開日:2023-07-03
# UnLoc:LiDAR、レーダーおよび/またはカメラ入力を用いた自動運転車のユニバーサルローカライゼーション手法

UnLoc: A Universal Localization Method for Autonomous Vehicles using LiDAR, Radar and/or Camera Input ( http://arxiv.org/abs/2307.00741v1 )

ライセンス: Link先を確認
Muhammad Ibrahim, Naveed Akhtar, Saeed Anwar, and Ajmal Mian(参考訳) ローカライゼーションは自律ナビゲーションのためのロボットの基本的なタスクである。 既存のローカライズ手法は単一の入力データモダリティに依存するか、複数の計算モデルを訓練して異なるモダリティを処理する。 これは厳密な計算要求と、他のデータストリームの補完的な情報に乗じない準最適結果をもたらす。 本論文では,全気象条件におけるマルチセンサ入力による局所化のための統一型ニューラルネットワークUnLocを提案する。 当社のマルチストリームネットワークは、lidar、カメラ、レーダー入力を処理して、オンデマンドでローカライズすることが可能です。 UnLocは空間の3Dスパース畳み込みと円筒分割を利用してLiDARフレームを処理し、Radarと画像モダリティのためのスロットアテンションベースの特徴フィルタリングモジュールでResNetブロックを実装している。 入力センサデータを識別するために,一意に学習可能なモダリティ符号化方式を導入する。 本手法はoxford radar robotcar, apollosouthbay, perth-waデータセット上で広く評価されている。 結果は我々の技術の有効性を確認した。

Localization is a fundamental task in robotics for autonomous navigation. Existing localization methods rely on a single input data modality or train several computational models to process different modalities. This leads to stringent computational requirements and sub-optimal results that fail to capitalize on the complementary information in other data streams. This paper proposes UnLoc, a novel unified neural modeling approach for localization with multi-sensor input in all weather conditions. Our multi-stream network can handle LiDAR, Camera and RADAR inputs for localization on demand, i.e., it can work with one or more input sensors, making it robust to sensor failure. UnLoc uses 3D sparse convolutions and cylindrical partitioning of the space to process LiDAR frames and implements ResNet blocks with a slot attention-based feature filtering module for the Radar and image modalities. We introduce a unique learnable modality encoding scheme to distinguish between the input sensor data. Our method is extensively evaluated on Oxford Radar RobotCar, ApolloSouthBay and Perth-WA datasets. The results ascertain the efficacy of our technique.
翻訳日:2023-07-05 14:26:56 公開日:2023-07-03
# 一般計画における新規で自由な援助行動

Novelty and Lifted Helpful Actions in Generalized Planning ( http://arxiv.org/abs/2307.00735v1 )

ライセンス: Link先を確認
Chao Lei, Nir Lipovetzky, Krista A. Ehinger(参考訳) 近年、ゴール指向のヒューリスティックスやランドマークといった古典的計画における成功技術は、汎用計画(GP)問題に対する計画プログラムの計算能力を向上させることが示されている。 本稿では,計画プログラムに関する新規性を計算するアクションノベルティランクの概念を導入し,最も頻繁なアクション繰り返しが与えられた有界$v$よりも大きい場合,新たに生成された計画プログラムを誘発する,新規性に基づく汎用プランニングソルバを提案し,新規性に基づくベストファーストサーチBFS($v$)とプログレッシブ変種PGP($v$)により実装する。 さらに,アクションスキームから派生したGPにおける昇降支援動作を導入し,検索のスケールアップのための新たな評価機能と構造的プログラム制限を提案する。 実験の結果,新しいアルゴリズム BFS($v$) と PGP($v$) は,標準の一般化計画ベンチマークよりもGPの最先端性を上回っていることがわかった。 一般計画における上記の手法に関する実践的知見を概説する。

It has been shown recently that successful techniques in classical planning, such as goal-oriented heuristics and landmarks, can improve the ability to compute planning programs for generalized planning (GP) problems. In this work, we introduce the notion of action novelty rank, which computes novelty with respect to a planning program, and propose novelty-based generalized planning solvers, which prune a newly generated planning program if its most frequent action repetition is greater than a given bound $v$, implemented by novelty-based best-first search BFS($v$) and its progressive variant PGP($v$). Besides, we introduce lifted helpful actions in GP derived from action schemes, and propose new evaluation functions and structural program restrictions to scale up the search. Our experiments show that the new algorithms BFS($v$) and PGP($v$) outperform the state-of-the-art in GP over the standard generalized planning benchmarks. Practical findings on the above-mentioned methods in generalized planning are briefly discussed.
翻訳日:2023-07-05 14:26:39 公開日:2023-07-03
# 地すべり性中規模乱流の機械学習のためのトレーニングデータの選択について

On the choice of training data for machine learning of geostrophic mesoscale turbulence ( http://arxiv.org/abs/2307.00734v1 )

ライセンス: Link先を確認
F. E. Yan, J. Mak, Y. Wang(参考訳) データ」はデータ駆動手法において中心的な役割を担っているが、地球システムモデリング関連の問題に適用される機械学習アルゴリズムの研究に焦点をあてることはあまりない。 ここでは, 渦流束が動的に不活性な回転成分を含み, 学習過程を汚染することが期待される海面モデリングの課題である, 横境界の存在下での旋回成層乱流の渦平均相互作用について考察する。 文学においてしばしば用いられる選択は、渦流束の発散から学ぶことである。 ここでは, 回転成分を有する渦流束から学習したモデルが, 同等あるいは優れた性能を持つモデルにおいて, 頑健性が大幅に向上することを示す理論的議論と数値的証拠を提供する。 データ駆動モデルに予測スキルを欲しければ、データ選択や品質の選択は重要ではないかも知れませんが、データ駆動の手法を活用して、データ自体の未知または隠された物理的プロセスの検出を支援したいのであれば、非常に望ましい、あるいは必要かもしれない、と私たちは主張します。

'Data' plays a central role in data-driven methods, but is not often the subject of focus in investigations of machine learning algorithms as applied to Earth System Modeling related problems. Here we consider the case of eddy-mean interaction in rotating stratified turbulence in the presence of lateral boundaries, a problem of relevance to ocean modeling, where the eddy fluxes contain dynamically inert rotational components that are expected to contaminate the learning process. An often utilized choice in the literature is to learn from the divergence of the eddy fluxes. Here we provide theoretical arguments and numerical evidence that learning from the eddy fluxes with the rotational component appropriately filtered out results in models with comparable or better skill, but substantially improved robustness. If we simply want a data-driven model to have predictive skill then the choice of data choice and/or quality may not be critical, but we argue it is highly desirable and perhaps even necessary if we want to leverage data-driven methods to aid in discovering unknown or hidden physical processes within the data itself.
翻訳日:2023-07-05 14:26:22 公開日:2023-07-03
# ADDチャレンジ2023のためのエンド・ツー・エンドマルチモードオーディオディープフェイク生成システム

An End-to-End Multi-Module Audio Deepfake Generation System for ADD Challenge 2023 ( http://arxiv.org/abs/2307.00729v1 )

ライセンス: Link先を確認
Sheng Zhao, Qilong Yuan, Yibo Duan and Zhuoyue Chen(参考訳) 合成音声生成の課題は、与えられたテキストから言語内容を生成し、次に偽の人間の音声をシミュレートすることであり、合成音声生成の効果を決定する重要な要因は、生成速度、単語分割の精度、合成音声の自然性などである。 本稿では,話者エンコーダ,tacotron2に基づくシンセサイザ,wavernnに基づくvocoderを含む,エンドツーエンドのマルチモジュール合成音声生成モデルを構築した。 さらに、異なるデータセットと様々なモデル構造について比較実験をたくさん行います。 最後に、add 2023 challenge track 1.1で44.97%のfeed deception success rate(wdsr)で1位を獲得しました。

The task of synthetic speech generation is to generate language content from a given text, then simulating fake human voice.The key factors that determine the effect of synthetic speech generation mainly include speed of generation, accuracy of word segmentation, naturalness of synthesized speech, etc. This paper builds an end-to-end multi-module synthetic speech generation model, including speaker encoder, synthesizer based on Tacotron2, and vocoder based on WaveRNN. In addition, we perform a lot of comparative experiments on different datasets and various model structures. Finally, we won the first place in the ADD 2023 challenge Track 1.1 with the weighted deception success rate (WDSR) of 44.97%.
翻訳日:2023-07-05 14:26:01 公開日:2023-07-03
# lxl:4次元イメージングレーダとカメラ融合によるlidar専用リーン3d物体検出

LXL: LiDAR Exclusive Lean 3D Object Detection with 4D Imaging Radar and Camera Fusion ( http://arxiv.org/abs/2307.00724v1 )

ライセンス: Link先を確認
Weiyi Xiong, Jianan Liu, Tao Huang, Qing-Long Han, Yuxuan Xia, Bing Zhu(参考訳) 新興技術であり比較的手頃な価格の装置であるこの4Dイメージングレーダーは、自動運転における3Dオブジェクト検出にすでに有効であることが確認されている。 しかし、4Dレーダーポイント雲の空間とノイズはさらなる性能向上を妨げ、他のモードとの融合に関する詳細な研究は欠如している。 一方, カメラを用いた知覚手法の多くは, lift-splat-shoot (lss) で提案されている「奥行きベースのスプラッティング」により, 抽出された画像視点特徴を幾何学的に鳥眼視に変換する。 近年,イメージ・ビュー・トランスフォーメーションに「サンプリング」戦略を適用した研究がいくつかあり,画像深度予測なしでも「スプレイティング」よりも優れていた。 しかし、「サンプリング」の可能性は完全には開かれていない。 本稿では,カメラ上の「サンプリング」ビュー変換戦略と4次元イメージングレーダ融合による3次元物体検出について検討する。 提案モデルであるlxlでは,予測された画像深度分布図とレーダー3次元占有格子を用いて画像ビュー変換を補助し,radar occupancy-assisted depth-based sampling (radar occupancy-assisted depth-based sampling) と呼ぶ。 VoDとTJ4DRadSetデータセットの実験により,提案手法はベルやホイッスルを使わずに既存の3Dオブジェクト検出手法よりも優れた性能を示すことが示された。 アブレーション研究により,本手法は異なる強調設定において最良であることが証明された。

As an emerging technology and a relatively affordable device, the 4D imaging radar has already been confirmed effective in performing 3D object detection in autonomous driving. Nevertheless, the sparsity and noisiness of 4D radar point clouds hinder further performance improvement, and in-depth studies about its fusion with other modalities are lacking. On the other hand, most of the camera-based perception methods transform the extracted image perspective view features into the bird's-eye view geometrically via "depth-based splatting" proposed in Lift-Splat-Shoot (LSS), and some researchers exploit other modals such as LiDARs or ordinary automotive radars for enhancement. Recently, a few works have applied the "sampling" strategy for image view transformation, showing that it outperforms "splatting" even without image depth prediction. However, the potential of "sampling" is not fully unleashed. In this paper, we investigate the "sampling" view transformation strategy on the camera and 4D imaging radar fusion-based 3D object detection. In the proposed model, LXL, predicted image depth distribution maps and radar 3D occupancy grids are utilized to aid image view transformation, called "radar occupancy-assisted depth-based sampling". Experiments on VoD and TJ4DRadSet datasets show that the proposed method outperforms existing 3D object detection methods by a significant margin without bells and whistles. Ablation studies demonstrate that our method performs the best among different enhancement settings.
翻訳日:2023-07-05 14:25:47 公開日:2023-07-03
# ACDMSR: 単一画像超解法における条件拡散モデル

ACDMSR: Accelerated Conditional Diffusion Models for Single Image Super-Resolution ( http://arxiv.org/abs/2307.00781v1 )

ライセンス: Link先を確認
Axi Niu, Pham Xuan Trung, Kang Zhang, Jinqiu Sun, Yu Zhu, In So Kweon, and Yanning Zhang(参考訳) 拡散モデルは画像から画像への翻訳の分野で大きな人気を集めている。 画像超解像(SR)に拡散モデルを適用した従来の試みは、様々な雑音レベルでデノイングを訓練したU-Netアーキテクチャを用いて純粋ガウス雑音を反復的に精製することで、低分解能入力から良好な高分解能画像が得られることを示した。 しかし、この反復的なリファインメントプロセスは、そのアプリケーションを強く制限する低い推論速度の欠点を伴っている。 画像の超解像における拡散モデルを再検討し, acdmsr (accelerated conditional diffusion model for image super- resolution) と呼ばれる簡易かつ有意義な拡散モデルに基づく超解像法を提案する。 具体的には,標準拡散モデルを適用し,決定論的反復分極過程を通じて超解像を行う。 また,所望の低解像度(LR)画像の条件付き画像を提供するために,事前学習SRモデルを使用することの有効性を強調した。 本手法は, set5, set14, urban100, bsd100, manga109 などのベンチマークデータセット上で行った広範囲な実験により, 質的, 定量的な結果に対するこれまでの試みを上回っていることを実証する。 さらに,本手法は低解像度画像に対してより視覚的な対応を生成し,実用的なシナリオでの有効性を強調する。

Diffusion models have gained significant popularity in the field of image-to-image translation. Previous efforts applying diffusion models to image super-resolution (SR) have demonstrated that iteratively refining pure Gaussian noise using a U-Net architecture trained on denoising at various noise levels can yield satisfactory high-resolution images from low-resolution inputs. However, this iterative refinement process comes with the drawback of low inference speed, which strongly limits its applications. To speed up inference and further enhance the performance, our research revisits diffusion models in image super-resolution and proposes a straightforward yet significant diffusion model-based super-resolution method called ACDMSR (accelerated conditional diffusion model for image super-resolution). Specifically, our method adapts the standard diffusion model to perform super-resolution through a deterministic iterative denoising process. Our study also highlights the effectiveness of using a pre-trained SR model to provide the conditional image of the given low-resolution (LR) image to achieve superior high-resolution results. We demonstrate that our method surpasses previous attempts in qualitative and quantitative results through extensive experiments conducted on benchmark datasets such as Set5, Set14, Urban100, BSD100, and Manga109. Moreover, our approach generates more visually realistic counterparts for low-resolution images, emphasizing its effectiveness in practical scenarios.
翻訳日:2023-07-05 14:20:22 公開日:2023-07-03
# GA-DRL:動的粘性雲上でのDAGタスクスケジューリングのためのグラフニューラルネットワーク強化深部強化学習

GA-DRL: Graph Neural Network-Augmented Deep Reinforcement Learning for DAG Task Scheduling over Dynamic Vehicular Clouds ( http://arxiv.org/abs/2307.00777v1 )

ライセンス: Link先を確認
Zhang Liu and Lianfen Huang and Zhibin Gao and Manman Luo and Seyyedali Hosseinalipour and Huaiyu Dai(参考訳) Vehicular Clouds (VC) は、計算集約的なタスクを車両上で処理するための現代的なプラットフォームである。 このようなタスクは、しばしば有向非巡回グラフ(DAG)として表される。 本稿では、動的VC上でDAGタスクをスケジューリングするためのグラフニューラルネットワーク強化深部強化学習スキーム(GA-DRL)を提案する。 本稿ではまず,VC支援型DAGタスクスケジューリングをマルコフ決定プロセスとしてモデル化する。 次にマルチヘッドグラフアテンションネットワーク(GAT)を用いて,DAGサブタスクの特徴を抽出する。 開発したGATは,各サブタスクの先駆者と後継を同時に考慮し,DAGタスクにおけるトポロジ情報の双方向集約を可能にする。 我々はさらに,異なるサブタスクのスケジューリング優先度を体系化し,非一様dag近傍サンプリングを導入することで,開発gatを完全に認識できないdagタスクトポロジに一般化する。 最後に、GATを二重深度Qネットワーク学習モジュールに拡張し、サブタスクの抽出特徴に応じてサブタスク間割り当てを行い、VCにおける車両の動的および不均一性を考察する。 実世界の走行軌跡下での各種DAGタスクのシミュレーションにより,GA-DRLがDAGタスク完了時間において既存のベンチマークより優れていることを示す。

Vehicular clouds (VCs) are modern platforms for processing of computation-intensive tasks over vehicles. Such tasks are often represented as directed acyclic graphs (DAGs) consisting of interdependent vertices/subtasks and directed edges. In this paper, we propose a graph neural network-augmented deep reinforcement learning scheme (GA-DRL) for scheduling DAG tasks over dynamic VCs. In doing so, we first model the VC-assisted DAG task scheduling as a Markov decision process. We then adopt a multi-head graph attention network (GAT) to extract the features of DAG subtasks. Our developed GAT enables a two-way aggregation of the topological information in a DAG task by simultaneously considering predecessors and successors of each subtask. We further introduce non-uniform DAG neighborhood sampling through codifying the scheduling priority of different subtasks, which makes our developed GAT generalizable to completely unseen DAG task topologies. Finally, we augment GAT into a double deep Q-network learning module to conduct subtask-to-vehicle assignment according to the extracted features of subtasks, while considering the dynamics and heterogeneity of the vehicles in VCs. Through simulating various DAG tasks under real-world movement traces of vehicles, we demonstrate that GA-DRL outperforms existing benchmarks in terms of DAG task completion time.
翻訳日:2023-07-05 14:19:54 公開日:2023-07-03
# DifFSS:Few-Shot Semantic Segmentationのための拡散モデル

DifFSS: Diffusion Model for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2307.00773v1 )

ライセンス: Link先を確認
Weimin Tan, Siyuan Chen, Bo Yan(参考訳) 拡散モデルは画像生成において優れた性能を示した。 様々なネットワーク構造を持つ小ショットセマンティックセグメンテーション(FSS)モデルが提案されているが、性能改善はボトルネックに達している。 本稿では,DifFSSと呼ばれるFSSタスクの拡散モデルを活用するための最初の研究について述べる。 新たなFSSパラダイムであるDifFSSは、ネットワーク構造を変更することなく、最先端のFSSモデルの性能をさらに向上させることができる。 具体的には,拡散モデルの強力な生成能力を利用して,支援画像のセマンティックマスク,スクリブル,ソフトHED境界を制御条件として,多様な補助画像を生成する。 この生成プロセスは、色、テクスチャの変化、照明、$etc$といったクエリイメージのクラス内の多様性をシミュレートする。 結果として、fssモデルはより多様なサポートイメージを参照でき、よりロバストな表現となり、セグメンテーション性能の一貫した改善を達成することができる。 既存の高度なFSSモデルに基づく3つの公開データセットに対する大規模な実験は、FSSタスクの拡散モデルの有効性を示す。 さらに,拡散モデルの入力設定の違いがセグメント化性能に与える影響について詳細に検討した。 この全く新しいパラダイムが、AI生成コンテンツと統合されたFSSタスクの研究にインスピレーションを与えることを期待している。

Diffusion models have demonstrated excellent performance in image generation. Although various few-shot semantic segmentation (FSS) models with different network structures have been proposed, performance improvement has reached a bottleneck. This paper presents the first work to leverage the diffusion model for FSS task, called DifFSS. DifFSS, a novel FSS paradigm, can further improve the performance of the state-of-the-art FSS models by a large margin without modifying their network structure. Specifically, we utilize the powerful generation ability of diffusion models to generate diverse auxiliary support images by using the semantic mask, scribble or soft HED boundary of the support image as control conditions. This generation process simulates the variety within the class of the query image, such as color, texture variation, lighting, $etc$. As a result, FSS models can refer to more diverse support images, yielding more robust representations, thereby achieving a consistent improvement in segmentation performance. Extensive experiments on three publicly available datasets based on existing advanced FSS models demonstrate the effectiveness of the diffusion model for FSS task. Furthermore, we explore in detail the impact of different input settings of the diffusion model on segmentation performance. Hopefully, this completely new paradigm will bring inspiration to the study of FSS task integrated with AI-generated content.
翻訳日:2023-07-05 14:19:34 公開日:2023-07-03
# CollabKG:(イベント)知識グラフ構築のための学習可能なヒューマンマシン協調情報抽出ツールキット

CollabKG: A Learnable Human-Machine-Cooperative Information Extraction Toolkit for (Event) Knowledge Graph Construction ( http://arxiv.org/abs/2307.00769v1 )

ライセンス: Link先を確認
Xiang Wei, Yufeng Chen, Ning Cheng, Xingyu Cui, Jinan Xu, Wenjuan Han(参考訳) エンティティ中心およびイベント中心の知識グラフ(KG,EKG)の構築や拡張には,情報抽出(IE)アノテーションツールキットが不可欠である。 しかし、既存のIEツールキットには、マルチタスクをサポートしない、自動更新をサポートしないなど、いくつかの非自明な問題がある。 本研究では,KGとEKG構築のための学習可能な人機械協調IEツールキットCollabKGを提案する。 特にマルチタスク問題において、CollabKGは、名前付きエンティティ認識(NER)、エンティティ関連トリプル抽出(RE)、イベント抽出(EE)など、異なるIEサブタスクを統一し、KGとEKGの両方をサポートする。 次に,先進的なプロンプトベースIE技術と人間機械協調機構を補助機械としてLLMと組み合わせることで,低コストで高い性能を実現する。 最後に、人間と機械の双方向相互作用のため、学習能力を持つCollabKGは自己更新を可能にする。 さらにCollabKGには、システムを強力で使いやすく、生産性の高いものにするいくつかの魅力的な機能(カスタマイズ、トレーニング不要、伝播など)がある。 これらの機能に関して、ツールキットを既存のツールと比較します。 人的評価は,collabkgがアノテーションの品質,効率,安定性を同時に改善することを示す。

In order to construct or extend entity-centric and event-centric knowledge graphs (KG and EKG), the information extraction (IE) annotation toolkit is essential. However, existing IE toolkits have several non-trivial problems, such as not supporting multi-tasks, not supporting automatic updates. In this work, we present CollabKG, a learnable human-machine-cooperative IE toolkit for KG and EKG construction. Specifically, for the multi-task issue, CollabKG unifies different IE subtasks, including named entity recognition (NER), entity-relation triple extraction (RE), and event extraction (EE), and supports both KG and EKG. Then, combining advanced prompting-based IE technology, the human-machine-cooperation mechanism with LLMs as the assistant machine is presented which can provide a lower cost as well as a higher performance. Lastly, owing to the two-way interaction between the human and machine, CollabKG with learning ability allows self-renewal. Besides, CollabKG has several appealing features (e.g., customization, training-free, propagation, etc.) that make the system powerful, easy-to-use, and high-productivity. We holistically compare our toolkit with other existing tools on these features. Human evaluation quantitatively illustrates that CollabKG significantly improves annotation quality, efficiency, and stability simultaneously.
翻訳日:2023-07-05 14:19:14 公開日:2023-07-03
# ジョイントベル計測による可変量子固有解法高速化

Accelerated variational quantum eigensolver with joint Bell measurement ( http://arxiv.org/abs/2307.00766v1 )

ライセンス: Link先を確認
Chengfeng Cao, Hiroshi Yano, Yuya O. Nakagawa(参考訳) 変分量子固有解法(VQE)は、量子化学において分子ハミルトニアンの基底状態を得るために、短期量子コンピュータのための顕著な量子古典ハイブリッドアルゴリズムである。 しかし、ハミルトニアンにおけるパウリ作用素の非可換性のため、量子コンピュータに要求される測定量は、システムのサイズが大きくなるにつれて著しく増加し、VQEの実用的な応用を妨げる可能性がある。 本稿では,JBM-VQE (Joint Bell Measurement VQE) と呼ばれるプロトコルを提案する。 本手法では、ハミルトニアンに存在するパウリ作用素のすべての期待値の絶対値を同時に測定できるジョイントベル測定器を用いる。 最適化の過程では、jbm-vqeはジョイントベル測定により各イテレーション毎のポーリ演算子の期待値の絶対値を推定するが、それらの符号は従来の方法による期待値の測定ではより少ない頻度で測定される。 我々のアプローチは、最適化中に標識が頻繁に変化しないという経験的観察に基づいている。 小分子の分子ハミルトニアン基底状態を求める数値シミュレーションによる従来のVQEと比較して、JBM-VQEの高速化と、最適化の初期段階におけるJBM-VQEの高速化は、大規模システムではますます顕著になっている。 共同ベル測定に基づくアプローチは、VQEに限らず、コスト関数が多くのパウリ演算子の期待値である様々な量子アルゴリズムで利用することができる。

The variational quantum eigensolver (VQE) stands as a prominent quantum-classical hybrid algorithm for near-term quantum computers to obtain the ground states of molecular Hamiltonians in quantum chemistry. However, due to the non-commutativity of the Pauli operators in the Hamiltonian, the number of measurements required on quantum computers increases significantly as the system size grows, which may hinder practical applications of VQE. In this work, we present a protocol termed joint Bell measurement VQE (JBM-VQE) to reduce the number of measurements and speed up the VQE algorithm. Our method employs joint Bell measurements, enabling the simultaneous measurement of the absolute values of all expectation values of Pauli operators present in the Hamiltonian. In the course of the optimization, JBM-VQE estimates the absolute values of the expectation values of the Pauli operators for each iteration by the joint Bell measurement, while the signs of them are measured less frequently by the conventional method to measure the expectation values. Our approach is based on the empirical observation that the signs do not often change during optimization. We illustrate the speed-up of JBM-VQE compared to conventional VQE by numerical simulations for finding the ground states of molecular Hamiltonians of small molecules, and the speed-up of JBM-VQE at the early stage of the optimization becomes increasingly pronounced in larger systems. Our approach based on the joint Bell measurement is not limited to VQE and can be utilized in various quantum algorithms whose cost functions are expectation values of many Pauli operators.
翻訳日:2023-07-05 14:18:50 公開日:2023-07-03
# 階層的オープン語彙的ユニバーサルイメージセグメンテーション

Hierarchical Open-vocabulary Universal Image Segmentation ( http://arxiv.org/abs/2307.00764v1 )

ライセンス: Link先を確認
Xudong Wang and Shufan Li and Konstantinos Kallidromitis and Yusuke Kato and Kazuki Kozuka and Trevor Darrell(参考訳) Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。 しかし、複雑な視覚シーンは自然により単純な部品に分解され、複数のレベルの粒度で抽象化され、固有のセグメンテーションあいまいさをもたらす。 この曖昧さを回避し、外部要因として扱う既存の方法とは異なり、このアプローチでは、異なる意味レベルを包含する階層表現を学習プロセスに積極的に組み込む。 本稿では,"things" と "stuff" の両方に対して,分離されたテキスト画像融合機構と表現学習モジュールを提案する。 さらに,これらのカテゴリー間のテキスト的特徴と視覚的特徴の相違を系統的に検討した。 結果として得られたHIPIEは、統一フレームワーク内の階層的、oPen-vocabulary、unIvErsalセグメンテーションタスクに取り組む。 ADE20K、COCO、Pascal-VOC Part、RefCOCO/RefCOCOg、ODinW、SeginWなど40以上のデータセットでベンチマークされたHIPIEは、セマンティックレベル(セマンティックセグメンテーションなど)、インスタンスレベル(パンプト/リリファレンスセグメンテーションとオブジェクト検出など)、および部分レベル(パート/サブパートセグメンテーションなど)タスクを含む、さまざまなレベルのイメージ理解において、最先端の結果を達成する。 私たちのコードはhttps://github.com/berkeley-hipie/hipieでリリースしています。

Open-vocabulary image segmentation aims to partition an image into semantic regions according to arbitrary text descriptions. However, complex visual scenes can be naturally decomposed into simpler parts and abstracted at multiple levels of granularity, introducing inherent segmentation ambiguity. Unlike existing methods that typically sidestep this ambiguity and treat it as an external factor, our approach actively incorporates a hierarchical representation encompassing different semantic-levels into the learning process. We propose a decoupled text-image fusion mechanism and representation learning modules for both "things" and "stuff".1 Additionally, we systematically examine the differences that exist in the textual and visual features between these types of categories. Our resulting model, named HIPIE, tackles HIerarchical, oPen-vocabulary, and unIvErsal segmentation tasks within a unified framework. Benchmarked on over 40 datasets, e.g., ADE20K, COCO, Pascal-VOC Part, RefCOCO/RefCOCOg, ODinW and SeginW, HIPIE achieves the state-of-the-art results at various levels of image comprehension, including semantic-level (e.g., semantic segmentation), instance-level (e.g., panoptic/referring segmentation and object detection), as well as part-level (e.g., part/subpart segmentation) tasks. Our code is released at https://github.com/berkeley-hipie/HIPIE.
翻訳日:2023-07-05 14:18:20 公開日:2023-07-03
# クリーン領域とノイズ領域の整合によるノイズ耐性画像表現の学習

Learning Noise-Resistant Image Representation by Aligning Clean and Noisy Domains ( http://arxiv.org/abs/2307.00761v1 )

ライセンス: Link先を確認
Yanhui Guo, Xiaolin Wu, Fangzhou Luo(参考訳) 最近の教師付きおよび教師なしの画像表現学習アルゴリズムは量子飛躍を達成した。 しかし、これらの手法は、設計パラダイムにおけるノイズに対する表現レジリエンスを考慮に入れていない。 したがって、これらの効果的な手法は、通常モデルトレーニングに不透明な複雑な実世界のノイズなど、トレーニング分布外のノイズに直面すると故障する。 この問題に対処するため、双対領域は、ノイズ・ロバスト(NR)領域と、ノイズ・フリー(NF)領域という双対な正準清浄空間を、表現間の相互作用情報を最大化することで、別々にノイズ表現の標準空間をモデル化するように最適化されている。 二重正準領域を前提として、NR表現をNF領域に正確に変換する暗黙的ニューラルマッピング関数を設計し、ノイズレギュレーションを除去してノイズ耐性表現を生成する。 提案手法は,既存の学習システムと容易に統合でき,雑音に対するロバスト性が向上するスケーラブルモジュールである。 合成および実世界のノイズデータを用いた様々なタスクの包括的検証により,提案手法は複雑な雑音画像に対して優れた性能と頑健性を実現することができることを示した。

Recent supervised and unsupervised image representation learning algorithms have achieved quantum leaps. However, these techniques do not account for representation resilience against noise in their design paradigms. Consequently, these effective methods suffer failure when confronted with noise outside the training distribution, such as complicated real-world noise that is usually opaque to model training. To address this issue, dual domains are optimized to separately model a canonical space for noisy representations, namely the Noise-Robust (NR) domain, and a twinned canonical clean space, namely the Noise-Free (NF) domain, by maximizing the interaction information between the representations. Given the dual canonical domains, we design a target-guided implicit neural mapping function to accurately translate the NR representations to the NF domain, yielding noise-resistant representations by eliminating noise regencies. The proposed method is a scalable module that can be readily integrated into existing learning systems to improve their robustness against noise. Comprehensive trials of various tasks using both synthetic and real-world noisy data demonstrate that the proposed Target-Guided Dual-Domain Translation (TDDT) method is able to achieve remarkable performance and robustness in the face of complex noisy images.
翻訳日:2023-07-05 14:17:47 公開日:2023-07-03
# 低リソース言語におけるカスタム単語認識改善のための多言語文脈適応

Multilingual Contextual Adapters To Improve Custom Word Recognition In Low-resource Languages ( http://arxiv.org/abs/2307.00759v1 )

ライセンス: Link先を確認
Devang Kulshreshtha, Saket Dingliwal, Brady Houston, Sravan Bodapati(参考訳) コネクショニスト時間分類(ctc)モデルは、自動音声認識(asr)の速度と性能のバランスのために人気がある。 しかし、これらのCTCモデルは、カスタムワードに対するパーソナライズなど、他の分野でも苦戦している。 最近のアプローチでは、カスタムエンティティの認識を改善するためにctcの注意に基づくバイアスモデルが使用されるコンテキストアダプタを探求している。 このアプローチは十分なデータでうまく機能するが、低リソース言語にとって効果的な戦略ではないことを示す。 本研究では,コンテクストアダプタのスムースなトレーニングのための監督損失を提案する。 さらに,限られたトレーニングデータによる性能向上のための多言語戦略についても検討する。 提案手法は,低リソース言語に対する未知のカスタムエンティティの検索において,F1の48%の改善を実現する。 興味深いことに、文脈適応器を訓練する副産物として、基本CTCモデルの性能も5-11%のワード誤り率(WER)が減少する。

Connectionist Temporal Classification (CTC) models are popular for their balance between speed and performance for Automatic Speech Recognition (ASR). However, these CTC models still struggle in other areas, such as personalization towards custom words. A recent approach explores Contextual Adapters, wherein an attention-based biasing model for CTC is used to improve the recognition of custom entities. While this approach works well with enough data, we showcase that it isn't an effective strategy for low-resource languages. In this work, we propose a supervision loss for smoother training of the Contextual Adapters. Further, we explore a multilingual strategy to improve performance with limited training data. Our method achieves 48% F1 improvement in retrieving unseen custom entities for a low-resource language. Interestingly, as a by-product of training the Contextual Adapters, we see a 5-11% Word Error Rate (WER) reduction in the performance of the base CTC model as well.
翻訳日:2023-07-05 14:17:23 公開日:2023-07-03
# フィルタワイズ相互作用の測定による構造的ネットワークプルーニング

Structured Network Pruning by Measuring Filter-wise Interactions ( http://arxiv.org/abs/2307.00758v1 )

ライセンス: Link先を確認
Wenting Tang, Xingxing Wei, Bo Li (Beijing Key Laboratory of Digital Media, School of Computer Science and Engineering, Beihang University, Beijing, China)(参考訳) 構造化ネットワークプルーニングは,実アプリケーションにおけるCNNの一般化性能を維持しつつ,直接計算コストを削減するための実用的な手法である。 しかし, 冗長フィルタの同定はネットワークプルーニングの重要な問題であり, 現在の冗長性基準は個々のフィルタの特性のみに焦点をあてている。 刈り取りが増加すると、これらの冗長性基準は有効でも効率的でもない。 フィルタ間相互作用はcnnの予測精度にも寄与するので,フィルタ間相互作用を冗長性基準に統合する。 本基準では,個別フィルタと複数フィルタの決定能力を反映したフィルタ重要度とフィルタ活用力を紹介する。 提案手法は,新しい冗長性基準を利用してSNPFI(Structured Network Pruning by Measurement filter-wise Interaction)を提案する。 刈取中、SNPFIはフィルタ利用強度に基づいて適切な間隔を自動的に割り当て、フィルタ重要度により無駄なフィルタを除去できる。 プルーニング後、SNPFIは相互作用差を最小化して反復訓練をすることなく、プルーニングモデルの性能を効果的に回復することができる。 我々は, mnist, cifar-10, imagenetなどの画像分類データセットに対して, alexnet, mobilenetv1, resnet-50などのcnnモデルを用いてsnpfiの有効性を実証した。 実験的なcnnモデルでは、ネットワーク圧縮で計算の60%近くが削減されるが、分類精度は維持される。

Structured network pruning is a practical approach to reduce computation cost directly while retaining the CNNs' generalization performance in real applications. However, identifying redundant filters is a core problem in structured network pruning, and current redundancy criteria only focus on individual filters' attributes. When pruning sparsity increases, these redundancy criteria are not effective or efficient enough. Since the filter-wise interaction also contributes to the CNN's prediction accuracy, we integrate the filter-wise interaction into the redundancy criterion. In our criterion, we introduce the filter importance and filter utilization strength to reflect the decision ability of individual and multiple filters. Utilizing this new redundancy criterion, we propose a structured network pruning approach SNPFI (Structured Network Pruning by measuring Filter-wise Interaction). During the pruning, the SNPFI can automatically assign the proper sparsity based on the filter utilization strength and eliminate the useless filters by filter importance. After the pruning, the SNPFI can recover pruned model's performance effectively without iterative training by minimizing the interaction difference. We empirically demonstrate the effectiveness of the SNPFI with several commonly used CNN models, including AlexNet, MobileNetv1, and ResNet-50, on various image classification datasets, including MNIST, CIFAR-10, and ImageNet. For all experimental CNN models, nearly 60% of computation is reduced in a network compression while the classification accuracy remains.
翻訳日:2023-07-05 14:17:08 公開日:2023-07-03
# スマートフォンオンデバイスAIアプリにおけるヒューマンAIインタラクションの調査

Towards Real Smart Apps: Investigating Human-AI Interactions in Smartphone On-Device AI Apps ( http://arxiv.org/abs/2307.00756v1 )

ライセンス: Link先を確認
Jason Ching Yuen Siu, Jieshan Chen, Yujin Huang, Zhenchang Xing, Chunyang Chen(参考訳) ディープラーニング技術の出現に伴い、スマートフォンアプリは、音声翻訳のような高度なタスクを可能にし、ユーザーを引きつけ、市場競争力を高めるために、デバイス上のAI機能が組み込まれている。 優れたインタラクション設計は、AI機能を有用かつ理解可能にするために重要である。 しかし、AI機能には、入力に対する敏感さ、動的な振る舞い、出力の不確実性など、独自の課題がある。 既存のガイドラインやツールは、AI機能をカバーしていないか、プロのデザイナーとの非公式なインタビューで確認されたモバイルアプリを検討するかのどちらかです。 これらの問題に対処するため,モバイルアプリにおけるユーザとAIのインタラクションを探索する実験を行った。 62,822個のアプリから176個のAIアプリを調べることで、デバイス上でのAI使用状況を理解することを目指している。 我々は、255のAI機能を特定し、759の実装を3つの主要な相互作用パターンタイプに要約した。 さらに,この知見を多面検索可能なギャラリーに実装した。 本研究の結果は,本研究の有用性を示すものである。

With the emergence of deep learning techniques, smartphone apps are now embedded on-device AI features for enabling advanced tasks like speech translation, to attract users and increase market competitiveness. A good interaction design is important to make an AI feature usable and understandable. However, AI features have their unique challenges like sensitiveness to the input, dynamic behaviours and output uncertainty. Existing guidelines and tools either do not cover AI features or consider mobile apps which are confirmed by our informal interview with professional designers. To address these issues, we conducted the first empirical study to explore user-AI-interaction in mobile apps. We aim to understand the status of on-device AI usage by investigating 176 AI apps from 62,822 apps. We identified 255 AI features and summarised 759 implementations into three primary interaction pattern types. We further implemented our findings into a multi-faceted search-enabled gallery. The results of the user study demonstrate the usefulness of our findings.
翻訳日:2023-07-05 14:16:43 公開日:2023-07-03
# 厳密な連続視点からの前景閉塞除去のためのスパイクストリームの可能性

Unveiling the Potential of Spike Streams for Foreground Occlusion Removal from Densely Continuous Views ( http://arxiv.org/abs/2307.00821v1 )

ライセンス: Link先を確認
Jiyuan Zhang, Shiyan Chen, Yajing Zheng, Zhaofei Yu, Tiejun Huang(参考訳) 前庭閉塞の除去によるクリーンな背景画像の抽出は, 極めて重要な課題であるが, 課題もいくつかある。 現在、除染研究の大部分は、キャリブレーションされたカメラアレイから個別画像の抽出と合成を通じてこの問題に対処することに焦点を当てている。 しかし, 濃密な咬合や高速運動に直面すると, 視野が狭く, 動きがぼやけやすいため, 修復品質が低下する傾向がみられた。 前景の密閉をうまく除去するには、効果的な多視点視覚情報統合アプローチが必要である。 スパイクカメラを新しいタイプのニューロモルフィックセンサーとして導入することは、超高時間分解能と高ダイナミックレンジで有望な能力を提供する。 本稿では,カメラ固有のパラメータやカメラポーズを事前に知ることなく,1つのスパイクカメラのみを用いた連続マルチビュー撮影によるデクルージョン問題の解法を提案する。 スパイクカメラを素早く動かすことで、目立たないシーンからのスパイクの密集した流れを継続的に捉えます。 スパイクを処理するために,マルチウィンドウ内の連続的な視点からスパイクの情報を統合する新しいモデル \textbf{spkoccnet} を構築し,効果的な融合と精細化のための新しい相互注意機構を提案する。 さらに,最初の実世界のスパイクベースデータセットである \textbf{s-occ} を咬合除去に寄与する。 実験の結果,提案モデルは多様な場面において密集した咬合を効率的に除去し,強い一般化を示した。

The extraction of a clean background image by removing foreground occlusion holds immense practical significance, but it also presents several challenges. Presently, the majority of de-occlusion research focuses on addressing this issue through the extraction and synthesis of discrete images from calibrated camera arrays. Nonetheless, the restoration quality tends to suffer when faced with dense occlusions or high-speed motions due to limited perspectives and motion blur. To successfully remove dense foreground occlusion, an effective multi-view visual information integration approach is required. Introducing the spike camera as a novel type of neuromorphic sensor offers promising capabilities with its ultra-high temporal resolution and high dynamic range. In this paper, we propose an innovative solution for tackling the de-occlusion problem through continuous multi-view imaging using only one spike camera without any prior knowledge of camera intrinsic parameters and camera poses. By rapidly moving the spike camera, we continually capture the dense stream of spikes from the occluded scene. To process the spikes, we build a novel model \textbf{SpkOccNet}, in which we integrate information of spikes from continuous viewpoints within multi-windows, and propose a novel cross-view mutual attention mechanism for effective fusion and refinement. In addition, we contribute the first real-world spike-based dataset \textbf{S-OCC} for occlusion removal. The experimental results demonstrate that our proposed model efficiently removes dense occlusions in diverse scenes while exhibiting strong generalization.
翻訳日:2023-07-05 14:08:42 公開日:2023-07-03
# Motion-X:大規模3D表現型人体モーションデータセット

Motion-X: A Large-scale 3D Expressive Whole-body Human Motion Dataset ( http://arxiv.org/abs/2307.00818v1 )

ライセンス: Link先を確認
Jing Lin, Ailing Zeng, Shunlin Lu, Yuanhao Cai, Ruimao Zhang, Haoqian Wang, Lei Zhang(参考訳) 本稿では,大規模3次元表現型全身運動データセットmotion-xについて述べる。 既存のモーションデータセットは、主に体のみのポーズ、表情の欠如、手のジェスチャー、きめ細かいポーズ記述を含んでいる。 さらに、それらは主に、手作業でテキスト記述をラベル付けした限られた実験シーンから収集されるため、スケーラビリティが大幅に制限される。 これらの制限を克服するため,我々は,単眼または多眼映像からの動画に注釈を付与し,各映像に総合的な意味ラベルを付与し,各フレームに細粒度なボディポーズ記述を付与する,全身動作およびテキストアノテーションパイプラインを開発した。 このパイプラインは高精度で費用対効果があり、さらなる研究のためにスケーラブルである。 motion-xは13.7mの正確な3dポーズアノテーション(つまり、smpl-x)で構成され、巨大なシーンから96kのモーションシーケンスをカバーする。 さらに、Motion-Xは13.7Mフレームレベルの全身ポーズ記述と96Kシーケンスレベルのセマンティックラベルを提供する。 包括的な実験は、アノテーションパイプラインの正確さと、表現力、多様性、自然なモーション生成の強化におけるMotion-Xの顕著な利点、および3次元の人体メッシュの回復を示す。

In this paper, we present Motion-X, a large-scale 3D expressive whole-body motion dataset. Existing motion datasets predominantly contain body-only poses, lacking facial expressions, hand gestures, and fine-grained pose descriptions. Moreover, they are primarily collected from limited laboratory scenes with textual descriptions manually labeled, which greatly limits their scalability. To overcome these limitations, we develop a whole-body motion and text annotation pipeline, which can automatically annotate motion from either single- or multi-view videos and provide comprehensive semantic labels for each video and fine-grained whole-body pose descriptions for each frame. This pipeline is of high precision, cost-effective, and scalable for further research. Based on it, we construct Motion-X, which comprises 13.7M precise 3D whole-body pose annotations (i.e., SMPL-X) covering 96K motion sequences from massive scenes. Besides, Motion-X provides 13.7M frame-level whole-body pose descriptions and 96K sequence-level semantic labels. Comprehensive experiments demonstrate the accuracy of the annotation pipeline and the significant benefit of Motion-X in enhancing expressive, diverse, and natural motion generation, as well as 3D whole-body human mesh recovery.
翻訳日:2023-07-05 14:08:16 公開日:2023-07-03
# 相互作用量子ハミルトニアンの変分方程式

Variational Equations-of-States for Interacting Quantum Hamiltonians ( http://arxiv.org/abs/2307.00812v1 )

ライセンス: Link先を確認
Wenxin Ding(参考訳) 変分法は基本的な重要性を持ち、理論物理学、特に強相互作用系において広く用いられている。 本研究では、相互作用する量子ハミルトニアンの純粋状態に対する状態の変分方程式(VES)の集合を示す。 VESは密度演算子や静的相関関数の変化の観点から表現することができる。 我々は、既知の純状態密度行列とその変動の間の代数的関係を導出し、この関係を厳密な密度行列に対する平均ハイゼンベルク方程式-運動関係に適用してvesを得る。 さらに、相関関数の観点からVESを直接表現して計算可能にする。 任意の空間次元における横フィールドイジングモデルの相関関数の摂動計算、臨界点における1次元横フィールドイジングモデルへの縦フィールド摂動の研究、および2次元スピン-1/2ハイゼンベルクモデルの2次元格子上での磁化と基底状態エネルギーの変動計算、の3つの非自明な応用を示す。 第2に,スケーリングの限界を回復するだけでなく,スケーリングの限界と異なる長さのフィールドを調整することによって,臨界指数の連続的なチューニングの可能性を示す。 ハイゼンベルクモデルでは、簡単な計算で得られた結果と数値的に比較できる結果を得た。 VESアプローチは相互作用量子系を研究するための強力で汎用的なツールを提供する。

Variational methods are of fundamental importance and widely used in theoretical physics, especially for strongly interacting systems. In this work, we present a set of variational equations of state (VES) for pure states of an interacting quantum Hamiltonian. The VES can be expressed in terms of the variation of the density operators or static correlation functions. We derive the algebraic relationship between a known pure state density matrix and its variation, and obtain the VES by applying this relation to the averaged Heisenberg-equations-of-motion for the exact density matrix. Additionally, we provide a direct expression of the VES in terms of correlation functions to make it computable. We present three nontrivial applications of the VES: a perturbation calculation of correlation functions of the transverse field Ising model in arbitrary spatial dimensions, a study of a longitudinal field perturbation to the one-dimensional transverse field Ising model at the critical point and variational calculation of magnetization and ground state energy of the two-dimensional spin-1/2 Heisenberg model on a square lattice. For the second one, our results not only recover the scaling limit, but also indicate the possibility of continuous tuning of the critical exponents by adjusting the longitudinal fields differently from the scaling limit. For the Heisenberg model, we obtained results numerically comparable to established results with simple calculations. The VES approach provides a powerful and versatile tool for studying interacting quantum systems.
翻訳日:2023-07-05 14:07:54 公開日:2023-07-03
# レビューはより良い学習に役立つ: 時間的教師付き知識蒸留

Review helps learn better: Temporal Supervised Knowledge Distillation ( http://arxiv.org/abs/2307.00811v1 )

ライセンス: Link先を確認
Dongwei Wang, Zhi Han, Yanmei Wang, Xiai Chen, Baichen Liu and Yandong Tang(参考訳) レビューは知識を学ぶ上で重要な役割を果たす。 ある時点における知識獲得は、以前の経験の助けによって強くインスパイアされるかもしれない。 したがって、知識の育成手順は時間次元に沿って強い関係を示すべきである。 本研究では,ネットワークトレーニング中に特徴地図の進化が時間系列特性に従うことを見出した。 適切な時間的監督は、ネットワークトレーニング性能をさらに向上させる可能性がある。 この観察に触発されて,新しい知識蒸留法を考案する。 具体的には、畳み込み長短期記憶ネットワーク(Conv-LSTM)を用いて、学生の異なる訓練段階における時空間的特徴を抽出する。 次に,静的な教師ネットワーク機能ではなく,動的ターゲットを通じて学生ネットをトレーニングする。 このプロセスは、学生ネットワークにおける古い知識の洗練を実現し、それらを利用して現在の学習を支援する。 各種ネットワークアーキテクチャ,異なるタスク(画像分類,オブジェクト検出)を含む既存の知識蒸留法に対して,本手法の有効性とメリットを検証した。

Reviewing plays an important role when learning knowledge. The knowledge acquisition at a certain time point may be strongly inspired with the help of previous experience. Thus the knowledge growing procedure should show strong relationship along the temporal dimension. In our research, we find that during the network training, the evolution of feature map follows temporal sequence property. A proper temporal supervision may further improve the network training performance. Inspired by this observation, we design a novel knowledge distillation method. Specifically, we extract the spatiotemporal features in the different training phases of student by convolutional Long Short-term memory network (Conv-LSTM). Then, we train the student net through a dynamic target, rather than static teacher network features. This process realizes the refinement of old knowledge in student network, and utilizes them to assist current learning. Extensive experiments verify the effectiveness and advantages of our method over existing knowledge distillation methods, including various network architectures, different tasks (image classification and object detection) .
翻訳日:2023-07-05 14:07:29 公開日:2023-07-03
# SketchMetaFace: 高忠実度3次元顔モデリングのための学習ベースのスケッチインタフェース

SketchMetaFace: A Learning-based Sketching Interface for High-fidelity 3D Character Face Modeling ( http://arxiv.org/abs/2307.00804v1 )

ライセンス: Link先を確認
Zhongjin Luo, Dong Du, Heming Zhu, Yizhou Yu, Hongbo Fu, Xiaoguang Han(参考訳) 3Dアバターのモデリングは、AR/VR、ゲーム、撮影といった様々なアプリケーションシナリオに役立つ。 キャラクターの顔は、アバターの重要な構成要素として重要な多様性と鮮度をもたらす。 しかし、3Dキャラクタフェイスモデルの構築には、経験豊富なアーティストであっても、商用ツールによる重い作業が必要になる。 既存のスケッチベースの様々なツールは、多様な顔の形と豊富な幾何学的詳細をモデル化するアマチュアをサポートするのに失敗する。 本稿では,素人ユーザを対象としたスケッチシステムであるSketchMetaFaceについて紹介する。 ユーザインタフェースと基礎となるアルゴリズムの両方を慎重に設計する。 第一に、顔の細部を彫る制御性を高めるために、曲率アウェア・ストロークが採用されている。 第二に、2Dスケッチマップを3Dモデルにマッピングする鍵となる問題を考えると、「Implicit and Depth Guided Mesh Modeling」(IDGMM)と呼ばれる新しい学習手法を開発する。 メッシュ、暗黙、深度表現の利点を融合させ、高い効率で高品質な結果を達成する。 さらに,ユーザビリティをさらに支援するために,粗い2次元スケッチインタフェース設計とデータ駆動ストローク提案ツールを提案する。 ユーザスタディは、使いやすさと結果の視覚的な品質の観点から、既存のモデリングツールよりも優れたシステムを示します。 実験により、IDGMMは精度と効率のトレードオフがより良くなることが示された。 SketchMetaFaceはhttps://zhongjinluo.github.io/SketchMetaFace/で入手できる。

Modeling 3D avatars benefits various application scenarios such as AR/VR, gaming, and filming. Character faces contribute significant diversity and vividity as a vital component of avatars. However, building 3D character face models usually requires a heavy workload with commercial tools, even for experienced artists. Various existing sketch-based tools fail to support amateurs in modeling diverse facial shapes and rich geometric details. In this paper, we present SketchMetaFace - a sketching system targeting amateur users to model high-fidelity 3D faces in minutes. We carefully design both the user interface and the underlying algorithm. First, curvature-aware strokes are adopted to better support the controllability of carving facial details. Second, considering the key problem of mapping a 2D sketch map to a 3D model, we develop a novel learning-based method termed "Implicit and Depth Guided Mesh Modeling" (IDGMM). It fuses the advantages of mesh, implicit, and depth representations to achieve high-quality results with high efficiency. In addition, to further support usability, we present a coarse-to-fine 2D sketching interface design and a data-driven stroke suggestion tool. User studies demonstrate the superiority of our system over existing modeling tools in terms of the ease to use and visual quality of results. Experimental analyses also show that IDGMM reaches a better trade-off between accuracy and efficiency. SketchMetaFace are available at https://zhongjinluo.github.io/SketchMetaFace/.
翻訳日:2023-07-05 14:07:15 公開日:2023-07-03
# 神経進化のランタイム分析への第一歩

First Steps towards a Runtime Analysis of Neuroevolution ( http://arxiv.org/abs/2307.00799v1 )

ライセンス: Link先を確認
Paul Fischer and Emil Lundt Larsen and Carsten Witt(参考訳) 進化的アルゴリズムが単純なニューラルネットワークの重みと活性化関数を最適化する、神経進化における単純な設定を考える。 次に、ネットワークによって学習される単純な例関数を定義し、単一のニューロンと複数のニューロンと2つの層を持つより高度な構造を持つネットワークの厳密な実行時解析を行う。 その結果,提案アルゴリズムは1つのニューロンに対して設計された2つのサンプル問題に対して効率が良く,二層ネットワークのサンプル問題に対して少なくとも一定の確率で効率がよいことがわかった。 特に、確率が1/j$に比例するサイズを$j$とするいわゆる調和突然変異作用素は、下層の探索空間にとって良い選択であることが判明した。 しかし,1つのニューロンの場合,局所視能が困難である場合も同定する。 我々の神経進化アルゴリズムと最先端CMA-ESの実験的研究は理論的な発見を支持している。

We consider a simple setting in neuroevolution where an evolutionary algorithm optimizes the weights and activation functions of a simple artificial neural network. We then define simple example functions to be learned by the network and conduct rigorous runtime analyses for networks with a single neuron and for a more advanced structure with several neurons and two layers. Our results show that the proposed algorithm is generally efficient on two example problems designed for one neuron and efficient with at least constant probability on the example problem for a two-layer network. In particular, the so-called harmonic mutation operator choosing steps of size $j$ with probability proportional to $1/j$ turns out as a good choice for the underlying search space. However, for the case of one neuron, we also identify situations with hard-to-overcome local optima. Experimental investigations of our neuroevolutionary algorithm and a state-of-the-art CMA-ES support the theoretical findings.
翻訳日:2023-07-05 14:06:53 公開日:2023-07-03
# 有限次元スピングラスの量子アニールにおける横磁化における量子一階遷移の回避可能性の証明

Proof of avoidability of the quantum first-order transition in transverse magnetization in quantum annealing of finite-dimensional spin glasses ( http://arxiv.org/abs/2307.00791v1 )

ライセンス: Link先を確認
Mizuki Yamaguchi, Naoto Shiraishi, Koji Hukushima(参考訳) 任意の有限次元スピン系に対する適切な量子アニールは、逆磁化における量子一階転移を持たないことが厳密に示されている。 この結果は有限次元スピングラスシステムに適用でき、基底状態探索問題は解くのが難しいことが知られている。 したがって、逆磁化における量子一階遷移は、量子アニールにおける組合せ最適化問題の難しさにより致命的ではないことが強く示唆されている。

It is rigorously shown that an appropriate quantum annealing for any finite-dimensional spin system has no quantum first-order transition in transverse magnetization. This result can be applied to finite-dimensional spin-glass systems, where the ground state search problem is known to be hard to solve. Consequently, it is strongly suggested that the quantum first-order transition in transverse magnetization is not fatal to the difficulty of combinatorial optimization problems in quantum annealing.
翻訳日:2023-07-05 14:06:37 公開日:2023-07-03
# テキストシナリオにおける言語モデルのシャットダウン回避の評価

Evaluating Shutdown Avoidance of Language Models in Textual Scenarios ( http://arxiv.org/abs/2307.00787v1 )

ライセンス: Link先を確認
Teun van der Weij, Simon Lermen, Leon lang(参考訳) 近年,創発的かつ危険な機能のための大規模言語モデル評価への関心が高まっている。 重要なことは、エージェントは、いくつかのシナリオでは、オフにしないと目標がより良く達成されるので、望ましくない振る舞いにつながる可能性がある。 本稿では, GPT-4 や Claude などの言語モデルにおいて, 道具的推論と閉鎖回避性を評価するために, おもちゃのテキストシナリオを用いた可能性を検討する。 さらに,シャットダウン回避は,データセットとプロンプト間の単純なパターンマッチングの結果であるのか,あるいは異なる環境や変動に対して一貫した振る舞いであるのかを検討する。 手動で行動を評価し,言語モデルを用いた自動評価実験を行った結果,単純なパターンマッチングはシャットダウン回避の唯一の要因ではない可能性が示唆された。 本研究は,シャットダウン回避シナリオにおける言語モデルの振る舞いに関する洞察を提供し,評価のためのテキストシナリオの使用に関するさらなる研究を刺激する。

Recently, there has been an increase in interest in evaluating large language models for emergent and dangerous capabilities. Importantly, agents could reason that in some scenarios their goal is better achieved if they are not turned off, which can lead to undesirable behaviors. In this paper, we investigate the potential of using toy textual scenarios to evaluate instrumental reasoning and shutdown avoidance in language models such as GPT-4 and Claude. Furthermore, we explore whether shutdown avoidance is merely a result of simple pattern matching between the dataset and the prompt or if it is a consistent behaviour across different environments and variations. We evaluated behaviours manually and also experimented with using language models for automatic evaluations, and these evaluations demonstrate that simple pattern matching is likely not the sole contributing factor for shutdown avoidance. This study provides insights into the behaviour of language models in shutdown avoidance scenarios and inspires further research on the use of textual scenarios for evaluations.
翻訳日:2023-07-05 14:06:31 公開日:2023-07-03
# 二元最適化のためのモンテカルロ政策勾配法

Monte Carlo Policy Gradient Method for Binary Optimization ( http://arxiv.org/abs/2307.00783v1 )

ライセンス: Link先を確認
Cheng Chen, Ruitao Chen, Tianyou Li, Ruichen Ao and Zaiwen Wen(参考訳) バイナリ最適化は、MaxCut、MIMO検出、MaxSATのような組合せ最適化問題に幅広い応用がある。 しかし、これらの問題は一般に二項制約のためNPハードである。 パラメータ化されたポリシー分布に従ってバイナリソリューションをサンプリングする新しい確率モデルを開発した。 具体的には、パラメータ化ポリシ分布と関数値のギブス分布とのKL分散を最小化することで、強化学習と明確に類似したポリシ勾配を導出できる確率的最適化問題を導出する。 離散空間におけるコヒーレントな探索のために、パラレルマルコフ連鎖モンテカルロ(mcmc)法を用いて、多様性のあるポリシー分布をサンプル化し、勾配を効率的に近似する。 さらに,関数ランドスケープの地平線を拡大する局所探索手法を用いて,元の目的関数を置き換えるフィルタ手法を開発した。 MCMCの濃度不等式に基づいて, 政策勾配法を期待する定常点の収束性を確立した。 数値的な結果は、このフレームワークが、非常に少数のバイナリ最適化問題に対して、ほぼ最適のソリューションを提供することを非常に約束していることを示している。

Binary optimization has a wide range of applications in combinatorial optimization problems such as MaxCut, MIMO detection, and MaxSAT. However, these problems are typically NP-hard due to the binary constraints. We develop a novel probabilistic model to sample the binary solution according to a parameterized policy distribution. Specifically, minimizing the KL divergence between the parameterized policy distribution and the Gibbs distributions of the function value leads to a stochastic optimization problem whose policy gradient can be derived explicitly similar to reinforcement learning. For coherent exploration in discrete spaces, parallel Markov Chain Monte Carlo (MCMC) methods are employed to sample from the policy distribution with diversity and approximate the gradient efficiently. We further develop a filter scheme to replace the original objective function by the one with the local search technique to broaden the horizon of the function landscape. Convergence to stationary points in expectation of the policy gradient method is established based on the concentration inequality for MCMC. Numerical results show that this framework is very promising to provide near-optimal solutions for quite a few binary optimization problems.
翻訳日:2023-07-05 14:06:13 公開日:2023-07-03
# contextspeech: 文章読みのための表現力と効率的なテキスト合成

ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph Reading ( http://arxiv.org/abs/2307.00782v1 )

ライセンス: Link先を確認
Yujia Xiao, Shaofei Zhang, Xi Wang, Xu Tan, Lei He, Sheng Zhao, Frank K. Soong, Tan Lee(参考訳) 最先端のテキスト音声システムは、文レベルで非常に高品質な自然言語を生成することができるが、段落/長文読解のための音声生成において大きな課題に直面する。 このような欠陥は 一 横断的文脈情報の無知、及び 二 長期合成のための高い計算量及びメモリコスト これらの問題に対処するため、この研究は軽量で効果的なTSシステムであるContextSpeechを開発した。 具体的には,文エンコーディングにグローバルテキストと音声コンテキストを組み込むメモリキャッシュ再帰機構を最初に設計する。 次に、階層構造化されたテキスト意味論を構築し、グローバルコンテキスト拡張のスコープを広げる。 さらに,リニアライズド・セルフ・アテンションを統合し,モデルの効率を向上させる。 実験の結果,ContextSpeechは段落読解における音声品質と韻律表現性を,競争モデル効率で向上させることがわかった。 オーディオサンプルはhttps://contextspeech.github.io/demo/。

While state-of-the-art Text-to-Speech systems can generate natural speech of very high quality at sentence level, they still meet great challenges in speech generation for paragraph / long-form reading. Such deficiencies are due to i) ignorance of cross-sentence contextual information, and ii) high computation and memory cost for long-form synthesis. To address these issues, this work develops a lightweight yet effective TTS system, ContextSpeech. Specifically, we first design a memory-cached recurrence mechanism to incorporate global text and speech context into sentence encoding. Then we construct hierarchically-structured textual semantics to broaden the scope for global context enhancement. Additionally, we integrate linearized self-attention to improve model efficiency. Experiments show that ContextSpeech significantly improves the voice quality and prosody expressiveness in paragraph reading with competitive model efficiency. Audio samples are available at: https://contextspeech.github.io/demo/
翻訳日:2023-07-05 14:05:55 公開日:2023-07-03
# スナップショットを超えて:縦型脳機能コネクトーム埋め込みのための脳トークン化グラフトランスフォーマー

Beyond the Snapshot: Brain Tokenized Graph Transformer for Longitudinal Brain Functional Connectome Embedding ( http://arxiv.org/abs/2307.00858v1 )

ライセンス: Link先を確認
Zijian Dong, Yilei Wu, Yu Xiao, Joanna Su Xian Chong, Yueming Jin, Juan Helen Zhou(参考訳) ネットワークベースの神経変性の枠組みの下では、アルツハイマー病(AD)などの神経変性疾患の診断と予後のための貴重なツールとして、脳機能コネクトーム(FC)ベースのグラフニューラルネットワーク(GNN)が出現している。 しかし、これらのモデルは、FC軌跡を特徴付けるのではなく、単一の時点における脳内FC用に調整されている。 特にアミロイド沈着を伴う認知正常者や軽度認知障害(mci)を持つ個人のようなプレデメンティア段階において、fcが疾患の進行と共にどのように進化するかを理解することは、疾患の拡散パターンを線引きし、疾患の進行を遅くしたり、停止したりする効果的な戦略を開発する上で非常に重要である。 本研究では,神経変性疾患の診断と予後,すなわちBrain Tokenized Graph Transformer (Brain TokenGT) に応用した,脳内FC軌道埋め込みのための最初の解釈可能なフレームワークを提案する。 2つのモジュールから構成される。 1) 下流処理用にトークン化されたノードおよび時空間エッジの埋め込み生成のためのグラフ不変および可変埋め込み(GIVE) 2) Brain Informed Graph Transformer Readout (BIGTR)は、トレーニング可能な型識別子と非トレーニング可能なノード識別子で以前のトークンを拡張し、それらを標準トランスフォーマーエンコーダに入力して読み出す。 我々は,MCIとコントロールの区別,MCIの認知症転換の予測,アミロイド陽性あるいは負の認知正常者の分類を含む3つのタスクにおいて,AD連続体の2つの公開縦断的fMRIデータセットについて広範な実験を行った。 脳のFC軌道に基づいて、提案されたBrain TokenGTアプローチは、他のすべてのベンチマークモデルよりも優れ、同時に優れた解釈性を提供した。 コードはhttps://github.com/zijiand/brain-tokengt.gitで入手できる。

Under the framework of network-based neurodegeneration, brain functional connectome (FC)-based Graph Neural Networks (GNN) have emerged as a valuable tool for the diagnosis and prognosis of neurodegenerative diseases such as Alzheimer's disease (AD). However, these models are tailored for brain FC at a single time point instead of characterizing FC trajectory. Discerning how FC evolves with disease progression, particularly at the predementia stages such as cognitively normal individuals with amyloid deposition or individuals with mild cognitive impairment (MCI), is crucial for delineating disease spreading patterns and developing effective strategies to slow down or even halt disease advancement. In this work, we proposed the first interpretable framework for brain FC trajectory embedding with application to neurodegenerative disease diagnosis and prognosis, namely Brain Tokenized Graph Transformer (Brain TokenGT). It consists of two modules: 1) Graph Invariant and Variant Embedding (GIVE) for generation of node and spatio-temporal edge embeddings, which were tokenized for downstream processing; 2) Brain Informed Graph Transformer Readout (BIGTR) which augments previous tokens with trainable type identifiers and non-trainable node identifiers and feeds them into a standard transformer encoder to readout. We conducted extensive experiments on two public longitudinal fMRI datasets of the AD continuum for three tasks, including differentiating MCI from controls, predicting dementia conversion in MCI, and classification of amyloid positive or negative cognitively normal individuals. Based on brain FC trajectory, the proposed Brain TokenGT approach outperformed all the other benchmark models and at the same time provided excellent interpretability. The code is available at https://github.com/ZijianD/Brain-TokenGT.git
翻訳日:2023-07-05 14:00:09 公開日:2023-07-03
# OpenSiteRec: サイトレコメンデーションのためのオープンデータセット

OpenSiteRec: An Open Dataset for Site Recommendation ( http://arxiv.org/abs/2307.00856v1 )

ライセンス: Link先を確認
Xinhang Li, Xiangyu Zhao, Yejing Wang, Yu Liu, Yong Li, Cheng Long, Yong Zhang, Chunxiao Xing(参考訳) 代表的な情報検索タスクとして、ブランドや機関が自動データ駆動で新たなブランチを開くための最適な場所を予測することを目的としたサイトレコメンデーションが有用であり、現代ビジネスにおけるブランド開発に不可欠である。 しかし、現在利用可能なデータセットは存在せず、既存のアプローチはごく少数のブランドに限られており、サイトレコメンデーションの研究を著しく妨げている。 そこで我々は,オープンな総合データセットであるopensiterecを収集,構築,公開し,サイトレコメンデーションの研究を促進・促進する。 具体的には、OpenSiteRecは異種グラフスキーマを利用して、4つの国際都市における様々な種類の現実世界の実体と関係を表現する。 サイトレコメンデーションタスクにおける既存の一般的な手法の性能を評価するため,OpenSiteRec上でいくつかの代表的なレコメンデーションモデルのベンチマーク実験を行った。 さらに、OpenSiteRecの幅広い適用性を示すための潜在的なアプリケーション方向性についても強調する。 OpenSiteRecデータセットは重要であり、サイトレコメンデーションのための高度なメソッドの開発を促進することが期待されています。 OpenSiteRecはhttps://OpenSiteRec.github.io/.comで公開されている。

As a representative information retrieval task, site recommendation, which aims at predicting the optimal sites for a brand or an institution to open new branches in an automatic data-driven way, is beneficial and crucial for brand development in modern business. However, there is no publicly available dataset so far and most existing approaches are limited to an extremely small scope of brands, which seriously hinders the research on site recommendation. Therefore, we collect, construct and release an open comprehensive dataset, namely OpenSiteRec, to facilitate and promote the research on site recommendation. Specifically, OpenSiteRec leverages a heterogeneous graph schema to represent various types of real-world entities and relations in four international metropolises. To evaluate the performance of the existing general methods on the site recommendation task, we conduct benchmarking experiments of several representative recommendation models on OpenSiteRec. Furthermore, we also highlight the potential application directions to demonstrate the wide applicability of OpenSiteRec. We believe that our OpenSiteRec dataset is significant and anticipated to encourage the development of advanced methods for site recommendation. OpenSiteRec is available online at https://OpenSiteRec.github.io/.
翻訳日:2023-07-05 13:59:33 公開日:2023-07-03
# 大型ビジョンモデルとビジュアル・プロンプト・エンジニアリングの展望

Review of Large Vision Models and Visual Prompt Engineering ( http://arxiv.org/abs/2307.00855v1 )

ライセンス: Link先を確認
Jiaqi Wang, Zhengliang Liu, Lin Zhao, Zihao Wu, Chong Ma, Sigang Yu, Haixing Dai, Qiushi Yang, Yiheng Liu, Songyao Zhang, Enze Shi, Yi Pan, Tuo Zhang, Dajiang Zhu, Xiang Li, Xi Jiang, Bao Ge, Yixuan Yuan, Dinggang Shen, Tianming Liu, Shu Zhang(参考訳) ビジュアルプロンプトエンジニアリングは、視覚と画像の汎用人工知能の分野における基本的な技術であり、ゼロショット機能を達成するための重要なコンポーネントとして機能する。 大きなビジョンモデルの開発が進むにつれて、迅速なエンジニアリングの重要性がますます明らかになる。 特定の視覚的タスクに適したプロンプトを設計することは、有意義な研究方向として現れている。 本稿では,コンピュータビジョン領域における大規模視覚モデルと視覚プロンプト工学の手法を概説し,視覚プロンプト工学の最新の進歩を探求する。 我々は,視覚領域における影響力のある大規模モデルと,これらのモデルに採用される迅速設計手法を提案する。 このレビューは、大規模な視覚モデルに基づく迅速なエンジニアリング手法を包括的かつ体系的に記述し、将来の研究者がこの分野を探求する上で貴重な洞察を提供することを願っている。

Visual prompt engineering is a fundamental technology in the field of visual and image Artificial General Intelligence, serving as a key component for achieving zero-shot capabilities. As the development of large vision models progresses, the importance of prompt engineering becomes increasingly evident. Designing suitable prompts for specific visual tasks has emerged as a meaningful research direction. This review aims to summarize the methods employed in the computer vision domain for large vision models and visual prompt engineering, exploring the latest advancements in visual prompt engineering. We present influential large models in the visual domain and a range of prompt engineering methods employed on these models. It is our hope that this review provides a comprehensive and systematic description of prompt engineering methods based on large visual models, offering valuable insights for future researchers in their exploration of this field.
翻訳日:2023-07-05 13:59:15 公開日:2023-07-03
# VOLTA:多変量相互情報最大化オートエンコーダを用いた多変量質問応答ペア生成

VOLTA: Diverse and Controllable Question-Answer Pair Generation with Variational Mutual Information Maximizing Autoencoder ( http://arxiv.org/abs/2307.00852v1 )

ライセンス: Link先を確認
Yueen Ma, Dafeng Chi, Jingjing Li, Yuzheng Zhuang, Jianye Hao, Irwin King(参考訳) 従来の問合せ対生成手法は, 流動的で有意義な問合せ対を生成するが, 多様性は低い傾向にある。 この問題に対処する最近の試みは、低モデルのキャパシティまたは過剰なアーキテクチャに悩まされている。 さらに、モデルの制御性が入力に大きく依存する問題を見落としていた。 本稿では,共有バックボーンネットワークをエンコーダとデコーダとして利用することにより,生成多様性を向上させるVOLTAというモデルを提案する。 さらに,生成プロセス上で入出力独立性を実現するためにInfoGANスタイルの潜時符号を追加することを提案する。 総合的な実験を行い,本手法が最先端モデルに対する多様性と制御性を大幅に向上できることを示す。

Previous question-answer pair generation methods aimed to produce fluent and meaningful question-answer pairs but tend to have poor diversity. Recent attempts addressing this issue suffer from either low model capacity or overcomplicated architecture. Furthermore, they overlooked the problem where the controllability of their models is highly dependent on the input. In this paper, we propose a model named VOLTA that enhances generative diversity by leveraging the Variational Autoencoder framework with a shared backbone network as its encoder and decoder. In addition, we propose adding InfoGAN-style latent codes to enable input-independent controllability over the generation process. We perform comprehensive experiments and the results show that our approach can significantly improve diversity and controllability over state-of-the-art models.
翻訳日:2023-07-05 13:59:02 公開日:2023-07-03
# VINECS:ビデオベースのニューラルキャラクタスキニング

VINECS: Video-based Neural Character Skinning ( http://arxiv.org/abs/2307.00842v1 )

ライセンス: Link先を確認
Zhouyingcheng Liao, Vladislav Golyanik, Marc Habermann, Christian Theobalt(参考訳) 人間のアバターを身につけるのは難しい作業であり、伝統的に多くの手作業と専門知識を必要としている。 最近の手法では、異なる文字をまたいで一般化するか、異なるポーズ設定の下で観察される単一の文字のダイナミクスを捉えることに焦点を当てている。 しかし、前者は、非常に明瞭なポーズではうまく動作せず、後者は異なるポーズで密度の高い3dキャラクタスキャンを必要とするか、時間とともに頂点対応の明確なメッシュを生成することができない、単独で静的なスキニング重みを予測している。 これらの課題に対処するため,多視点ビデオからのみ学習可能な,ポーズ依存のスキン重み付き完全剛体キャラクタの完全自動作成手法を提案する。 そのため、まず、静的にスキンされるリグされたテンプレートを取得します。 次に、座標系mlpは、正準ポーズ空間および各ポーズの位置上でパラメータ化されたスキニングウェイトスフィールドを学習する。 さらに,マルチビュー画像を用いたポーズメッシュの描画と監視を可能にする,ポーズとビューに依存した外観フィールドを提案する。 密度の高い4dスキャンに頼らずに,最先端の手法よりも優れることを示す。

Rigging and skinning clothed human avatars is a challenging task and traditionally requires a lot of manual work and expertise. Recent methods addressing it either generalize across different characters or focus on capturing the dynamics of a single character observed under different pose configurations. However, the former methods typically predict solely static skinning weights, which perform poorly for highly articulated poses, and the latter ones either require dense 3D character scans in different poses or cannot generate an explicit mesh with vertex correspondence over time. To address these challenges, we propose a fully automated approach for creating a fully rigged character with pose-dependent skinning weights, which can be solely learned from multi-view video. Therefore, we first acquire a rigged template, which is then statically skinned. Next, a coordinate-based MLP learns a skinning weights field parameterized over the position in a canonical pose space and the respective pose. Moreover, we introduce our pose- and view-dependent appearance field allowing us to differentiably render and supervise the posed mesh using multi-view imagery. We show that our approach outperforms state-of-the-art while not relying on dense 4D scans.
翻訳日:2023-07-05 13:58:46 公開日:2023-07-03
# 視覚領域シフト下でのグレープ束セグメンテーションの外科的微調整

Surgical fine-tuning for Grape Bunch Segmentation under Visual Domain Shifts ( http://arxiv.org/abs/2307.00837v1 )

ライセンス: Link先を確認
Agnese Chiatti, Riccardo Bertoglio, Nico Catalano, Matteo Gatti, Matteo Matteucci(参考訳) 移動ロボットは持続可能な農業への移行において重要な役割を果たす。 植物の状態を自律的かつ効果的に監視するためには、ロボットは農業環境を特徴付ける急激な変化に対して堅牢な視覚的知覚能力を備える必要がある。 本稿では,ブドウ畑の移動ロボットが収集した画像からブドウの塊を分割する課題に焦点を当てた。 そこで本研究では,手術的微調整をインスタンスセグメンテーションタスクに適用する最初の研究を行う。 本稿では,特定のモデル層のみを選択的に調整することで,視覚領域シフトを導入した新しいグレープ画像への事前学習モデルの適応を支援するとともに,調整されたパラメータの数を大幅に削減できることを示す。

Mobile robots will play a crucial role in the transition towards sustainable agriculture. To autonomously and effectively monitor the state of plants, robots ought to be equipped with visual perception capabilities that are robust to the rapid changes that characterise agricultural settings. In this paper, we focus on the challenging task of segmenting grape bunches from images collected by mobile robots in vineyards. In this context, we present the first study that applies surgical fine-tuning to instance segmentation tasks. We show how selectively tuning only specific model layers can support the adaptation of pre-trained Deep Learning models to newly-collected grape images that introduce visual domain shifts, while also substantially reducing the number of tuned parameters.
翻訳日:2023-07-05 13:58:25 公開日:2023-07-03
# 有給確率専門家によるオンライン分類におけるトレーディングオフ支払いと精度

Trading-Off Payments and Accuracy in Online Classification with Paid Stochastic Experts ( http://arxiv.org/abs/2307.00836v1 )

ライセンス: Link先を確認
Dirk van der Hoeven, Ciara Pike-Burke, Hao Qiu, Nicolo Cesa-Bianchi(参考訳) 有給確率専門家によるオンライン分類について検討する。 ここでは、予測を行う前に、各専門家に報酬を支払わなければならない。 専門家に支払う金額は、未知のリプシッツの「生産性」関数を通して予測の精度に直接影響を与える。 各ラウンドでは、学習者は専門家にいくら払うかを決め、予測しなければなりません。 それらは、すべての専門家に対する予測エラーと前払いの重み付けの合計と同等のコストを負う。 我々は, オンライン学習アルゴリズムを導入し, ラウンド後の総費用が, 有能な専門家全員の生産性を, 最大$$\mathcal{O}(K^2(\log T)\sqrt{T})$で事前に把握している予測器のコストを超えるようにした。 この結果を達成するために,リプシッツ・バンディットとオンライン分類とサロゲート損失を組み合わせる。 これらのツールは、標準のリプシッツ・バンディット設定で得られる$t^{2/3}$の上限を改善することができます。 我々のアルゴリズムは 合成データで実証的に評価され

We investigate online classification with paid stochastic experts. Here, before making their prediction, each expert must be paid. The amount that we pay each expert directly influences the accuracy of their prediction through some unknown Lipschitz "productivity" function. In each round, the learner must decide how much to pay each expert and then make a prediction. They incur a cost equal to a weighted sum of the prediction error and upfront payments for all experts. We introduce an online learning algorithm whose total cost after $T$ rounds exceeds that of a predictor which knows the productivity of all experts in advance by at most $\mathcal{O}(K^2(\log T)\sqrt{T})$ where $K$ is the number of experts. In order to achieve this result, we combine Lipschitz bandits and online classification with surrogate losses. These tools allow us to improve upon the bound of order $T^{2/3}$ one would obtain in the standard Lipschitz bandit setting. Our algorithm is empirically evaluated on synthetic data
翻訳日:2023-07-05 13:58:11 公開日:2023-07-03
# エングレース:非線形回帰の補間?

Engression: Extrapolation for Nonlinear Regression? ( http://arxiv.org/abs/2307.00835v1 )

ライセンス: Link先を確認
Xinwei Shen and Nicolai Meinshausen(参考訳) 補間は多くの統計アプリケーションや機械学習アプリケーションにおいて不可欠であり、トレーニングサポートの外でテストデータに遭遇することが一般的である。 しかし、外挿は非線形モデルにとって大きな課題である。 ツリーアンサンブルはサポートを超えて一定の予測を提供するが、ニューラルネットワークの予測は制御不能になりがちである。 本研究の目的は,トレーニングサポートの境界において,信頼性がすぐに崩壊しない非線形回帰手法を提供することである。 我々の主な貢献は'engression'と呼ばれる新しい手法であり、そのコアは、非線形変換を適用する前に共変量体にノイズを付加する前付加型雑音モデルのための分布回帰手法である。 実験結果から,本モデルが多くの実データに適していることが示唆された。 厳密な単調関数クラスのようないくつかの仮定の下では外挿がうまく行え、一方、最小二乗回帰や分位回帰のような従来の回帰アプローチは同じ仮定の下では不足する。 我々は、外挿の観点から既存のアプローチに対するエングレースの利点を確立し、エングレースが一貫して有意義な改善をもたらすことを示す。 シミュレーションデータと実データの両方から得られた実験結果から,本手法の有効性について検証した。 engressionのソフトウェア実装は、RとPythonの両方で利用可能である。

Extrapolation is crucial in many statistical and machine learning applications, as it is common to encounter test data outside the training support. However, extrapolation is a considerable challenge for nonlinear models. Conventional models typically struggle in this regard: while tree ensembles provide a constant prediction beyond the support, neural network predictions tend to become uncontrollable. This work aims at providing a nonlinear regression methodology whose reliability does not break down immediately at the boundary of the training support. Our primary contribution is a new method called `engression' which, at its core, is a distributional regression technique for pre-additive noise models, where the noise is added to the covariates before applying a nonlinear transformation. Our experimental results indicate that this model is typically suitable for many real data sets. We show that engression can successfully perform extrapolation under some assumptions such as a strictly monotone function class, whereas traditional regression approaches such as least-squares regression and quantile regression fall short under the same assumptions. We establish the advantages of engression over existing approaches in terms of extrapolation, showing that engression consistently provides a meaningful improvement. Our empirical results, from both simulated and real data, validate these findings, highlighting the effectiveness of the engression method. The software implementations of engression are available in both R and Python.
翻訳日:2023-07-05 13:57:57 公開日:2023-07-03
# メタベイズ学習を用いたモデル支援確率的安全適応制御

Model-Assisted Probabilistic Safe Adaptive Control With Meta-Bayesian Learning ( http://arxiv.org/abs/2307.00828v1 )

ライセンス: Link先を確認
Shengbo Wang, Ke Li, Yin Yang, Yuting Cao, Tingwen Huang and Shiping Wen(参考訳) 制御システムの安全性の制約を壊すと潜在的なリスクが生じ、予期せぬコストや壊滅的な損傷を引き起こす。 それでも、同様のタスクでも不確実性は至るところにある。 本稿では,メタ学習,ベイズモデル,制御バリア関数(CBF)メソッドを統合した新しい適応型安全制御フレームワークを開発する。 具体的には、CBF法を用いて、前向きニューラルネットワーク(NN)とベイズ出力層からなる統一適応ベイズ線形回帰(ABLR)モデルにより、固有および外部の不確かさを学習する。 メタ学習技術は、歴史的に類似したタスクから収集されたデータを用いて、ABLRモデルのNN重みと事前訓練に活用される。 新しい制御タスクのために,いくつかのサンプルを用いてメタ学習モデルを洗練し,安全制御を確保するためにCBF制約に悲観的信頼境界を導入する。 さらに,制御過程における確率的安全性を保証するための理論的基準を提案する。 このアプローチを検証するために,様々な障害物回避シナリオで比較実験を行った。 その結果,提案アルゴリズムはベイズモデルに基づくCBF法を大幅に改善し,複数の不確実な制約を伴っても効率的な安全な探索が可能であった。

Breaking safety constraints in control systems can lead to potential risks, resulting in unexpected costs or catastrophic damage. Nevertheless, uncertainty is ubiquitous, even among similar tasks. In this paper, we develop a novel adaptive safe control framework that integrates meta learning, Bayesian models, and control barrier function (CBF) method. Specifically, with the help of CBF method, we learn the inherent and external uncertainties by a unified adaptive Bayesian linear regression (ABLR) model, which consists of a forward neural network (NN) and a Bayesian output layer. Meta learning techniques are leveraged to pre-train the NN weights and priors of the ABLR model using data collected from historical similar tasks. For a new control task, we refine the meta-learned models using a few samples, and introduce pessimistic confidence bounds into CBF constraints to ensure safe control. Moreover, we provide theoretical criteria to guarantee probabilistic safety during the control processes. To validate our approach, we conduct comparative experiments in various obstacle avoidance scenarios. The results demonstrate that our algorithm significantly improves the Bayesian model-based CBF method, and is capable for efficient safe exploration even with multiple uncertain constraints.
翻訳日:2023-07-05 13:57:34 公開日:2023-07-03
# 大規模事前学習型分類器におけるタスク転送性の解析

Analysis of Task Transferability in Large Pre-trained Classifiers ( http://arxiv.org/abs/2307.00823v1 )

ライセンス: Link先を確認
Akshay Mehra, Yunbei Zhang, and Jihun Hamm(参考訳) 伝達学習は、モデルによって得られた知識を、最小限の微調整で、ソースタスクから下流ターゲットタスクに転送する。 パフォーマンス向上におけるトランスファー学習の成功、特に大規模事前学習モデルの利用により、トランスファー学習は機械学習ツールボックスにおいて必須のツールとなった。 しかし、性能が下流のタスクに伝達可能な条件はよく理解されていない。 本研究は,対象タスクに対して,ソースモデルの最後の線形層のみを微調整した場合に,分類タスクのパフォーマンスの伝達を解析する。 本稿では,クラス事前分布,ラベル,特徴空間を変更してソース分布(および分類器)を変換して新しいソース分布(および分類器)を生成し,下流タスクの損失(すなわち伝達可能性)をソースタスクの損失と関連付けるタスク伝達解析手法を提案する。 具体的には,変換元と下流タスクの分布間のワッサースタイン距離,2つのタスクのラベル分布間の条件エントロピー,ソースタスクにおけるソース分類器の重み付き損失について解説する。 さらに,トランスファー可能性の上限を最小化するために,ソースタスクの変換を学習するための最適化問題を提案する。 最先端の事前学習モデルを用いて大規模実験を行い,提案手法の有効性と伝達可能性の予測における最適化を実証した。 実験の結果,タスク関連性,事前学習方法,モデルアーキテクチャなどの要因が伝達可能性に与える影響を実証した。

Transfer learning transfers the knowledge acquired by a model from a source task to multiple downstream target tasks with minimal fine-tuning. The success of transfer learning at improving performance, especially with the use of large pre-trained models has made transfer learning an essential tool in the machine learning toolbox. However, the conditions under which the performance is transferable to downstream tasks are not understood very well. In this work, we analyze the transfer of performance for classification tasks, when only the last linear layer of the source model is fine-tuned on the target task. We propose a novel Task Transfer Analysis approach that transforms the source distribution (and classifier) by changing the class prior distribution, label, and feature spaces to produce a new source distribution (and classifier) and allows us to relate the loss of the downstream task (i.e., transferability) to that of the source task. Concretely, our bound explains transferability in terms of the Wasserstein distance between the transformed source and downstream task's distribution, conditional entropy between the label distributions of the two tasks, and weighted loss of the source classifier on the source task. Moreover, we propose an optimization problem for learning the transforms of the source task to minimize the upper bound on transferability. We perform a large-scale empirical study by using state-of-the-art pre-trained models and demonstrate the effectiveness of our bound and optimization at predicting transferability. The results of our experiments demonstrate how factors such as task relatedness, pretraining method, and model architecture affect transferability.
翻訳日:2023-07-05 13:57:14 公開日:2023-07-03
# 交通システムの破壊に伴うマルチモーダル需要動態の解明

Exploring the Multi-modal Demand Dynamics During Transport System Disruptions ( http://arxiv.org/abs/2307.00877v1 )

ライセンス: Link先を確認
Ali Shateri Benam, Angelo Furno, Nour-Eddin El Faouzi(参考訳) 交通システムの様々な形態のディスラプションは、異なる方法で都市移動を揺るがす。 乗客は、多くの要因に基づいて、このような破壊的な出来事に不均一に反応する。 本研究は、データ駆動型アプローチを用いて、ディスラプション下でのマルチモーダル需要ダイナミクスを探索する。 まず,過去の時間旅行需要データから異常インスタンスを自動的に検出する手法を開発した。 そして、これらの異常時間にクラスタリングを適用し、破壊時に発生する様々な形態のマルチモーダル需要動態を識別する。 本研究は,モード選択による破壊事象に対する様々な乗客の反応を分類し,異なる破壊シナリオ下でのモーダルシフトの範囲を推定する予測的分析を行うための簡単なツールを提供する。

Various forms of disruption in transport systems perturb urban mobility in different ways. Passengers respond heterogeneously to such disruptive events based on numerous factors. This study takes a data-driven approach to explore multi-modal demand dynamics under disruptions. We first develop a methodology to automatically detect anomalous instances through historical hourly travel demand data. Then we apply clustering to these anomalous hours to distinguish various forms of multi-modal demand dynamics occurring during disruptions. Our study provides a straightforward tool for categorising various passenger responses to disruptive events in terms of mode choice and paves the way for predictive analyses on estimating the scope of modal shift under distinct disruption scenarios.
翻訳日:2023-07-05 13:49:53 公開日:2023-07-03
# 多成分スピンコヒーレント状態とスピノル状態

Multipartite Spin Coherent States and Spinor States ( http://arxiv.org/abs/2307.00875v1 )

ライセンス: Link先を確認
Tim Byrnes(参考訳) スピンコヒーレント状態の多部一般化を導入,解析する。 これらは連続変数量子情報で使われるマルチモード光コヒーレント状態のスピンアナログであるが、完全なスピン対称性を持つように一般化されている。 2つの可能な一般化があり、1つは与えられた多成分量子状態の単純テンソル積である。 第2の一般化は、我々がスピノル状態と呼ぶヨルダン・シュウィンガー写像におけるボソニックな定式化を用いる。 一方向の場合、スピノル状態はスピンコヒーレント状態と同値であるが、多方向の場合、これらはもはや同値ではない。 これらの状態の基本的な性質は、それらの可観測性や対称作用素に対する共変性、変換の形式保存、絡み合いなどである。 このような多部スピンコヒーレントおよびスピノル状態の量子情報の保存方法としての有用性について論じる。

Multipartite generalizations of spin coherent states are introduced and analyzed. These are the spin analogues of multimode optical coherent states as used in continuous variable quantum information, but generalized to possess full spin symmetry. Two possible generalizations are given, one which is a simple tensor product of a given multipartite quantum state. The second generalization uses the bosonic formulation in the Jordan-Schwinger map, which we call spinor states. In the unipartite case, spinor states are equivalent to spin coherent states, however in the multipartite case, they are no longer equivalent. Some fundamental properties of these states are discussed, such as their observables and covariances with respect to symmetric operators, form preserving transformations, and entanglement. We discuss the utility of such multipartite spin coherent and spinor states as a way of storing quantum information.
翻訳日:2023-07-05 13:49:36 公開日:2023-07-03
# 有限ハイゼンベルク群の $\mathbb z_n$ 上の中心保存自己同型

Center Preserving Automorphisms of Finite Heisenberg Group over $\mathbb Z_N$ ( http://arxiv.org/abs/2307.00874v1 )

ライセンス: Link先を確認
T.Hashimoto, M.Horibe, A.Hayashi(参考訳) 離散位相空間上の有限次元量子力学において生じる、$\mathbb Z_N$ と $U(1)$ 上の有限ハイゼンベルク群の中心保存自己同型の群構造について検討する。 明示的な分割を構成すると、$N=2(2k+1)$ に対して、群は $Sp_N$ と $\mathbb Z_N^2$ の半直積に同型である。 さらに、N が 2l (l \ge 2)$ で割り切れるとき、群は非自明な 2-サイクルを持ち、その明示的な形式が提供される。 この分割を利用して対応する射影ヴェイユ表現を線型表現へ持ち上げることができることを示す。

We investigate the group structure of center-preserving automorphisms of the finite Heisenberg group over $\mathbb Z_N$ with $U(1)$ extension, which arises in finite-dimensional quantum mechanics on a discrete phase space. Constructing an explicit splitting, it is shown that, for $N=2(2k+1)$, the group is isomorphic to the semidirect product of $Sp_N$ and $\mathbb Z_N^2$. Moreover, when N is divisible by $2l (l \ge 2)$, the group has a non-trivial 2-cocycle, and its explicit form is provided. By utilizing the splitting, it is demonstrated that the corresponding projective Weil representation can be lifted to linear representation.
翻訳日:2023-07-05 13:49:10 公開日:2023-07-03
# 多変圧器を用いた膝関節症進行の終末予測

End-To-End Prediction of Knee Osteoarthritis Progression With Multi-Modal Transformers ( http://arxiv.org/abs/2307.00873v1 )

ライセンス: Link先を確認
Egor Panfilov, Simo Saarakkala, Miika T. Nieminen, Aleksei Tiulpin(参考訳) 変形性膝関節症(koa)は慢性筋骨格疾患であり、現在治療されていない。 KOAの出現は異種であり、その進行の予測は困難である。 現在の文献では、ディープラーニングに基づくようなマルチモーダルデータや高度なモデリング手法の使用は、この問題に対処することを約束している。 しかし、今のところ、このアプローチの有効性の証拠は限られている。 本研究では,Deep Learningの最近の進歩を活用し,Transformerアプローチを用いて膝画像データのマルチモーダル融合のための統合フレームワークを開発した。 その後、短期から長期にわたる複数の進行地平線を調査し、その性能を様々なシナリオで分析した。 関節症イニシアチブデータセットから得られた大コホート(n=2421-3967)を用いて報告する。 また,roc曲線 (roc auc) 下の領域は0.70-0.76であり, 平均精度 (ap) は0.15-0.54である。 1年以内の進行は、X線、構造、合成MR画像(ROC AUCは0.76(0.04)、APは0.13(0.04))、または臨床データによって予測された。 追跡分析の結果,画像データからの予測は外傷後の被験者にとってより正確であり,どのサブグループが最も有益かについても検討した。 本研究は,koaのマルチモーダルイメージングに関する新たな知見を提供し,その進歩をエンドツーエンドで研究するための統一的なデータ駆動フレームワークを提供し,より効率的な臨床試験の設計のための新しいツールを提供する。 フレームワークのソースコードと事前訓練されたモデルが公開されています。

Knee Osteoarthritis (KOA) is a highly prevalent chronic musculoskeletal condition with no currently available treatment. The manifestation of KOA is heterogeneous and prediction of its progression is challenging. Current literature suggests that the use of multi-modal data and advanced modeling methods, such as the ones based on Deep Learning, has promise in tackling this challenge. To date, however, the evidence on the efficacy of this approach is limited. In this study, we leveraged recent advances in Deep Learning and, using a Transformer approach, developed a unified framework for the multi-modal fusion of knee imaging data. Subsequently, we analyzed its performance across a range of scenarios by investigating multiple progression horizons -- from short-term to long-term. We report our findings using a large cohort (n=2421-3967) derived from the Osteoarthritis Initiative dataset. We show that structural knee MRI allows identifying radiographic KOA progressors on par with multi-modal fusion approaches, achieving an area under the ROC curve (ROC AUC) of 0.70-0.76 and Average Precision (AP) of 0.15-0.54 in 2-8 year horizons. Progression within 1 year was better predicted with a multi-modal method using X-ray, structural, and compositional MR images -- ROC AUC of 0.76(0.04), AP of 0.13(0.04) -- or via clinical data. Our follow-up analysis generally shows that prediction from the imaging data is more accurate for post-traumatic subjects, and we further investigate which subject subgroups may benefit the most. The present study provides novel insights into multi-modal imaging of KOA and brings a unified data-driven framework for studying its progression in an end-to-end manner, providing new tools for the design of more efficient clinical trials. The source code of our framework and the pre-trained models are made publicly available.
翻訳日:2023-07-05 13:48:44 公開日:2023-07-03
# MADS: 時系列計算のための変調自動デコードSIREN

MADS: Modulated Auto-Decoding SIREN for time series imputation ( http://arxiv.org/abs/2307.00868v1 )

ライセンス: Link先を確認
Tom Bamford, Elizabeth Fons, Yousef El-Laham, Svitlana Vyetrenko(参考訳) 時系列計算は、モデル化されるデータのタイプにおいて、潜在的に大きなばらつきがあるため、多くの分野において重要な課題である。 従来の計算手法は、基礎となるデータ生成プロセスに強い仮定を課すことが多く、適用性を制限するが、研究者は最近、これらのモデルが様々なアプリケーションにまたがる分類問題と回帰問題の両方で示す強い性能に触発されて、このタスクのディープラーニングの可能性の調査を始めた。 本研究では,暗黙的ニューラル表現に基づく時系列計算のための新しい自動デコードフレームワークMADSを提案する。 本手法は,信号と不規則データの忠実度の高い再構成にサイレンの能力を利用し,ハイパーネットワークアーキテクチャと組み合わせることで,時系列の空間で事前学習することで一般化できる。 実世界の2つのデータセットでモデルを評価し,時系列インプテーションの最先端手法よりも優れていることを示す。 人間のアクティビティデータセットでは、インパルス性能を少なくとも40%向上させ、空気質データセットでは、すべてのメトリクスで競合することが示されている。 合成データを用いて評価すると、モデルが全てのベースラインに対して異なるデータセット構成で最高の平均ランクを得る。

Time series imputation remains a significant challenge across many fields due to the potentially significant variability in the type of data being modelled. Whilst traditional imputation methods often impose strong assumptions on the underlying data generation process, limiting their applicability, researchers have recently begun to investigate the potential of deep learning for this task, inspired by the strong performance shown by these models in both classification and regression problems across a range of applications. In this work we propose MADS, a novel auto-decoding framework for time series imputation, built upon implicit neural representations. Our method leverages the capabilities of SIRENs for high fidelity reconstruction of signals and irregular data, and combines it with a hypernetwork architecture which allows us to generalise by learning a prior over the space of time series. We evaluate our model on two real-world datasets, and show that it outperforms state-of-the-art methods for time series imputation. On the human activity dataset, it improves imputation performance by at least 40%, while on the air quality dataset it is shown to be competitive across all metrics. When evaluated on synthetic data, our model results in the best average rank across different dataset configurations over all baselines.
翻訳日:2023-07-05 13:48:06 公開日:2023-07-03
# 不完全発話からのマイニング:不完全発話書き換えのためのクエリ強化ネットワーク

Mining Clues from Incomplete Utterance: A Query-enhanced Network for Incomplete Utterance Rewriting ( http://arxiv.org/abs/2307.00866v1 )

ライセンス: Link先を確認
Shuzheng Si, Shuang Zeng, Baobao Chang(参考訳) 不完全発話の書き直しが最近注目を集めている。 しかし、先行研究では、不完全発話と書き直し発話の間の意味構造情報を考慮せず、暗黙的かつ不十分に意味構造をモデル化している。 そこで本研究では,QUERY-Enhanced Network (QUEEN)を提案する。 まず,提案する問合せテンプレートは,不完全発話と書き直された発話モデル間の意味的構造的知識を明示的にもたらし,省略されたトークンを参照したり,取り戻したりする場所を認識させる。 次に,2つのトークン間の関係をモデル化するために,高速かつ効果的な編集動作スコアリングネットワークを採用する。 提案されたクエリテンプレートとよく設計された編集操作スコアリングネットワークから得られるQUEENは、いくつかの公開データセット上で最先端のパフォーマンスを実現する。

Incomplete utterance rewriting has recently raised wide attention. However, previous works do not consider the semantic structural information between incomplete utterance and rewritten utterance or model the semantic structure implicitly and insufficiently. To address this problem, we propose a QUEry-Enhanced Network (QUEEN). Firstly, our proposed query template explicitly brings guided semantic structural knowledge between the incomplete utterance and the rewritten utterance making model perceive where to refer back to or recover omitted tokens. Then, we adopt a fast and effective edit operation scoring network to model the relation between two tokens. Benefiting from proposed query template and the well-designed edit operation scoring network, QUEEN achieves state-of-the-art performance on several public datasets.
翻訳日:2023-07-05 13:47:46 公開日:2023-07-03
# GNNに基づくグラフ分類とリンク予測に関する調査

A Survey on Graph Classification and Link Prediction based on GNN ( http://arxiv.org/abs/2307.00865v1 )

ライセンス: Link先を確認
Xingyu Liu, Juan Chen, Quan Wen(参考訳) 従来の畳み込みニューラルネットワークはユークリッド空間のデータを扱うことに限定されており、輸送ネットワーク、ソーシャルネットワーク、参照ネットワークなど、グラフデータとして表される現実のシナリオの広大な領域を見渡している。 畳み込みニューラルネットワークをグラフデータ解析と処理に転送する重要なステップは、グラフ畳み込み演算子とグラフプーリング演算子の構築にある。 本稿では,グラフ畳み込みニューラルネットワークの世界について述べる。 まず、グラフ畳み込みニューラルネットワークの基本について詳述する。 その後、アテンションメカニズムとオートエンコーダに基づいてグラフニューラルネットワークモデルを解明し、ノード分類、グラフ分類、リンク予測などの応用を関連するデータセットとともに要約する。

Traditional convolutional neural networks are limited to handling Euclidean space data, overlooking the vast realm of real-life scenarios represented as graph data, including transportation networks, social networks, and reference networks. The pivotal step in transferring convolutional neural networks to graph data analysis and processing lies in the construction of graph convolutional operators and graph pooling operators. This comprehensive review article delves into the world of graph convolutional neural networks. Firstly, it elaborates on the fundamentals of graph convolutional neural networks. Subsequently, it elucidates the graph neural network models based on attention mechanisms and autoencoders, summarizing their application in node classification, graph classification, and link prediction along with the associated datasets.
翻訳日:2023-07-05 13:47:32 公開日:2023-07-03
# ベルヌーイ・リワードの下でのトンプソンサンプリングと地域差分プライバシー

Thompson Sampling under Bernoulli Rewards with Local Differential Privacy ( http://arxiv.org/abs/2307.00863v1 )

ライセンス: Link先を確認
Bo Jiang, Tianchi Zhao, Ming Li(参考訳) 本稿では,ローカルディファレンシャルプライバシ(LDP)を保証したマルチアームバンディット(MAB)問題に対する後悔の最小化問題について検討する。 固定されたプライバシ予算が$\epsilon$になると、bernoulliのシナリオで3つの民営化メカニズムを考える。 各メカニズムの下で、トンプソンサンプリングアルゴリズムの確率的後悔を導出する。 最後に,異なるプライバシ予算下での異なるメカニズムの収束をシミュレートする。

This paper investigates the problem of regret minimization for multi-armed bandit (MAB) problems with local differential privacy (LDP) guarantee. Given a fixed privacy budget $\epsilon$, we consider three privatizing mechanisms under Bernoulli scenario: linear, quadratic and exponential mechanisms. Under each mechanism, we derive stochastic regret bound for Thompson Sampling algorithm. Finally, we simulate to illustrate the convergence of different mechanisms under different privacy budgets.
翻訳日:2023-07-05 13:47:19 公開日:2023-07-03
# UniFine: ゼロショットビジョン言語理解のための統一的できめ細かいアプローチ

UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding ( http://arxiv.org/abs/2307.00862v1 )

ライセンス: Link先を確認
Rui Sun, Zhecan Wang, Haoxuan You, Noel Codella, Kai-Wei Chang, Shih-Fu Chang(参考訳) VQA、SNLI-VE、VCRといった視覚言語タスクは、視覚世界と自然言語の意味を理解するためにモデルの推論能力を必要とするため、難しい。 視覚言語タスクを監督する手法はよく研究されている。 しかし、ゼロショット設定でこれらのタスクを解決する方法はあまり検討されていない。 Contrastive Language- Image Pre-training (CLIP) は画像テキストマッチングにおいて顕著なゼロショット性能を示したため、以前の研究では、視覚言語タスクを画像テキストマッチング問題に変換することで、その強力なゼロショット能力を活用し、主にグローバルレベルのマッチング(画像や文全体)を検討する。 しかし,文中のキーワードや画像内のオブジェクトなど,視覚的およびテキスト的きめ細かい情報は,意味理解に極めて有益であると考えられる。 そこで本研究では,VQA,SNLI-VE,VCRといった複数のタスクを網羅する,ゼロショット視覚言語学習の詳細な情報を活用する統一フレームワークを提案する。 実験の結果,従来のゼロショット法をvqaで上回り,snli-veとvcrで大幅に改善した。 さらに,提案手法の有効性と汎用性についても検討した。 コードはhttps://github.com/ThreeSR/UniFineで入手できる。

Vision-language tasks, such as VQA, SNLI-VE, and VCR are challenging because they require the model's reasoning ability to understand the semantics of the visual world and natural language. Supervised methods working for vision-language tasks have been well-studied. However, solving these tasks in a zero-shot setting is less explored. Since Contrastive Language-Image Pre-training (CLIP) has shown remarkable zero-shot performance on image-text matching, previous works utilized its strong zero-shot ability by converting vision-language tasks into an image-text matching problem, and they mainly consider global-level matching (e.g., the whole image or sentence). However, we find visual and textual fine-grained information, e.g., keywords in the sentence and objects in the image, can be fairly informative for semantics understanding. Inspired by this, we propose a unified framework to take advantage of the fine-grained information for zero-shot vision-language learning, covering multiple tasks such as VQA, SNLI-VE, and VCR. Our experiments show that our framework outperforms former zero-shot methods on VQA and achieves substantial improvement on SNLI-VE and VCR. Furthermore, our ablation studies confirm the effectiveness and generalizability of our proposed method. Code will be available at https://github.com/ThreeSR/UniFine
翻訳日:2023-07-05 13:47:12 公開日:2023-07-03
# CardiGraphormer:創薬革命における自己指導型学習の力

CardiGraphormer: Unveiling the Power of Self-Supervised Learning in Revolutionizing Drug Discovery ( http://arxiv.org/abs/2307.00859v1 )

ライセンス: Link先を確認
Abhijit Gupta and Arnab Mukherjee(参考訳) 約15,000の既知の薬物と約4,200の承認がある薬発見の世界では、化学空間の組合せの性質は極めて困難である。 人工知能(AI)は強力な同盟国として登場したが、従来のAIフレームワークは大きなハードルに直面している。 この原稿では、自己教師付き学習(SSL)、グラフニューラルネットワーク(GNN)、薬物発見に革命を起こすためのカルディナリティ保存注意を相乗化するための画期的なアプローチであるCardiGraphormerを紹介している。 グラフマーと枢機卿の新たな組み合わせであるcardigraphormerはsslを利用して強力な分子表現を学習し、gnnを使って分子指紋を抽出し、計算時間を短縮しながら予測性能と解釈性を向上させる。 分子構造のような複雑なデータを処理し、ノード、ノードのペア、サブグラフ、グラフ構造全体に関連するタスクを実行する。 CardiGraphormerによる薬物発見と薬物相互作用の潜在的な応用は、新しい薬物標的の同定から薬物と薬物の相互作用の予測、新しい薬物発見の実現まで幅広い。 この革新的なアプローチは、薬物開発においてAIによって強化された方法論を提供し、SSLとGNNを組み合わせて既存の制限を克服し、薬物発見における膨大な組合せ化学空間をより深く探求する道を開く。

In the expansive realm of drug discovery, with approximately 15,000 known drugs and only around 4,200 approved, the combinatorial nature of the chemical space presents a formidable challenge. While Artificial Intelligence (AI) has emerged as a powerful ally, traditional AI frameworks face significant hurdles. This manuscript introduces CardiGraphormer, a groundbreaking approach that synergizes self-supervised learning (SSL), Graph Neural Networks (GNNs), and Cardinality Preserving Attention to revolutionize drug discovery. CardiGraphormer, a novel combination of Graphormer and Cardinality Preserving Attention, leverages SSL to learn potent molecular representations and employs GNNs to extract molecular fingerprints, enhancing predictive performance and interpretability while reducing computation time. It excels in handling complex data like molecular structures and performs tasks associated with nodes, pairs of nodes, subgraphs, or entire graph structures. CardiGraphormer's potential applications in drug discovery and drug interactions are vast, from identifying new drug targets to predicting drug-to-drug interactions and enabling novel drug discovery. This innovative approach provides an AI-enhanced methodology in drug development, utilizing SSL combined with GNNs to overcome existing limitations and pave the way for a richer exploration of the vast combinatorial chemical space in drug discovery.
翻訳日:2023-07-05 13:46:48 公開日:2023-07-03
# 量子調和振動子と相互作用する重力波のルイス位相とベリー位相

Lewis and Berry phases for a gravitational wave interacting with a quantum harmonic oscillator ( http://arxiv.org/abs/2307.00901v1 )

ライセンス: Link先を確認
Soham Sen, Manjari Dutta and Sunandan Gangopadhyay(参考訳) 本研究では、横トラスレスゲージにおける量子調和振動子と相互作用する重力波について考察する。 重力波は、最初はプラス偏光とクロス偏光の両方のシグネチャを持っている。 次に、位置変数と運動量変数の両方からの二次次寄与のみを考慮しつつ、可能な限り一般的な形式を用いてルイス不変量の適切な形式を求める。 さらに進むために、第1と第2の空間座標の観点で分離可能なハミルトニアンを得るクロス項をドロップする。 次に、系のハミルトニアン全体の分離可能部分に対応する2つのルイス不変量を得る。 両方のルイス不変量を用いて、エルマコフ・ピンニー方程式を2つ得ることができ、そこから対応するルイス相と最終的にシステム全体のベリー相が得られる。 最後に、高調波発振器周波数の異なる平面偏極重力波に対するベリー位相の明示的な表現を得る。

In this work, we consider a gravitational wave interacting with a quantum harmonic oscillator in the transverse-traceless gauge. We take the gravitational wave to be carrying the signatures of both plus and cross polarization at first. We then try to obtain a suitable form of the Lewis invariant using the most general form possible while considering only quadratic order contributions from both position and momentum variables. In order to progress further, we then drop the cross terms obtaining a separable Hamiltonian in terms of the first and the second spatial coordinates. We then obtain two Lewis invariants corresponding to each separable parts of the entire Hamiltonian of the system. Using both Lewis invariants, one can obtain two Ermakov-Pinney equations, from which we finally obtain the corresponding Lewis phase and eventually the Berry phase for the entire system. Finally, we obtain some explicit expressions of the Berry phase for a plane polarized gravitational wave with different choices of the harmonic oscillator frequency.
翻訳日:2023-07-05 13:40:58 公開日:2023-07-03
# 多くのタスクが軽い仕事をする: 複数の合成タスクから医療異常をローカライズする学習

Many tasks make light work: Learning to localise medical anomalies from multiple synthetic tasks ( http://arxiv.org/abs/2307.00899v1 )

ライセンス: Link先を確認
Matthew Baugh, Jeremy Tan, Johanna P. M\"uller, Mischa Dombrowski, James Batten and Bernhard Kainz(参考訳) 完全な教師付き機械学習モデルは、トレーニングに含まれていないクラスを確実に識別できないため、シングルクラスモデリングと分散検出への関心が高まっている。 例えば、スクリーニング、トリアージ、品質管理など、現実世界のシナリオにおける無限に多くの分散クラスの長いテールは、例えば、厳密に健全なボランティアデータのみから、期待される機能分布を表すシングルクラスモデルを訓練することがしばしば必要となることを意味する。 従来の教師付き機械学習は、あらゆる画像モダリティにおいて可能なすべての疾患の十分なサンプルを含むデータセットの収集を必要とするが、現実的ではない。 合成異常を伴う自己教師あり学習法は現在最も有望な手法の1つであり、残差再構成誤差を分析する生成的オートエンコーダと並んでいる。 しかしながら、すべてのメソッドは構造化検証の欠如に苦しんでいるため、デプロイメントのキャリブレーションが難しく、データセットに依存しない。 本手法は,複数の視覚的に識別可能な合成異常学習タスクをトレーニングと検証の両方に利用することにより,これを緩和する。 これにより、より堅牢なトレーニングと一般化が可能になる。 我々は,脳MRIや胸部X線検査において,最先端の手法よりも容易に性能を向上できることを示す。 コードはhttps://github.com/matt-baugh/many-tasks-make-light-workで入手できる。

There is a growing interest in single-class modelling and out-of-distribution detection as fully supervised machine learning models cannot reliably identify classes not included in their training. The long tail of infinitely many out-of-distribution classes in real-world scenarios, e.g., for screening, triage, and quality control, means that it is often necessary to train single-class models that represent an expected feature distribution, e.g., from only strictly healthy volunteer data. Conventional supervised machine learning would require the collection of datasets that contain enough samples of all possible diseases in every imaging modality, which is not realistic. Self-supervised learning methods with synthetic anomalies are currently amongst the most promising approaches, alongside generative auto-encoders that analyse the residual reconstruction error. However, all methods suffer from a lack of structured validation, which makes calibration for deployment difficult and dataset-dependant. Our method alleviates this by making use of multiple visually-distinct synthetic anomaly learning tasks for both training and validation. This enables more robust training and generalisation. With our approach we can readily outperform state-of-the-art methods, which we demonstrate on exemplars in brain MRI and chest X-rays. Code is available at https://github.com/matt-baugh/many-tasks-make-light-work .
翻訳日:2023-07-05 13:40:44 公開日:2023-07-03
# セマンティクスマッチングによる特徴帰属法における確認バイアスの修正

Fixing confirmation bias in feature attribution methods via semantic match ( http://arxiv.org/abs/2307.00897v1 )

ライセンス: Link先を確認
Giovanni Cin\`a, Daniel Fernandez-Llaneza, Nishant Mishra, Tabea E. R\"ober, Sandro Pezzelle, Iacer Calixto, Rob Goedhart, \c{S}. \.Ilker Birbil(参考訳) 特徴帰属法は,ブラックボックスモデルの複雑な挙動を解消するための重要な手法となっている。 その成功にもかかわらず、一部の学者はそのような方法が深刻な欠陥に悩まされていると論じている。 簡単に言えば、一連の機能のコントリビューションを視覚化することは、人間がモデルの内部表現について何かを結論付けるのに十分ではない。 モデル上の仮説が特徴属性によって確認されるかどうかを検証するためには,構造的アプローチが必要である。 これは、人間の概念と(サブシンボリックな)説明の「セマンティックマッチ」と呼ばれるものです。 cin\`a et al で示された概念的枠組みに基づく構築。 2023] 意味マッチングを実際に評価するための構造化手法を提案する。 提案手法は表や画像データにまたがる一連の実験で紹介され、意味マッチングの評価が望ましい(例えば、予測に関連のあるオブジェクトにフォーカスする)ことと望ましくないモデル行動(例えば、刺激的な相関にフォーカスする)の両方にどのように洞察を与えるかを示す。 本研究は, セマンティックマッチングを測る指標の分析結果と組み合わせ, 提案手法がXAIにおける確証バイアスの解消に向けた第一歩であると主張している。

Feature attribution methods have become a staple method to disentangle the complex behavior of black box models. Despite their success, some scholars have argued that such methods suffer from a serious flaw: they do not allow a reliable interpretation in terms of human concepts. Simply put, visualizing an array of feature contributions is not enough for humans to conclude something about a model's internal representations, and confirmation bias can trick users into false beliefs about model behavior. We argue that a structured approach is required to test whether our hypotheses on the model are confirmed by the feature attributions. This is what we call the "semantic match" between human concepts and (sub-symbolic) explanations. Building on the conceptual framework put forward in Cin\`a et al. [2023], we propose a structured approach to evaluate semantic match in practice. We showcase the procedure in a suite of experiments spanning tabular and image data, and show how the assessment of semantic match can give insight into both desirable (e.g., focusing on an object relevant for prediction) and undesirable model behaviors (e.g., focusing on a spurious correlation). We couple our experimental results with an analysis on the metrics to measure semantic match, and argue that this approach constitutes the first step towards resolving the issue of confirmation bias in XAI.
翻訳日:2023-07-05 13:40:20 公開日:2023-07-03
# 多値DWIを用いた階層型核融合ネットワークを用いたコントラスト強調乳房MRIの合成

Synthesis of Contrast-Enhanced Breast MRI Using Multi-b-Value DWI-based Hierarchical Fusion Network with Attention Mechanism ( http://arxiv.org/abs/2307.00895v1 )

ライセンス: Link先を確認
Tianyu Zhang, Luyi Han, Anna D'Angelo, Xin Wang, Yuan Gao, Chunyao Lu, Jonas Teuwen, Regina Beets-Tan, Tao Tan, Ritse Mann(参考訳) mri (mri) は, 乳がん検診において, 画像診断において最も感度の高い画像診断法である。 造影MRI(CE-MRI)は腫瘍と浸潤した健康組織との鑑別に優れており,癌の検出と評価に欠かせない技術となっている。 しかし、CE-MRIを得るためにガドリニウム系造影剤(GBCA)を使用することは、ネフローゼ性全身線維症と関連し、脳内での生体蓄積を引き起こす可能性があり、ヒトの健康に危険をもたらす可能性がある。 さらに、ガドリニウムをベースとしたコントラスト剤の使用には、静脈の冠状化と、患者に負担がかかるコントラスト媒体の注入が必要である。 造影剤の使用を減らすため、拡散強調画像(DWI)が重要なイメージング技術として登場しているが、現在は胸部CE-MRIを補完している。 本研究では,T1強調MRIとDWIに基づいてCE-MRIを合成するマルチシーケンス融合ネットワークを開発した。 異なるb値のDWIを融合させてDWIの差分特性を効率的に活用する。 純粋なデータ駆動アプローチを提案するのではなく、改良された特徴マップを得るためのマルチシーケンスアテンションモジュールを発明し、重み付き差分モジュールを導入することで、モデル駆動アプローチから異なるシーケンスからのコントリビューションを活用しながら、異なるスケールで融合した階層表現情報を活用する。 その結果,多値DWI融合モデルを用いてCE-MRIを合成し,GBCAの使用を理論的に低減・回避し,患者への負担を最小限に抑えることができた。 我々のコードは \url{https://github.com/Netherlands-Cancer-Institute/CE-MRI} で入手できる。

Magnetic resonance imaging (MRI) is the most sensitive technique for breast cancer detection among current clinical imaging modalities. Contrast-enhanced MRI (CE-MRI) provides superior differentiation between tumors and invaded healthy tissue, and has become an indispensable technique in the detection and evaluation of cancer. However, the use of gadolinium-based contrast agents (GBCA) to obtain CE-MRI may be associated with nephrogenic systemic fibrosis and may lead to bioaccumulation in the brain, posing a potential risk to human health. Moreover, and likely more important, the use of gadolinium-based contrast agents requires the cannulation of a vein, and the injection of the contrast media which is cumbersome and places a burden on the patient. To reduce the use of contrast agents, diffusion-weighted imaging (DWI) is emerging as a key imaging technique, although currently usually complementing breast CE-MRI. In this study, we develop a multi-sequence fusion network to synthesize CE-MRI based on T1-weighted MRI and DWIs. DWIs with different b-values are fused to efficiently utilize the difference features of DWIs. Rather than proposing a pure data-driven approach, we invent a multi-sequence attention module to obtain refined feature maps, and leverage hierarchical representation information fused at different scales while utilizing the contributions from different sequences from a model-driven approach by introducing the weighted difference module. The results show that the multi-b-value DWI-based fusion model can potentially be used to synthesize CE-MRI, thus theoretically reducing or avoiding the use of GBCA, thereby minimizing the burden to patients. Our code is available at \url{https://github.com/Netherlands-Cancer-Institute/CE-MRI}.
翻訳日:2023-07-05 13:39:58 公開日:2023-07-03
# 中国の都市緑化はメガシティが支配

Mega-cities dominate China's urban greening ( http://arxiv.org/abs/2307.00894v1 )

ライセンス: Link先を確認
Xiaoxin Zhang, Martin Brandt, Xiaoye Tong, Xiaowei Tong, Wenmin Zhang, Florian Reiner, Sizhuo Li, Feng Tian, Yuemin Yue, Weiqi Zhou, Bin Chen, Xiangming Xiao, Rasmus Fensholt(参考訳) 樹木は都市環境において重要な役割を担い、公衆衛生や人間の健康に寄与する様々な生態系サービスを提供している。 しかし、中国は過去数十年にわたって様々な都市緑化政策を開始し、その影響を全国規模で観察することは困難であることが判明した。 本研究では,2010年と2019年に50km2以上の中国の主要都市において,ナノサテライトを用いた都市木被覆量の定量化を行った。 以上の結果から,都市域の約6000 km2 (11%) が2019年に樹木に覆われており,2010年に比べて76%が樹木に覆われていることがわかった。 特に北京や上海などの大都市では、他の都市に比べて樹冠面積が約2倍(7.69%対3.94%)増加した。 本研究は,緑化政策にともなう都市木被覆の変化を評価するためのデータ駆動型アプローチを用いて,緑化の兆候が増大する一方で,大都市数都市に便乗する不均一な実装を示唆している。

Trees play a crucial role in urban environments, offering various ecosystem services that contribute to public health and human well-being. China has initiated a range of urban greening policies over the past decades, however, monitoring their impact on urban tree dynamics at a national scale has proven challenging. In this study, we deployed nano-satellites to quantify urban tree coverage in all major Chinese cities larger than 50 km2 in 2010 and 2019. Our findings indicate that approximately 6000 km2 (11%) of urban areas were covered by trees in 2019, and 76% of these cities experienced an increase in tree cover compared to 2010. Notably, the increase in tree cover in mega-cities such as Beijing, and Shanghai was approximately twice as large as in most other cities (7.69% vs 3.94%). The study employs a data-driven approach towards assessing urban tree cover changes in relation to greening policies, showing clear signs of tree cover increases but also suggesting an uneven implementation primarily benefiting a few mega-cities.
翻訳日:2023-07-05 13:39:27 公開日:2023-07-03
# ソースフリードメイン適応のための信頼性の高い画素レベルラベルの生成

Generating Reliable Pixel-Level Labels for Source Free Domain Adaptation ( http://arxiv.org/abs/2307.00893v1 )

ライセンス: Link先を確認
Gabriel Tjio, Ping Liu, Yawei Luo, Chee Keong Kwoh, Joey Zhou Tianyi(参考訳) この研究は、ラベル付きソースドメインデータセットからの知識を事前訓練されたブラックボックスセグメンテーションモデルからのみ利用できる、挑戦的なドメイン適応設定に対処する。 対象領域画像に対する事前学習されたモデルの予測は、ソース領域データと対象領域データとの分布的差異のため、うるさい。 モデルの予測は自己学習中に擬似ラベルとして機能するため、予測のノイズはモデル性能に上限を課す。 そこで本研究では,この問題を解決するために,単純ながら斬新な画像翻訳ワークフローであるReGENを提案する。 ReGENは、画像間翻訳ネットワークとセグメンテーションネットワークとを備える。 我々のワークフローは、元のターゲット領域画像からノイズ予測を用いてターゲットライクな画像を生成する。 これらのターゲットライクな画像はノイズモデル予測と意味的に一致するため、セグメンテーションネットワークのトレーニングに使用できる。 生成されたターゲットライクな画像は、元のターゲットドメイン画像からの予測と意味的に整合するだけでなく、ターゲットドメイン画像とスティリスティックに類似している。 これにより、セグメンテーションモデルを訓練しながら、ターゲットライクな画像と対象のドメインイメージのスタイル的差異を追加の監督源として活用することができる。 我々は2つのベンチマークドメイン適応設定でモデルを評価し,最近の最新技術と比較して,このアプローチが好適に機能することを示す。 ソースコードは公開される予定だ。

This work addresses the challenging domain adaptation setting in which knowledge from the labelled source domain dataset is available only from the pretrained black-box segmentation model. The pretrained model's predictions for the target domain images are noisy because of the distributional differences between the source domain data and the target domain data. Since the model's predictions serve as pseudo labels during self-training, the noise in the predictions impose an upper bound on model performance. Therefore, we propose a simple yet novel image translation workflow, ReGEN, to address this problem. ReGEN comprises an image-to-image translation network and a segmentation network. Our workflow generates target-like images using the noisy predictions from the original target domain images. These target-like images are semantically consistent with the noisy model predictions and therefore can be used to train the segmentation network. In addition to being semantically consistent with the predictions from the original target domain images, the generated target-like images are also stylistically similar to the target domain images. This allows us to leverage the stylistic differences between the target-like images and the target domain image as an additional source of supervision while training the segmentation model. We evaluate our model with two benchmark domain adaptation settings and demonstrate that our approach performs favourably relative to recent state-of-the-art work. The source code will be made available.
翻訳日:2023-07-05 13:39:09 公開日:2023-07-03
# 説明可能な深い枠組み:マルチトゥワンmri合成のためのタスク特異的融合に向けて

An Explainable Deep Framework: Towards Task-Specific Fusion for Multi-to-One MRI Synthesis ( http://arxiv.org/abs/2307.00885v1 )

ライセンス: Link先を確認
Luyi Han, Tianyu Zhang, Yunzhi Huang, Haoran Dou, Xin Wang, Yuan Gao, Chunyao Lu, Tan Tao, Ritse Mann(参考訳) マルチシーケンスMRIは、診断や治療の信頼性を高めるために臨床的に有用であるが、いくつかのシーケンスは様々な理由で使用できない、あるいは欠落している可能性がある。 この問題に対処するため、MRI合成は潜在的な解決策である。 近年の深層学習に基づく手法は、欠落したシーケンス合成のために複数の利用可能なシーケンスを組み合わせることで優れた性能を実現している。 その成功にもかかわらず、これらの方法は異なる入力シーケンスの貢献を定量化し、生成された画像の品質を推定する能力に欠けており、実用的ではない。 そこで,本研究では,各入力シーケンスのコントリビューションを,トレーニング可能なタスク固有重み付き平均モジュールによって可視化し,タスク固有アテンションモジュールによる合成中にネットワークが洗練しようとした領域をハイライトする,という2つの側面から,重みを自動的に適用し,解釈可能性と信頼性を提供する,説明可能なタスク固有合成ネットワークを提案する。 1251人の被験者のBraTS2021データセット上で実験を行い、任意のシーケンス合成の結果、提案手法が最先端手法よりも優れた性能を実現することを示す。 我々のコードは \url{https://github.com/fiy2W/mri_seq2seq} で入手できる。

Multi-sequence MRI is valuable in clinical settings for reliable diagnosis and treatment prognosis, but some sequences may be unusable or missing for various reasons. To address this issue, MRI synthesis is a potential solution. Recent deep learning-based methods have achieved good performance in combining multiple available sequences for missing sequence synthesis. Despite their success, these methods lack the ability to quantify the contributions of different input sequences and estimate the quality of generated images, making it hard to be practical. Hence, we propose an explainable task-specific synthesis network, which adapts weights automatically for specific sequence generation tasks and provides interpretability and reliability from two sides: (1) visualize the contribution of each input sequence in the fusion stage by a trainable task-specific weighted average module; (2) highlight the area the network tried to refine during synthesizing by a task-specific attention module. We conduct experiments on the BraTS2021 dataset of 1251 subjects, and results on arbitrary sequence synthesis indicate that the proposed method achieves better performance than the state-of-the-art methods. Our code is available at \url{https://github.com/fiy2W/mri_seq2seq}.
翻訳日:2023-07-05 13:38:48 公開日:2023-07-03
# 複合時間周波数画像符号化によるウェアラブルセンサデータの深層学習適応化

Augmenting Deep Learning Adaptation for Wearable Sensor Data through Combined Temporal-Frequency Image Encoding ( http://arxiv.org/abs/2307.00883v1 )

ライセンス: Link先を確認
Yidong Zhu, Md Mahmudur Rahman, Mohammad Arif Ul Alam(参考訳) ディープラーニングの進歩は、コンピュータビジョンを含む多くの領域でスケーラブルな分類に革命をもたらした。 しかし、ウェアラブルベースの分類とドメイン適応に関しては、既存のコンピュータビジョンベースのディープラーニングアーキテクチャと、数ヵ月間数千のラベル付きイメージでトレーニングされたトレーニング済みモデルが不足している。 これは、ウェアラブルセンサーデータがセンサー固有の前処理、アーキテクチャの変更、広範なデータ収集を必要とするためである。 これらの課題を克服するため、研究者は反復プロットを用いた画像中のウェアラブル時空間センサデータのエンコーディングを提案している。 本稿では,時間領域情報と周波数領域情報の両方をシームレスに統合した,修正再帰プロットに基づく画像表現を提案する。 提案手法では,従来の時間的再帰プロット画像と連動して,フーリエ変換に基づく周波数領域角差推定手法を取り入れた。 さらに,表現性を高めるために混合画像拡張を用いる。 加速度センサを用いた活動認識データと事前訓練されたResNetモデルを用いて提案手法の評価を行い,既存の手法と比較して優れた性能を示す。

Deep learning advancements have revolutionized scalable classification in many domains including computer vision. However, when it comes to wearable-based classification and domain adaptation, existing computer vision-based deep learning architectures and pretrained models trained on thousands of labeled images for months fall short. This is primarily because wearable sensor data necessitates sensor-specific preprocessing, architectural modification, and extensive data collection. To overcome these challenges, researchers have proposed encoding of wearable temporal sensor data in images using recurrent plots. In this paper, we present a novel modified-recurrent plot-based image representation that seamlessly integrates both temporal and frequency domain information. Our approach incorporates an efficient Fourier transform-based frequency domain angular difference estimation scheme in conjunction with the existing temporal recurrent plot image. Furthermore, we employ mixup image augmentation to enhance the representation. We evaluate the proposed method using accelerometer-based activity recognition data and a pretrained ResNet model, and demonstrate its superior performance compared to existing approaches.
翻訳日:2023-07-05 13:38:23 公開日:2023-07-03
# 量子状態検証のための最適測定シーケンス

Optimizing Measurements Sequences for Quantum State Verification ( http://arxiv.org/abs/2307.00881v1 )

ライセンス: Link先を確認
Weichao Liang, Francesco Ticozzi, Giuseppe Vallone(参考訳) 我々は、与えられた状態準備、すなわち量子状態のソースが正確かどうか、すなわち所定の閾値内でターゲット状態に近い状態を生成するかどうかを決定する問題を考察する。 複数の測定を行う必要がある場合、測定の順序が正確さを迅速に評価するために重要であることを示す。 本研究では,事前情報のみに依存する,すなわち状態準備の目標状態,あるいは以前に得られた測定値に積極的に適応する,最適な,あるいは最適以下の測定シーケンスを計算するための異なる戦略を提案し,比較する。 数値シミュレーションにより,提案アルゴリズムは検証に必要な測定回数を大幅に削減し,特に故障準備を評価する適応プロトコルの利点を示す。

We consider the problem of deciding whether a given state preparation, i.e., a source of quantum states, is accurate, namely produces states close to a target one within a prescribed threshold. We show that, when multiple measurements need to be used, the order of measurements is critical for quickly assessing accuracy. We propose and compare different strategies to compute optimal or suboptimal measurement sequences either relying solely on a priori information, i.e., the target state for state preparation, or actively adapting the sequence to the previously obtained measurements. Numerical simulations show that the proposed algorithms reduce significantly the number of measurements needed for verification, and indicate an advantage for the adaptive protocol especially assessing faulty preparations.
翻訳日:2023-07-05 13:38:07 公開日:2023-07-03
# マルチラベル視覚認識のための共学習によるスティッチアップ

Co-Learning Meets Stitch-Up for Noisy Multi-label Visual Recognition ( http://arxiv.org/abs/2307.00880v1 )

ライセンス: Link先を確認
Chao Liang, Zongxin Yang, Linchao Zhu, Yi Yang(参考訳) 実世界のシナリオでは、収集および注釈付きデータは、しばしば複数のクラスと長い尾の分布の特徴を示す。 さらに、大規模アノテーションではラベルノイズは避けられず、学習モデルの適用を妨げる。 長い尾の多ラベル認識やラベルノイズを扱うための深層学習手法が数多く提案されているが、長い尾の多ラベル視覚データにおけるノイズラベルを用いた学習は、多ラベル相関に絡み合った長い尾の分布の複雑さのため、十分に研究されていない。 このような批判的かつ厄介な問題に取り組むため,本論文では,マルチラベル分類と長文学習の固有特性に基づく雑音低減に焦点をあてた。 本研究では,複数の学習サンプルを縫い合わせることにより,マルチラベルノイズを直接低減する,クリーナー試料を合成するためのステッチアップ添加法を提案する。 Stitch-Upと組み合わされた異種共学習フレームワークは、長い尾とバランスの取れた分布の不整合を利用して、ノイズの多い長い尾のデータによるより堅牢な表現学習のためのクリーンなラベルを得るように設計されている。 提案手法を検証するため,VOC-MLT-NoiseとCOCO-MLT-Noiseという2つの挑戦的ベンチマークを構築した。 提案手法の有効性を示すため,広範な実験を行った。 様々なベースラインと比較して,本手法は優れた結果が得られる。

In real-world scenarios, collected and annotated data often exhibit the characteristics of multiple classes and long-tailed distribution. Additionally, label noise is inevitable in large-scale annotations and hinders the applications of learning-based models. Although many deep learning based methods have been proposed for handling long-tailed multi-label recognition or label noise respectively, learning with noisy labels in long-tailed multi-label visual data has not been well-studied because of the complexity of long-tailed distribution entangled with multi-label correlation. To tackle such a critical yet thorny problem, this paper focuses on reducing noise based on some inherent properties of multi-label classification and long-tailed learning under noisy cases. In detail, we propose a Stitch-Up augmentation to synthesize a cleaner sample, which directly reduces multi-label noise by stitching up multiple noisy training samples. Equipped with Stitch-Up, a Heterogeneous Co-Learning framework is further designed to leverage the inconsistency between long-tailed and balanced distributions, yielding cleaner labels for more robust representation learning with noisy long-tailed data. To validate our method, we build two challenging benchmarks, named VOC-MLT-Noise and COCO-MLT-Noise, respectively. Extensive experiments are conducted to demonstrate the effectiveness of our proposed method. Compared to a variety of baselines, our method achieves superior results.
翻訳日:2023-07-05 13:37:54 公開日:2023-07-03
# 半教師付き多視点概念分解

Semi-supervised multi-view concept decomposition ( http://arxiv.org/abs/2307.00924v1 )

ライセンス: Link先を確認
Qi Jiang, Guoxu Zhou and Qibin Zhao(参考訳) 表現学習の新しいパラダイムである概念因子化(CF)は、マルチビュークラスタリングタスクにおいて優れた性能を示している。 従来の行列分解法によって課される非ネガティビティ制約のような制限を克服し、カーネルメソッドを利用してデータの基底構造をキャプチャする潜在表現を学習し、データ表現を改善する。 しかし、既存のマルチビューの概念因子化手法では、実世界のマルチビューデータに固有の限定ラベル付き情報を考慮できない。 これはしばしば大きなパフォーマンス損失をもたらす。 これらの制約を克服するために,SMVCF と呼ばれる新しい半教師付き多視点概念分解モデルを提案する。 SMVCFモデルでは、従来の単一ビューCFをマルチビューバージョンに拡張し、複数のビューにまたがる補完情報のより効率的な探索を可能にする。 次に,マルチビューcf,ラベル伝搬,多様体学習を統一したフレームワークに統合し,データに存在する貴重な情報を活用し,活用する。 さらに、クラスタリングプロセスにおける異なるビューの重要性のバランスをとるために、適応重みベクトルが導入された。 さらに,SMVCFモデルに適した最適化手法を開発した。 最後に,SMVCFの性能を評価するために,ラベル比の異なる4種類のデータセットについて広範な実験を行った。 実験により,マルチビュークラスタリングタスクにおける提案手法の有効性と優位性を示した。

Concept Factorization (CF), as a novel paradigm of representation learning, has demonstrated superior performance in multi-view clustering tasks. It overcomes limitations such as the non-negativity constraint imposed by traditional matrix factorization methods and leverages kernel methods to learn latent representations that capture the underlying structure of the data, thereby improving data representation. However, existing multi-view concept factorization methods fail to consider the limited labeled information inherent in real-world multi-view data. This often leads to significant performance loss. To overcome these limitations, we propose a novel semi-supervised multi-view concept factorization model, named SMVCF. In the SMVCF model, we first extend the conventional single-view CF to a multi-view version, enabling more effective exploration of complementary information across multiple views. We then integrate multi-view CF, label propagation, and manifold learning into a unified framework to leverage and incorporate valuable information present in the data. Additionally, an adaptive weight vector is introduced to balance the importance of different views in the clustering process. We further develop targeted optimization methods specifically tailored for the SMVCF model. Finally, we conduct extensive experiments on four diverse datasets with varying label ratios to evaluate the performance of SMVCF. The experimental results demonstrate the effectiveness and superiority of our proposed approach in multi-view clustering tasks.
翻訳日:2023-07-05 13:30:14 公開日:2023-07-03
# バッチ学習によるバイモーダル環境における強化学習エージェントの安定訓練

Achieving Stable Training of Reinforcement Learning Agents in Bimodal Environments through Batch Learning ( http://arxiv.org/abs/2307.00923v1 )

ライセンス: Link先を確認
E. Hurwitz, N. Peace, G. Cevora(参考訳) バイモーダルで確率的な環境は、典型的な強化学習問題に挑戦する。 この問題は、現実世界のアプリケーションで驚くほど一般的であり、価格問題に特に当てはまる。 本稿では,バッチ更新を用いることで,これらの課題に対処することを目的とした,表型Q-ラーニングアルゴリズムに対する新しい学習手法を提案する。 価格問題のシミュレーションは、通常更新されたエージェントとバッチ学習エージェントを比較するためのテストベッドとして使用される。 バッチ学習エージェントは、通常訓練されたエージェントよりも効果的であり、大きな確率環境におけるゆらぎに対してより弾力性があることが示される。 この作業は、価格などの文脈で強化学習を実践的かつ工業的に展開する上で、大きな可能性を秘めている。

Bimodal, stochastic environments present a challenge to typical Reinforcement Learning problems. This problem is one that is surprisingly common in real world applications, being particularly applicable to pricing problems. In this paper we present a novel learning approach to the tabular Q-learning algorithm, tailored to tackling these specific challenges by using batch updates. A simulation of pricing problem is used as a testbed to compare a typically updated agent with a batch learning agent. The batch learning agents are shown to be both more effective than the typically-trained agents, and to be more resilient to the fluctuations in a large stochastic environment. This work has a significant potential to enable practical, industrial deployment of Reinforcement Learning in the context of pricing and others.
翻訳日:2023-07-05 13:29:52 公開日:2023-07-03
# ハイブリッド測地力学:量子物質に結合した古典重力のハミルトン的記述

Hybrid Geometrodynamics: A Hamiltonian description of classical gravity coupled to quantum matter ( http://arxiv.org/abs/2307.00922v1 )

ライセンス: Link先を確認
J. L. Alonso, C. Bouthelier-Madre, J. Clemente-Gallardo, D. Mart\'inez-Crespo(参考訳) 我々は、古典的物質に結合した一般相対性理論のハミルトニアン像を、そのような物質が曲面時空における量子場理論によって記述される場合と関係づけるが、重力は依然として空間超曲面とその関連する運動量上の古典的計量テンソル場によって記述される。 したがって、我々のアプローチでは、事象の多様体を除いて非動的背景構造は存在せず、重力と量子の次数は、その力学を厳密に結合しない。 フレームワークのハミルトニアンの性質を考えると、一貫した量子応力-エネルギーテンソルを探す必要はないが、代わりに量子状態の多様体上の超曲面変形の生成子を扱う。 この構成は、重力変数の集合上の量子状態の集合のフィブレーションの微分幾何学と、量子接続の概念の導入に大きく依存している。 構成の最も顕著な物理的意味は、量子状態の標準保存(全動力学が非ユニタリであるとしても)、ハイブリッド保存量を明確に同定すること、および幾何学上の量子物質の動的反作用の記述であり、その逆もまた、重力場が反作用無しに持つ物理的性質を変更することである。

We generelize the Hamiltonian picture of General Relativity coupled to classical matter, known as geometrodynamics, to the case where such matter is described by a Quantum Field Theory in Curved Spacetime, but gravity is still described by a classical metric tensor field over a spatial hypersurface and its associated momentum. Thus, in our approach there is no non-dynamic background structure, apart from the manifold of events, and the gravitational and quantum degrees of freedom have their dynamics inextricably coupled. Given the Hamiltonian nature of the framework, there is no need to search for a consistent quantum stress-energy tensor, but instead we work with the generators of hypersurface deformations over the manifold of quantum states. The construction relies heavily on the differential geometry of a fibration of the set of quantum states over the set of gravitational variables, and the introduction of a notion of quantum connection. The most remarkable physical implications of the construction are norm conservation of the quantum state (even if the total dynamics are non-unitary), the clear identification of the hybrid conserved quantities and the description of a dynamical backreaction of quantum matter on geometry and vice versa, which shall modify the physical properties the gravitational field would have in the absence of backreaction.
翻訳日:2023-07-05 13:29:40 公開日:2023-07-03
# 転写型臨床面接における抑うつ検出のためのノード重み付きグラフ畳み込みネットワーク

Node-weighted Graph Convolutional Network for Depression Detection in Transcribed Clinical Interviews ( http://arxiv.org/abs/2307.00920v1 )

ライセンス: Link先を確認
Sergio Burdisso, Esa\'u Villatoro-Tello, Srikanth Madikeri, Petr Motlicek(参考訳) 本稿では,グラフ畳み込みネットワーク(GCN)における自己接続エッジの重み付け方法を提案する。 この目的のために、我々はGCNを用いて非連続的・長距離的意味論をモデル化し、転写を抑うつまたは制御対象に分類する。 提案手法は,計算コストの低減,データ非依存,解釈可能性などの魅力的な特徴を保ちながら,局所性の制限と,GCN内の隣接ノードに対する自己接続とエッジとの等価の重要性を緩和することを目的とする。 2つのベンチマークデータセットで徹底的な評価を行う。 その結果,本手法はバニラGCNモデルと従来報告した結果とを一貫して上回り,両データセットのF1=0.84%を達成した。 最後に、質的な分析は、提案手法の解釈可能性と、それ以前の心理学的知見との整合性を示す。

We propose a simple approach for weighting self-connecting edges in a Graph Convolutional Network (GCN) and show its impact on depression detection from transcribed clinical interviews. To this end, we use a GCN for modeling non-consecutive and long-distance semantics to classify the transcriptions into depressed or control subjects. The proposed method aims to mitigate the limiting assumptions of locality and the equal importance of self-connections vs. edges to neighboring nodes in GCNs, while preserving attractive features such as low computational cost, data agnostic, and interpretability capabilities. We perform an exhaustive evaluation in two benchmark datasets. Results show that our approach consistently outperforms the vanilla GCN model as well as previously reported results, achieving an F1=0.84% on both datasets. Finally, a qualitative analysis illustrates the interpretability capabilities of the proposed approach and its alignment with previous findings in psychology.
翻訳日:2023-07-05 13:29:15 公開日:2023-07-03
# なぜCNNは特徴抽出に優れているのか? 数学的な説明

Why do CNNs excel at feature extraction? A mathematical explanation ( http://arxiv.org/abs/2307.00919v1 )

ライセンス: Link先を確認
Vinoth Nandakumar, Arush Tagade, Tongliang Liu(参考訳) 過去10年間で、ディープラーニングはコンピュータビジョンの分野に革命をもたらし、畳み込みニューラルネットワークモデルが画像分類ベンチマークに非常に有効であることが証明された。 しかし、基本的な理論的疑問は、なぜ特徴抽出を含む離散的な画像分類タスクを解決できるのか? 本稿では,実世界のデータセットに似た画像を生成するために,特徴抽出に基づく画像分類のための新しい数学的モデルを提案する。 畳み込みニューラルネットワーク分類器は,これらの画像分類タスクを誤差ゼロで解くことができることを示す。 この証明では,特徴の存在を検出する分割線形関数を構築し,畳み込みネットワークによって実現可能であることを示す。

Over the past decade deep learning has revolutionized the field of computer vision, with convolutional neural network models proving to be very effective for image classification benchmarks. However, a fundamental theoretical questions remain answered: why can they solve discrete image classification tasks that involve feature extraction? We address this question in this paper by introducing a novel mathematical model for image classification, based on feature extraction, that can be used to generate images resembling real-world datasets. We show that convolutional neural network classifiers can solve these image classification tasks with zero error. In our proof, we construct piecewise linear functions that detect the presence of features, and show that they can be realized by a convolutional network.
翻訳日:2023-07-05 13:28:57 公開日:2023-07-03
# キャビティ積分によるナノダイヤモンド中の単一ゲルマニウム空孔中心のスペクトル密度の増大

Enhanced Spectral Density of a Single Germanium Vacancy Center in a Nanodiamond by Cavity-Integration ( http://arxiv.org/abs/2307.00916v1 )

ライセンス: Link先を確認
Florian Feuchtmayr, Robert Berghaus, Selene Sachero, Gregor Bayer, Niklas Lettner, Richard Waltrich, Patrick Maier, Viatcheslav Agafonov and Alexander Kubanek(参考訳) ダイヤモンド中の色中心、中でも負電荷のゲルマニウム空孔(GeV$^-$)は、量子ネットワークのような多くの量子光学の応用に有望な候補である。 効率的な実装には、光遷移を単一の光モードに結合する必要がある。 本稿では, 原子間力顕微鏡を用いたナノマニピュレーションによる開放型ファブリーp\'erotマイクロキャビティへの光学特性に優れた単層gev中心を含むナノダイアモンドの移動を実証する。 gevdefectのキャビティモードへの結合は達成され、光共振器はf = 7,700の高精細度を維持し、48倍のスペクトル密度向上が観測される。 本稿では,gev欠陥とfabry-p\'erotマイクロキャビティを環境条件下で統合し,効率的なスピン光子プラットフォームに向けて低温温度まで実験を展開する可能性を示す。

Color centers in diamond, among them the negatively-charged germanium vacancy (GeV$^-$), are promising candidates for many applications of quantum optics such as a quantum network. For efficient implementation, the optical transitions need to be coupled to a single optical mode. Here, we demonstrate the transfer of a nanodiamond containing a single ingrown GeV- center with excellent optical properties to an open Fabry-P\'erot microcavity by nanomanipulation utilizing an atomic force microscope. Coupling of the GeV- defect to the cavity mode is achieved, while the optical resonator maintains a high finesse of F = 7,700 and a 48-fold spectral density enhancement is observed. This article demonstrates the integration of a GeV- defect with a Fabry-P\'erot microcavity under ambient conditions with the potential to extend the experiments to cryogenic temperatures towards an efficient spin-photon platform.
翻訳日:2023-07-05 13:28:47 公開日:2023-07-03
# 視覚言語理解のための文脈プロンプト学習

Contextual Prompt Learning for Vision-Language Understanding ( http://arxiv.org/abs/2307.00910v1 )

ライセンス: Link先を確認
Koustava Goswami, Srikrishna Karanam, Joseph K J, Prateksha Udhayanan and Balaji Vasan Srinivasan(参考訳) マルチモーダル学習の最近の進歩は、様々な下流タスクで表現が一般化できる強力な視覚言語モデルを生み出している。 近年,自然言語処理の文献から借用した訓練可能なプロンプトを組み込むことで,その一般化性をさらに拡張している。 このような迅速な学習技術は印象的な結果を示しているが、これらのプロンプトは2つの側面に制限されたグローバルイメージの特徴に基づいてトレーニングされていることを認識している。 第2に、既存の作業の重み付けはすべて同じプロンプトですが、私たちの直観では、これらのプロンプトはイメージのタイプに固有です。 画像の局所的な特徴にプロンプトを合わせることができる、提案したContextual Prompt Learning (CoPL)フレームワークの一部として、これらの問題に対処する。 これまでの作業で重要なイノベーションは、プロンプト学習プロセスの一部としてローカルイメージ機能を使用すること、さらに重要なのは、目の前のタスクに適したローカル機能に基づいてこれらのプロンプトを重み付けする学習です。 これにより、ローカルな画像特徴に一致した動的プロンプトと、ローカルなコンテキスト関係を認識することができます。 各種標準データセットおよび少数ショットデータセットに対する広範囲な実験結果から,本手法は,現在の技術手法と比較して,大幅な性能向上を図っている。 また,局所的な画像特徴に適応した動的プロンプトの学習の有用性を確立するために,散発的および散発的性能の両方を実証する。

Recent advances in multimodal learning has resulted in powerful vision-language models, whose representations are generalizable across a variety of downstream tasks. Recently, their generalizability has been further extended by incorporating trainable prompts, borrowed from the natural language processing literature. While such prompt learning techniques have shown impressive results, we identify that these prompts are trained based on global image features which limits itself in two aspects: First, by using global features, these prompts could be focusing less on the discriminative foreground image, resulting in poor generalization to various out-of-distribution test cases. Second, existing work weights all prompts equally whereas our intuition is that these prompts are more specific to the type of the image. We address these issues with as part of our proposed Contextual Prompt Learning (CoPL) framework, capable of aligning the prompts to the localized features of the image. Our key innovations over earlier works include using local image features as part of the prompt learning process, and more crucially, learning to weight these prompts based on local features that are appropriate for the task at hand. This gives us dynamic prompts that are both aligned to local image features as well as aware of local contextual relationships. Our extensive set of experiments on a variety of standard and few-shot datasets show that our method produces substantially improved performance when compared to the current state of the art methods. We also demonstrate both few-shot and out-of-distribution performance to establish the utility of learning dynamic prompts that are aligned to local image features.
翻訳日:2023-07-05 13:28:28 公開日:2023-07-03
# 近接量子デバイスを用いた量子機械学習:実世界応用のための監視・非監督技術の現状

Quantum Machine Learning on Near-Term Quantum Devices: Current State of Supervised and Unsupervised Techniques for Real-World Applications ( http://arxiv.org/abs/2307.00908v1 )

ライセンス: Link先を確認
Yaswitha Gujju, Atsushi Matsuo and Rudy Raymond(参考訳) 過去10年間、量子ハードウェアの速度、量子ビット数、量子ボリュームは量子回路の最大サイズとして定義され、短期的な量子デバイスで効果的に実装できる。 その結果、量子機械学習(QML)の実際のハードウェアへの応用に基づいて、古典的なハードウェアよりも量子上の優位性を得る研究が増えている。 本調査では,量子ハードウェア上に実装された教師付きおよび教師なしの学習アプリケーション,特に実世界のシナリオを対象としている。 我々の調査は量子ハードウェアにおけるQML実装の現在の限界を探求し、強調する。 符号化技術、アンザッツ構造、エラー軽減、勾配法など、これらの制限を克服する様々な手法を探索する。 さらに,これらのQML実装の性能を,従来の実装と比較して評価する。 最後に,実量子デバイスにqmlを適用する際の既存のボトルネックについて考察し,これらの課題を克服するための潜在的な解決策を提案する。

The past decade has seen considerable progress in quantum hardware in terms of the speed, number of qubits and quantum volume which is defined as the maximum size of a quantum circuit that can be effectively implemented on a near-term quantum device. Consequently, there has also been a rise in the number of works based on the applications of Quantum Machine Learning (QML) on real hardware to attain quantum advantage over their classical counterparts. In this survey, our primary focus is on selected supervised and unsupervised learning applications implemented on quantum hardware, specifically targeting real-world scenarios. Our survey explores and highlights the current limitations of QML implementations on quantum hardware. We delve into various techniques to overcome these limitations, such as encoding techniques, ansatz structure, error mitigation, and gradient methods. Additionally, we assess the performance of these QML implementations in comparison to their classical counterparts. Finally, we conclude our survey with a discussion on the existing bottlenecks associated with applying QML on real quantum devices and propose potential solutions for overcoming these challenges in the future.
翻訳日:2023-07-05 13:28:00 公開日:2023-07-03
# 国家攻撃に対するQMIXのロバスト性向上

Enhancing the Robustness of QMIX against State-adversarial Attacks ( http://arxiv.org/abs/2307.00907v1 )

ライセンス: Link先を確認
Weiran Guo, Guanjun Liu, Ziyuan Zhou, Ling Wang, Jiacun Wang(参考訳) 深層強化学習(DRL)のパフォーマンスは一般に、エージェントの観察に適用される摂動である国家の敵対的攻撃によって影響を受ける。 最近の研究は、国家の攻撃に対する堅牢な単一エージェント強化学習(SARL)アルゴリズムに集中している。 それでも、堅牢なマルチエージェント強化学習に関する作業は、まだ多くありません。 協調型マルチエージェント強化アルゴリズムの1つであるqmixを用いて,sarlアルゴリズムのロバスト性を改善し,それをマルチエージェントシナリオに拡張するための4つの手法について検討した。 マルチエージェント強化学習(MARL)アルゴリズムのロバスト性を高めるため,本研究では様々な攻撃を用いてモデルを訓練する。 そして、トレーニングフェーズを通して、他の攻撃を用いて教えられたモデルを対応する攻撃に従わせてテストする。 このようにして,MARLを用いた場合の堅牢性向上手法を整理,要約する。

Deep reinforcement learning (DRL) performance is generally impacted by state-adversarial attacks, a perturbation applied to an agent's observation. Most recent research has concentrated on robust single-agent reinforcement learning (SARL) algorithms against state-adversarial attacks. Still, there has yet to be much work on robust multi-agent reinforcement learning. Using QMIX, one of the popular cooperative multi-agent reinforcement algorithms, as an example, we discuss four techniques to improve the robustness of SARL algorithms and extend them to multi-agent scenarios. To increase the robustness of multi-agent reinforcement learning (MARL) algorithms, we train models using a variety of attacks in this research. We then test the models taught using the other attacks by subjecting them to the corresponding attacks throughout the training phase. In this way, we organize and summarize techniques for enhancing robustness when used with MARL.
翻訳日:2023-07-05 13:27:43 公開日:2023-07-03
# 手作りパイプラインのDL蒸留によるOCTの効率的な全自動網膜脈絡膜セグメンテーション

Efficient and fully-automatic retinal choroid segmentation in OCT through DL-based distillation of a hand-crafted pipeline ( http://arxiv.org/abs/2307.00904v1 )

ライセンス: Link先を確認
Jamie Burke, Justin Engelmann, Charlene Hamid, Megan Reid-Schachter, Tom Pearson, Dan Pugh, Neeraj Dhaun, Stuart King, Tom MacGillivray, Miguel O. Bernabeu, Amos Storkey, Ian J.C. MacCormick(参考訳) 低コストで非侵襲的な網膜イメージングから派生した網膜血管表現型は、心血管疾患、神経疾患、リノ血管疾患などの全身疾患と関連している。 最近の高分解能光コヒーレンス断層撮影(oct)は脈絡膜微小血管のイメージングを可能にし、現在の血管表現型に基づく表在網膜血管を補完する血管の健康に関するさらなる情報を提供することができる。 octにおけるコロイドのセグメンテーションは、厚さや面積などの脈絡パラメータを定量化する上で重要なステップである。 Gaussian Process Edge Tracing (GPET) は有望かつ臨床的に検証された手法である。 しかし、GPETは半自動であり、特に訓練された職員による手作業による介入が必要であり、それは主観性を導入し、より大きなデータセットを分析したり、臨床実践にGPETを配置する可能性を制限する。 本稿では,GPETをニューラルネットワークに分解し,完全自動かつ効率的な脈絡膜分割法を実現するDeepGPETを紹介する。 deepgpetは、3つの臨床研究(auc=0.9994, dice=0.9664; pearson correlation of 0.8908: choroidal thickness and 0.9082: choroidal area)のデータをgpetとよく一致させ、画像当たりの平均処理時間を34.49s (\pm$15.09)から標準ラップトップcpu上の1.25s (\pm$0.10)に短縮し、手作業による介入をすべて取り除いた。 DeepGPETは出版時に研究者が利用できる。

Retinal vascular phenotypes, derived from low-cost, non-invasive retinal imaging, have been linked to systemic conditions such as cardio-, neuro- and reno-vascular disease. Recent high-resolution optical coherence tomography (OCT) allows imaging of the choroidal microvasculature which could provide more information about vascular health that complements the superficial retinal vessels, which current vascular phenotypes are based on. Segmentation of the choroid in OCT is a key step in quantifying choroidal parameters like thickness and area. Gaussian Process Edge Tracing (GPET) is a promising, clinically validated method for this. However, GPET is semi-automatic and thus requires time-consuming manual interventions by specifically trained personnel which introduces subjectivity and limits the potential for analysing larger datasets or deploying GPET into clinical practice. We introduce DeepGPET, which distils GPET into a neural network to yield a fully-automatic and efficient choroidal segmentation method. DeepGPET achieves excellent agreement with GPET on data from 3 clinical studies (AUC=0.9994, Dice=0.9664; Pearson correlation of 0.8908 for choroidal thickness and 0.9082 for choroidal area), while reducing the mean processing time per image from 34.49s ($\pm$15.09) to 1.25s ($\pm$0.10) on a standard laptop CPU and removing all manual interventions. DeepGPET will be made available for researchers upon publication.
翻訳日:2023-07-05 13:27:29 公開日:2023-07-03
# ドメイン固有の抽象要約の課題と克服方法

Challenges in Domain-Specific Abstractive Summarization and How to Overcome them ( http://arxiv.org/abs/2307.00963v1 )

ライセンス: Link先を確認
Anum Afzal, Juraj Vladika, Daniel Braun, Florian Matthes(参考訳) 大規模言語モデルは、自然言語処理における汎用データや多くのタスクとよく機能します。 しかし、ドメイン固有の抽象テキスト要約のようなタスクに使用する場合、いくつかの制限がある。 本稿では,これら3つの制約を抽象テキスト要約の文脈における研究問題として挙げる。 1) 入力テキスト長に関する変圧器に基づくモデルの二次的複雑さ 2)モデル幻覚は,事実的不正確なテキストを生成できるモデルの能力である。 3) モデルのトレーニングとテストコーパスの分布が同じでない場合に発生するドメインシフト。 オープンな研究課題の議論とともに、本論文は、研究ギャップに対処するために、ドメイン固有のテキスト要約に関連する既存の最先端技術の評価も提供する。

Large Language Models work quite well with general-purpose data and many tasks in Natural Language Processing. However, they show several limitations when used for a task such as domain-specific abstractive text summarization. This paper identifies three of those limitations as research problems in the context of abstractive text summarization: 1) Quadratic complexity of transformer-based models with respect to the input text length; 2) Model Hallucination, which is a model's ability to generate factually incorrect text; and 3) Domain Shift, which happens when the distribution of the model's training and test corpus is not the same. Along with a discussion of the open research questions, this paper also provides an assessment of existing state-of-the-art techniques relevant to domain-specific text summarization to address the research gaps.
翻訳日:2023-07-05 13:20:58 公開日:2023-07-03
# ニューラルアーキテクチャトランスファー2:多目的ニューラルアーキテクチャ探索における効率向上のためのパラダイム

Neural Architecture Transfer 2: A Paradigm for Improving Efficiency in Multi-Objective Neural Architecture Search ( http://arxiv.org/abs/2307.00960v1 )

ライセンス: Link先を確認
Simone Sarti, Eugenio Lomurno, Matteo Matteucci(参考訳) 深層学習は現代社会の様々な側面にますます影響を与えている。 人工知能は、幅広いタスクを解決する主要なモデルとして登場してきた。 タスク最適化ネットワークの自動設計を可能にするニューラル・アーキテクチャ・サーチ(nas)技術の導入は、目覚ましい進歩をもたらした。 しかし、nasプロセスは通常、長い実行時間と重要な計算リソース要求と関連している。 once-For-All (OFA) とその後継である Once-For-All-2 (OFAv2) はこれらの課題を軽減するために開発された。 例外的な性能を維持しながら、異なる制約を満たすサブネットワークを直接抽出できる単一のスーパーネットワークモデルを構築することを目指している。 ニューラルネットワーク転送(NAT)は,スーパーネットワークからサブネットワークを抽出する効率を最大化するために開発された。 本稿では,動的スーパーネットワークアーキテクチャに適用された多目的探索アルゴリズムを改善するNATの拡張であるNATv2を提案する。 NATv2はOFAv2によって生成された改良されたスーパーネットワークを活用し、ネットワークアーカイブの初期化、前処理、更新のための新しいポリシーを導入することで、抽出可能なサブネットワークの質的な改善を実現している。 さらに、微調整に基づく後処理パイプラインも導入されている。 実験結果から,NATv2はNATの改善に成功し,最小限のパラメータを持つ高性能アーキテクチャの探索に極めて推奨されている。

Deep learning is increasingly impacting various aspects of contemporary society. Artificial neural networks have emerged as the dominant models for solving an expanding range of tasks. The introduction of Neural Architecture Search (NAS) techniques, which enable the automatic design of task-optimal networks, has led to remarkable advances. However, the NAS process is typically associated with long execution times and significant computational resource requirements. Once-For-All (OFA) and its successor, Once-For-All-2 (OFAv2), have been developed to mitigate these challenges. While maintaining exceptional performance and eliminating the need for retraining, they aim to build a single super-network model capable of directly extracting sub-networks satisfying different constraints. Neural Architecture Transfer (NAT) was developed to maximise the effectiveness of extracting sub-networks from a super-network. In this paper, we present NATv2, an extension of NAT that improves multi-objective search algorithms applied to dynamic super-network architectures. NATv2 achieves qualitative improvements in the extractable sub-networks by exploiting the improved super-networks generated by OFAv2 and incorporating new policies for initialisation, pre-processing and updating its networks archive. In addition, a post-processing pipeline based on fine-tuning is introduced. Experimental results show that NATv2 successfully improves NAT and is highly recommended for investigating high-performance architectures with a minimal number of parameters.
翻訳日:2023-07-05 13:20:46 公開日:2023-07-03
# HODINet:RGB-D Salient Object Detectionのための高次離散相互作用ネットワーク

HODINet: High-Order Discrepant Interaction Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2307.00954v1 )

ライセンス: Link先を確認
Kang Yi, Jing Xu, Xiao Jin, Fu Guo, Yan-Feng Wu(参考訳) RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。 ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。 しかし、これらの機能は最終的な正当性の結果に異なる貢献をする。 1)RGB画像と深度マップの離散特性をモデル化する方法 2)これらのクロスモダリティ機能を異なる段階に融合する方法。 本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。 具体的には、まず、RGBと奥行き機能をエンコードするバックボーンとして、トランスフォーマーベースのアーキテクチャとCNNベースのアーキテクチャを用いる。 そして、高次表現を微妙に抽出し、異なる段階における異質な特徴融合のための空間的およびチャネル的注意に埋め込む。 具体的には,高次空間融合(HOSF)モジュールと高次チャネル融合(HOCF)モジュールをそれぞれ設計し,第1段と第2段の特徴を融合させる。 さらに、カスケードピラミッド再構築ネットワークを採用して、トップダウン経路における融合特徴を段階的に復号する。 提案手法の有効性を実証するために, 広く利用されている7つのデータセットについて広範な実験を行った。 4つの評価基準の下で24の最先端手法に対する競合性能を実現する。

RGB-D salient object detection (SOD) aims to detect the prominent regions by jointly modeling RGB and depth information. Most RGB-D SOD methods apply the same type of backbones and fusion modules to identically learn the multimodality and multistage features. However, these features contribute differently to the final saliency results, which raises two issues: 1) how to model discrepant characteristics of RGB images and depth maps; 2) how to fuse these cross-modality features in different stages. In this paper, we propose a high-order discrepant interaction network (HODINet) for RGB-D SOD. Concretely, we first employ transformer-based and CNN-based architectures as backbones to encode RGB and depth features, respectively. Then, the high-order representations are delicately extracted and embedded into spatial and channel attentions for cross-modality feature fusion in different stages. Specifically, we design a high-order spatial fusion (HOSF) module and a high-order channel fusion (HOCF) module to fuse features of the first two and the last two stages, respectively. Besides, a cascaded pyramid reconstruction network is adopted to progressively decode the fused features in a top-down pathway. Extensive experiments are conducted on seven widely used datasets to demonstrate the effectiveness of the proposed approach. We achieve competitive performance against 24 state-of-the-art methods under four evaluation metrics.
翻訳日:2023-07-05 13:20:24 公開日:2023-07-03
# 無線通信におけるチャネル推定のための説明可能なAI

Towards Explainable AI for Channel Estimation in Wireless Communications ( http://arxiv.org/abs/2307.00952v1 )

ライセンス: Link先を確認
Abdul Karim Gizzini, Yahia Medjahdi, Ali J. Ghandour, Laurent Clavier(参考訳) 6Gネットワークの研究は、自律運転のような様々な重要な人工知能(AI)支援アプリケーションをサポートするために始められた。 このようなアプリケーションでは、AIベースの意思決定をリアルタイムで行う必要がある。 これらの決定には、リソース割り当て、ローカライゼーション、チャネル推定などが含まれる。 既存のAIベースモデルのブラックボックスの性質を考えると、そのようなモデルの意思決定行動を理解し信頼することは極めて困難である。 したがって、これらのモデルの背後にあるロジックを説明可能なAI(XAI)技術で説明することは、重要なアプリケーションでの利用に不可欠である。 本論文は,2つの選択チャネル推定に使用される深層学習(DL)モデルの詳細な合理的解釈性を提供する,XAI-CHEST(XAI-CHEST)方式を提案する。 XAI-CHEST方式の目的は,無関係なモデルに対して高雑音を誘導することにより,関連するモデル入力を同定することである。 その結果, dlに基づくチャネル推定器の挙動を, 生成した解釈に基づいてさらに解析し, 評価することができる。 シミュレーションの結果,提案手法は,dlに基づくチャネル推定器の異なるシナリオに対する有効な解釈を提供することがわかった。

Research into 6G networks has been initiated to support a variety of critical artificial intelligence (AI) assisted applications such as autonomous driving. In such applications, AI-based decisions should be performed in a real-time manner. These decisions include resource allocation, localization, channel estimation, etc. Considering the black-box nature of existing AI-based models, it is highly challenging to understand and trust the decision-making behavior of such models. Therefore, explaining the logic behind those models through explainable AI (XAI) techniques is essential for their employment in critical applications. This manuscript proposes a novel XAI-based channel estimation (XAI-CHEST) scheme that provides detailed reasonable interpretability of the deep learning (DL) models that are employed in doubly-selective channel estimation. The aim of the proposed XAI-CHEST scheme is to identify the relevant model inputs by inducing high noise on the irrelevant ones. As a result, the behavior of the studied DL-based channel estimators can be further analyzed and evaluated based on the generated interpretations. Simulation results show that the proposed XAI-CHEST scheme provides valid interpretations of the DL-based channel estimators for different scenarios.
翻訳日:2023-07-05 13:20:03 公開日:2023-07-03
# openapmax : アルツハイマー病診断のための異常パターンに基づくモデル

OpenAPMax: Abnormal Patterns-based Model for Real-World Alzheimer's Disease Diagnosis ( http://arxiv.org/abs/2307.00936v1 )

ライセンス: Link先を確認
Yunyou Huang, Xianglong Guan, Xiangjiang Lu, Xiaoshuang Liang, Xiuxia Miao, Jiyue Xie, Wenjing Liu, Li Ma, Suqin Tang, Zhifei Zhang, and Jianfeng Zhan(参考訳) アルツハイマー病(AD)は逆転できないが、早期診断は患者の治療や治療に大いに役立つ。 最近の研究では、AD診断はすべてのカテゴリが事前(クローズド・セットの分類問題)であることが知られているという主要な仮定を持ち、これはオープン・セットの認識問題とは対照的である。 この仮定は、自然臨床におけるモデルの適用を妨げる。 他の分野では多くのオープンセット認識技術が提案されているが、AD診断を直接利用するのは難しい。 1)adは神経系の変性疾患で、各段階に類似の症状があり、前の状態と区別が困難である。 2) 広告診断の多様化戦略は, 均一にモデル化することが困難である。 本研究では,診断中の臨床医の関心に触発されて,実環境におけるAD診断に対処するための異常パターンに基づくオープンセット認識モデルOpenAPMaxを提案する。 OpenAPMaxはまず、統計や文献検索を通じて各患者の異常パターンを取得し、患者の異常パターンをクラスタリングし、最後に、極値理論(EVT)を用いて各患者の異常パターンとそれらのカテゴリの中心の間の距離をモデル化し、分類確率を変更する。 提案手法の性能を最近のオープンセット認識を用いて評価し,その結果を得た。

Alzheimer's disease (AD) cannot be reversed, but early diagnosis will significantly benefit patients' medical treatment and care. In recent works, AD diagnosis has the primary assumption that all categories are known a prior -- a closed-set classification problem, which contrasts with the open-set recognition problem. This assumption hinders the application of the model in natural clinical settings. Although many open-set recognition technologies have been proposed in other fields, they are challenging to use for AD diagnosis directly since 1) AD is a degenerative disease of the nervous system with similar symptoms at each stage, and it is difficult to distinguish from its pre-state, and 2) diversified strategies for AD diagnosis are challenging to model uniformly. In this work, inspired by the concerns of clinicians during diagnosis, we propose an open-set recognition model, OpenAPMax, based on the anomaly pattern to address AD diagnosis in real-world settings. OpenAPMax first obtains the abnormal pattern of each patient relative to each known category through statistics or a literature search, clusters the patients' abnormal pattern, and finally, uses extreme value theory (EVT) to model the distance between each patient's abnormal pattern and the center of their category and modify the classification probability. We evaluate the performance of the proposed method with recent open-set recognition, where we obtain state-of-the-art results.
翻訳日:2023-07-05 13:19:46 公開日:2023-07-03
# 不確かさの定量化と校正による自己認識型物体検出装置の構築に向けて

Towards Building Self-Aware Object Detectors via Reliable Uncertainty Quantification and Calibration ( http://arxiv.org/abs/2307.00934v1 )

ライセンス: Link先を確認
Kemal Oksuz and Tom Joy and Puneet K. Dokania(参考訳) オブジェクト検出器のロバスト性をテストする現在のアプローチは、分散検出を行う不適切な方法や、局所化と分類品質の両方を考慮しないキャリブレーションメトリクスなど、深刻な欠陥に苦しんでいる。 本稿では,これらの課題に対処し,自律運転などの安全クリティカルな環境において,物体検出者が直面する課題を尊重し,遵守する統一テストフレームワークである,自己認識型オブジェクト検出(saod)タスクを紹介する。 具体的には、SAODタスクはオブジェクト検出器を必要とする: ドメインシフトに対する堅牢性、シーン全体に対する確実な不確実性推定、そして検出のための校正された信頼スコアを提供する。 私たちは、新しいメトリクスと大規模なテストデータセットを導入して、2つの異なるユースケースで多数のオブジェクト検出器をテストするこのフレームワークを広範囲に使用しました。 最後に、SAODタスクの単純なベースラインを導入し、将来の提案手法をベンチマークし、目的に適した堅牢なオブジェクト検出器に移行する。 コードはhttps://github.com/fiveai/saodで入手できる。

The current approach for testing the robustness of object detectors suffers from serious deficiencies such as improper methods of performing out-of-distribution detection and using calibration metrics which do not consider both localisation and classification quality. In this work, we address these issues, and introduce the Self-Aware Object Detection (SAOD) task, a unified testing framework which respects and adheres to the challenges that object detectors face in safety-critical environments such as autonomous driving. Specifically, the SAOD task requires an object detector to be: robust to domain shift; obtain reliable uncertainty estimates for the entire scene; and provide calibrated confidence scores for the detections. We extensively use our framework, which introduces novel metrics and large scale test datasets, to test numerous object detectors in two different use-cases, allowing us to highlight critical insights into their robustness performance. Finally, we introduce a simple baseline for the SAOD task, enabling researchers to benchmark future proposed methods and move towards robust object detectors which are fit for purpose. Code is available at https://github.com/fiveai/saod
翻訳日:2023-07-05 13:19:21 公開日:2023-07-03
# データ駆動によるがん細胞株の分子プロファイリングデータの抽出と濃縮

Data-Driven Information Extraction and Enrichment of Molecular Profiling Data for Cancer Cell Lines ( http://arxiv.org/abs/2307.00933v1 )

ライセンス: Link先を確認
Ellery Smith, Rahel Paloots, Dimitris Giagkos, Michael Baudis, Kurt Stockinger(参考訳) 研究手段と計算方法論の普及に伴い、生物医学の出版物は数と体積が指数関数的に増加している。 その結果、生物学、医学、臨床研究の分野において、ドメインの専門家は関連する情報を見つけるために大量の科学文書を精査しなければならない。 しかし、このプロセスは非常に退屈で、人間が行うのが遅い。 したがって、意味のある知識抽出を促進するためには、新しい計算情報抽出と相関機構が必要である。 本研究では,新しいデータ抽出・探索システムの設計,実装,応用について述べる。 本システムは、科学文献からテクストエンティティ間の深い意味関係を抽出し、癌細胞株の領域における既存の構造化臨床データを強化する。 我々は,ゲノムコピー番号の変種プロットと,影響を受ける遺伝子などの関連エンティティの自動リンクを可能にする,新しい公開データ探索ポータルを導入する。 それぞれの関係には文学由来の証拠が伴い、既存の構造化されたデータをバネボードとして使用して、深く、かつ高速な文献検索を可能にする。 私たちのシステムは、https://cancercelllines.orgで公開されています。

With the proliferation of research means and computational methodologies, published biomedical literature is growing exponentially in numbers and volume. As a consequence, in the fields of biological, medical and clinical research, domain experts have to sift through massive amounts of scientific text to find relevant information. However, this process is extremely tedious and slow to be performed by humans. Hence, novel computational information extraction and correlation mechanisms are required to boost meaningful knowledge extraction. In this work, we present the design, implementation and application of a novel data extraction and exploration system. This system extracts deep semantic relations between textual entities from scientific literature to enrich existing structured clinical data in the domain of cancer cell lines. We introduce a new public data exploration portal, which enables automatic linking of genomic copy number variants plots with ranked, related entities such as affected genes. Each relation is accompanied by literature-derived evidences, allowing for deep, yet rapid, literature search, using existing structured data as a springboard. Our system is publicly available on the web at https://cancercelllines.org
翻訳日:2023-07-05 13:19:00 公開日:2023-07-03
# カルシウムイメージング大データセットによるマカクV4の機能解析

A calcium imaging large dataset reveals novel functional organization in macaque V4 ( http://arxiv.org/abs/2307.00932v1 )

ライセンス: Link先を確認
Tianye Wang, Haoxuan Yao, Tai Sing Lee, Jiayi Hong, Yang Li, Hongfei Jiang, Ian Max Andolina, Shiming Tang(参考訳) 霊長類視覚領域V4のトポロジカルな構造と特徴的嗜好は、主に人工刺激を用いて研究されている。 本稿では,大規模カルシウムイメージングと深層学習を組み合わせることで,v4が自然画像をどのように処理するかを特徴付け,理解する。 深層学習モデルを数万の自然刺激に対して前例のない大規模なカラムスケール皮質応答のデータセットに適用し,各皮質画素が好む画像を特定することによって,自然刺激優先の詳細なV4地形図を得た。 地図には、色やテクスチャなどの表面関連特徴から、エッジ、曲率、顔特徴といった形状関連特徴まで、様々な自然画像特徴を好む異なる機能領域が含まれている。 これらの予測ドメインは、追加のワイドフィールドカルシウムイメージングと1細胞分解能2光子イメージングによって検証された。 本研究は自然シーンにおける画像特徴を符号化するためのv4の系統的トポロジカルな構造を明らかにする。

The topological organization and feature preferences of primate visual area V4 have been primarily studied using artificial stimuli. Here, we combined large-scale calcium imaging with deep learning methods to characterize and understand how V4 processes natural images. By fitting a deep learning model to an unprecedentedly large dataset of columnar scale cortical responses to tens of thousands of natural stimuli and using the model to identify the images preferred by each cortical pixel, we obtained a detailed V4 topographical map of natural stimulus preference. The map contains distinct functional domains preferring a variety of natural image features, ranging from surface-related features such as color and texture to shape-related features such as edge, curvature, and facial features. These predicted domains were verified by additional widefield calcium imaging and single-cell resolution two-photon imaging. Our study reveals the systematic topological organization of V4 for encoding image features in natural scenes.
翻訳日:2023-07-05 13:18:44 公開日:2023-07-03
# 抽象視覚推論のための微分可能論理プログラムの学習

Learning Differentiable Logic Programs for Abstract Visual Reasoning ( http://arxiv.org/abs/2307.00928v1 )

ライセンス: Link先を確認
Hikaru Shindo, Viktor Pfanschilling, Devendra Singh Dhami, Kristian Kersting(参考訳) 視覚推論は、世界を理解し、知覚を超えた問題解決を行うインテリジェントエージェントを構築するために不可欠である。 微分フォワード推論は、勾配に基づく機械学習パラダイムと推論を統合するために開発された。 しかし、メモリ強度のため、既存のほとんどのアプローチは一階述語論理の表現性を最大限に発揮しないが、抽象的な視覚的推論を解く重要な能力は除いて、エージェントは異なるシナリオで抽象的な概念のアナロジーを用いて推論を行う必要がある。 この問題を解決するために,グラフベースの微分可能前方推論器であるNEUro-symbolic Message-pAssiNg reasoNer (NEUMANN)を提案する。 さらに,複雑な視覚シーンに説明プログラムを誘導する計算効率のよい構造学習アルゴリズムを提案する。 従来の視覚的推論タスクに加えて,エージェントが抽象的なプログラムを学習し,観察されていないシーンを想像して質問に答える,視覚的推論という新たなタスクを提案する。 ニューマンが視覚推論のタスクを効率的に解き、ニューラル、シンボリック、ニューロシンボリックのベースラインを上回っていることを実証的に示す。

Visual reasoning is essential for building intelligent agents that understand the world and perform problem-solving beyond perception. Differentiable forward reasoning has been developed to integrate reasoning with gradient-based machine learning paradigms. However, due to the memory intensity, most existing approaches do not bring the best of the expressivity of first-order logic, excluding a crucial ability to solve abstract visual reasoning, where agents need to perform reasoning by using analogies on abstract concepts in different scenarios. To overcome this problem, we propose NEUro-symbolic Message-pAssiNg reasoNer (NEUMANN), which is a graph-based differentiable forward reasoner, passing messages in a memory-efficient manner and handling structured programs with functors. Moreover, we propose a computationally-efficient structure learning algorithm to perform explanatory program induction on complex visual scenes. To evaluate, in addition to conventional visual reasoning tasks, we propose a new task, visual reasoning behind-the-scenes, where agents need to learn abstract programs and then answer queries by imagining scenes that are not observed. We empirically demonstrate that NEUMANN solves visual reasoning tasks efficiently, outperforming neural, symbolic, and neuro-symbolic baselines.
翻訳日:2023-07-05 13:18:29 公開日:2023-07-03
# 文法進化を用いた意味的類似集合の自動設計

Automatic Design of Semantic Similarity Ensembles Using Grammatical Evolution ( http://arxiv.org/abs/2307.00925v1 )

ライセンス: Link先を確認
Jorge Martinez-Gil(参考訳) 意味的類似度尺度は、自然言語処理において様々なコンピュータ関連タスクを触媒するために広く用いられている。 しかしながら、すべてのタスクに最も適している意味的類似性尺度は存在せず、研究者はしばしばパフォーマンスを確保するためにアンサンブル戦略を用いる。 本研究では,意味的類似性アンサンブルの自動設計手法を提案する。 実際,本提案手法は,人的判断の相関を最大化するアンサンブルを生成するために,まず,候補のプールから測度を自動的に選択・集約するために文法的進化を利用する。 この手法はいくつかのベンチマークデータセットで評価され、最先端のアンサンブルと比較され、類似性評価の精度を大幅に向上し、場合によっては既存手法よりも優れていることを示す。 そこで本研究では,文法的進化を用いてテキストを自動比較し,意味的類似性タスクにアンサンブルを用いることの利点を証明する。

Semantic similarity measures are widely used in natural language processing to catalyze various computer-related tasks. However, no single semantic similarity measure is the most appropriate for all tasks, and researchers often use ensemble strategies to ensure performance. This research work proposes a method for automatically designing semantic similarity ensembles. In fact, our proposed method uses grammatical evolution, for the first time, to automatically select and aggregate measures from a pool of candidates to create an ensemble that maximizes correlation to human judgment. The method is evaluated on several benchmark datasets and compared to state-of-the-art ensembles, showing that it can significantly improve similarity assessment accuracy and outperform existing methods in some cases. As a result, our research demonstrates the potential of using grammatical evolution to automatically compare text and prove the benefits of using ensembles for semantic similarity tasks.
翻訳日:2023-07-05 13:18:08 公開日:2023-07-03
# マイクロエージェント強化学習における創発的戦略に対する環境効果

Environmental effects on emergent strategy in micro-scale multi-agent reinforcement learning ( http://arxiv.org/abs/2307.00994v1 )

ライセンス: Link先を確認
Samuel Tovey, David Zimmer, Christoph Lohrmann, Tobias Merkt, Simon Koppenhoefer, Veit-Lorenz Heuthe, Clemens Bechinger, Christian Holm(参考訳) MARL(Multi-Agent Reinforcement Learning)は、マイクロロボットがサブセットである微粒子の効率的な制御を実現するための候補である。 しかし、微視的な粒子の環境は、ブラウン運動のような十分に小さなスケールでの独特の課題を呈している。 本研究では,マイクロスケール環境の現実的表現として粒子ベースランゲヴィン分子動力学シミュレーションを用いて,MARLシステムにおける戦略の出現と有効性における温度の役割について検討する。 この目的のために,異なる温度の微視的環境下で2つの異なるマルチエージェントタスクを実験し,棒の濃度勾配と回転の源を検出する。 高い温度では、RLエージェントはこれらのタスクを達成するための新しい戦略を特定し、この体制を理解することの重要性を強調し、シミュレーションと現実の間の一般化ギャップを埋めるための最適なトレーニング戦略についての洞察を提供する。 また, 補強学習(RL)を用いて顕微鏡エージェントを研究するための新しいPythonパッケージも紹介した。

Multi-Agent Reinforcement Learning (MARL) is a promising candidate for realizing efficient control of microscopic particles, of which micro-robots are a subset. However, the microscopic particles' environment presents unique challenges, such as Brownian motion at sufficiently small length-scales. In this work, we explore the role of temperature in the emergence and efficacy of strategies in MARL systems using particle-based Langevin molecular dynamics simulations as a realistic representation of micro-scale environments. To this end, we perform experiments on two different multi-agent tasks in microscopic environments at different temperatures, detecting the source of a concentration gradient and rotation of a rod. We find that at higher temperatures, the RL agents identify new strategies for achieving these tasks, highlighting the importance of understanding this regime and providing insight into optimal training strategies for bridging the generalization gap between simulation and reality. We also introduce a novel Python package for studying microscopic agents using reinforcement learning (RL) to accompany our results.
翻訳日:2023-07-05 13:10:41 公開日:2023-07-03
# 美, 嗜好, 美的品質の予測 : 視覚美学研究のための画像データベースの比較分析

Predicting beauty, liking, and aesthetic quality: A comparative analysis of image databases for visual aesthetics research ( http://arxiv.org/abs/2307.00984v1 )

ライセンス: Link先を確認
Ralf Bartho, Katja Thoemmes and Christoph Redies(参考訳) 実験的および計算的美学の分野では、過去20年間で多数の画像データセットが作成されている。 本研究は,美的評価(美容,嗜好,美的品質)を含む12の画像データセットを比較し,異なるデータセット間での結果の再現性について検討する。 具体的には、(A)以前に研究された20の統計画像特性の集合、または(B)オブジェクト認識のために開発された畳み込みニューラルネットワークの層を用いて、評価がいかに一貫して予測できるかを検討する。 以上の結果から,各データセットにおける審美評価の予測可能性に大きな変化が認められた。 しかし、写真や絵画を含むデータセットには一貫した類似性が見られ、これら2つの画像ジャンルの審美的評価において異なる特徴が示唆された。 意外なことに、統計的画像特性と畳み込みニューラルネットワークは、類似した精度で美的評価を予測し、2つの手法が捉えた画像情報の顕著な重複を強調した。 しかしながら、データセット間の相違は、単一のデータセットにおける以前の研究結果の一般化可能性に疑問を投げかける。 本研究は、実験および計算美学の分野における研究結果の有効性と一般化性を改善するために、複数のデータセットを検討することの重要性を強調した。

In the fields of Experimental and Computational Aesthetics, numerous image datasets have been created over the last two decades. In the present work, we provide a comparative overview of twelve image datasets that include aesthetic ratings (beauty, liking or aesthetic quality) and investigate the reproducibility of results across different datasets. Specifically, we examine how consistently the ratings can be predicted by using either (A) a set of 20 previously studied statistical image properties, or (B) the layers of a convolutional neural network developed for object recognition. Our findings reveal substantial variation in the predictability of aesthetic ratings across the different datasets. However, consistent similarities were found for datasets containing either photographs or paintings, suggesting different relevant features in the aesthetic evaluation of these two image genres. To our surprise, statistical image properties and the convolutional neural network predict aesthetic ratings with similar accuracy, highlighting a significant overlap in the image information captured by the two methods. Nevertheless, the discrepancies between the datasets call into question the generalizability of previous research findings on single datasets. Our study underscores the importance of considering multiple datasets to improve the validity and generalizability of research results in the fields of experimental and computational aesthetics.
翻訳日:2023-07-05 13:10:25 公開日:2023-07-03
# コントラスト変動オートエンコーダを用いたMRI画像の特徴に基づく小児の自閉症スペクトラム障害分類

Autism Spectrum Disorder Classification in Children based on Structural MRI Features Extracted using Contrastive Variational Autoencoder ( http://arxiv.org/abs/2307.00976v1 )

ライセンス: Link先を確認
Ruimin Ma, Ruitao Xie, Yanlin Wang, Jintao Meng, Yanjie Wei, Wenhui Xi, Yi Pan(参考訳) 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、患者に社会的相互作用能力の重大な障害をもたらし、早期スクリーニングとASDの介入を重要視する精神疾患である。 機械学習とニューロイメージング技術の発展に伴い、構造MRI(s-MRI)に基づくASDの機械分類に関する研究が盛んに行われている。 しかし、ほとんどの研究は、参加者の年齢が5歳以上のデータセットに関係している。 5歳未満の被験者に対してasdの機械分類を行う研究は少ないが、予測精度は中程度である。 本稿では,コントラスト変動オートエンコーダ(cvae)を用いて抽出したs-mriの特徴に基づいて,小児のasdの機械分類の予測精度の境界(年齢: 0.92-4.83年)をプッシュする。 深セン小児病院から収集した 78 s-MRI は ASD 特有の特徴チャネルと共通の特徴チャネルからなる CVAE の訓練に用いられている。 ASD特有の特徴で表されるASD参加者は、共通の共有特徴で表されるTC参加者と容易に区別でき、高い分類精度が得られる。 データサイズが極端に小さい場合の予測精度が低下した場合、潜在的な解決策として転送学習戦略を提案する。 最後に、CVAEから抽出したs-MRI特徴と異なる皮質領域の表面積との相関に基づいて神経解剖学的解釈を行い、将来ASDの標的治療に役立つ可能性のあるバイオマーカーを開示する。

Autism spectrum disorder (ASD) is a highly disabling mental disease that brings significant impairments of social interaction ability to the patients, making early screening and intervention of ASD critical. With the development of the machine learning and neuroimaging technology, extensive research has been conducted on machine classification of ASD based on structural MRI (s-MRI). However, most studies involve with datasets where participants' age are above 5. Few studies conduct machine classification of ASD for participants below 5-year-old, but, with mediocre predictive accuracy. In this paper, we push the boundary of predictive accuracy (above 0.97) of machine classification of ASD in children (age range: 0.92-4.83 years), based on s-MRI features extracted using contrastive variational autoencoder (CVAE). 78 s-MRI, collected from Shenzhen Children's Hospital, are used for training CVAE, which consists of both ASD-specific feature channel and common shared feature channel. The ASD participants represented by ASD-specific features can be easily discriminated from TC participants represented by the common shared features, leading to high classification accuracy. In case of degraded predictive accuracy when data size is extremely small, a transfer learning strategy is proposed here as a potential solution. Finally, we conduct neuroanatomical interpretation based on the correlation between s-MRI features extracted from CVAE and surface area of different cortical regions, which discloses potential biomarkers that could help target treatments of ASD in the future.
翻訳日:2023-07-05 13:10:05 公開日:2023-07-03
# オーバーザエアフェデレーション学習 - 現状,オープンチャレンジ,今後の方向性

Over-The-Air Federated Learning: Status Quo, Open Challenges, and Future Directions ( http://arxiv.org/abs/2307.00974v1 )

ライセンス: Link先を確認
Bingnan Xiao, Xichen Yu, Wei Ni, Xin Wang, and H. Vincent Poor(参考訳) ワイヤレスネットワーク上で実装された人工知能に基づくアプリケーションの開発は急速に進み、将来的には劇的に成長すると期待されている。 その結果、大量のデータを集約するという要求は、無線ネットワーク、特にネットワークエッジにおいて深刻な通信ボトルネックを引き起こした。 OTA-FL(Over-the-air Federated Learning)は、マルチアクセスチャネル(MAC)の重ね合わせ機能を活用し、ネットワークエッジのユーザがスペクトルリソースを共有でき、効率的で低レイテンシなグローバルモデルアグリゲーションを実現する。 本稿では,OTA-FLの進展を概観し,今後の研究方向性について述べる。 具体的には, 単一アンテナOTA-FL, マルチアンテナOTA-FL, OTA-FLなどのシステム設定の観点から, 新たな再構成可能なインテリジェントサーフェス(RIS)技術を用いてOTA-FLを分類し, これらの領域における既存作業の貢献を要約する。 さらに,ota-flの信頼性,セキュリティ,プライバシの側面についても議論し,セキュリティとプライバシから生じる懸念を強調する。 最後に,システム性能,信頼性,信頼性の向上の観点から,OTA-FLの今後の発展を促進するための課題と研究の方向性について論じる。 対処すべき具体的な課題は、チャネルフェージング下のモデル歪み、実質的に不均衡なデータでトレーニングされたローカルモデルの非効率的なota集約、個々のローカルモデルのアクセシビリティと検証可能性の制限などである。

The development of applications based on artificial intelligence and implemented over wireless networks is increasingly rapidly and is expected to grow dramatically in the future. The resulting demand for the aggregation of large amounts of data has caused serious communication bottlenecks in wireless networks and particularly at the network edge. Over-the-air federated learning (OTA-FL), leveraging the superposition feature of multi-access channels (MACs), enables users at the network edge to share spectrum resources and achieves efficient and low-latency global model aggregation. This paper provides a holistic review of progress in OTA-FL and points to potential future research directions. Specifically, we classify OTA-FL from the perspective of system settings, including single-antenna OTA-FL, multi-antenna OTA-FL, and OTA-FL with the aid of the emerging reconfigurable intelligent surface (RIS) technology, and the contributions of existing works in these areas are summarized. Moreover, we discuss the trust, security and privacy aspects of OTA-FL, and highlight concerns arising from security and privacy. Finally, challenges and potential research directions are discussed to promote the future development of OTA-FL in terms of improving system performance, reliability, and trustworthiness. Specifical challenges to be addressed include model distortion under channel fading, the ineffective OTA aggregation of local models trained on substantially unbalanced data, and the limited accessibility and verifiability of individual local models.
翻訳日:2023-07-05 13:09:37 公開日:2023-07-03
# MoVie:ビューの一般化のためのビジュアルモデルベースのポリシー適応

MoVie: Visual Model-Based Policy Adaptation for View Generalization ( http://arxiv.org/abs/2307.00972v1 )

ライセンス: Link先を確認
Sizhe Yang, Yanjie Ze, Huazhe Xu(参考訳) 限られた視点で訓練された視覚強化学習(RL)エージェントは、学習能力の一般化において大きな課題に直面している。 この固有の困難さは、$\textit{view generalization}$ の問題として知られている。 本研究では,この基本的な問題を,現実の状況によく似た4つの異なる,非常に困難なシナリオに体系的に分類する。 次に、視覚的$\textbf{Mo}$del-based Policy for $\textbf{Vie}$w generalization ($\textbf{MoVie}$) をテスト時間中に、明示的な報酬信号やトレーニング時間中の変更を必要とせずに、容易にかつ効果的に適応できるアプローチを提案する。 提案手法は,dmcontrol,xarm,adroitから供給される合計$\textbf{18}$タスクを含む4つのシナリオにおいて,それぞれ$\mathbf{33}$%,$\mathbf{86}$%,$\mathbf{152}$%の相対的改善を示す。 優れた結果は、現実世界のロボットアプリケーションに対する我々のアプローチの膨大な可能性を浮き彫りにしている。 ビデオはhttps://yangsizhe.github.io/MoVie/で公開されている。

Visual Reinforcement Learning (RL) agents trained on limited views face significant challenges in generalizing their learned abilities to unseen views. This inherent difficulty is known as the problem of $\textit{view generalization}$. In this work, we systematically categorize this fundamental problem into four distinct and highly challenging scenarios that closely resemble real-world situations. Subsequently, we propose a straightforward yet effective approach to enable successful adaptation of visual $\textbf{Mo}$del-based policies for $\textbf{Vie}$w generalization ($\textbf{MoVie}$) during test time, without any need for explicit reward signals and any modification during training time. Our method demonstrates substantial advancements across all four scenarios encompassing a total of $\textbf{18}$ tasks sourced from DMControl, xArm, and Adroit, with a relative improvement of $\mathbf{33}$%, $\mathbf{86}$%, and $\mathbf{152}$% respectively. The superior results highlight the immense potential of our approach for real-world robotics applications. Videos are available at https://yangsizhe.github.io/MoVie/ .
翻訳日:2023-07-05 13:09:08 公開日:2023-07-03
# 最大絡み合った実状態とSLOCC不変量:3量子の場合

Maximally entangled real states and SLOCC invariants: the 3-qutrit case ( http://arxiv.org/abs/2307.00970v1 )

ライセンス: Link先を確認
Hamza Jaffali, Fr\'ed\'eric Holweck, Luke Oeding(参考訳) 多項式 SLOCC 不変量の絶対値は(分離状態では常に消える)絡み合いの測度と見なすことができる。 実3量子系の場合を調べ、(超決定式を最大化する観点から)(極大に絡み合った状態の新しい集合を発見する。 また、基本不変量を調べ、それらの絶対値を最大化する実3量子状態を求める。 アハロノフ状態が3つの基本不変量全体の同時最大値であることは注目すべきである。 また, ランダム実3量子系におけるこれらの不変量の評価と, ヒストグラムとレベルセットプロットを用いてその挙動解析を行った。 最後に、基本行列演算を用いて任意の3量子状態上のこれらの不変量を評価する方法を示す。

The absolute values of polynomial SLOCC invariants (which always vanish on separable states) can be seen as measures of entanglement. We study the case of real 3-qutrit systems and discover a new set of maximally entangled states (from the point of view of maximizing the hyperdeterminant). We also study the basic fundamental invariants and find real 3-qutrit states that maximize their absolute values. It is notable that the Aharonov state is a simultaneous maximizer for all 3 fundamental invariants. We also study the evaluation of these invariants on random real 3-qutrit systems and analyze their behavior using histograms and level-set plots. Finally, we show how to evaluate these invariants on any 3-qutrit state using basic matrix operations.
翻訳日:2023-07-05 13:08:44 公開日:2023-07-03
# REAL: アクティブラーニングのための代表的エラー駆動アプローチ

REAL: A Representative Error-Driven Approach for Active Learning ( http://arxiv.org/abs/2307.00968v1 )

ライセンス: Link先を確認
Cheng Chen, Yong Wang, Lizi Liao, Yueguo Chen, Xiaoyong Du(参考訳) ラベル付け予算が限られているため、active learning(al)はラベルのないプールから最も有益なインスタンスをサンプリングし、その後のモデルトレーニングのためにラベルを取得することを目的としている。 これを達成するため、ALは通常、不確実性と多様性に基づいてラベルなしのインスタンスの情報性を測定する。 しかし、モデルの性能を向上させる大きな可能性を持つ近傍誤差密度の誤例は考慮していない。 この制限に対処するために、$REAL$という新しいアプローチを提案し、$\underline{R}$epresentative $\underline{E}$rrors for $\underline{A}$ctive $\underline{L}$earning。 クラスタ内の少数派予測を 'emph{pseudo error} と識別し、推定エラー密度に基づいてクラスタの適応的なサンプリング予算を割り当てる。 5つのテキスト分類データセットの大規模な実験により、$REAL$は、幅広いハイパーパラメータ設定における精度とF1-macroスコアに関するすべての最高のパフォーマンスベースラインを一貫して上回ります。 我々の分析によると、$REAL$は決定境界に沿った地道誤差の分布と一致する最も代表的な擬似エラーを選択する。 私たちのコードはhttps://github.com/withchencheng/ECML_PKDD_23_Realで公開されています。

Given a limited labeling budget, active learning (AL) aims to sample the most informative instances from an unlabeled pool to acquire labels for subsequent model training. To achieve this, AL typically measures the informativeness of unlabeled instances based on uncertainty and diversity. However, it does not consider erroneous instances with their neighborhood error density, which have great potential to improve the model performance. To address this limitation, we propose $REAL$, a novel approach to select data instances with $\underline{R}$epresentative $\underline{E}$rrors for $\underline{A}$ctive $\underline{L}$earning. It identifies minority predictions as \emph{pseudo errors} within a cluster and allocates an adaptive sampling budget for the cluster based on estimated error density. Extensive experiments on five text classification datasets demonstrate that $REAL$ consistently outperforms all best-performing baselines regarding accuracy and F1-macro scores across a wide range of hyperparameter settings. Our analysis also shows that $REAL$ selects the most representative pseudo errors that match the distribution of ground-truth errors along the decision boundary. Our code is publicly available at https://github.com/withchencheng/ECML_PKDD_23_Real.
翻訳日:2023-07-05 13:08:33 公開日:2023-07-03
# 任意の2体ハミルトニアンのディジタルアナログ量子計算

Digital-Analog Quantum Computation with Arbitrary Two-Body Hamiltonians ( http://arxiv.org/abs/2307.00966v1 )

ライセンス: Link先を確認
Mikel Garcia-de-Andoin, \'Alvaro Saiz, Pedro P\'erez-Fern\'andez, Lucas Lamata, Izaskun Oregi, Mikel Sanz(参考訳) デジタルアナログ量子コンピューティング(Digital-analog quantum computing)は、アナログハミルトン資源と単一量子ゲートを併用した計算パラダイムである。 任意のハミルトニアンをシミュレートする元のプロトコルは、イジングハミルトニアンをアナログリソースとして明示的に構築された。 ここでは、このスキームを任意の2体源ハミルトニアンに拡張し、この計算パラダイムの実験的適用性を高める。 任意の2体ターゲットハミルトニアンを$n$ qubitsでシミュレーションするには、少なくとも$\mathcal{O}(n^2)$アナログブロックが必要である。 さらに,ブロック数をさらに削減するために,単一キュービット回転の角度とアナログブロックの時刻を最適化するディジタル・アナログブロックの数を固定し,近似手法を提案する。 これらの技術は、NISQデバイスにおけるデジタルアナログパラダイムの適用性と影響を高めるために有用な新しいツールボックスを提供する。

Digital-analog quantum computing is a computational paradigm which employs an analog Hamiltonian resource together with single-qubit gates to reach universality. The original protocol to simulate an arbitrary Hamiltonian was explicitly constructed for an Ising Hamiltonian as the analog resource. Here, we extend this scheme to employ an arbitrary two-body source Hamiltonian, enhancing the experimental applicability of this computational paradigm. We show that the simulation of an arbitrary two-body target Hamiltonian of $n$ qubits requires at most $\mathcal{O}(n^2)$ analog blocks. Additionally, for further reducing the number of blocks, we propose an approximation technique by fixing the number of digital-analog blocks in which we optimize the angles of the single-qubit rotations and the times of the analog blocks. These techniques provide a new useful toolbox for enhancing the applicability and impact of the digital-analog paradigm on NISQ devices.
翻訳日:2023-07-05 13:08:06 公開日:2023-07-03
# OpenClinicalAI:アルツハイマー病診断のためのオープンでダイナミックなモデル

OpenClinicalAI: An Open and Dynamic Model for Alzheimer's Disease Diagnosis ( http://arxiv.org/abs/2307.00965v1 )

ライセンス: Link先を確認
Yunyou Huang, Xiaoshuang Liang, Xiangjiang Lu, Xiuxia Miao, Jiyue Xie, Wenjing Liu, Fan Zhang, Guoxin Kang, Li Ma, Suqin Tang, Zhifei Zhang, Jianfeng Zhan(参考訳) アルツハイマー病(AD)は逆転や治癒はできないが、タイムリーな診断は治療やケアの負担を大幅に軽減することができる。 AD診断モデルに関する最近の研究は、診断タスクを2つの主要な前提を持つ典型的な分類タスクと見なしている。 1) すべての対象カテゴリは,優先権として知られています。 2) 患者毎の診断戦略は一致しており, 患者毎のモデル入力データの数とタイプは同じである。 しかし、実際の臨床環境は開放されており、被験者と医療機関のリソースの両面で複雑さと不確実性がある。 これは、診断モデルが見えない疾患のカテゴリに遭遇し、被験者の特定の状況と利用可能な医療資源に基づいて診断戦略を動的に開発する必要があることを意味する。 これにより、ad診断タスクと診断戦略の定式化とを結合する。 臨床現場における診断システムの適用を促進するため,複雑かつ不確実な臨床現場における直接AD診断のためのOpenClinicalAIを提案する。 これは、診断戦略を動的に定式化し、被験者の状況と利用可能な医療資源に基づいて診断結果を提供する、最初の強力なエンドツーエンドモデルである。 OpenClinicalAIは、相互結合型ディープマルチアクション強化学習(DMARL)と、オープンセット認識のためのマルチセンターメタラーニング(MCML)を組み合わせる。 実験の結果,OpenClinicalAIは最先端モデルよりも成績が良く,臨床検査も少ないことがわかった。 本手法は,AD診断システムを現在の医療システムに組み込んで臨床医と協力し,現在の医療を改善する機会を提供する。

Although Alzheimer's disease (AD) cannot be reversed or cured, timely diagnosis can significantly reduce the burden of treatment and care. Current research on AD diagnosis models usually regards the diagnosis task as a typical classification task with two primary assumptions: 1) All target categories are known a priori; 2) The diagnostic strategy for each patient is consistent, that is, the number and type of model input data for each patient are the same. However, real-world clinical settings are open, with complexity and uncertainty in terms of both subjects and the resources of the medical institutions. This means that diagnostic models may encounter unseen disease categories and need to dynamically develop diagnostic strategies based on the subject's specific circumstances and available medical resources. Thus, the AD diagnosis task is tangled and coupled with the diagnosis strategy formulation. To promote the application of diagnostic systems in real-world clinical settings, we propose OpenClinicalAI for direct AD diagnosis in complex and uncertain clinical settings. This is the first powerful end-to-end model to dynamically formulate diagnostic strategies and provide diagnostic results based on the subject's conditions and available medical resources. OpenClinicalAI combines reciprocally coupled deep multiaction reinforcement learning (DMARL) for diagnostic strategy formulation and multicenter meta-learning (MCML) for open-set recognition. The experimental results show that OpenClinicalAI achieves better performance and fewer clinical examinations than the state-of-the-art model. Our method provides an opportunity to embed the AD diagnostic system into the current health care system to cooperate with clinicians to improve current health care.
翻訳日:2023-07-05 13:07:51 公開日:2023-07-03
# 有限時間メモリ消去への近道

A Shortcut to Finite-time Memory Erasure ( http://arxiv.org/abs/2307.00964v1 )

ライセンス: Link先を確認
Geng Li and Hui Dong(参考訳) 高速な計算を実現するためには、限られた時間内にメモリを所望の状態にリセットすることが不可欠である。 しかし、システムの応答に固有の遅延は、制御プロセスが有限時間で完了すると、しばしば所望の状態に達するのを防ぐ。 この課題に対処するため,本研究では,補助制御を組み込んで,意図した制御に対応する平衡状態へ誘導し,正確なメモリリセットを可能にするショートカット戦略を提案する。 熱力学幾何の応用により,エネルギーコストを最小化する消去プロセスのための最適ショートカットプロトコルを導出する。 本研究は, エネルギーコストを低減しつつ, 有限時間消去プロセスを実現するための効果的な設計原理を提供し, 放熱負荷を軽減する。

To achieve fast computation, it is crucial to reset the memory to a desired state within a limited time. However, the inherent delay in the system's response often prevents reaching the desired state once the control process is completed in finite time. To address this challenge, we propose a shortcut strategy that incorporates an auxiliary control to guide the system towards an equilibrium state that corresponds to the intended control, thus enabling accurate memory reset. Through the application of thermodynamic geometry, we derive an optimal shortcut protocol for erasure processes that minimizes the energy cost. This research provides an effective design principle for realizing the finite-time erasure process while simultaneously reducing the energy cost, thereby alleviating the burden of heat dissipation.
翻訳日:2023-07-05 13:07:24 公開日:2023-07-03
# CGAM: バックプロパゲーション・リファインメントによるインタラクティブな病理画像分割のためのクリックガイド型注意モジュール

CGAM: Click-Guided Attention Module for Interactive Pathology Image Segmentation via Backpropagating Refinement ( http://arxiv.org/abs/2307.01015v1 )

ライセンス: Link先を確認
Seonghui Min, Won-Ki Jeong(参考訳) 腫瘍領域の分節は,デジタル病理の定量的解析に欠かせない課題である。 最近発表されたディープニューラルネットワークは、様々な画像分割タスクで最先端のパフォーマンスを示している。 しかし, 病理像の癌領域と正常領域の境界が不明確であるため, 最新の手法を用いても, 医用データに必要な信頼性と精度の観点から, 良好なセグメンテーション結果が得られることは困難である。 本研究では,ユーザがクリック型ユーザインタラクションを通じてディープニューラルネットワークの出力を洗練できる対話型セグメンテーション手法を提案する。 第一の方法は、クリック誘導アテンションモジュール(CGAM)を用いて、ユーザが提供するクリック制約と特徴マップのセマンティック情報の両方を活用する最適化問題として、インタラクティブセグメンテーションを定式化することである。 他の既存の方法とは異なり、CGAMはセグメンテーション結果の過度な変更を避けるため、ユーザクリックの過度な適合につながる可能性がある。 CGAMのもう1つの利点は、モデルサイズが入力画像サイズに依存しないことである。 病理画像データセットの実験結果から,本手法は既存の最先端手法よりも優れた性能を示した。

Tumor region segmentation is an essential task for the quantitative analysis of digital pathology. Recently presented deep neural networks have shown state-of-the-art performance in various image-segmentation tasks. However, because of the unclear boundary between the cancerous and normal regions in pathology images, despite using modern methods, it is difficult to produce satisfactory segmentation results in terms of the reliability and accuracy required for medical data. In this study, we propose an interactive segmentation method that allows users to refine the output of deep neural networks through click-type user interactions. The primary method is to formulate interactive segmentation as an optimization problem that leverages both user-provided click constraints and semantic information in a feature map using a click-guided attention module (CGAM). Unlike other existing methods, CGAM avoids excessive changes in segmentation results, which can lead to the overfitting of user clicks. Another advantage of CGAM is that the model size is independent of input image size. Experimental results on pathology image datasets indicated that our method performs better than existing state-of-the-art methods.
翻訳日:2023-07-05 13:02:41 公開日:2023-07-03
# CNOTゲート受信機を用いたマイクロ波ガウス量子センシング

Microwave Gaussian quantum sensing with a CNOT gate receiver ( http://arxiv.org/abs/2307.01014v1 )

ライセンス: Link先を確認
Hany Khalifa, Kirill Petrovnin, Riku J\"antti, Gheorghe Sorin Paraoanu(参考訳) textit{quantum illumination} (qi) では、熱雑音に埋め込まれたターゲットの存在を検出するために、放射の絡み合ったモードである \textit{continuous variable} (cv) 間の非古典的相関が利用される。 QIが最適古典的性能を上回る極端な環境は、マイクロ波領域の応用がこの新しいセンシングパラダイムの恩恵を受けることを示唆している。 しかし、提案されたQI受信機は全て、マイクロ波領域では実現不可能な理想的な光子カウンタや検出器に依存している。 本稿では,CV \textit{ controlled not gate} (CNOT) を利用した新たなQI受信機を提案する。 他のQI受信機とは異なり、検出プロセス全体はホモダイン測定と2乗法検出器によって実行される。 受信機はゲートの操作の一部として2つの圧縮補助モードを利用する。 これらの余分なリソースはオフラインで準備され、全体的な利得は単一のビームスプリッターパラメータによってパッシブに制御される。 我々は,本モデルと他のQI受信機を比較し,その動作状態が他よりも優れ,性能が最適であることを示す。 この研究の主な焦点はマイクロ波量子センシングアプリケーションであるが、提案したデバイスは光学領域でも構築可能であるため、より広義の量子センシングツールボックスに新たに追加されることになる。

In \textit{quantum illumination} (QI) the non-classical correlations between \textit{continuous variable} (CV) entangled modes of radiation are exploited to detect the presence of a target embedded in thermal noise. The extreme environment where QI outperforms its optimal classical counterpart suggests that applications in the microwave domain would benefit the most from this new sensing paradigm. However all the proposed QI receivers rely on ideal photon counters or detectors, which are not currently feasible in the microwave domain. Here we propose a new QI receiver that utilises a CV \textit{controlled not gate} (CNOT) in order to perform a joint measurement on a target return and its retained twin. Unlike other QI receivers, the entire detection process is carried out by homodyne measurements and square-law detectors. The receiver exploits two squeezed ancillary modes as a part of the gate's operation. These extra resources are prepared offline and their overall gain is controlled passively by a single beamsplitter parameter. We compare our model to other QI receivers and demonstrate its operation regime where it outperforms others and achieves optimal performance. Although the main focus of this study is microwave quantum sensing applications, our proposed device can be built as well in the optical domain, thus rendering it as a new addition to the quantum sensing toolbox in a wider sense.
翻訳日:2023-07-05 13:02:22 公開日:2023-07-03
# SynthCal: カメラキャリブレーションアルゴリズムを比較するためのベンチマークパイプライン

SynthCal: A Synthetic Benchmarking Pipeline to Compare Camera Calibration Algorithms ( http://arxiv.org/abs/2307.01013v1 )

ライセンス: Link先を確認
Lala Shakti Swarup Ray, Bo Zhou, Lars Krupp, Sungho Suh, Paul Lukowicz(参考訳) 正確なカメラキャリブレーションは様々なコンピュータビジョンアプリケーションに不可欠である。 しかし,実世界のカメラパラメータの測定は困難かつ困難であり,キャリブレーションアルゴリズムの精度を評価するためには,基礎的真理を持つデータセットが必要となる。 本稿では,カメラパラメータ推定におけるキャリブレーションアルゴリズムの性能の正確な定量化を実現するために,キャリブレーションパターンの画像を生成する合成カメラキャリブレーションベンチマークパイプラインであるSynthCalを提案する。 4つの共通パターン、2つのカメラタイプ、2つの環境、様々なビュー、歪み、照明、騒音レベルを持つSynthCal生成キャリブレーションデータセットを提案する。 データセットは、同一のパターンとカメラの設定で再投影とルート平均二乗誤差を測定することによって、シングルビューキャリブレーションアルゴリズムを評価する。 また,zhang法を用いて,3d点とその2次元射影との対応が知られているカメラパラメータを,構成や環境によって異なるzhang法を用いて推定する。 実験結果は,様々なキャリブレーションアルゴリズムとパターンの評価におけるSynthCalの有効性を示した。

Accurate camera calibration is crucial for various computer vision applications. However, measuring camera parameters in the real world is challenging and arduous, and there needs to be a dataset with ground truth to evaluate calibration algorithms' accuracy. In this paper, we present SynthCal, a synthetic camera calibration benchmarking pipeline that generates images of calibration patterns to measure and enable accurate quantification of calibration algorithm performance in camera parameter estimation. We present a SynthCal-generated calibration dataset with four common patterns, two camera types, and two environments with varying view, distortion, lighting, and noise levels. The dataset evaluates single-view calibration algorithms by measuring reprojection and root-mean-square errors for identical patterns and camera settings. Additionally, we analyze the significance of different patterns using Zhang's method, which estimates intrinsic and extrinsic camera parameters with known correspondences between 3D points and their 2D projections in different configurations and environments. The experimental results demonstrate the effectiveness of SynthCal in evaluating various calibration algorithms and patterns.
翻訳日:2023-07-05 13:01:56 公開日:2023-07-03
# ゼロ次元におけるdyson-schwinger方程式と多項式近似

Dyson-Schwinger equations in zero dimensions and polynomial approximations ( http://arxiv.org/abs/2307.01008v1 )

ライセンス: Link先を確認
Carl M. Bender, Christos Karapoulitidis and S. P. Klevansky(参考訳) D$-次元時空における場の量子論に対するダイソン・シュウィンガー方程式(Dyson-Schwinger equation)は、場論のグリーン函数によって正確に満たされる結合積分微分方程式の無限列である。 この方程式列は、ds方程式の無限列が有限列に切り替わるならば、方程式よりもグリーン関数の方が常に多く存在するため、不定である。 この問題に対する一つのアプローチは、最も高いグリーン関数をゼロにすることで有限系を閉じることである。 この特別な場合、DS方程式は、ルートがグリーン関数である結合多項式方程式の列に過ぎず、この手順の精度を$D=0$で調べることができる。 閉系に対しては、根を計算し、グリーン関数の正確な値と比較することができる。 この手順は一般的な数学的疑問を提起する: 関数に近似する多項式列の根はいつその関数の正確な根に収束するのだろうか? 多項式近似のいくつかの根は (i)関数の正確な根に収束する、または (二)最初は正確な根に近づき、それから退散させる、又は (iii) 正確な根に満たない限界値に収束する。 この研究では、$D=0$の場理論モデル5つ、Hermitian $\phi^4$と$\phi^6$の理論と非Hermitian $i\phi^3$、$-\phi^4$、$-i \phi^5$理論について検討する。 すべての場合、根の配列は、正確な答えと数パーセント異なる限界に収束する。 10^7$で精度を1部分に高める高度な漸近的手法が考案された。 この作品の一部は、Physで省略された形で現れる。 〜rev。 レット。 ~{\bf 130}, 101602 (2023)。

The Dyson-Schwinger (DS) equations for a quantum field theory in $D$-dimensional space-time are an infinite sequence of coupled integro-differential equations that are satisfied exactly by the Green's functions of the field theory. This sequence of equations is underdetermined because if the infinite sequence of DS equations is truncated to a finite sequence, there are always more Green's functions than equations. An approach to this problem is to close the finite system by setting the highest Green's function(s) to zero. One can examine the accuracy of this procedure in $D=0$ because in this special case the DS equations are just a sequence of coupled polynomial equations whose roots are the Green's functions. For the closed system one can calculate the roots and compare them with the exact values of the Green's functions. This procedure raises a general mathematical question: When do the roots of a sequence of polynomial approximants to a function converge to the exact roots of that function? Some roots of the polynomial approximants may (i) converge to the exact roots of the function, or (ii) approach the exact roots at first and then veer away, or (iii) converge to limiting values that are unequal to the exact roots. In this study five field-theory models in $D=0$ are examined, Hermitian $\phi^4$ and $\phi^6$ theories and non-Hermitian $i\phi^3$, $-\phi^4$, and $-i \phi^5$ theories. In all cases the sequences of roots converge to limits that differ by a few percent from the exact answers. Sophisticated asymptotic techniques are devised that increase the accuracy to one part in $10^7$. Part of this work appears in abbreviated form in Phys.~Rev.~Lett.~{\bf 130}, 101602 (2023).
翻訳日:2023-07-05 13:01:35 公開日:2023-07-03
# 純粋ニューラルネットワークによる多人数ポーズ推定のための協調座標回帰と連想

Joint Coordinate Regression and Association For Multi-Person Pose Estimation, A Pure Neural Network Approach ( http://arxiv.org/abs/2307.01004v1 )

ライセンス: Link先を確認
Dongyang Yu and Yunshi Xie and Wangpeng An and Li Zhang and Yufeng Yao(参考訳) そこで本稿では,人間同士の姿勢関係を,後処理を必要とせずに生成する1段階の終末期多人数2次元ポーズ推定アルゴリズムであるjoint coordinate regression and association (jcra)を提案する。 提案アルゴリズムは高速,高精度,有効,シンプルである。 ワンステージのエンドツーエンドネットワークアーキテクチャは、JCRAの推論速度を大幅に改善する。 一方,エンコーダとデコーダの両方に対して対称なネットワーク構造を考案し,キーポイントの識別精度が向上した。 トランスフォーマーネットワークを介して部品位置を直接出力するアーキテクチャに従っており、結果として性能が大幅に向上している。 MS COCOとCrowdPoseベンチマークの大規模な実験により、JCRAは精度と効率の両方において最先端のアプローチよりも優れていることが示された。 さらに、JCRAは69.2 mAPを示し、従来の最先端ボトムアップアルゴリズムよりも78倍高速である。 このアルゴリズムのコードは公開される予定だ。

We introduce a novel one-stage end-to-end multi-person 2D pose estimation algorithm, known as Joint Coordinate Regression and Association (JCRA), that produces human pose joints and associations without requiring any post-processing. The proposed algorithm is fast, accurate, effective, and simple. The one-stage end-to-end network architecture significantly improves the inference speed of JCRA. Meanwhile, we devised a symmetric network structure for both the encoder and decoder, which ensures high accuracy in identifying keypoints. It follows an architecture that directly outputs part positions via a transformer network, resulting in a significant improvement in performance. Extensive experiments on the MS COCO and CrowdPose benchmarks demonstrate that JCRA outperforms state-of-the-art approaches in both accuracy and efficiency. Moreover, JCRA demonstrates 69.2 mAP and is 78\% faster at inference acceleration than previous state-of-the-art bottom-up algorithms. The code for this algorithm will be publicly available.
翻訳日:2023-07-05 13:01:05 公開日:2023-07-03
# Polite Flamingoによるビジュアルインストラクションチューニング

Visual Instruction Tuning with Polite Flamingo ( http://arxiv.org/abs/2307.01003v1 )

ライセンス: Link先を確認
Delong Chen, Jianfeng Liu, Wenliang Dai, Baoyuan Wang(参考訳) 近年の研究では、注釈付き下流視覚言語データセットを用いたマルチモーダル大規模言語モデル(LLM)のマルチタスク微調整により、その性能が著しく向上することが示されている。 しかし、この過程において、我々は「マルチモーダルアライメント税(multi-modal alignment tax)」と呼ばれる副作用が表面化している。 この副作用は、モデルの応答を適切にフォーマットする能力に悪影響を及ぼします -- 例えば、その"政治性"は、生のアノテーションの過度に簡潔で非形式的な性質のためです。 本稿では,生のアノテーションをより魅力的な "ポリテ" 形式に変換するマルチモーダル応答リライトである polite flamingo を紹介する。 Polite Flamingoは、自動的に歪んだ応答から高品質な応答を再構築するように訓練され、その後、応答書き換えのために多数の視覚言語データセットに適用される。 厳密なフィルタリングの後、PF-1Mデータセットを生成し、マルチモーダルLCMを微調整することでその価値をさらに検証する。 U字型マルチステージチューニングやマルチターン強化といった新しい手法と組み合わせて、結果のモデルであるClever Flamingoは、自動評価と人的評価によるマルチモーダル理解と応答の丁寧さの両方において、その利点を実証する。

Recent research has demonstrated that the multi-task fine-tuning of multi-modal Large Language Models (LLMs) using an assortment of annotated downstream vision-language datasets significantly enhances their performance. Yet, during this process, a side effect, which we termed as the "multi-modal alignment tax", surfaces. This side effect negatively impacts the model's ability to format responses appropriately -- for instance, its "politeness" -- due to the overly succinct and unformatted nature of raw annotations, resulting in reduced human preference. In this paper, we introduce Polite Flamingo, a multi-modal response rewriter that transforms raw annotations into a more appealing, "polite" format. Polite Flamingo is trained to reconstruct high-quality responses from their automatically distorted counterparts and is subsequently applied to a vast array of vision-language datasets for response rewriting. After rigorous filtering, we generate the PF-1M dataset and further validate its value by fine-tuning a multi-modal LLM with it. Combined with novel methodologies including U-shaped multi-stage tuning and multi-turn augmentation, the resulting model, Clever Flamingo, demonstrates its advantages in both multi-modal understanding and response politeness according to automated and human evaluations.
翻訳日:2023-07-05 13:00:49 公開日:2023-07-03
# paretoの最適プロキシメトリクス

Pareto optimal proxy metrics ( http://arxiv.org/abs/2307.01000v1 )

ライセンス: Link先を確認
Lee Richardson, Alessandro Zito, Dylan Greaves and Jacopo Soriano(参考訳) ノーススターのメトリクスとオンライン実験は、テクノロジー企業が製品を改善する上で中心的な役割を果たす。 しかし、多くの実用的な環境では、直接ノーススター計量に基づく実験の評価は困難である。 最も重要な2つの問題は 1)ノーススター計量の感度が低いこと、及び 2) ノーススター計量における短期的および長期的影響の差異 一般的な解決策は、実験評価と打ち上げ決定において、ノーススターではなくプロキシメトリクスに依存することだ。 プロキシメトリクスに関する既存の文献は、主に短期実験データからの長期的な影響の推定に焦点を当てている。 本稿では,その代わりに,長期的影響の推定と短期的感度とのトレードオフに着目した。 特に,予測精度と感度を同時に最適化するpareto optimal proxy metrics法を提案する。 さらに,標準手法に勝る効率的な多目的最適化アルゴリズムを提案する。 提案手法を大規模産業レコメンデーションシステムからの実験に適用し,北星より8倍感度が高く,常に同じ方向に移動しているプロキシメトリクスを発見し,新機能のローンチに向けた意思決定のベロシティと品質を高めた。

North star metrics and online experimentation play a central role in how technology companies improve their products. In many practical settings, however, evaluating experiments based on the north star metric directly can be difficult. The two most significant issues are 1) low sensitivity of the north star metric and 2) differences between the short-term and long-term impact on the north star metric. A common solution is to rely on proxy metrics rather than the north star in experiment evaluation and launch decisions. Existing literature on proxy metrics concentrates mainly on the estimation of the long-term impact from short-term experimental data. In this paper, instead, we focus on the trade-off between the estimation of the long-term impact and the sensitivity in the short term. In particular, we propose the Pareto optimal proxy metrics method, which simultaneously optimizes prediction accuracy and sensitivity. In addition, we give an efficient multi-objective optimization algorithm that outperforms standard methods. We applied our methodology to experiments from a large industrial recommendation system, and found proxy metrics that are eight times more sensitive than the north star and consistently moved in the same direction, increasing the velocity and the quality of the decisions to launch new features.
翻訳日:2023-07-05 13:00:24 公開日:2023-07-03
# 長距離量子乱れ系の臨界ダイナミクス

Critical dynamics of long-range quantum disordered systems ( http://arxiv.org/abs/2307.00999v1 )

ライセンス: Link先を確認
Weitao Chen, Gabriel Lemarie, Jiangbin Gong(参考訳) 量子不規則系における長距離ホッピングは、アンダーソン遷移に付随する特性を超越する量子多重フラクタリティを生じることが知られている。 実際、長距離量子システムの臨界ダイナミクスは、有限次元のアンダーソン遷移におけるものとは異なる異常な動的挙動を示すことができる。 本稿では,長距離ホッピングシステムにおけるウェーブパケット拡張の現象論的モデルを提案する。 長距離ホッピングによって誘導される多フラクタル特性と代数的脂肪テールの両方を考慮する。 このモデルを用いて、システムのマルチフラクタル次元に関連して、時間進化するウェーブパケットのモーメントのダイナミクスと逆参加率を解析的に導出する。 予測を検証するために、パワーロー・ランダム・バンドド・マトリクス・アンサンブルに類似したフロッケモデルの数値シミュレーションを行う。 有限次元のアンダーソン遷移とは異なり、そのような系の力学は時間のみに依存する単一のパラメータスケーリング則によって適切に記述できない。 代わりに、有限サイズと時間の両方を含むスケーリング法則を確立することが重要になる。 検討中の観測対象のスケーリング法則を明示する。 本研究は、ヒルベルト空間の固有位相により長距離効果が生じるランダムグラフにおける多体局在とアンダーソン局在の分野における応用に多大な関心を寄せている。

Long-range hoppings in quantum disordered systems are known to yield quantum multifractality, whose features can go beyond the characteristic properties associated with an Anderson transition. Indeed, critical dynamics of long-range quantum systems can exhibit anomalous dynamical behaviours distinct from those at the Anderson transition in finite dimensions. In this paper, we propose a phenomenological model of wave packet expansion in long-range hopping systems. We consider both their multifractal properties and the algebraic fat tails induced by the long-range hoppings. Using this model, we analytically derive the dynamics of moments and Inverse Participation Ratios of the time-evolving wave packets, in connection with the multifractal dimension of the system. To validate our predictions, we perform numerical simulations of a Floquet model that is analogous to the power law random banded matrix ensemble. Unlike the Anderson transition in finite dimensions, the dynamics of such systems cannot be adequately described by a single parameter scaling law that solely depends on time. Instead, it becomes crucial to establish scaling laws involving both the finite-size and the time. Explicit scaling laws for the observables under consideration are presented. Our findings are of considerable interest towards applications in the fields of many-body localization and Anderson localization on random graphs, where long-range effects arise due to the inherent topology of the Hilbert space.
翻訳日:2023-07-05 13:00:07 公開日:2023-07-03
# RefSAM: ビデオオブジェクトのセグメンテーション参照のためのセグメンテーションモデルへの適応

RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation ( http://arxiv.org/abs/2307.00997v1 )

ライセンス: Link先を確認
Yonglin Li and Jing Zhang and Xiao Teng and Long Lan(参考訳) Segment Anything Model (SAM) は画像セグメンテーションにおける顕著な性能で注目されている。 しかし、正確なユーザ対話的なプロンプトが必要であり、言語や視覚といった様々なモダリティの理解が限られているため、ビデオオブジェクトセグメンテーション(RVOS)を参照する能力に欠ける。 本稿では,異なるタイムスタンプにおける多視点情報と連続フレームを組み込むことにより,RVOS における SAM の可能性を探るRefSAM モデルを提案する。 提案手法は,参照表現のテキスト埋め込みを疎密な埋め込みにプロンプトとして投影する軽量なクロスモーダルMLPを用いることで,モダリティ学習を強化するためにオリジナルのSAMモデルに適応する。 その後、言語と視覚機能を効果的に調整し融合するためにパラメータ効率の良いチューニング戦略が用いられる。 包括的アブレーション研究を通じて,本戦略の実用的かつ効果的な設計選択を実証する。 Ref-Youtu-VOSとRef-DAVIS17データセットで実施された大規模な実験は、既存の手法よりもRefSAMモデルの優位性と有効性を検証する。 コードとモデルは \href{https://github.com/LancasterLi/RefSAM}{github.com/LancasterLi/RefSAM} で公開される。

The Segment Anything Model (SAM) has gained significant attention for its impressive performance in image segmentation. However, it lacks proficiency in referring video object segmentation (RVOS) due to the need for precise user-interactive prompts and limited understanding of different modalities, such as language and vision. This paper presents the RefSAM model, which for the first time explores the potential of SAM for RVOS by incorporating multi-view information from diverse modalities and successive frames at different timestamps. Our proposed approach adapts the original SAM model to enhance cross-modality learning by employing a lightweight Cross-Modal MLP that projects the text embedding of the referring expression into sparse and dense embeddings, serving as user-interactive prompts. Subsequently, a parameter-efficient tuning strategy is employed to effectively align and fuse the language and vision features. Through comprehensive ablation studies, we demonstrate the practical and effective design choices of our strategy. Extensive experiments conducted on Ref-Youtu-VOS and Ref-DAVIS17 datasets validate the superiority and effectiveness of our RefSAM model over existing methods. The code and models will be made publicly at \href{https://github.com/LancasterLi/RefSAM}{github.com/LancasterLi/RefSAM}.
翻訳日:2023-07-05 12:59:30 公開日:2023-07-03
# 時間的症状認識型マルチタスク学習による双極性障害の自殺予防に向けて

Towards Suicide Prevention from Bipolar Disorder with Temporal Symptom-Aware Multitask Learning ( http://arxiv.org/abs/2307.00995v1 )

ライセンス: Link先を確認
Daeun Lee, Sejung Son, Hyolim Jeon, Seungbae Kim, Jinyoung Han(参考訳) 双極性障害(BD)は自殺リスクの増加と密接に関連している。 しかし, ソーシャルメディア上でのBD患者の行動を理解するための貴重な知見は得られていないが, 今後BD患者の自殺を予測できるモデルの開発にはほとんど注意が払われている。 そこで本研究では,BD患者の今後の自殺を予知するためのマルチタスク学習モデルを提案する。 精神科医が臨床的に検証した新しいBDデータセットを構築し,BD患者818名による双極性関連下垂体に関する14年間の投稿と,今後の自殺やBD症状の注釈を作成した。 また,BDポストの時系列を通して,将来の自殺予測に最も影響を及ぼす症状を決定するための時間的症状認識型注意機構を提案する。 提案モデルがbd症状の同定と将来の自殺予測タスクにおいて最先端モデルを上回ることを実証した。 さらに, 時制症状認識注意は, 解釈可能な注意重みを与え, 臨床医がbd患者をより包括的に把握し, 精神状態の進行を追跡することで, タイムリーな介入を可能にする。

Bipolar disorder (BD) is closely associated with an increased risk of suicide. However, while the prior work has revealed valuable insight into understanding the behavior of BD patients on social media, little attention has been paid to developing a model that can predict the future suicidality of a BD patient. Therefore, this study proposes a multi-task learning model for predicting the future suicidality of BD patients by jointly learning current symptoms. We build a novel BD dataset clinically validated by psychiatrists, including 14 years of posts on bipolar-related subreddits written by 818 BD patients, along with the annotations of future suicidality and BD symptoms. We also suggest a temporal symptom-aware attention mechanism to determine which symptoms are the most influential for predicting future suicidality over time through a sequence of BD posts. Our experiments demonstrate that the proposed model outperforms the state-of-the-art models in both BD symptom identification and future suicidality prediction tasks. In addition, the proposed temporal symptom-aware attention provides interpretable attention weights, helping clinicians to apprehend BD patients more comprehensively and to provide timely intervention by tracking mental state progression.
翻訳日:2023-07-05 12:58:53 公開日:2023-07-03
# ENGAGE:グラフ表現学習のための説明指導型データ拡張

ENGAGE: Explanation Guided Data Augmentation for Graph Representation Learning ( http://arxiv.org/abs/2307.01053v1 )

ライセンス: Link先を確認
Yucheng Shi, Kaixiong Zhou, Ninghao Liu(参考訳) 近年の対比学習法は,表現学習の有効性から,グラフデータのモデリングに広く応用されている。 ランダム摂動はグラフデータに対するコントラストビューを構築するために広く用いられているが、グラフ構造を誤って破壊し、準最適性能をもたらす可能性がある。 加えて、グラフデータは通常非常に抽象的であるため、直感的な意味を抽出し、より情報的な拡張スキームを設計することは困難である。 効果的な表現は、データのキー特性を保持し、過剰な情報を捨てるべきである。 本稿では,グラフのキー部分を保存し,過剰な情報を削除するためのコントラスト拡張プロセスについて解説するENGAGE(ExplaNation Guided data AuGmEntation)を提案する。 具体的には, 表現学習におけるノード重要度を示す指標として, smoothed activation map と呼ばれる効率的な教師なし説明法を設計する。 そして、構造情報と特徴情報を摂動するグラフ上に2つのデータ拡張スキームを設計する。 また,情報理論の枠組みにおける提案手法の正当性について述べる。 様々なモデルアーキテクチャと異なる実世界のグラフを用いたグラフレベルおよびノードレベルのタスクの実験を行い、ENGAGEの有効性と柔軟性を実証した。 ENGAGE のコードは https://github.com/sycny/ENGAGE.com にある。

The recent contrastive learning methods, due to their effectiveness in representation learning, have been widely applied to modeling graph data. Random perturbation is widely used to build contrastive views for graph data, which however, could accidentally break graph structures and lead to suboptimal performance. In addition, graph data is usually highly abstract, so it is hard to extract intuitive meanings and design more informed augmentation schemes. Effective representations should preserve key characteristics in data and abandon superfluous information. In this paper, we propose ENGAGE (ExplaNation Guided data AuGmEntation), where explanation guides the contrastive augmentation process to preserve the key parts in graphs and explore removing superfluous information. Specifically, we design an efficient unsupervised explanation method called smoothed activation map as the indicator of node importance in representation learning. Then, we design two data augmentation schemes on graphs for perturbing structural and feature information, respectively. We also provide justification for the proposed method in the framework of information theories. Experiments of both graph-level and node-level tasks, on various model architectures and on different real-world graphs, are conducted to demonstrate the effectiveness and flexibility of ENGAGE. The code of ENGAGE can be found: https://github.com/sycny/ENGAGE.
翻訳日:2023-07-05 12:50:34 公開日:2023-07-03
# 輸送・変分推論・拡散--アニール流れとシュル=オディンガー橋への適用

Transport, Variational Inference and Diffusions: with Applications to Annealed Flows and Schr\"odinger Bridges ( http://arxiv.org/abs/2307.01050v1 )

ライセンス: Link先を確認
Francisco Vargas, Nikolas N\"usken(参考訳) 本稿では, 最適輸送と変分推論の関係を, 前方および逆時間確率微分方程式とガーサノフ変換に焦点をあてて検討し, 経路空間上の発散を中心として, サンプリングおよび生成モデリングを行うための原理的・系統的枠組みを提案する。 本研究は,標準的なipfの逐次的性質から外れた,新たなスコアベースアニールドフロー手法(jarzynski と crooks identity from statistical physics との関連)と正規化反復比例結合(regularized iterative proportional fit, ipf)型目標の開発に結実する。 一連の生成モデリング例とダブルウェルに基づくレアイベントタスクを通じて,提案手法の可能性を示す。

This paper explores the connections between optimal transport and variational inference, with a focus on forward and reverse time stochastic differential equations and Girsanov transformations.We present a principled and systematic framework for sampling and generative modelling centred around divergences on path space. Our work culminates in the development of a novel score-based annealed flow technique (with connections to Jarzynski and Crooks identities from statistical physics) and a regularised iterative proportional fitting (IPF)-type objective, departing from the sequential nature of standard IPF. Through a series of generative modelling examples and a double-well-based rare event task, we showcase the potential of the proposed methods.
翻訳日:2023-07-05 12:50:16 公開日:2023-07-03
# 機械学習による直接的および間接的量子処理効果の二重ロバスト推定

Doubly Robust Estimation of Direct and Indirect Quantile Treatment Effects with Machine Learning ( http://arxiv.org/abs/2307.01049v1 )

ライセンス: Link先を確認
Yu-Chin Hsu and Martin Huber and Yu-Min Yen(参考訳) 本稿では, 直接的および間接的量子的処理効果の2次/脱バイアス機械学習推定器を提案する。 これにより、特定の結果ランクにおけるバイナリ処理の因果効果を、中間変数であるmediatorと(媒介しない)直接的影響を介して作用する間接的コンポーネントに分解することができる。 提案手法は,有意な結果の累積分布関数の効率的なスコア関数に基づいており,これはニュアンスパラメータの特定の不特定性(結果,治療,メディエータモデル)に頑健である。 機械学習を用いてこれらのニュアンスパラメータを推定し、直接的および間接的量子的処理効果の推定における過度適合バイアスを低減する。 我々は効果推定器の均一な一貫性と漸近正規性を確立する。 また,統計的推測のための乗算ブートストラップを提案し,乗算ブートストラップの有効性を示す。 最後に,本手法の有限サンプル性能をシミュレーションスタディで検証し,ナショナル・ジョブ・コーポレーション・スタディの実証データに適用し,トレーニングの直接的および間接的な利益効果を評価する。

We suggest double/debiased machine learning estimators of direct and indirect quantile treatment effects under a selection-on-observables assumption. This permits disentangling the causal effect of a binary treatment at a specific outcome rank into an indirect component that operates through an intermediate variable called mediator and an (unmediated) direct impact. The proposed method is based on the efficient score functions of the cumulative distribution functions of potential outcomes, which are robust to certain misspecifications of the nuisance parameters, i.e., the outcome, treatment, and mediator models. We estimate these nuisance parameters by machine learning and use cross-fitting to reduce overfitting bias in the estimation of direct and indirect quantile treatment effects. We establish uniform consistency and asymptotic normality of our effect estimators. We also propose a multiplier bootstrap for statistical inference and show the validity of the multiplier bootstrap. Finally, we investigate the finite sample performance of our method in a simulation study and apply it to empirical data from the National Job Corp Study to assess the direct and indirect earnings effects of training.
翻訳日:2023-07-05 12:50:01 公開日:2023-07-03
# イベントベースセンサを用いた画像データベースにおけるクロスモーダル位置認識

Cross-modal Place Recognition in Image Databases using Event-based Sensors ( http://arxiv.org/abs/2307.01047v1 )

ライセンス: Link先を確認
Xiang Ji, Jiaxin Wei, Yifu Wang, Huiliang Shang and Laurent Kneip(参考訳) 視覚位置認識は多くのロボットタスクにおけるグローバルローカライズへの重要な課題である。 最大の課題の1つは、周囲の環境の照明や外観の変化に苦しむ可能性があることである。 イベントカメラは、高いダイナミックレンジが困難な照明条件で堅牢な認識を可能にするため、フレームベースのセンサーに代わる興味深い代替手段である。 しかし、現在のイベントベースの場所認識手法は、VPRの下流アプリケーションを制限するイベント情報のみに依存している。 本稿では,イベントクエリを与えられたデータベースから正規画像を取得することのできる,最初のクロスモーダル視覚位置認識フレームワークを提案する。 本手法は,Brisbane-Event-VPRデータセット上での最先端のフレームベースおよびイベントベース手法に関する有望な結果を示す。 また,検索と分類の組み合わせの有効性を検証し,高いマージンで性能を向上できることを確認した。

Visual place recognition is an important problem towards global localization in many robotics tasks. One of the biggest challenges is that it may suffer from illumination or appearance changes in surrounding environments. Event cameras are interesting alternatives to frame-based sensors as their high dynamic range enables robust perception in difficult illumination conditions. However, current event-based place recognition methods only rely on event information, which restricts downstream applications of VPR. In this paper, we present the first cross-modal visual place recognition framework that is capable of retrieving regular images from a database given an event query. Our method demonstrates promising results with respect to the state-of-the-art frame-based and event-based methods on the Brisbane-Event-VPR dataset under different scenarios. We also verify the effectiveness of the combination of retrieval and classification, which can boost performance by a large margin.
翻訳日:2023-07-05 12:49:41 公開日:2023-07-03
# マニフォールド上のベクトル量子回帰

Vector Quantile Regression on Manifolds ( http://arxiv.org/abs/2307.01037v1 )

ライセンス: Link先を確認
Marco Pegoraro, Sanketh Vedula, Aviv A. Rosenberg, Irene Tallini, Emanuele Rodol\`a, Alex M. Bronstein(参考訳) QR(Quantile regression)は、対象変数の条件量子化の分布自由度推定のための統計ツールである。 QRは、対象の分布がユニバリケートでユークリッド領域で定義されるという仮定によって制限される。 量子化の概念は最近、多変量分布に拡張されたが、多様体上の多変量分布のQRは、本質的には球面(気候測定)、トーリ(タンパク質の双面角)、リー群(航海の姿勢)など、多くの重要な応用があるにもかかわらず、まだ探索されていない。 最適輸送理論と$c$-concave関数の概念を利用して、多様体上の高次元変数の条件ベクトル量子関数(M-CVQF)を有意に定義する。 本手法は,条件付き信頼集合の質的推定,回帰,計算を可能にする。 提案手法の有効性を実証し, 予備的な合成データ実験による非ユークリッド量子化の意味に関する知見を提供する。

Quantile regression (QR) is a statistical tool for distribution-free estimation of conditional quantiles of a target variable given explanatory features. QR is limited by the assumption that the target distribution is univariate and defined on an Euclidean domain. Although the notion of quantiles was recently extended to multi-variate distributions, QR for multi-variate distributions on manifolds remains underexplored, even though many important applications inherently involve data distributed on, e.g., spheres (climate measurements), tori (dihedral angles in proteins), or Lie groups (attitude in navigation). By leveraging optimal transport theory and the notion of $c$-concave functions, we meaningfully define conditional vector quantile functions of high-dimensional variables on manifolds (M-CVQFs). Our approach allows for quantile estimation, regression, and computation of conditional confidence sets. We demonstrate the approach's efficacy and provide insights regarding the meaning of non-Euclidean quantiles through preliminary synthetic data experiments.
翻訳日:2023-07-05 12:49:28 公開日:2023-07-03
# 時間グラフを用いた機械学習のための時間グラフベンチマーク

Temporal Graph Benchmark for Machine Learning on Temporal Graphs ( http://arxiv.org/abs/2307.01026v1 )

ライセンス: Link先を確認
Shenyang Huang, Farimah Poursafaei, Jacob Danovitch, Matthias Fey, Weihua Hu, Emanuele Rossi, Jure Leskovec, Michael Bronstein, Guillaume Rabusseau, Reihaneh Rabbany(参考訳) 本稿では,時間グラフ上での機械学習モデルの現実的,再現性,ロバストな評価のための,挑戦的で多様なベンチマークデータセットのコレクションであるtemporal graph benchmark (tgb)を提案する。 TGBデータセットは大規模で、長年にわたって、ノードレベルの予測タスクとエッジレベルの予測タスクが組み込まれ、ソーシャル、トレード、トランザクション、トランスポートネットワークを含むさまざまなドメインをカバーする。 両方のタスクに対して,現実的なユースケースに基づいた評価プロトコルを設計する。 各データセットを広範囲にベンチマークし、共通のモデルのパフォーマンスがデータセット間で大きく異なることを発見した。 さらに,動的ノード特性予測タスクにおいて,既存の時相グラフモデルと比較して,単純な手法が優れた性能を実現することが多いことを示す。 これらの発見が今後の時間グラフ研究の機会を開くと信じている。 最後に、TGBはデータローディング、実験設定、パフォーマンス評価を含む再現可能でアクセスしやすい時間グラフ研究のための自動機械学習パイプラインを提供する。 TGBは定期的にメンテナンスおよび更新され、コミュニティからのフィードバックを歓迎する。 tgbデータセット、データローダ、サンプルコード、評価設定、リーダーボードはhttps://tgb.complexdatalab.com/で公開されている。

We present the Temporal Graph Benchmark (TGB), a collection of challenging and diverse benchmark datasets for realistic, reproducible, and robust evaluation of machine learning models on temporal graphs. TGB datasets are of large scale, spanning years in duration, incorporate both node and edge-level prediction tasks and cover a diverse set of domains including social, trade, transaction, and transportation networks. For both tasks, we design evaluation protocols based on realistic use-cases. We extensively benchmark each dataset and find that the performance of common models can vary drastically across datasets. In addition, on dynamic node property prediction tasks, we show that simple methods often achieve superior performance compared to existing temporal graph models. We believe that these findings open up opportunities for future research on temporal graphs. Finally, TGB provides an automated machine learning pipeline for reproducible and accessible temporal graph research, including data loading, experiment setup and performance evaluation. TGB will be maintained and updated on a regular basis and welcomes community feedback. TGB datasets, data loaders, example codes, evaluation setup, and leaderboards are publicly available at https://tgb.complexdatalab.com/ .
翻訳日:2023-07-05 12:49:10 公開日:2023-07-03
# SAM-DA: SAM-Powered Domain Adaptationで夜のあらゆるものを追跡するUAV

SAM-DA: UAV Tracks Anything at Night with SAM-Powered Domain Adaptation ( http://arxiv.org/abs/2307.01024v1 )

ライセンス: Link先を確認
Liangliang Yao, Haobo Zuo, Guangze Zheng, Changhong Fu, Jia Pan(参考訳) ドメイン適応(DA)は、リアルタイム夜間無人航空機(UAV)の追跡に大いに期待されている。 しかし、最先端(sota)daは、高品質なターゲットドメイントレーニングサンプルを生成するために正確なピクセルレベルの位置と境界を持つ潜在的なオブジェクトを欠いている。 この鍵となる課題は、夜間のUAV追跡に挑戦するために、リアルタイムのSOTAトラッカーの転送学習を制限することである。 最近、SAM(Segment Anything Model)は、巨大なデータ駆動トレーニングアプローチにより、豊富な潜在的なオブジェクトを発見するために、目覚ましいゼロショットの一般化能力を達成した。 上記の課題を解決するために,実時間夜間UAV追跡のためのSAM-DAフレームワーク,すなわちSAM-DAを提案する。 具体的には、SAMを用いたターゲットドメイントレーニングサンプル膨らみを改良し、各生の夜間画像から高品質なターゲットドメイントレーニングサンプルを抽出する。 この手法はDAのための高品質な目標ドメイントレーニングサンプルを大幅に拡張する。 大規模な夜間UAVビデオに関する総合実験は、夜間UAV追跡のためのSAM-DAの堅牢性とドメイン適応性を証明する。 特に sota da と比較して、sam-da は生の夜間画像の少ない、すなわち少ない訓練でより良い性能を達成することができる。 このエコノマイズドトレーニングアプローチは、UAVのためのアルゴリズムの迅速な検証とデプロイを容易にする。 コードはhttps://github.com/vision4robotics/SAM-DAで公開されている。

Domain adaptation (DA) has demonstrated significant promise for real-time nighttime unmanned aerial vehicle (UAV) tracking. However, the state-of-the-art (SOTA) DA still lacks the potential object with accurate pixel-level location and boundary to generate the high-quality target domain training sample. This key issue constrains the transfer learning of the real-time daytime SOTA trackers for challenging nighttime UAV tracking. Recently, the notable Segment Anything Model (SAM) has achieved remarkable zero-shot generalization ability to discover abundant potential objects due to its huge data-driven training approach. To solve the aforementioned issue, this work proposes a novel SAM-powered DA framework for real-time nighttime UAV tracking, i.e., SAM-DA. Specifically, an innovative SAM-powered target domain training sample swelling is designed to determine enormous high-quality target domain training samples from every single raw nighttime image. This novel one-to-many method significantly expands the high-quality target domain training sample for DA. Comprehensive experiments on extensive nighttime UAV videos prove the robustness and domain adaptability of SAM-DA for nighttime UAV tracking. Especially, compared to the SOTA DA, SAM-DA can achieve better performance with fewer raw nighttime images, i.e., the fewer-better training. This economized training approach facilitates the quick validation and deployment of algorithms for UAVs. The code is available at https://github.com/vision4robotics/SAM-DA.
翻訳日:2023-07-05 12:48:52 公開日:2023-07-03
# ニューラルクロノスODE:時系列データにおける時間パターンの展開と予測と過去の動向

Neural Chronos ODE: Unveiling Temporal Patterns and Forecasting Future and Past Trends in Time Series Data ( http://arxiv.org/abs/2307.01023v1 )

ライセンス: Link先を確認
C.Coelho, M. Fernanda P. Costa and L.L. Ferr\'as(参考訳) 本研究は,連続時間odeダイナミクスに適合するディープニューラルネットワークアーキテクチャであるneural chronos normal differential equation (neural code)を導入する。 モデルのトレーニングでは,ニューラルODEと同様,初期値問題と最終値問題としてODEを解く。 また、ニューラルコードとリカレントニューラルネットワークを組み合わせるための2つのアプローチとして、ニューラルコードとニューラルコード(CODE-RNN)を置換し、双方向のRNNを両時間方向のフル情報フロー(CODE-BiRNN)に組み込む方法と、他の更新セルであるGRUとLSTM(CODE-GRU、CODE-BiGRU、CODE-LSTM、CODE-BiLSTM)とのバリエーションを検討する。 実験結果から,ニューラルCODEはスペーサーデータであっても,スパイラルの前後のダイナミクスを学習する際に,ニューラルODEより優れていることが示された。 また,CODE-RNN/-GRU/-LSTMとCODE-BiRNN/-BiGRU/-BiLSTMの3つの実時間時系列データに対する性能の比較を行った。 提案したアーキテクチャは,CODE-BiRNN/-BiGRU/-BiLSTMによりより高速に収束し,全てのタスクにおいて他のアーキテクチャよりも優れていた。

This work introduces Neural Chronos Ordinary Differential Equations (Neural CODE), a deep neural network architecture that fits a continuous-time ODE dynamics for predicting the chronology of a system both forward and backward in time. To train the model, we solve the ODE as an initial value problem and a final value problem, similar to Neural ODEs. We also explore two approaches to combining Neural CODE with Recurrent Neural Networks by replacing Neural ODE with Neural CODE (CODE-RNN), and incorporating a bidirectional RNN for full information flow in both time directions (CODE-BiRNN), and variants with other update cells namely GRU and LSTM: CODE-GRU, CODE-BiGRU, CODE-LSTM, CODE-BiLSTM. Experimental results demonstrate that Neural CODE outperforms Neural ODE in learning the dynamics of a spiral forward and backward in time, even with sparser data. We also compare the performance of CODE-RNN/-GRU/-LSTM and CODE-BiRNN/-BiGRU/-BiLSTM against ODE-RNN/-GRU/-LSTM on three real-life time series data tasks: imputation of missing data for lower and higher dimensional data, and forward and backward extrapolation with shorter and longer time horizons. Our findings show that the proposed architectures converge faster, with CODE-BiRNN/-BiGRU/-BiLSTM consistently outperforming the other architectures on all tasks.
翻訳日:2023-07-05 12:48:29 公開日:2023-07-03
# 数値テキストによるOCR後の騒音複雑度の推定

Estimating Post-OCR Denoising Complexity on Numerical Texts ( http://arxiv.org/abs/2307.01020v1 )

ライセンス: Link先を確認
Arthur Hemmer, J\'er\^ome Brachat, Micka\"el Coustaty, Jean-Marc Ogier(参考訳) OCR後処理はここ数年で大幅に改善されている。 しかし、これらは主に、請求書、支払書、医療証明書などの数値的な性質の文書とは対照的に、自然なアルファベット文からなるテキストに有用である。 これらのデータセットのocr処理の難易度を評価するために,テキストの発声複雑性を推定し,様々な性質のデータセット上で評価する方法を提案する。 本研究では,現代のデノナイジング手法の誤差率に対する推定複雑性ランキングを評価し,推定値の有効性を示す。

Post-OCR processing has significantly improved over the past few years. However, these have been primarily beneficial for texts consisting of natural, alphabetical words, as opposed to documents of numerical nature such as invoices, payslips, medical certificates, etc. To evaluate the OCR post-processing difficulty of these datasets, we propose a method to estimate the denoising complexity of a text and evaluate it on several datasets of varying nature, and show that texts of numerical nature have a significant disadvantage. We evaluate the estimated complexity ranking with respect to the error rates of modern-day denoising approaches to show the validity of our estimator.
翻訳日:2023-07-05 12:47:51 公開日:2023-07-03
# 少数の量子リソースによるスケーラブル量子ニューラルネットワーク

Scalable quantum neural networks by few quantum resources ( http://arxiv.org/abs/2307.01017v1 )

ライセンス: Link先を確認
Davide Pastorello and Enrico Blanzieri(参考訳) 本稿では,数量子ビットで複数のスワップテストを実行し,適切な測定プロトコルを適用した一般パラメトリックモデルの構築に焦点をあてる。 このモデルは、小さな量子モジュールを組み合わせることで実現できる2層フィードフォワードニューラルネットワークと同値であることが判明した。 提案手法の利点と展望について論じる。

This paper focuses on the construction of a general parametric model that can be implemented executing multiple swap tests over few qubits and applying a suitable measurement protocol. The model turns out to be equivalent to a two-layer feedforward neural network which can be realized combining small quantum modules. The advantages and the perspectives of the proposed quantum method are discussed.
翻訳日:2023-07-05 12:47:41 公開日:2023-07-03
# ランダムフォレスト幾何保存による教師あり多様体学習

Supervised Manifold Learning via Random Forest Geometry-Preserving Proximities ( http://arxiv.org/abs/2307.01077v1 )

ライセンス: Link先を確認
Jake S. Rhodes(参考訳) マニフォールド学習アプローチは、高次元空間内の本質的で低次元のデータ構造を求める。 Isomap, UMAP, $t$-SNE, Diffusion Map, Laplacian Eigenmapsなどの主流多様体学習アルゴリズムはデータラベルを使用しないため、教師なしとみなされる。 これらの手法の既存の教師付き拡張は分類問題に限定されており、順序非保存、クラス条件距離を用いた構成のために意味のある埋め込みを発見できない。 本稿では,クラス条件付き多様体学習の弱さを定量的かつ視覚的に示すとともに,データジオメトリ保存変種を用いた教師付き次元減少のためのカーネルの選択を,多様体学習法の初期化として提案する。 これらの近位を用いた局所構造保存は多様体学習のアプローチでほぼ普遍的であり,大域構造は拡散に基づくアルゴリズムを用いて適切に維持されている。

Manifold learning approaches seek the intrinsic, low-dimensional data structure within a high-dimensional space. Mainstream manifold learning algorithms, such as Isomap, UMAP, $t$-SNE, Diffusion Map, and Laplacian Eigenmaps do not use data labels and are thus considered unsupervised. Existing supervised extensions of these methods are limited to classification problems and fall short of uncovering meaningful embeddings due to their construction using order non-preserving, class-conditional distances. In this paper, we show the weaknesses of class-conditional manifold learning quantitatively and visually and propose an alternate choice of kernel for supervised dimensionality reduction using a data-geometry-preserving variant of random forest proximities as an initialization for manifold learning methods. We show that local structure preservation using these proximities is near universal across manifold learning approaches and global structure is properly maintained using diffusion-based algorithms.
翻訳日:2023-07-05 12:41:38 公開日:2023-07-03
# 複数音声読み上げと聞き取り理解テストの解析

Analyzing Multiple-Choice Reading and Listening Comprehension Tests ( http://arxiv.org/abs/2307.01076v1 )

ライセンス: Link先を確認
Vatsal Raina, Adian Liusie, Mark Gales(参考訳) 複数選択読解テストと聴取理解テストは、言語アセスメントの重要な部分である。 標準的な教育試験のためのコンテンツ作成者は、試験を受ける候補者の理解能力を評価する質問を慎重にキュレートする必要がある。 しかし、近年の研究では、世界の知識を活用して、理解することなく、一般のマルチチョイス読解データセットで多くの疑問に答えることが示されている。 本研究は, 会話の書き起こしと聞き取り理解テストに基づいて, 多段読みにおいて, 文脈文の読み方がどの程度必要かを検討したものである。 自動読解システムは、文脈パスへのアクセスを部分的にあるいは全く行わずに、ランダムよりもはるかに優れた性能を発揮する。 これらの発見は、コンテンツクリエーターが提案する質問に対する理解と世界の知識のトレードオフを自動的に捉えるためのアプローチを提供する。

Multiple-choice reading and listening comprehension tests are an important part of language assessment. Content creators for standard educational tests need to carefully curate questions that assess the comprehension abilities of candidates taking the tests. However, recent work has shown that a large number of questions in general multiple-choice reading comprehension datasets can be answered without comprehension, by leveraging world knowledge instead. This work investigates how much of a contextual passage needs to be read in multiple-choice reading based on conversation transcriptions and listening comprehension tests to be able to work out the correct answer. We find that automated reading comprehension systems can perform significantly better than random with partial or even no access to the context passage. These findings offer an approach for content creators to automatically capture the trade-off between comprehension and world knowledge required for their proposed questions.
翻訳日:2023-07-05 12:41:22 公開日:2023-07-03
# リニア学習者はいつ、犯罪を区別できないのか?

When Can Linear Learners be Robust to Indiscriminate Poisoning Attacks? ( http://arxiv.org/abs/2307.01073v1 )

ライセンス: Link先を確認
Fnu Suya, Xiao Zhang, Yuan Tian, David Evans(参考訳) 本研究では, 学習者に対する無差別な毒殺について検討し, 学習者に対して, 学習データにいくつかの工芸品を注入する。 そこで本研究では, 線形学習者に対して, 線形学習者に対する有害な攻撃を非差別化するために, データセットが本質的に堅牢であるかどうかを考察する。 理論上のガウス分布については、与えられた中毒予算において誘導モデルの最大リスクを達成する中毒戦略として定義される最適中毒攻撃の挙動を厳格に特徴付ける。 その結果, クラス別データ分布が低分散で十分に分離され, 許容されるすべての毒点を含む制約集合のサイズも小さい場合, 線形学習者は確実に中毒を判別できることがわかった。 これらの結果は、ベンチマークデータセット全体にわたる線形学習者に対する最先端の中毒攻撃による経験的攻撃性能の劇的な変化を主に説明しており、いくつかの学習タスクがデータ中毒攻撃に脆弱である理由を理解するための重要な第一歩となっている。

We study indiscriminate poisoning for linear learners where an adversary injects a few crafted examples into the training data with the goal of forcing the induced model to incur higher test error. Inspired by the observation that linear learners on some datasets are able to resist the best known attacks even without any defenses, we further investigate whether datasets can be inherently robust to indiscriminate poisoning attacks for linear learners. For theoretical Gaussian distributions, we rigorously characterize the behavior of an optimal poisoning attack, defined as the poisoning strategy that attains the maximum risk of the induced model at a given poisoning budget. Our results prove that linear learners can indeed be robust to indiscriminate poisoning if the class-wise data distributions are well-separated with low variance and the size of the constraint set containing all permissible poisoning points is also small. These findings largely explain the drastic variation in empirical attack performance of the state-of-the-art poisoning attacks on linear learners across benchmark datasets, making an important initial step towards understanding the underlying reasons some learning tasks are vulnerable to data poisoning attacks.
翻訳日:2023-07-05 12:41:10 公開日:2023-07-03
# shi-ness: ニューラル安定性スコアによる良好かつ安定したキーポイントの検出

Shi-NeSS: Detecting Good and Stable Keypoints with a Neural Stability Score ( http://arxiv.org/abs/2307.01069v1 )

ライセンス: Link先を確認
Konstantin Pakulev, Alexander Vakhitov, Gonzalo Ferrer(参考訳) 特徴点検出器の学習は、キーポイントの定義の曖昧さとそれに対応するために特別に作成された基底真理ラベルの必要性の両方から課題を提示する。 本研究では,手作りのshi検出器とニューラルネットワークを組み合わせることで,これらの問題を両立する。 我々は、Shi検出器が提供する原則および局所化キーポイントの上に構築し、ニューラルネットワーク - Neural Stability Score (NeSS) によって回帰されたキーポイント安定性スコアを用いて、それらの選択を行う。 したがって、shi検出器とキーポイント安定性スコアの特性を組み合わせることで、データセットを事前にラベル付けせずに画像のトレーニングや、再構成された対応ラベルが必要となるため、shinessと名づける。 我々は,hpatches,scannet,megadepth,imc-ptのshiネスを評価し,最先端の性能と下流タスクの優れた一般化を示した。

Learning a feature point detector presents a challenge both due to the ambiguity of the definition of a keypoint and correspondingly the need for a specially prepared ground truth labels for such points. In our work, we address both of these issues by utilizing a combination of a hand-crafted Shi detector and a neural network. We build on the principled and localized keypoints provided by the Shi detector and perform their selection using the keypoint stability score regressed by the neural network - Neural Stability Score (NeSS). Therefore, our method is named Shi-NeSS since it combines the Shi detector and the properties of the keypoint stability score, and it only requires for training sets of images without dataset pre-labeling or the need for reconstructed correspondence labels. We evaluate Shi-NeSS on HPatches, ScanNet, MegaDepth and IMC-PT, demonstrating state-of-the-art performance and good generalization on downstream tasks.
翻訳日:2023-07-05 12:40:48 公開日:2023-07-03
# 医用視覚質問応答における局所的質問

Localized Questions in Medical Visual Question Answering ( http://arxiv.org/abs/2307.01067v1 )

ライセンス: Link先を確認
Sergio Tascon-Morales and Pablo M\'arquez-Neila and Raphael Sznitman(参考訳) VQA(Visual Question Answering)モデルは、与えられた画像に関する自然言語の質問に答えることを目的としている。 モデルトレーニングで使用するものと異なる質問をすることができることから,近年,医療用VQAが注目されている。 しかしながら、既存の医療用VQAモデルは一般的に、画像中の関連するコンテンツがどこにあるかではなく、画像全体を参照する質問に答えることに焦点を当てている。 したがって、VQAモデルは、その解釈可能性と特定の画像領域についてモデルを探索する可能性に制限される。 本稿では,画像領域に関する質問に対して,質問への回答に必要な文脈を考慮しながら回答できるモデルを開発することにより,この制限に対処できる医療用vqaの新しいアプローチを提案する。 実験の結果,提案モデルの有効性を実証し,既存の手法を3つのデータセットで比較した。 私たちのコードとデータはhttps://github.com/sergiotasconmorales/locvqaで入手できます。

Visual Question Answering (VQA) models aim to answer natural language questions about given images. Due to its ability to ask questions that differ from those used when training the model, medical VQA has received substantial attention in recent years. However, existing medical VQA models typically focus on answering questions that refer to an entire image rather than where the relevant content may be located in the image. Consequently, VQA models are limited in their interpretability power and the possibility to probe the model about specific image regions. This paper proposes a novel approach for medical VQA that addresses this limitation by developing a model that can answer questions about image regions while considering the context necessary to answer the questions. Our experimental results demonstrate the effectiveness of our proposed model, outperforming existing methods on three datasets. Our code and data are available at https://github.com/sergiotasconmorales/locvqa.
翻訳日:2023-07-05 12:40:29 公開日:2023-07-03
# 正確な結合親和性スコアと仮想スクリーニングのための多彩な深層学習に基づくタンパク質-リガンド相互作用予測モデル

A versatile deep learning-based protein-ligand interaction prediction model for accurate binding affinity scoring and virtual screening ( http://arxiv.org/abs/2307.01066v1 )

ライセンス: Link先を確認
Seokhyun Moon, Sang-Yeon Hwang, Jaechang Lim, and Woo Youn Kim(参考訳) タンパク質-リガンド相互作用(PLI)予測は、標的タンパク質に効果的に結合する分子の同定と増強を支援する薬物発見において重要である。 近年のディープラーニングに基づくPLI予測の進歩にもかかわらず、PLI予測における親和性スコアと仮想スクリーニングの正確な結合が可能な汎用モデルの開発は、現在進行中の課題である。 これは主に構造-アフィニティデータの欠如によるもので、モデル一般化能力の低下が原因である。 本稿では,この課題に対する有効な解法として,物理に変形したニューラルネットワークとともに,新たなデータ拡張戦略を提案する。 結果として得られたモデルは、スコアとスクリーニング能力の両方において著しい改善を示す。 その性能はタスク固有のディープラーニングベースのPLI予測モデルと比較され、その汎用性を確認した。 特に、計算コストの高い分子動力学シミュレーションや他のディープラーニングモデルをデリバティブベンチマークで上回り、仮想スクリーニングでも十分に高い性能を維持した。 これは、薬物発見におけるこのアプローチの可能性を強調し、結合親和性スコアと仮想スクリーニングの両方に適用可能であることを示す。

Protein--ligand interaction (PLI) prediction is critical in drug discovery, aiding the identification and enhancement of molecules that effectively bind to target proteins. Despite recent advances in deep learning-based PLI prediction, developing a versatile model capable of accurate binding affinity scoring and virtual screening in PLI prediction is an ongoing challenge. This is primarily due to the lack of structure--affinity data, resulting in low model generalization ability. We here propose a viable solution to this challenge by introducing a novel data augmentation strategy along with a physics-informed neural network. The resulting model exhibits significant improvement in both scoring and screening capabilities. Its performance was compared to task-specific deep learning-based PLI prediction models, confirming its versatility. Notably, it even outperformed computationally expensive molecular dynamics simulations as well as the other deep learning models in a derivative benchmark while maintaining sufficiently high performance in virtual screening. This underscores the potential of this approach in drug discovery, demonstrating its applicability to both binding affinity scoring and virtual screening.
翻訳日:2023-07-05 12:40:15 公開日:2023-07-03
# トマトDIFF : 拡散モデルを用いた植物内トマトセグメンテーション

TomatoDIFF: On-plant Tomato Segmentation with Denoising Diffusion Models ( http://arxiv.org/abs/2307.01064v1 )

ライセンス: Link先を確認
Marija Ivanovska, Vitomir Struc, Janez Pers(参考訳) 人工知能の応用により、農家はコストと環境への影響を減らしながら作物の生育と生産を最適化できる。 特にコンピュータビジョンに基づくアルゴリズムは果実の分節によく使われ、収穫品質の詳細な分析と正確な収量推定を可能にする。 本稿では,植物トマトのセマンティクスセグメンテーションのための新しい拡散ベースモデルであるトマトディフを提案する。 他の競合手法に対して評価すると, 果実が密接な環境においても, 最先端(SOTA)性能を示す。 さらに,温室トマトの新しい大規模かつ挑戦的なデータセットであるトマトピアを紹介する。 データセットは、高解像度のRGB-D画像と、果実の画素レベルのアノテーションを含む。

Artificial intelligence applications enable farmers to optimize crop growth and production while reducing costs and environmental impact. Computer vision-based algorithms in particular, are commonly used for fruit segmentation, enabling in-depth analysis of the harvest quality and accurate yield estimation. In this paper, we propose TomatoDIFF, a novel diffusion-based model for semantic segmentation of on-plant tomatoes. When evaluated against other competitive methods, our model demonstrates state-of-the-art (SOTA) performance, even in challenging environments with highly occluded fruits. Additionally, we introduce Tomatopia, a new, large and challenging dataset of greenhouse tomatoes. The dataset comprises high-resolution RGB-D images and pixel-level annotations of the fruits.
翻訳日:2023-07-05 12:39:57 公開日:2023-07-03
# 量子不確かさの量子化

Quantizing the Quantum Uncertainty ( http://arxiv.org/abs/2307.01061v1 )

ライセンス: Link先を確認
Etera R. Livine(参考訳) 波動関数の拡散、すなわち量子不確実性は、量子力学において重要な概念である。 先行順序では、位置と運動量演算子の二次モーメントが特徴である。 これらは位置と運動量期待値から独立して進化し変動する。 それらは古典力学に比べて余分な量子力学であり、波束の形状をエンコードする。 量子力学を量子場理論に持ち上げなければならないという論理に従うと、場の空間上の波動関数に作用する作用素としての量子不確実性の量子化を議論し、その離散スペクトルを導出し、演算子 $\hat{x}^{2}$, $\hat{p}^{2}$ と $\widehat{xp}$ によって形成される $\textrm{sl}_{2}$ Lie algebra から継承する。 さらに、このスペクトルが、拡張ガウス波束の進化をSchr\\odinger方程式に従って駆動する有効共形ポテンシャルのカップリングの値にどのように現れるかを示し、量子不確実性は有効固有角運動量と同じ役割を果たす。 非相対論的物理学における量子不確かさの量子化の実験的なシグネチャは、量子力学からqftレジームへの脱却を意味するだろうか?

The spread of the wave-function, or quantum uncertainty, is a key notion in quantum mechanics. At leading order, it is characterized by the quadratic moments of the position and momentum operators. These evolve and fluctuate independently from the position and momentum expectation values. They are extra degrees of quantum mechanics compared to classical mechanics, and encode the shape of wave-packets. Following the logic that quantum mechanics must be lifted to quantum field theory, we discuss the quantization of the quantum uncertainty as an operator acting on wave-functions over field space and derive its discrete spectrum, inherited from the $\textrm{sl}_{2}$ Lie algebra formed by the operators $\hat{x}^{2}$, $\hat{p}^{2}$ and $\widehat{xp}$. We further show how this spectrum appears in the value of the coupling of the effective conformal potential driving the evolution of extended Gaussian wave-packets according to Schr\"odinger equation, with the quantum uncertainty playing the same role as an effective intrinsic angular momentum. We conclude with an open question: is it possible to see experimental signatures of the quantization of the quantum uncertainty in non-relativistic physics, which would signal the departure from quantum mechanics to a QFT regime?
翻訳日:2023-07-05 12:39:46 公開日:2023-07-03
# 長距離システムにおけるボソニック輸送のための光円錐の最適形状

Optimal form of light cones for bosonic transport in long-range systems ( http://arxiv.org/abs/2307.01059v1 )

ライセンス: Link先を確認
Tan Van Vu and Tomotaka Kuwahara and Keiji Saito(参考訳) 情報が伝播する究極の速度を理解することは、非平衡物理学において重要な問題である。 それでも、量子ボゾン系に固有の伝播速度を解明するタスクは、相互作用の非有界性に起因する課題を提起する。 この手紙では、量子速度限界とリーブ・ロビンソン境界の両方のレンズを通して長距離ボソニック系の粒子輸送の問題に取り組む。 最適輸送理論に基づく統一的手法を用いて, 粒子輸送に必要な最小時間は, 熱力学的限界においてもその重要性を保ちながら, 常にソース領域とターゲット領域の距離で拘束されていることを厳密に証明する。 さらに,対象領域内における特定のボソン数の観測確率の上限を導出し,粒子輸送のダイナミクスについてさらなる知見を与える。 その結果, 遠距離ホッピングと遠距離相互作用の両方において任意の初期状態が成立し, 一般ボソニック系における粒子輸送のオープン問題を解くことができた。

Understanding the ultimate rate at which information propagates is a pivotal issue in nonequilibrium physics. Nevertheless, the task of elucidating the propagation speed inherent in quantum bosonic systems presents challenges due to the unbounded nature of their interactions. In this Letter, we tackle the problem of particle transport in long-range bosonic systems through the lens of both quantum speed limits and the Lieb-Robinson bound. Employing a unified approach based on optimal transport theory, we rigorously prove that the minimum time required for macroscopic particle transport is always bounded by the distance between the source and target regions, while retaining its significance even in the thermodynamic limit. Furthermore, we derive an upper bound for the probability of observing a specific number of bosons inside the target region, thereby providing additional insights into the dynamics of particle transport. Our results hold true for arbitrary initial states under both long-range hopping and long-range interactions, thus resolving an open problem of particle transport in generic bosonic systems.
翻訳日:2023-07-05 12:39:21 公開日:2023-07-03
# 発見へのROAD:電波天文学における機械学習による異常検出

The ROAD to discovery: machine learning-driven anomaly detection in radio astronomy spectrograms ( http://arxiv.org/abs/2307.01054v1 )

ライセンス: Link先を確認
Michael Mesarcik, Albert-Jan Boonstra, Marco Iacobelli, Elena Ranguelova, Cees de Laat, Rob van Nieuwpoort(参考訳) 電波望遠鏡の感度と柔軟性が高まるにつれて、その複雑さとデータレートも高まる。 このため、自動的な健康管理アプローチは、名目上の望遠鏡の運用を保証するためにますます重要になっている。 本稿では,電波望遠鏡で一般的に発生する異常を分類し,未知の異常を検知するための新しい機械学習異常検出フレームワークを提案する。 本稿では,Low Frequency Array (LOFAR) 望遠鏡から7050個の自己相関に基づくスペクトログラムを抽出し,望遠鏡オペレータの観点からシステムワイド異常に関連する10のラベルを割り当てる。 これには、電子的故障、誤校正、太陽嵐、ネットワークおよびハードウェアエラーの計算が含まれる。 LOFAR望遠鏡の正常な動作の学習には,コンテキスト予測と再構成損失の両方を活用する新たな自己監視学習(SSL)パラダイムが有効であることを示す。 本稿では、SSLベースの異常検出と教師付き分類を併用し、一般的に発生する異常の分類と目に見えない異常の検出を両立させるフレームワークである無線観測器異常検知器(ROAD)を提案する。 我々のシステムはLOFARデータ処理パイプラインのコンテキストにおいてリアルタイムであり、1つのスペクトログラムを処理するのに<1msが必要であった。 さらに、ROADは、偽陽性率~2\%を維持しつつ、異常検出F-2スコア0.92と、クラスごとの平均分類F-2スコア0.89とを取得し、他の関連作品を上回っている。

As radio telescopes increase in sensitivity and flexibility, so do their complexity and data-rates. For this reason automated system health management approaches are becoming increasingly critical to ensure nominal telescope operations. We propose a new machine learning anomaly detection framework for classifying both commonly occurring anomalies in radio telescopes as well as detecting unknown rare anomalies that the system has potentially not yet seen. To evaluate our method, we present a dataset consisting of 7050 autocorrelation-based spectrograms from the Low Frequency Array (LOFAR) telescope and assign 10 different labels relating to the system-wide anomalies from the perspective of telescope operators. This includes electronic failures, miscalibration, solar storms, network and compute hardware errors among many more. We demonstrate how a novel Self Supervised Learning (SSL) paradigm, that utilises both context prediction and reconstruction losses, is effective in learning normal behaviour of the LOFAR telescope. We present the Radio Observatory Anomaly Detector (ROAD), a framework that combines both SSL-based anomaly detection and a supervised classification, thereby enabling both classification of both commonly occurring anomalies and detection of unseen anomalies. We demonstrate that our system is real-time in the context of the LOFAR data processing pipeline, requiring <1ms to process a single spectrogram. Furthermore, ROAD obtains an anomaly detection F-2 score of 0.92 while maintaining a false positive rate of ~2\%, as well as a mean per-class classification F-2 score 0.89, outperforming other related works.
翻訳日:2023-07-05 12:39:03 公開日:2023-07-03
# 非マルコフ散逸相転移のスペクトル理論

Spectral Theory of Non-Markovian Dissipative Phase Transitions ( http://arxiv.org/abs/2307.01119v1 )

ライセンス: Link先を確認
Baptiste Debecker, John Martin, Fran\c{c}ois Damanet(参考訳) これまで、散逸相転移(dissipative phase transitions、dpts)は、理想化されたマルコフ(メモリレス)環境と結合した量子系で研究されてきた。 ここでは、DPTのスペクトル理論を任意の非マルコフ系に拡張し、それらのシグネチャを抽出する一般的な体系的手法を提案する。 まず,1次DPTを示すモデルにおいて,メモリ効果が位相境界を制御するための資源としてどのように使用できるかを示すとともに,これまでの試みが失敗した2モードDickeモデルにおいて,挑戦的な2次DPTのすべての特徴を捉えることによって,手法のパワーを実証する。

To date, dissipative phase transitions (DPTs) have mostly been studied for quantum systems coupled to idealized Markovian (memoryless) environments, where the closing of the Liouvillian gap constitutes a hallmark. Here, we extend the spectral theory of DPTs to arbitrary non-Markovian systems and present a general and systematic method to extract their signatures, which is fundamental for the understanding of realistic materials and experiments such as in the solid-state, cold atoms, cavity or circuit QED. We first illustrate our theory to show how memory effects can be used as a resource to control phase boundaries in a model exhibiting a first-order DPT, and then demonstrate the power of the method by capturing all features of a challenging second-order DPT in a two-mode Dicke model for which previous attempts had fail up to now.
翻訳日:2023-07-05 12:31:29 公開日:2023-07-03
# MeT:3次元メッシュのセマンティックセグメンテーションのためのグラフ変換器

MeT: A Graph Transformer for Semantic Segmentation of 3D Meshes ( http://arxiv.org/abs/2307.01115v1 )

ライセンス: Link先を確認
Giuseppe Vecchio, Luca Prezzavento, Carmelo Pino, Francesco Rundo, Simone Palazzo, Concetto Spampinato(参考訳) 多角形メッシュは、その効率性と非一様形状を捉える柔軟性により、離散的に3d形状を近似する標準となっている。 しかし、この不均一性はメッシュ構造に不規則をもたらし、3Dメッシュのセグメンテーションのようなタスクを特に困難にする。 3dメッシュのセマンティクスセグメンテーションは一般的にcnnベースのアプローチで対処されており、精度が向上している。 近年、トランスフォーマーはnlpとコンピュータビジョンの両方で十分な勢いを得ており、cnnモデルと同等の性能を達成し、長きにわたるアーキテクチャの普遍性を支持している。 この傾向に従い,グローバルアテンション機構を用いて,メッシュのグラフ構造をよりよくモデル化することによる3次元メッシュの意味セグメンテーション手法を提案する。 3次元メッシュの場合と同様に、非逐次データの相対位置をモデル化する際の標準トランスフォーマーアーキテクチャの限界に対処するため、隣接行列のラプラシア固有ベクトルを用いて位置エンコーディングを行い、従来の正弦波位置エンコーディングを置き換えるとともに、クラスタリングに基づく特徴を自己注意・横断的演算子に導入する。 2017年にmaron et al.で提案されたヒトセグメンテーションデータセットとshapenetベンチマークに基づいて、3セットの形状cosegデータセットを実験した結果,提案手法が3dメッシュの意味セグメンテーションにおける最先端のパフォーマンスに与える影響が示された。

Polygonal meshes have become the standard for discretely approximating 3D shapes, thanks to their efficiency and high flexibility in capturing non-uniform shapes. This non-uniformity, however, leads to irregularity in the mesh structure, making tasks like segmentation of 3D meshes particularly challenging. Semantic segmentation of 3D mesh has been typically addressed through CNN-based approaches, leading to good accuracy. Recently, transformers have gained enough momentum both in NLP and computer vision fields, achieving performance at least on par with CNN models, supporting the long-sought architecture universalism. Following this trend, we propose a transformer-based method for semantic segmentation of 3D mesh motivated by a better modeling of the graph structure of meshes, by means of global attention mechanisms. In order to address the limitations of standard transformer architectures in modeling relative positions of non-sequential data, as in the case of 3D meshes, as well as in capturing the local context, we perform positional encoding by means the Laplacian eigenvectors of the adjacency matrix, replacing the traditional sinusoidal positional encodings, and by introducing clustering-based features into the self-attention and cross-attention operators. Experimental results, carried out on three sets of the Shape COSEG Dataset, on the human segmentation dataset proposed in Maron et al., 2017 and on the ShapeNet benchmark, show how the proposed approach yields state-of-the-art performance on semantic segmentation of 3D meshes.
翻訳日:2023-07-05 12:31:09 公開日:2023-07-03
# 連続正規化流を用いた格子ナンブゴト弦のサンプリング

Sampling the lattice Nambu-Goto string using Continuous Normalizing Flows ( http://arxiv.org/abs/2307.01107v1 )

ライセンス: Link先を確認
Michele Caselle, Elia Cellini and Alessandro Nada(参考訳) 有効弦理論 (EST) は、凝縮束管を薄い振動弦としてモデル化するヤン=ミルズ理論において閉じ込めを記述する強力な非摂動的アプローチである。 EST計算は通常、ゼータ関数正則化(英語版)を用いて行われるが、この方法で対処するには複雑すぎる観測物を含む状況(例えば、フラックス管の形状や、ナムブ・ゴト ESTを超える高次補正の研究)がある。 本稿では,この問題を回避するための機械学習手法の最近の進歩に基づく数値的アプローチを提案する。 実験室としてNambu-Goto文字列を用いて, 連続正規化フローと呼ばれる新しい種類の深部生成モデルを用いることで, EST予測の信頼性の高い数値推定値が得られることを示す。

Effective String Theory (EST) represents a powerful non-perturbative approach to describe confinement in Yang-Mills theory that models the confining flux tube as a thin vibrating string. EST calculations are usually performed using the zeta-function regularization: however there are situations (for instance the study of the shape of the flux tube or of the higher order corrections beyond the Nambu-Goto EST) which involve observables that are too complex to be addressed in this way. In this paper we propose a numerical approach based on recent advances in machine learning methods to circumvent this problem. Using as a laboratory the Nambu-Goto string, we show that by using a new class of deep generative models called Continuous Normalizing Flows it is possible to obtain reliable numerical estimates of EST predictions.
翻訳日:2023-07-05 12:30:35 公開日:2023-07-03
# 状態依存浴の存在下での量子相関とテレポーテーションに対する強調効果

Dephasing effects on quantum correlations and teleportation in presence of state dependent bath ( http://arxiv.org/abs/2307.01104v1 )

ライセンス: Link先を確認
Mehboob Rashid, Muzaffar Qadir Lone, Prince A Ganai(参考訳) 量子情報プロトコルはしばしばデコヒーレンスのない理想的な状況で設計される。 しかし、実際の設定では、これらのプロトコルはデコヒーレンスの対象となり、測定結果の忠実度が低下する。 本研究では,量子相関に対する状態依存浴の効果と,単一量子ビットテレポーテーションの忠実性について解析する。 本研究では, システムバス間の相互作用を, 共沸浴と相互作用する量子ビットとしてモデル化し, 熱平衡における接合状態の投射的測定により浴の状態依存性を生成する。 量子テレポーテーションのエンタングルメント、負性率、および平均フィリティの時間進化に関する解析式を算出した。 初期系-バス相関の存在により、系は長い時間量子相関を維持することが示されている。 さらに、量子チャネルの有限長絡の存在により、平均忠実度はその古典的値よりも高いことが示されている。

Quantum information protocols are often designed in the ideal situation with no decoherence. However, in real setup, these protocols are subject to the decoherence and thus reducing fidelity of the measurement outcome. In this work, we analyze the effect of state dependent bath on the quantum correlations and the fidelity of a single qubit teleportation. We model our system-bath interaction as qubits interacting with a common bath of bosons, and the state dependence of the bath is generated through a projective measurement on the joint state in thermal equilibrium. The analytic expressions for the time evolution of entanglement, Negativity and average fidelity of quantum teleportation are calculated. It is shown that due to the presence of initial system-bath correlations, the system maintains quantum correlations for long times. Furthermore, due to the presence of finite long time entanglement of the quantum channel, the average fidelity is shown to be higher than its classical value.
翻訳日:2023-07-05 12:30:19 公開日:2023-07-03
# mvdiffusion:対応認識拡散を用いた総合的多視点画像生成の実現

MVDiffusion: Enabling Holistic Multi-view Image Generation with Correspondence-Aware Diffusion ( http://arxiv.org/abs/2307.01097v1 )

ライセンス: Link先を確認
Shitao Tang, Fuyang Zhang, Jiacheng Chen, Peng Wang, Yasutaka Furukawa(参考訳) 本稿では,パノラマ画像や多視点画像(深度マップとポーズ)など,画素対ピクセル対応が利用可能なシナリオに対して,シンプルで効果的なマルチビュー画像生成手法であるMVDiffusionを紹介する。 反復的なイメージウォーピングとインペインティングに依存する以前のモデルとは異なり、mvdiffusionは、高解像度とリッチなコンテンツを含むグローバルアウェアネスを持つ全ての画像を同時に生成し、前モデルで広く普及したエラー蓄積を効果的に解決する。 MVDiffusionは特に、効果的なクロスビューインタラクションを可能にする対応対応型アテンション機構を組み込んでいる。 このメカニズムは3つの重要なモジュールを支える。 1)グローバル対応を維持しつつ低解像度画像を生成する生成モジュール 2)画像間の空間被覆を拡大する補間モジュール及び 3) 高解像度出力にスケールアップ可能なスーパーレゾリューションモジュール。 パノラマ画像に関しては、mvdiffusionは1024$\times$1024ピクセルの高解像度フォトリアリスティック画像を生成することができる。 幾何条件のマルチビュー画像生成では、MVDiffusionはシーンメッシュのテクスチャマップを生成する最初の方法を示す。 プロジェクトページはhttps://mvdiffusion.github.ioにある。

This paper introduces MVDiffusion, a simple yet effective multi-view image generation method for scenarios where pixel-to-pixel correspondences are available, such as perspective crops from panorama or multi-view images given geometry (depth maps and poses). Unlike prior models that rely on iterative image warping and inpainting, MVDiffusion concurrently generates all images with a global awareness, encompassing high resolution and rich content, effectively addressing the error accumulation prevalent in preceding models. MVDiffusion specifically incorporates a correspondence-aware attention mechanism, enabling effective cross-view interaction. This mechanism underpins three pivotal modules: 1) a generation module that produces low-resolution images while maintaining global correspondence, 2) an interpolation module that densifies spatial coverage between images, and 3) a super-resolution module that upscales into high-resolution outputs. In terms of panoramic imagery, MVDiffusion can generate high-resolution photorealistic images up to 1024$\times$1024 pixels. For geometry-conditioned multi-view image generation, MVDiffusion demonstrates the first method capable of generating a textured map of a scene mesh. The project page is at https://mvdiffusion.github.io.
翻訳日:2023-07-05 12:30:04 公開日:2023-07-03
# UW-ProCCaps: カプセルによる水中プログレッシブカラー化

UW-ProCCaps: UnderWater Progressive Colourisation with Capsules ( http://arxiv.org/abs/2307.01091v1 )

ライセンス: Link先を確認
Rita Pucci, Niki Martine(参考訳) 水中画像は海洋生物の研究と理解に欠かせないものである。 画像保存に必要なメモリスペースの削減に重点を置いていますが、収集フェーズでのメモリスペースの消費は、このフェーズの持続時間を制限しているため、より多くの画像収集キャンペーンが必要になります。 本稿では,水中画像の色を発光チャネルから再構成し,利用可能な記憶空間の2/3を節約する新しい機械学習モデルを提案する。 本モデルは水中カラー再構成を専門とし,エンコーダ・デコーダアーキテクチャで構成されている。 エンコーダは、畳み込みエンコーダと、ウェブ教師付きデータで訓練された並列特殊分類器からなる。 エンコーダとデコーダはカプセルの層を使用して、画像内のエンティティの特徴をキャプチャする。 色再現プロセスは、進行性および生成性逆行性訓練手順をリコールする。 プログレッシブトレーニングは、色彩の洗練に焦点を当てた生成的な敵対的なルーチンの基盤を与え、画像を明るく飽和した色にすることで、イメージを生き返らせる。 4つのベンチマークデータセットで定性的かつ定量的にモデルを検証する。 これは、グレースケールの水中画像で色を再現する最初の試みである。 4つのベンチマークデータセットの大規模な結果は、我々のソリューションが最先端(SOTA)ソリューションより優れていることを示している。 また,生成した色調は,SOTAの画質向上モデルと比較して画質の向上を図っている。

Underwater images are fundamental for studying and understanding the status of marine life. We focus on reducing the memory space required for image storage while the memory space consumption in the collecting phase limits the time lasting of this phase leading to the need for more image collection campaigns. We present a novel machine-learning model that reconstructs the colours of underwater images from their luminescence channel, thus saving 2/3 of the available storage space. Our model specialises in underwater colour reconstruction and consists of an encoder-decoder architecture. The encoder is composed of a convolutional encoder and a parallel specialised classifier trained with webly-supervised data. The encoder and the decoder use layers of capsules to capture the features of the entities in the image. The colour reconstruction process recalls the progressive and the generative adversarial training procedures. The progressive training gives the ground for a generative adversarial routine focused on the refining of colours giving the image bright and saturated colours which bring the image back to life. We validate the model both qualitatively and quantitatively on four benchmark datasets. This is the first attempt at colour reconstruction in greyscale underwater images. Extensive results on four benchmark datasets demonstrate that our solution outperforms state-of-the-art (SOTA) solutions. We also demonstrate that the generated colourisation enhances the quality of images compared to enhancement models at the SOTA.
翻訳日:2023-07-05 12:29:47 公開日:2023-07-03
# アンサンブルネットワークを用いたマルチバンド画像におけるストリーニングレンズ付きクエーサー同定

Streamlined Lensed Quasar Identification in Multiband Images via Ensemble Networks ( http://arxiv.org/abs/2307.01090v1 )

ライセンス: Link先を確認
Irham Taufik Andika, Sherry H. Suyu, Raoul Ca\~nameras, Alejandra Melo, Stefan Schuldt, Yiping Shu, Anna-Christina Eilers, Anton Timur Jaelani, Minghao Yue(参考訳) 強いレンズを経験するクエーサーは、宇宙の膨張率、前景の偏向器内の暗黒物質プロファイル、クエーサーのホスト銀河などの主題に独自の視点を提供する。 残念なことに、これらを天文学的な画像で識別することは困難である。 そこで我々は,近縁畳み込みネットワーク(CNN),すなわちResNet,Inception,NASNet,MobileNet,EfficientNet,RegNetを,Hyper Suprime-Cam(HSC)マルチバンド画像に基づく現実的な銀河赤外レンズシミュレーションに基づいて学習した視覚変換器(ViT)と組み合わせることで,新しいアプローチを開発した。 個々のモデルは、テストデータセットに対して評価した場合に顕著な性能を示し、受信側特性曲線の97.4%、中央値の偽陽性率3.1%の領域を達成するが、各分類器が選択した多数のスプリアスソースによって示される実際のデータの一般化に苦慮している。 これらのcnnとvitを平均することで大幅な改善を達成し、その結果、不純物は最大40まで減少する。 その後、HSC画像とUKIRT、VISTA、unWISEデータを組み合わせることで、約6000万のソースを親サンプルとして取得し、光測定プリセレクションを用いて、Einstein radii of $\theta_\mathrm{E}<5$ arcsec のレンズ付きクエーサーを発見し、これを 892,609 に削減する。 その後、アンサンブル分類器は、高確率の3991ソースを示し、視覚的に検査し、分光確認を待っている161の候補を得た。 これらの結果は、自動化されたディープラーニングパイプラインが、手動による視覚検査が最小限である巨大なデータセットにおいて、強力なレンズを効果的に検出する大きな可能性を示唆している。

Quasars experiencing strong lensing offer unique viewpoints on subjects like the cosmic expansion rate, the dark matter profile within the foreground deflectors, and the quasar host galaxies. Unfortunately, identifying them in astronomical images is challenging since they are overwhelmed by the abundance of non-lenses. To address this, we have developed a novel approach by ensembling cutting-edge convolutional networks (CNNs) -- i.e., ResNet, Inception, NASNet, MobileNet, EfficientNet, and RegNet -- along with vision transformers (ViTs) trained on realistic galaxy-quasar lens simulations based on the Hyper Suprime-Cam (HSC) multiband images. While the individual model exhibits remarkable performance when evaluated against the test dataset, achieving an area under the receiver operating characteristic curve of $>$97.4% and a median false positive rate of 3.1%, it struggles to generalize in real data, indicated by numerous spurious sources picked by each classifier. A significant improvement is achieved by averaging these CNNs and ViTs, resulting in the impurities being downsized by factors up to 40. Subsequently, combining the HSC images with the UKIRT, VISTA, and unWISE data, we retrieve approximately 60 million sources as parent samples and reduce this to 892,609 after employing a photometry preselection to discover $z>1.5$ lensed quasars with Einstein radii of $\theta_\mathrm{E}<5$ arcsec. Afterward, the ensemble classifier indicates 3991 sources with a high probability of being lenses, for which we visually inspect, yielding 161 prevailing candidates awaiting spectroscopic confirmation. These outcomes suggest that automated deep learning pipelines hold great potential in effectively detecting strong lenses in vast datasets with minimal manual visual inspection involved.
翻訳日:2023-07-05 12:29:30 公開日:2023-07-03
# 分布シフトとロングテールデータによる現代視覚アーキテクチャのコンフォーマル予測の実証検証

Empirically Validating Conformal Prediction on Modern Vision Architectures Under Distribution Shift and Long-tailed Data ( http://arxiv.org/abs/2307.01088v1 )

ライセンス: Link先を確認
Kevin Kasa and Graham W. Taylor(参考訳) 共形予測は、信頼できる不確実性推定と安全性保証を備えたディープラーニングモデルを提供するための厳格な手段として現れてきた。 しかし、その性能は分布シフトや長い尾のクラス分布の下で劣化することが知られており、これは現実世界のアプリケーションでよく見られる。 本稿では,これらの設定下でのポストホックおよびトレーニングに基づく共形予測手法の性能を特徴付け,大規模データセットとモデルに対する最初の経験的評価を提供する。 多数のコンフォメーション手法やニューラルネットワークファミリーにおいて,分散シフトによる性能低下が安全保証を侵害していることを示す。 同様に、長い範囲の環境では保証が多くのクラスで頻繁に違反されることが示されます。 これらの手法の限界を理解することは、現実世界や安全クリティカルなアプリケーションへの展開に必要である。

Conformal prediction has emerged as a rigorous means of providing deep learning models with reliable uncertainty estimates and safety guarantees. Yet, its performance is known to degrade under distribution shift and long-tailed class distributions, which are often present in real world applications. Here, we characterize the performance of several post-hoc and training-based conformal prediction methods under these settings, providing the first empirical evaluation on large-scale datasets and models. We show that across numerous conformal methods and neural network families, performance greatly degrades under distribution shifts violating safety guarantees. Similarly, we show that in long-tailed settings the guarantees are frequently violated on many classes. Understanding the limitations of these methods is necessary for deployment in real world and safety-critical applications.
翻訳日:2023-07-05 12:28:48 公開日:2023-07-03
# 微分可能なエージェントベースモデルのキャリブレーションの課題

Some challenges of calibrating differentiable agent-based models ( http://arxiv.org/abs/2307.01085v1 )

ライセンス: Link先を確認
Arnau Quera-Bofarull, Joel Dyer, Anisoara Calinescu, Michael Wooldridge(参考訳) エージェントベースモデル(abms)は複雑なシステムのモデリングと推論に有望なアプローチであるが、実際にはその複雑性、離散的性質、パラメータ推論や最適化タスクの実行が困難である。 このことが、これらの困難に対処するための戦略として、差別化可能なabmの構築に興味を惹きつけたが、多くの課題が残っている。 本稿では,これらの課題のいくつかと潜在的な解決策を紹介する実験について述べる。

Agent-based models (ABMs) are a promising approach to modelling and reasoning about complex systems, yet their application in practice is impeded by their complexity, discrete nature, and the difficulty of performing parameter inference and optimisation tasks. This in turn has sparked interest in the construction of differentiable ABMs as a strategy for combatting these difficulties, yet a number of challenges remain. In this paper, we discuss and present experiments that highlight some of these challenges, along with potential solutions.
翻訳日:2023-07-05 12:28:34 公開日:2023-07-03
# ウィリアムソンの定理におけるシンプレクティック行列のブロック摂動:シンプレクティック固有値の多重性によって課される

Block perturbation of symplectic matrices in Williamson's theorem: imposed by multiplicities of symplectic eigenvalues ( http://arxiv.org/abs/2307.01078v1 )

ライセンス: Link先を確認
Gajendra Babu and Hemant K. Mishra(参考訳) ウィリアムソンの定理は、任意の 2n \times 2n$ 実正定値行列 $a$ に対して、$s^tas=d \oplus d$ となるような 2n \times 2n$ 実シンプレクティック行列 $s$ が存在し、ここで$d$ は$n\times n$ 対角行列であり、これは$a$ のシンプレクティック固有値として知られている。 H$ を任意の 2n \times 2n$ 実対称行列とし、摂動行列 $A+H$ もまた正定値である。 本稿では、ウィリアムソンの定理における任意のシンプレクティック行列 $\tilde{s}$ が $\tilde{s}=s q+\mathcal{o}(\|h\|)$ の形であることを示し、ここで、$q$ は直交行列と同様に 2n \times 2n$ 実シンプレクティックである。 さらに、$q$ は$\textit{symplectic block diagonal}$ で、ブロックサイズは$a$ のシンプレクティック固有値の倍数で与えられる。 したがって、$\tilde{S}$ と $S$ は $\|\tilde{S}-S\|=\mathcal{O}(\|H\|)$ となるように選択できる。 a$ が繰り返しシンプレクティック固有値を持つ場合でも、結果は成り立つ。 これは idel, gaona, wolf [$\textit{linear algebra appl] によって与えられる非簡約シンプレクティック固有値に対するシンプレクティック行列の安定性結果を一般化する。 , 525:45-58, 2017}$].

Williamson's theorem states that for any $2n \times 2n$ real positive definite matrix $A$, there exists a $2n \times 2n$ real symplectic matrix $S$ such that $S^TAS=D \oplus D$, where $D$ is an $n\times n$ diagonal matrix with positive diagonal entries which are known as the symplectic eigenvalues of $A$. Let $H$ be any $2n \times 2n$ real symmetric matrix such that the perturbed matrix $A+H$ is also positive definite. In this paper, we show that any symplectic matrix $\tilde{S}$ diagonalizing $A+H$ in Williamson's theorem is of the form $\tilde{S}=S Q+\mathcal{O}(\|H\|)$, where $Q$ is a $2n \times 2n$ real symplectic as well as orthogonal matrix. Moreover, $Q$ is in $\textit{symplectic block diagonal}$ form with the block sizes given by twice the multiplicities of the symplectic eigenvalues of $A$. Consequently, we show that $\tilde{S}$ and $S$ can be chosen so that $\|\tilde{S}-S\|=\mathcal{O}(\|H\|)$. Our results hold even if $A$ has repeated symplectic eigenvalues. This generalizes the stability result of symplectic matrices for non-repeated symplectic eigenvalues given by Idel, Gaona, and Wolf [$\textit{Linear Algebra Appl., 525:45-58, 2017}$].
翻訳日:2023-07-05 12:28:24 公開日:2023-07-03
# リアルタイム信号とデータ同化に基づく疫学的予測パラメータ予測の新しい手法

A novel approach for predicting epidemiological forecasting parameters based on real-time signals and Data Assimilation ( http://arxiv.org/abs/2307.01157v1 )

ライセンス: Link先を確認
Romain Molinas, C\'esar Quilodr\'an Casas, Rossella Arcucci, Ovidiu \c{S}erban(参考訳) 本稿では,新しいソーシャルメディアベースの人口密度マップや空気質データなど,様々な情報ソースからのリアルタイム信号を統合することで,疫学的パラメータを予測する手法を提案する。 我々は,様々なデータソースと融合手法を用いた畳み込みニューラルネットワーク(cnn)モデルのアンサンブルを実装し,ロバストな予測を構築し,政策立案者の意思決定プロセスを改善する可能性のあるいくつかの動的パラメータをシミュレートする。 さらに、融合したCNN予測からシステムの状態を推定するためにデータ同化を用いた。 気象信号とソーシャルメディアベースの人口密度マップの組み合わせは、ロンドンで発生したcovid-19流行予測の性能と柔軟性を改善した。 提案手法は,従来疾患予測(SEIR)に用いられてきたコンパートメンタルモデルなどの標準モデルよりも優れているが,ロバストで一貫した予測を生成することにより,精度を高めながらモデルの安定性を向上させることができる。

This paper proposes a novel approach to predict epidemiological parameters by integrating new real-time signals from various sources of information, such as novel social media-based population density maps and Air Quality data. We implement an ensemble of Convolutional Neural Networks (CNN) models using various data sources and fusion methodology to build robust predictions and simulate several dynamic parameters that could improve the decision-making process for policymakers. Additionally, we used data assimilation to estimate the state of our system from fused CNN predictions. The combination of meteorological signals and social media-based population density maps improved the performance and flexibility of our prediction of the COVID-19 outbreak in London. While the proposed approach outperforms standard models, such as compartmental models traditionally used in disease forecasting (SEIR), generating robust and consistent predictions allows us to increase the stability of our model while increasing its accuracy.
翻訳日:2023-07-05 12:22:31 公開日:2023-07-03
# 医用画像合成のための3次元潜伏拡散モデルにおけるデータ記憶の検討

Investigating Data Memorization in 3D Latent Diffusion Models for Medical Image Synthesis ( http://arxiv.org/abs/2307.01148v1 )

ライセンス: Link先を確認
Salman Ul Hassan Dar, Arman Ghanaat, Jannik Kahmann, Isabelle Ayx, Theano Papavassiliou, Stefan O. Schoenberg, Sandy Engelhardt(参考訳) 生成潜在拡散モデルはデータ生成の最先端として確立されている。 有望な応用の1つは、患者のプライバシーを損なうことなく、オープンデータ共有のための現実的な合成医療画像データを生成することである。 それにもかかわらず、敏感な患者のトレーニングデータを記憶し、トレーニングデータによく似たサンプルを合成するモデルの能力は、比較的未調査である。 本稿では, 冠動脈造影および膝磁気共鳴画像データセットを用いた3次元潜時拡散モデルの記憶能力の評価を行った。 トレーニングサンプルの潜在的な暗記を検出するために,コントラスト学習に基づく自己教師型モデルを用いる。 以上の結果から,このような潜伏拡散モデルがトレーニングデータを記憶し,記憶化を緩和するための戦略を考案する必要があることが示唆された。

Generative latent diffusion models have been established as state-of-the-art in data generation. One promising application is generation of realistic synthetic medical imaging data for open data sharing without compromising patient privacy. Despite the promise, the capacity of such models to memorize sensitive patient training data and synthesize samples showing high resemblance to training data samples is relatively unexplored. Here, we assess the memorization capacity of 3D latent diffusion models on photon-counting coronary computed tomography angiography and knee magnetic resonance imaging datasets. To detect potential memorization of training samples, we utilize self-supervised models based on contrastive learning. Our results suggest that such latent diffusion models indeed memorize training data, and there is a dire need for devising strategies to mitigate memorization.
翻訳日:2023-07-05 12:22:14 公開日:2023-07-03
# avsegformer:transformerによる視聴覚セグメンテーション

AVSegFormer: Audio-Visual Segmentation with Transformer ( http://arxiv.org/abs/2307.01146v1 )

ライセンス: Link先を確認
Shengyi Gao, Zhe Chen, Guo Chen, Wenhai Wang, Tong Lu(参考訳) オーディオと視覚の組み合わせは、長い間、マルチモーダルコミュニティにおける関心事であった。 近年,映像中の音源の特定とセグメント化を目的とした,音声視覚分割(AVS)タスクが導入されている。 このタスクは、初めて音声駆動のピクセルレベルのシーン理解を必要とする。 本稿では,トランスフォーマティブアーキテクチャを活用したavsタスクのための新しいフレームワークであるavsegformerを提案する。 具体的には、オーディオクエリと学習可能なクエリをtransformerデコーダに導入し、ネットワークが関心のある視覚機能に選択的に対応できるようにする。 また,無関係な空間チャネルを増幅・抑制することにより,視覚的な特徴を動的に調整できる視聴覚混合器を提案する。 さらに、デコーダの監視を強化するために中間マスク損失を考案し、より正確な中間予測を行うようネットワークに促す。 広範な実験により、avsegformerはavsベンチマークで最先端の結果を達成した。 コードはhttps://github.com/vvvb-github/AVSegFormerで入手できる。

The combination of audio and vision has long been a topic of interest in the multi-modal community. Recently, a new audio-visual segmentation (AVS) task has been introduced, aiming to locate and segment the sounding objects in a given video. This task demands audio-driven pixel-level scene understanding for the first time, posing significant challenges. In this paper, we propose AVSegFormer, a novel framework for AVS tasks that leverages the transformer architecture. Specifically, we introduce audio queries and learnable queries into the transformer decoder, enabling the network to selectively attend to interested visual features. Besides, we present an audio-visual mixer, which can dynamically adjust visual features by amplifying relevant and suppressing irrelevant spatial channels. Additionally, we devise an intermediate mask loss to enhance the supervision of the decoder, encouraging the network to produce more accurate intermediate predictions. Extensive experiments demonstrate that AVSegFormer achieves state-of-the-art results on the AVS benchmark. The code is available at https://github.com/vvvb-github/AVSegFormer.
翻訳日:2023-07-05 12:22:01 公開日:2023-07-03
# 単一光子レベルの超高速時間周波数フラクタルフーリエイメージング

Ultrafast electro-optic Time-Frequency Fractional Fourier Imaging at the Single-Photon Level ( http://arxiv.org/abs/2307.01141v1 )

ライセンス: Link先を確認
Micha{\l} Lipka and Micha{\l} Parniak(参考訳) フラクタルフーリエ変換(FRT)は位相空間における任意の角度回転(例えば時間周波数(TF)空間)に対応し、基本的に重要なフーリエ変換を一般化する。 FRTの応用は、古典的な信号処理(例えば時間相関ノイズ最適フィルタリング)から、コヒーレントな低雑音TF演算に依存する、または恩恵を受ける新しい量子技術(例えば超解像TFイメージング)まで様々である。 ここでは、FRTの多目的低雑音単一光子互換実装を示す。 光TFFRTは、スペクトル分散器、タイムレンズ、および他のスペクトル分散器のシリーズとして合成することができる。 電気光学変調器(eom, state-of-the-art electro-optic modulationor)を用いて,非線形相互作用(ウェーブミックス,クロスフェーズ変調,パラメトリックプロセスなど)に基づくオルタナティブノイズを回避した。 EOM駆動無線周波数信号の精密制御は、FRT角の高速全電子制御を可能にする。 実験では、近赤外(800nm)における11.5 ps幅のコヒーレントパルス対に対して、最大1.63 radのFRT角を示す。 明るい光と単一光子レベルの領域と、パルス分離(20psから26.67ps)の範囲において、シミュレーションおよび測定された出力スペクトルの良好な一致を観察した。 さらに、最大FRT角と帯域幅のトレードオフが確立され、現在のセットアップは最大248GHzの帯域幅を確保できる。 EOMオンチップ統合の進展に伴い、古典的および量子的状態において、全光TF処理における優れたスケーラビリティと膨大な応用を構想する。

The Fractional Fourier Transform (FRT) corresponds to an arbitrary-angle rotation in the phase space, e.g. the time-frequency (TF) space, and generalizes the fundamentally important Fourier Transform. FRT applications range from classical signal processing (e.g. time-correlated noise optimal filtering) to emerging quantum technologies (e.g. super-resolution TF imaging) which rely on or benefit from coherent low-noise TF operations. Here a versatile low-noise single-photon-compatible implementation of the FRT is presented. Optical TF FRT can be synthesized as a series of a spectral disperser, a time-lens, and another spectral disperser. Relying on the state-of-the-art electro-optic modulators (EOM) for the time-lens, our method avoids added noise inherent to the alternatives based on non-linear interactions (such as wave-mixing, cross-phase modulation, or parametric processes). Precise control of the EOM-driving radio-frequency signal enables fast all-electronic control of the FRT angle. In the experiment, we demonstrate FRT angles of up to 1.63 rad for pairs of coherent temporally separated 11.5 ps-wide pulses in the near-infrared (800 nm). We observe a good agreement between the simulated and measured output spectra in the bright-light and single-photon-level regimes, and for a range of pulse separations (20 ps to 26.67 ps). Furthermore, a tradeoff is established between the maximal FRT angle and bandwidth, with the current setup accommodating up to 248 GHz of bandwidth. With the ongoing progress in EOM on-chip integration, we envisage excellent scalability and vast applications in all-optical TF processing both in the classical and quantum regimes
翻訳日:2023-07-05 12:21:45 公開日:2023-07-03
# SCITUNE: 科学的マルチモーダル命令による大規模言語モデルの調整

SCITUNE: Aligning Large Language Models with Scientific Multimodal Instructions ( http://arxiv.org/abs/2307.01139v1 )

ライセンス: Link先を確認
Sameera Horawalavithana, Sai Munikoti, Ian Stewart, Henry Kvinge(参考訳) インストラクション微調整は、大きな言語モデル(LLM)を人間の意図に合わせるための一般的なパラダイムである。 その人気にもかかわらず、このアイデアは、既存の基礎モデルと科学的な規律、概念、目標を一致させるためにllmを改善するためにはあまり研究されていない。 本研究では,SciTuneを,LLMが科学的マルチモーダル命令に従う能力を向上させるためのチューニングフレームワークとして提示する。 本手法をテストするために,人間生成の科学命令チューニングデータセットを用いて,視覚エンコーダとllmを接続した大規模マルチモーダルモデルllama-scituneを訓練し,科学中心の視覚言語理解を行う。 マシン生成データのみで微調整されたモデルと比較して、LLaMA-SciTuneは平均的およびScienceQAベンチマーク上の多くのサブカテゴリで人のパフォーマンスを上回っている。

Instruction finetuning is a popular paradigm to align large language models (LLM) with human intent. Despite its popularity, this idea is less explored in improving the LLMs to align existing foundation models with scientific disciplines, concepts and goals. In this work, we present SciTune as a tuning framework to improve the ability of LLMs to follow scientific multimodal instructions. To test our methodology, we use a human-generated scientific instruction tuning dataset and train a large multimodal model LLaMA-SciTune that connects a vision encoder and LLM for science-focused visual and language understanding. In comparison to the models that are finetuned with machine generated data only, LLaMA-SciTune surpasses human performance on average and in many sub-categories on the ScienceQA benchmark.
翻訳日:2023-07-05 12:21:14 公開日:2023-07-03
# 生体概念リンクのための大規模言語モデルの文脈内学習能力の検討

Exploring the In-context Learning Ability of Large Language Model for Biomedical Concept Linking ( http://arxiv.org/abs/2307.01137v1 )

ライセンス: Link先を確認
Qinyong Wang, Zhenxiang Gao, Rong Xu(参考訳) バイオメディカル分野は、文献マイニング、グラフアライメント、情報検索、質問応答、データ、知識統合といった様々な分野のコンセプトリンクに大きく依存している。 大規模言語モデル(llm)は多くの自然言語処理タスクにおいて大きな進歩を遂げているが、その生物医学的概念マッピングにおける効果はまだ十分に検討されていない。 本研究では,大規模モデルの文脈内学習(icl)能力を生医学的概念リンクに活用する手法について検討する。 提案手法は2段階のレトリーブ・アンド・ランク・フレームワークを採用する。 当初、バイオメディカルな概念は言語モデルを用いて組み込まれ、その後、類似性を埋め込んで上位候補を検索する。 これらの候補の文脈情報はその後プロンプトに組み込まれ、大きな言語モデルによって処理され、概念を再ランクする。 このアプローチは、BC5CDR 病体正規化の90.%、化学体正規化の94.7%の精度を達成し、教師付き学習法と比較して競争性能を示した。 さらに,oncology matchingデータセットにおいて,f1スコアの絶対値が20ポイント以上増加した。 広範な質的評価を行い, 生体医学領域における大規模言語モデルの利用の利点と潜在的な欠点について考察した。 議論されました

The biomedical field relies heavily on concept linking in various areas such as literature mining, graph alignment, information retrieval, question-answering, data, and knowledge integration. Although large language models (LLMs) have made significant strides in many natural language processing tasks, their effectiveness in biomedical concept mapping is yet to be fully explored. This research investigates a method that exploits the in-context learning (ICL) capabilities of large models for biomedical concept linking. The proposed approach adopts a two-stage retrieve-and-rank framework. Initially, biomedical concepts are embedded using language models, and then embedding similarity is utilized to retrieve the top candidates. These candidates' contextual information is subsequently incorporated into the prompt and processed by a large language model to re-rank the concepts. This approach achieved an accuracy of 90.% in BC5CDR disease entity normalization and 94.7% in chemical entity normalization, exhibiting a competitive performance relative to supervised learning methods. Further, it showed a significant improvement, with an over 20-point absolute increase in F1 score on an oncology matching dataset. Extensive qualitative assessments were conducted, and the benefits and potential shortcomings of using large language models within the biomedical domain were discussed. were discussed.
翻訳日:2023-07-05 12:20:58 公開日:2023-07-03
# chatgpt vs. google: 検索のパフォーマンスとユーザエクスペリエンスの比較研究

ChatGPT vs. Google: A Comparative Study of Search Performance and User Experience ( http://arxiv.org/abs/2307.01135v1 )

ライセンス: Link先を確認
Ruiyun Xu (Rayna), Yue Feng (Katherine), and Hailiang Chen(参考訳) 大規模な言語モデルによるチャットボットChatGPTの出現は、従来の検索エンジンにその可能性について疑問を呈している。 本研究では,情報検索タスクに検索エンジンとチャットボットツールを用いる場合のユーザの行動の違いについて検討する。 ランダムなオンライン実験を行い、参加者をChatGPTのようなツールとGoogle検索のようなツールを使って2つのグループに分けました。 以上の結果から,ChatGPT群は全タスクに連続的に費やす時間が少なく,グループ間でのタスクパフォーマンスに有意な差は認められなかった。 特にChatGPTは、さまざまな教育レベルのユーザー検索性能をレベル付けし、簡単な質問に答え、一般的なソリューションを提供するのに優れています。 ユーザーはchatgptの反応をgoogle検索に比べて情報品質が高いと認識するが、両者の信頼度は同等である。 さらに、ChatGPTの参加者は、有用性、楽しみ、満足度の観点から、ユーザエクスペリエンスを著しく改善する一方、使いやすさは両ツール間で比較できる。 しかし、ChatGPTは過度に信頼し、誤った情報を生成または複製し、一貫性のない結果をもたらす可能性がある。 本研究は、検索エンジン管理に有用な洞察を与え、チャットボット技術を検索エンジン設計に統合する機会を強調する。

The advent of ChatGPT, a large language model-powered chatbot, has prompted questions about its potential implications for traditional search engines. In this study, we investigate the differences in user behavior when employing search engines and chatbot tools for information-seeking tasks. We carry out a randomized online experiment, dividing participants into two groups: one using a ChatGPT-like tool and the other using a Google Search-like tool. Our findings reveal that the ChatGPT group consistently spends less time on all tasks, with no significant difference in overall task performance between the groups. Notably, ChatGPT levels user search performance across different education levels and excels in answering straightforward questions and providing general solutions but falls short in fact-checking tasks. Users perceive ChatGPT's responses as having higher information quality compared to Google Search, despite displaying a similar level of trust in both tools. Furthermore, participants using ChatGPT report significantly better user experiences in terms of usefulness, enjoyment, and satisfaction, while perceived ease of use remains comparable between the two tools. However, ChatGPT may also lead to overreliance and generate or replicate misinformation, yielding inconsistent results. Our study offers valuable insights for search engine management and highlights opportunities for integrating chatbot technologies into search engine designs.
翻訳日:2023-07-05 12:20:34 公開日:2023-07-03
# 知識グラフ構築のための反復ゼロショットLDMプロンプト

Iterative Zero-Shot LLM Prompting for Knowledge Graph Construction ( http://arxiv.org/abs/2307.01128v1 )

ライセンス: Link先を確認
Salvatore Carta, Alessandro Giuliani, Leonardo Piano, Alessandro Sebastian Podda, Livio Pompianu, Sandro Gabriele Tiddia(参考訳) 現在のデジタル化時代において、知識を収集し、効果的に表現することは、ほとんどの現実世界のシナリオにおいて不可欠である。 この文脈では、知識グラフは、適切に相互接続され解釈可能な構造において、膨大な量の情報を検索し整理するための強力なツールである。 しかし、それらの世代は依然として困難であり、しばしば人的努力とドメインの専門知識を必要とし、異なるアプリケーション分野にわたるスケーラビリティと柔軟性を妨げる。 本稿では,知識グラフ構築における主要な課題に対処可能な,GPT-3.5のような最新の生成型大規模言語モデルの可能性を活用する,革新的な知識グラフ生成手法を提案する。 このアプローチは、生成プロセスの主要な段階で、新しい反復的なゼロショットと外部知識に依存しない戦略を含むパイプラインで伝達される。 我々の独特な多様体的アプローチは、科学界に大きな利益をもたらすかもしれない。 特に、主な貢献は次のようにまとめることができる。 i) 最終グラフの関連成分を抽出するために,大規模言語モデルを反復的に促すイノベーティブな戦略 (二)各プロンプトに対するゼロショット戦略、すなわち、プロンプト結果を「導く」ための例を提供する必要がないこと。 (iii)llmの採用は外部のリソースや人材の専門知識を必要としないため、スケーラブルなソリューションである。 提案モデルの有効性を評価するため,特定の領域をカバーするデータセットを用いて実験を行った。 この提案はスケーラブルで汎用的な知識グラフ構築に適したソリューションであり、異なる文脈や新しい文脈に適用できると主張している。

In the current digitalization era, capturing and effectively representing knowledge is crucial in most real-world scenarios. In this context, knowledge graphs represent a potent tool for retrieving and organizing a vast amount of information in a properly interconnected and interpretable structure. However, their generation is still challenging and often requires considerable human effort and domain expertise, hampering the scalability and flexibility across different application fields. This paper proposes an innovative knowledge graph generation approach that leverages the potential of the latest generative large language models, such as GPT-3.5, that can address all the main critical issues in knowledge graph building. The approach is conveyed in a pipeline that comprises novel iterative zero-shot and external knowledge-agnostic strategies in the main stages of the generation process. Our unique manifold approach may encompass significant benefits to the scientific community. In particular, the main contribution can be summarized by: (i) an innovative strategy for iteratively prompting large language models to extract relevant components of the final graph; (ii) a zero-shot strategy for each prompt, meaning that there is no need for providing examples for "guiding" the prompt result; (iii) a scalable solution, as the adoption of LLMs avoids the need for any external resources or human expertise. To assess the effectiveness of our proposed model, we performed experiments on a dataset that covered a specific domain. We claim that our proposal is a suitable solution for scalable and versatile knowledge graph construction and may be applied to different and novel contexts.
翻訳日:2023-07-05 12:20:12 公開日:2023-07-03
# クロスモダリティアテンションアダプタ:マルチモーダル脳mr画像を用いたsamのグリオーマセグメンテーション微調整法

Cross-modality Attention Adapter: A Glioma Segmentation Fine-tuning Method for SAM Using Multimodal Brain MR Images ( http://arxiv.org/abs/2307.01124v1 )

ライセンス: Link先を確認
Xiaoyu Shi, Shurong Chai, Yinhao Li, Jingliang Cheng, Jie Bai, Guohua Zhao and Yen-Wei Chen(参考訳) 2021年世界保健機関(WHO)のグリオーマ分類計画によると、グリオーマの分類は診断と遺伝子型予測にとって非常に重要な基盤である。 一般に、3次元多モード脳MRIは効果的な診断ツールである。 過去10年間で、医療画像処理における機械学習、特にディープラーニングの利用が増加している。 基礎モデルの開発により、大規模データセットで事前訓練されたモデルは、様々なタスクにおいてより良い結果を得た。 しかし、小さなデータセットサイズを持つ医療画像の場合、ディープラーニング手法は実際の画像データセットでより良い結果を得るのに苦労する。 本稿では、マルチモーダル核融合に基づく多モードアテンダアダプタを提案し、より優れた結果を得たマルチモーダルMRI脳画像におけるグリオーマセグメンテーションのタスクを達成できるように基礎モデルを微調整する。 提案手法の有効性は,中国・成州市第一附属病院から得られた個人用グリオーマデータを用いて検証した。 提案手法は, 88.38%, ハウスドルフ距離10.64の現在の方法よりも優れており, グリオーマ治療のためのグリオーマ領域を分画するために, diceが4%増加した。

According to the 2021 World Health Organization (WHO) Classification scheme for gliomas, glioma segmentation is a very important basis for diagnosis and genotype prediction. In general, 3D multimodal brain MRI is an effective diagnostic tool. In the past decade, there has been an increase in the use of machine learning, particularly deep learning, for medical images processing. Thanks to the development of foundation models, models pre-trained with large-scale datasets have achieved better results on a variety of tasks. However, for medical images with small dataset sizes, deep learning methods struggle to achieve better results on real-world image datasets. In this paper, we propose a cross-modality attention adapter based on multimodal fusion to fine-tune the foundation model to accomplish the task of glioma segmentation in multimodal MRI brain images with better results. The effectiveness of the proposed method is validated via our private glioma data set from the First Affiliated Hospital of Zhengzhou University (FHZU) in Zhengzhou, China. Our proposed method is superior to current state-of-the-art methods with a Dice of 88.38% and Hausdorff distance of 10.64, thereby exhibiting a 4% increase in Dice to segment the glioma region for glioma treatment.
翻訳日:2023-07-05 12:19:49 公開日:2023-07-03
# アーティファクトマッピング:オブジェクト検出と3次元局所化のためのマルチモーダル意味マッピング

Artifacts Mapping: Multi-Modal Semantic Mapping for Object Detection and 3D Localization ( http://arxiv.org/abs/2307.01121v1 )

ライセンス: Link先を確認
Federico Rollo, Gennaro Raiola, Andrea Zunino, Nikolaos Tsagarakis, Arash Ajoudani(参考訳) 幾何学的ナビゲーションは現在、ロボット工学の確立された分野であり、セマンティックマッピングのような高度なシーン理解に焦点が移っている。 ロボットが環境と相互作用する必要がある場合、その環境の文脈情報を理解できなければならない。 この作業は、構築中の(SLAM)またはすでに構築されている、マップ内のオブジェクトの分類とローカライズに焦点を当てている。 この方向をさらに探求するため,マルチモーダルセンサフュージョン(RGBとRGB-Dカメラとライダーからの深度データを組み合わせた)を用いて,既定義物体を既知の環境下で自律的に検出・ローカライズするフレームワークを提案する。 フレームワークは、RGBデータによる環境理解、マルチモーダルセンサー融合による深さ推定、アーティファクトの管理(フィルタリングと安定化測定)の3つの重要な要素で構成されている。 実験の結果,提案フレームワークは実サンプル環境におけるオブジェクトの98%を後処理なしで正確に検出でき,対象物の85%と80%は1台のRGBDカメラまたはRGB + lidar設定でマッピングされていることがわかった。 単一センサー(カメラまたはライダー)との比較実験により、センサー融合によりロボットは、純粋に視覚的またはレーザーベースのアプローチでノイズや不正確であった近距離障害物を正確に検出できることを示した。

Geometric navigation is nowadays a well-established field of robotics and the research focus is shifting towards higher-level scene understanding, such as Semantic Mapping. When a robot needs to interact with its environment, it must be able to comprehend the contextual information of its surroundings. This work focuses on classifying and localising objects within a map, which is under construction (SLAM) or already built. To further explore this direction, we propose a framework that can autonomously detect and localize predefined objects in a known environment using a multi-modal sensor fusion approach (combining RGB and depth data from an RGB-D camera and a lidar). The framework consists of three key elements: understanding the environment through RGB data, estimating depth through multi-modal sensor fusion, and managing artifacts (i.e., filtering and stabilizing measurements). The experiments show that the proposed framework can accurately detect 98% of the objects in the real sample environment, without post-processing, while 85% and 80% of the objects were mapped using the single RGBD camera or RGB + lidar setup respectively. The comparison with single-sensor (camera or lidar) experiments is performed to show that sensor fusion allows the robot to accurately detect near and far obstacles, which would have been noisy or imprecise in a purely visual or laser-based approach.
翻訳日:2023-07-05 12:19:26 公開日:2023-07-03
# Neural Hilbert Ladders:関数空間における多層ニューラルネットワーク

Neural Hilbert Ladders: Multi-Layer Neural Networks in Function Space ( http://arxiv.org/abs/2307.01177v1 )

ライセンス: Link先を確認
Zhengdao Chen(参考訳) ニューラルネットワーク(NN)によって探索される関数空間の特性は、ディープラーニング理論の重要な側面である。 本研究では、任意の幅を持つ多層NNを、NHL(Neural Hilbert Ladder)と呼ばれるカーネルヒルベルト空間(RKHS)の特定の階層として定義する。 これにより、浅いNNの事前結果を一般化する関数空間と複雑性尺度を定義でき、その理論的性質といくつかの側面でその意味を検証できる。 まず, l-layer nns と l-level nhls に属する関数の対応を証明した。 第2に,NHLを複雑度制御で学習するための一般化保証を証明した。 第3に、無限幅平均場限界における多層NNの訓練に対応して、複数のランダムフィールドのダイナミクスとして特徴づけられるNHLの進化を導出する。 第4に、ReLUおよび二次活性化関数の下でのNHLの深度分離の例を示す。 最後に,この理論を数値的な結果で補完し,nn学習におけるrkhsの学習を説明する。

The characterization of the functions spaces explored by neural networks (NNs) is an important aspect of deep learning theory. In this work, we view a multi-layer NN with arbitrary width as defining a particular hierarchy of reproducing kernel Hilbert spaces (RKHSs), named a Neural Hilbert Ladder (NHL). This allows us to define a function space and a complexity measure that generalize prior results for shallow NNs, and we then examine their theoretical properties and implications in several aspects. First, we prove a correspondence between functions expressed by L-layer NNs and those belonging to L-level NHLs. Second, we prove generalization guarantees for learning an NHL with the complexity measure controlled. Third, corresponding to the training of multi-layer NNs in the infinite-width mean-field limit, we derive an evolution of the NHL characterized as the dynamics of multiple random fields. Fourth, we show examples of depth separation in NHLs under ReLU and quadratic activation functions. Finally, we complement the theory with numerical results to illustrate the learning of RKHS in NN training.
翻訳日:2023-07-05 12:10:58 公開日:2023-07-03
# エントロピーの量子ニューラル推定

Quantum Neural Estimation of Entropies ( http://arxiv.org/abs/2307.01171v1 )

ライセンス: Link先を確認
Ziv Goldfeld, Dhrumil Patel, Sreejith Sreekumar, and Mark M. Wilde(参考訳) エントロピー測度は、量子システムに存在する情報量と相関を定量化する。 実際には、量子状態が未知でそのコピーのみが利用可能である場合には、そのようなエントロピー測度の推定に頼る必要がある。 ここでは、フォン・ノイマンとR'enyiエントロピーを推定するための変分量子アルゴリズムと、測定された相対エントロピーと測定されたR'enyi相対エントロピーを提案する。 提案手法は,まず量子回路と古典的ニューラルネットワークによる関心度測定の変分式をパラメータ化し,パラメータ空間上での目的を最適化する。 ノイズレス量子シミュレータを用いて,我々の量子アルゴリズムの数値シミュレーションを行った。 このアルゴリズムは、テストした例の様々なエントロピー測度を正確に推定し、下流タスクでの使用に有望なアプローチとして表現する。

Entropy measures quantify the amount of information and correlations present in a quantum system. In practice, when the quantum state is unknown and only copies thereof are available, one must resort to the estimation of such entropy measures. Here we propose a variational quantum algorithm for estimating the von Neumann and R\'enyi entropies, as well as the measured relative entropy and measured R\'enyi relative entropy. Our approach first parameterizes a variational formula for the measure of interest by a quantum circuit and a classical neural network, and then optimizes the resulting objective over parameter space. Numerical simulations of our quantum algorithm are provided, using a noiseless quantum simulator. The algorithm provides accurate estimates of the various entropy measures for the examples tested, which renders it as a promising approach for usage in downstream tasks.
翻訳日:2023-07-05 12:10:40 公開日:2023-07-03
# オンライン近隣分類

Online nearest neighbor classification ( http://arxiv.org/abs/2307.01170v1 )

ライセンス: Link先を確認
Sanjoy Dasgupta and Geelon So(参考訳) 本研究では,オンライン非パラメトリック分類の事例について検討する。 特に、古典的な1-アネレスト近傍のアルゴリズムを考察し、それが実現可能な環境で支配的あるいはスムーズな敵に対するサブ線形後悔(すなわち消滅する誤り率)を達成することを示す。

We study an instance of online non-parametric classification in the realizable setting. In particular, we consider the classical 1-nearest neighbor algorithm, and show that it achieves sublinear regret - that is, a vanishing mistake rate - against dominated or smoothed adversaries in the realizable setting.
翻訳日:2023-07-05 12:10:26 公開日:2023-07-03
# 等質制約最適化のための2座標2次更新の解析と改善

Analyzing and Improving Greedy 2-Coordinate Updates for Equality-Constrained Optimization via Steepest Descent in the 1-Norm ( http://arxiv.org/abs/2307.01169v1 )

ライセンス: Link先を確認
Amrutha Varshini Ramesh, Aaron Mishkin, Mark Schmidt, Yihan Zhou, Jonathan Wilder Lavington, Jennifer She(参考訳) 我々は,変数の和制約を受ける滑らかな関数の最小化を検討する。 この問題に対するグリーディ 2-座標更新と1-ノルムにおける等式制約付き急降下との接続を利用することで、確率選択よりも高速で問題次元$n$の独立な近位ポリアック-ロジャシエヴィチ仮定の下でグリーディ選択の収束率を与える。 次に、サポートベクトルマシン双対問題において生じるような、和制約と有界制約の両方で最小化を検討する。 この設定の既存のgreedyルールは、自明な進行のみを保証するか、計算に$O(n^2)$時間を必要とする。 L1-ノルムにおける有界和の制約付き急降下は、以前の規則よりも反復毎の進行を保証し、O(n \log n)$時間でしか計算できないことを示す。

We consider minimizing a smooth function subject to a summation constraint over its variables. By exploiting a connection between the greedy 2-coordinate update for this problem and equality-constrained steepest descent in the 1-norm, we give a convergence rate for greedy selection under a proximal Polyak-Lojasiewicz assumption that is faster than random selection and independent of the problem dimension $n$. We then consider minimizing with both a summation constraint and bound constraints, as arises in the support vector machine dual problem. Existing greedy rules for this setting either guarantee trivial progress only or require $O(n^2)$ time to compute. We show that bound- and summation-constrained steepest descent in the L1-norm guarantees more progress per iteration than previous rules and can be computed in only $O(n \log n)$ time.
翻訳日:2023-07-05 12:10:21 公開日:2023-07-03
# フリーズしないで! ファインチューンエンコーダーで自走式HARを改良

Don't freeze: Finetune encoders for better Self-Supervised HAR ( http://arxiv.org/abs/2307.01168v1 )

ライセンス: Link先を確認
Vitor Fortes Rey, Dominique Nshimyimana, Paul Lukowicz(参考訳) 近年,ラベル付きデータアベイラビリティ問題に対する解決策として,人間行動認識の分野で自己教師あり学習が提案されている。 レコンストラクションやコントラスト的予測符号化といったプリテキストタスクを使用することで、有用な表現を学習して分類することができる、というのがその考え方だ。 これらのアプローチは事前訓練、凍結、微調整の手順に従う。 本稿では,簡単な変更 – 表現を凍結するのではなく – が,プレテキストタスク間での大幅なパフォーマンス向上をもたらすことを示す。 この改善は、調査された4つのデータセット、および4つのプレテキストタスクすべてで発見され、ラベル付きデータの量に逆比例する。 さらに、プリテキストタスクがcapture24データセット上で実行されるか、ターゲットデータセットのラベルなしデータで直接実行されるかが、その効果を示す。

Recently self-supervised learning has been proposed in the field of human activity recognition as a solution to the labelled data availability problem. The idea being that by using pretext tasks such as reconstruction or contrastive predictive coding, useful representations can be learned that then can be used for classification. Those approaches follow the pretrain, freeze and fine-tune procedure. In this paper we will show how a simple change - not freezing the representation - leads to substantial performance gains across pretext tasks. The improvement was found in all four investigated datasets and across all four pretext tasks and is inversely proportional to amount of labelled data. Moreover the effect is present whether the pretext task is carried on the Capture24 dataset or directly in unlabelled data of the target dataset.
翻訳日:2023-07-05 12:10:02 公開日:2023-07-03
# 戦略的非局所分布シフトのための結合勾配流れ

Coupled Gradient Flows for Strategic Non-Local Distribution Shift ( http://arxiv.org/abs/2307.01166v1 )

ライセンス: Link先を確認
Lauren Conger, Franca Hoffmann, Eric Mazumdar, Lillian Ratliff(参考訳) 本稿では,学習アルゴリズムとデプロイ対象の分布のフィードバックループをキャプチャする,実世界のシステムにおける分散シフトのダイナミクスを解析するための新しいフレームワークを提案する。 先行研究は主に、フィードバックによって引き起こされる分布シフトを敵対的あるいは過度に単純化された分布シフト構造を通してモデル化する。 これとは対照的に,アルゴリズム決定,非局所内在性集団間相互作用,および他の外因性分布シフトの源泉に対する戦略応答から生じる複雑なダイナミクスを考慮し,時間とともに分布のきめ細かい変化を捉える結合偏微分方程式モデルを提案する。 機械学習では,情報非対称性を伴う協調的な設定と,学習者が戦略的ユーザと直面する競争的な設定の2つが共通する。 これらの2つの設定において、アルゴリズムが勾配降下によって再訓練されると、モデルパラメーターの観点から明示的な速度を得るために、有限次元と無限次元の両方において、再訓練手順の漸近収束が証明される。 そのため、多種多様なシステムで知られていることを拡張した結合PDEの収束に関する新たな結果を得る。 実験により,本手法はより単純なモデルでは捉えられない偏極や異なる影響など,十分に文書化された形態の分布変化を捉えることができることを示した。

We propose a novel framework for analyzing the dynamics of distribution shift in real-world systems that captures the feedback loop between learning algorithms and the distributions on which they are deployed. Prior work largely models feedback-induced distribution shift as adversarial or via an overly simplistic distribution-shift structure. In contrast, we propose a coupled partial differential equation model that captures fine-grained changes in the distribution over time by accounting for complex dynamics that arise due to strategic responses to algorithmic decision-making, non-local endogenous population interactions, and other exogenous sources of distribution shift. We consider two common settings in machine learning: cooperative settings with information asymmetries, and competitive settings where a learner faces strategic users. For both of these settings, when the algorithm retrains via gradient descent, we prove asymptotic convergence of the retraining procedure to a steady-state, both in finite and in infinite dimensions, obtaining explicit rates in terms of the model parameters. To do so we derive new results on the convergence of coupled PDEs that extends what is known on multi-species systems. Empirically, we show that our approach captures well-documented forms of distribution shifts like polarization and disparate impacts that simpler models cannot capture.
翻訳日:2023-07-05 12:09:48 公開日:2023-07-03
# アクティブフォーミングによる事前学習による言語可塑性の向上

Improving Language Plasticity via Pretraining with Active Forgetting ( http://arxiv.org/abs/2307.01163v1 )

ライセンス: Link先を確認
Yihong Chen, Kelly Marchisio, Roberta Raileanu, David Ifeoluwa Adelani, Pontus Stenetor, Sebastian Riedel, Mikel Artetx(参考訳) プリトレーニング言語モデル(plm)は現在、自然言語処理の主要なモデルである。 ダウンストリームのパフォーマンスは印象的なものですが、新しい言語にplmを適用するのは困難です。 以前の作業では、新しい言語用の新しい埋め込みレイヤを学ぶことでこの問題に対処できることが示されているが、データと計算非効率の両方がそうである。 本稿では,新しい言語に迅速に適応できるPLMの作成方法として,事前学習中に能動的に忘れる機構を提案する。 具体的には、プレトレーニング中のK更新毎に埋め込み層をリセットすることで、メタ学習効果と同様に、限られた数の更新で新しい埋め込みを学習する能力を改善することをPLMに推奨する。 RoBERTaを用いた実験では、言語適応の高速化だけでなく、特に英語から離れた言語において、低データ方式の標準モデルよりも優れていることが示されている。

Pretrained language models (PLMs) are today the primary model for natural language processing. Despite their impressive downstream performance, it can be difficult to apply PLMs to new languages, a barrier to making their capabilities universally accessible. While prior work has shown it possible to address this issue by learning a new embedding layer for the new language, doing so is both data and compute inefficient. We propose to use an active forgetting mechanism during pretraining, as a simple way of creating PLMs that can quickly adapt to new languages. Concretely, by resetting the embedding layer every K updates during pretraining, we encourage the PLM to improve its ability of learning new embeddings within a limited number of updates, similar to a meta-learning effect. Experiments with RoBERTa show that models pretrained with our forgetting mechanism not only demonstrate faster convergence during language adaptation but also outperform standard ones in a low-data regime, particularly for languages that are distant from English.
翻訳日:2023-07-05 12:09:24 公開日:2023-07-03
# 常温アルカリ金属蒸気の量子状態の最適化実験光トモグラフィー

Optimized experimental optical tomography of quantum states of room-temperature alkali-metal vapor ( http://arxiv.org/abs/2307.01160v1 )

ライセンス: Link先を確認
Marek Kopciuch, Magdalena Smolis, Adam Miranowicz, Szymon Pustelny(参考訳) 本稿では,集合密度行列の量子状態トモグラフィのための新しい実験手法を示す。 これは、原子蒸気を横切る光の偏光の測定に基づいている。 誤差に対する手法の堅牢性を評価するため,数値シミュレーションを用いて実験を行った。 これは、再構成の忠実度を決定するだけでなく、特定の実験パラメータの光のチューニングと測定数に対する再構成の質を分析することができる。 いわゆる条件数を利用することで、システムパラメータの特定のチューニングに最適化できることを示すとともに、測定を選択的に繰り返してさらなる改善が可能となる。 測定資源を最適化しながら,高忠実度量子状態再構成の可能性を強調した。

We demonstrate a novel experimental technique for quantum-state tomography of the collective density matrix. It is based on measurements of the polarization of light, traversing the atomic vapor. To assess the technique's robustness against errors, experimental investigations are supported with numerical simulations. This not only allows to determine the fidelity of the reconstruction, but also to analyze the quality of the reconstruction for specific experimental parameters light tuning and number of measurements). By utilizing the so-called conditional number, we demonstrate that the reconstruction can be optimized for a specific tuning of the system parameters, and further improvement is possible by selective repetition of the measurements. Our results underscore the potential high-fidelity quantum-state reconstruction while optimizing measurement resources.
翻訳日:2023-07-05 12:09:08 公開日:2023-07-03
# Soft Gripping: 信頼性の特定

Soft Gripping: Specifying for Trustworthiness ( http://arxiv.org/abs/2307.01159v1 )

ライセンス: Link先を確認
Dhaminda B. Abeywickrama, Nguyen Hao Le, Greg Chance, Peter D. Winter, Arianna Manzini, Alix J. Partridge, Jonathan Ives, John Downer, Graham Deacon, Jonathan Rossiter, Kerstin Eder, Shane Windsor(参考訳) ソフトロボティクス(soft robotics)は、エンジニアがさまざまなアプリケーションで使える柔軟なデバイスを作る新しい技術である。 ソフトロボットを広く採用するためには、その信頼性を保証することが不可欠である。 信頼性を示すためには、仕様を定式化し、信頼できるものを定義する必要があります。 しかし、ソフトロボティクスにおいて最も成熟した分野の一つであるソフトロボットグリッパーでさえ、ソフトロボティクスのコミュニティは、フォーメーション仕様にほとんど関心を示さなかった。 本稿では,ソフトロボットシステムの開発における仕様開発の重要性について検討し,食料品のピックアップ・アンド・プレースタスクのためのソフトグリッパーの広範な例を示す。 提案された仕様は、信頼性、安全性、適応性、予測可能性、倫理、規制など、機能的および非機能的要件の両方をカバーする。 また,ソフトグリップの設計において,第一級の目的として検証可能性を促進する必要性を強調した。

Soft robotics is an emerging technology in which engineers create flexible devices for use in a variety of applications. In order to advance the wide adoption of soft robots, ensuring their trustworthiness is essential; if soft robots are not trusted, they will not be used to their full potential. In order to demonstrate trustworthiness, a specification needs to be formulated to define what is trustworthy. However, even for soft robotic grippers, which is one of the most mature areas in soft robotics, the soft robotics community has so far given very little attention to formulating specifications. In this work, we discuss the importance of developing specifications during development of soft robotic systems, and present an extensive example specification for a soft gripper for pick-and-place tasks for grocery items. The proposed specification covers both functional and non-functional requirements, such as reliability, safety, adaptability, predictability, ethics, and regulations. We also highlight the need to promote verifiability as a first-class objective in the design of a soft gripper.
翻訳日:2023-07-05 12:08:59 公開日:2023-07-03
# マルチエージェント強化学習における本質的動機づけとしての心の理論

Theory of Mind as Intrinsic Motivation for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2307.01158v1 )

ライセンス: Link先を確認
Ini Oguntola, Joseph Campbell, Simon Stepputtis, Katia Sycara(参考訳) 他者の精神状態をモデル化する能力は、人間の社会的知性にとって不可欠であり、マルチエージェント環境で引き起こされる社会的ダイナミクスに関して、人工エージェントにも同様の利点を提供することができる。 本稿では,深いネットワークによってモデル化された政策の中で意味論的・人間解釈的信念を基礎づける手法を提案する。 次に,2次信念予測の課題について考察する。 各エージェントが他のエージェントの信念を予測する能力は,マルチエージェント強化学習の本質的な報奨信号として利用できることを提案する。 最後に,複合協調競争環境における予備実験結果を示す。

The ability to model the mental states of others is crucial to human social intelligence, and can offer similar benefits to artificial agents with respect to the social dynamics induced in multi-agent settings. We present a method of grounding semantically meaningful, human-interpretable beliefs within policies modeled by deep networks. We then consider the task of 2nd-order belief prediction. We propose that ability of each agent to predict the beliefs of the other agents can be used as an intrinsic reward signal for multi-agent reinforcement learning. Finally, we present preliminary empirical results in a mixed cooperative-competitive environment.
翻訳日:2023-07-05 12:08:42 公開日:2023-07-03
# 逐次プロキシ・トゥ・モージョン学習による世界空間における実時間単眼フルボディキャプチャ

Real-time Monocular Full-body Capture in World Space via Sequential Proxy-to-Motion Learning ( http://arxiv.org/abs/2307.01200v1 )

ライセンス: Link先を確認
Yuxiang Zhang, Hongwen Zhang, Liangxiao Hu, Hongwei Yi, Shengping Zhang, Yebin Liu(参考訳) モノクルモーションキャプチャーに対する学習ベースのアプローチは、最近データ駆動方式で回帰学習することで有望な結果を示している。 しかし、データ収集とネットワーク設計の課題のため、既存のソリューションが世界規模で正確でありながら、リアルタイムのフルボディキャプチャを実現することは依然として困難である。 本研究では,世界空間における2次元スケルトンシーケンスと3次元回転運動のプロキシデータセットとともに,シーケンシャルなプロキシ・ツー・モーション学習手法を提案する。 このようなプロキシデータにより,全体を正確に監視し,一般化問題を緩和しながら学習ベースのネットワークを構築することができる。 より正確かつ物理的に可能な予測のために,我々のネットワークでは,接触認識型神経運動降下モジュールが提案されている。 さらに、より互換性のある手首ポーズをフルボディモデルで再現するために、身体のコンテキスト情報をネットワークで共有する。 提案手法を応用して,世界空間における足底接点を有する実時間単眼フルボディキャプチャシステムを提案する。 より詳細なビデオ結果は、プロジェクトのページで確認できます。

Learning-based approaches to monocular motion capture have recently shown promising results by learning to regress in a data-driven manner. However, due to the challenges in data collection and network designs, it remains challenging for existing solutions to achieve real-time full-body capture while being accurate in world space. In this work, we contribute a sequential proxy-to-motion learning scheme together with a proxy dataset of 2D skeleton sequences and 3D rotational motions in world space. Such proxy data enables us to build a learning-based network with accurate full-body supervision while also mitigating the generalization issues. For more accurate and physically plausible predictions, a contact-aware neural motion descent module is proposed in our network so that it can be aware of foot-ground contact and motion misalignment with the proxy observations. Additionally, we share the body-hand context information in our network for more compatible wrist poses recovery with the full-body model. With the proposed learning-based solution, we demonstrate the first real-time monocular full-body capture system with plausible foot-ground contact in world space. More video results can be found at our project page: https://liuyebin.com/proxycap.
翻訳日:2023-07-05 12:03:07 公開日:2023-07-03
# NeuBTF:BTF符号化と転送のためのニューラルネットワーク

NeuBTF: Neural fields for BTF encoding and transfer ( http://arxiv.org/abs/2307.01199v1 )

ライセンス: Link先を確認
Carlos Rodriguez-Pardo, Konstantinos Kazatzis, Jorge Lopez-Moreno, Elena Garces(参考訳) ニューラルマテリアル表現は、レンダリングの材料を表現する一般的な方法になりつつある。 解析モデルよりも表現力が高く、タブ化されたBTFよりも少ないメモリを占有する。 しかし、既存のニューラルネットワーク材料は不変であり、訓練された後にUV、カメラ、光ベクトルの特定のクエリに対する出力が固定される。 これは、材料を編集する必要がなければ実用的であるが、トレーニングに使用する材料の破片が小さすぎる場合や、タイル式でない場合、ゴニオルエレクトロメータで捕獲された場合に頻繁に発生する場合、非常に制限される。 本稿では,btf圧縮,タイリング,外挿といった問題に共同で取り組む新しい神経材料表現を提案する。 本手法では,この入力画像の構造的特徴にニューラルBTFを条件付けるために,インプットとして誘導画像を用いる。 次に、UV、カメラ、光ベクトルを用いて、ニューラルBTFを通常のBTFとしてクエリすることができる。 我々のフレームワークの全てのコンポーネントは、最小限のパラメータ数と計算の複雑さでbtfエンコーディング品質を最大化するために意図的に設計されています。 本手法は, 様々な合成材料, 捕集材料に応用され, 様々な光学特性を学習するための汎用性と能力を示す。

Neural material representations are becoming a popular way to represent materials for rendering. They are more expressive than analytic models and occupy less memory than tabulated BTFs. However, existing neural materials are immutable, meaning that their output for a certain query of UVs, camera, and light vector is fixed once they are trained. While this is practical when there is no need to edit the material, it can become very limiting when the fragment of the material used for training is too small or not tileable, which frequently happens when the material has been captured with a gonioreflectometer. In this paper, we propose a novel neural material representation which jointly tackles the problems of BTF compression, tiling, and extrapolation. At test time, our method uses a guidance image as input to condition the neural BTF to the structural features of this input image. Then, the neural BTF can be queried as a regular BTF using UVs, camera, and light vectors. Every component in our framework is purposefully designed to maximize BTF encoding quality at minimal parameter count and computational complexity, achieving competitive compression rates compared with previous work. We demonstrate the results of our method on a variety of synthetic and captured materials, showing its generality and capacity to learn to represent many optical properties.
翻訳日:2023-07-05 12:02:49 公開日:2023-07-03
# 学習拡散によるサンプリングの改善

Improved sampling via learned diffusions ( http://arxiv.org/abs/2307.01198v1 )

ライセンス: Link先を確認
Lorenz Richter, Julius Berner, Guan-Horng Liu(参考訳) 近年,制御拡散過程を用いた非正規化対象密度からの深層学習アプローチが提案されている。 そこで本研究では,これらの手法をSchr\"odinger bridge problemの特別な場合として,所定の事前分布と指定された対象との確率的発展を求める。 我々は、時間反転拡散過程の経路空間測度間のばらつきに基づく変分定式化を導入することにより、この枠組みをさらに一般化する。 この抽象的な視点は、勾配に基づくアルゴリズムによって最適化され、特別なケースとして以前の目的を含む実用的な損失をもたらす。 同時に、モード崩壊に苦しむことが知られている逆のkullback-leiblerダイバージェンス以外のダイバージェンスも検討できる。 特に,良質な数値特性を示し,すべての検討手法で性能が著しく向上するいわゆる対数分散損失を提案する。

Recently, a series of papers proposed deep learning-based approaches to sample from unnormalized target densities using controlled diffusion processes. In this work, we identify these approaches as special cases of the Schr\"odinger bridge problem, seeking the most likely stochastic evolution between a given prior distribution and the specified target. We further generalize this framework by introducing a variational formulation based on divergences between path space measures of time-reversed diffusion processes. This abstract perspective leads to practical losses that can be optimized by gradient-based algorithms and includes previous objectives as special cases. At the same time, it allows us to consider divergences other than the reverse Kullback-Leibler divergence that is known to suffer from mode collapse. In particular, we propose the so-called log-variance loss, which exhibits favorable numerical properties and leads to significantly improved performance across all considered approaches.
翻訳日:2023-07-05 12:02:29 公開日:2023-07-03
# Segment Anythingがポイントトラッキングに挑戦

Segment Anything Meets Point Tracking ( http://arxiv.org/abs/2307.01197v1 )

ライセンス: Link先を確認
Frano Raji\v{c}, Lei Ke, Yu-Wing Tai, Chi-Keung Tang, Martin Danelljan, Fisher Yu(参考訳) segment anything model (sam) は強力なゼロショット画像セグメンテーションモデルとして確立されており、マスクを生成するポイントのようなインタラクティブなプロンプトを使用している。 本稿では SAM-PT について述べる。これは SAM の機能を拡張し,ダイナミックビデオ中のあらゆるものを追跡・セグメンテーションする手法である。 SAM-PTは、マスク生成のための堅牢でスパースな点選択と伝播技術を活用し、SAMベースのセグメンテーショントラッカーが、DAVIS、YouTube-VOS、MOSEを含む一般的なビデオオブジェクトセグメンテーションベンチマークにおいて、強力なゼロショット性能を得ることができることを示した。 従来のオブジェクト中心マスク伝播戦略と比較して,我々は,オブジェクトの意味に依存しない局所構造情報を活用するために,点伝播を用いる。 ゼロショットオープンワールドUnidentified Video Objects(UVO)ベンチマークの直接評価によるポイントベーストラッキングのメリットを強調した。 このアプローチをさらに強化するために,k-medoidsクラスタリングを用いて点初期化を行い,正の点と負の点の両方を追跡し,対象オブジェクトを明確に区別する。 また,マスクリファインメントのために複数のマスクデコードパスを採用し,トラッキング精度を向上させるために点再初期化戦略を考案した。 私たちのコードは、異なるポイントトラッカとビデオセグメンテーションベンチマークを統合し、https://github.com/syscv/sam-ptでリリースします。

The Segment Anything Model (SAM) has established itself as a powerful zero-shot image segmentation model, employing interactive prompts such as points to generate masks. This paper presents SAM-PT, a method extending SAM's capability to tracking and segmenting anything in dynamic videos. SAM-PT leverages robust and sparse point selection and propagation techniques for mask generation, demonstrating that a SAM-based segmentation tracker can yield strong zero-shot performance across popular video object segmentation benchmarks, including DAVIS, YouTube-VOS, and MOSE. Compared to traditional object-centric mask propagation strategies, we uniquely use point propagation to exploit local structure information that is agnostic to object semantics. We highlight the merits of point-based tracking through direct evaluation on the zero-shot open-world Unidentified Video Objects (UVO) benchmark. To further enhance our approach, we utilize K-Medoids clustering for point initialization and track both positive and negative points to clearly distinguish the target object. We also employ multiple mask decoding passes for mask refinement and devise a point re-initialization strategy to improve tracking accuracy. Our code integrates different point trackers and video segmentation benchmarks and will be released at https://github.com/SysCV/sam-pt.
翻訳日:2023-07-05 12:02:13 公開日:2023-07-03
# モバイル用大規模拡散モデルの構築

Squeezing Large-Scale Diffusion Models for Mobile ( http://arxiv.org/abs/2307.01193v1 )

ライセンス: Link先を確認
Jiwoong Choi, Minkyu Kim, Daehyun Ahn, Taesu Kim, Yulhwa Kim, Dongwon Jo, Hyesung Jeon, Jae-Joon Kim, Hyungjun Kim(参考訳) 拡散モデルの出現は高忠実度画像合成の範囲を大きく広げ、実用的な実装と学術研究の両方において顕著な進歩をもたらした。 さまざまな現実のアプリケーションでモデルがアクティブに採用されると、デバイス上でのデプロイの必要性は大幅に高まっている。 しかし、モバイルデバイスに10億以上のパラメータを持つ安定拡散のような大きな拡散モデルをデプロイすることは、計算資源やメモリリソースが限られているため、デバイスによって異なる可能性がある。 本稿では、iOSとAndroidデバイスの両方をサポートするTensorFlow Liteフレームワークを用いて、モバイルデバイスに安定拡散をデプロイするための課題と解決策を示す。 その結果,モバイルgpuを搭載したandroidデバイス上での512x512画像生成では,推定レイテンシが7秒未満になる。

The emergence of diffusion models has greatly broadened the scope of high-fidelity image synthesis, resulting in notable advancements in both practical implementation and academic research. With the active adoption of the model in various real-world applications, the need for on-device deployment has grown considerably. However, deploying large diffusion models such as Stable Diffusion with more than one billion parameters to mobile devices poses distinctive challenges due to the limited computational and memory resources, which may vary according to the device. In this paper, we present the challenges and solutions for deploying Stable Diffusion on mobile devices with TensorFlow Lite framework, which supports both iOS and Android devices. The resulting Mobile Stable Diffusion achieves the inference latency of smaller than 7 seconds for a 512x512 image generation on Android devices with mobile GPUs.
翻訳日:2023-07-05 12:01:50 公開日:2023-07-03
# 変圧器用変圧器

Trainable Transformer in Transformer ( http://arxiv.org/abs/2307.01189v1 )

ライセンス: Link先を確認
Abhishek Panigrahi, Sadhika Malladi, Mengzhou Xia, Sanjeev Arora(参考訳) 最近の研究は、大規模な事前訓練された言語モデルにおけるインコンテキスト学習(ICL)が、推論中に内部モデル(リニアまたは2層MLP)を暗黙的にシミュレートし、微調整する能力に起因している。 しかし、そのような構造はメモリオーバーヘッドが大きいため、より洗練された内部モデルのシミュレーションが困難になる。 本研究では,トランスフォーマーにおけるトランスフォーマー(略してTinT)の効率的な構築法を提案する。これにより,トランスフォーマーは推論中に内部的に複雑なモデルをシミュレートし,微調整することができる(例えば,事前訓練された言語モデル)。 特に,20億パラメータ未満のTinTモデルに対して,1回のフォワードパス内で1億2500万パラメータトランスフォーマーモデルをシミュレートし,微調整できる革新的な近似手法を導入する。 TinTは多くの変圧器の変種に対応しており、その設計思想は変圧器内部の単純なモデルの過去のインスタンス化の効率も改善している。 我々は、様々な言語モデリングおよび下流タスクにおいて、TinTの内部微調整手順を検証するためにエンドツーエンドの実験を行う。 例えば、1段階の予算が限られても、OPT-125Mモデルに対するTinTはOPT-125Mと比較して平均で4-16%向上する。 これらの結果から,大規模な事前学習言語モデルでは複雑なサブルーチンの実行が可能であることが示唆された。 さらなる作業を容易にするため、TinT用のモジュール化された拡張可能なコードベースが含まれている。

Recent works attribute the capability of in-context learning (ICL) in large pre-trained language models to implicitly simulating and fine-tuning an internal model (e.g., linear or 2-layer MLP) during inference. However, such constructions require large memory overhead, which makes simulation of more sophisticated internal models intractable. In this work, we propose an efficient construction, Transformer in Transformer (in short, TinT), that allows a transformer to simulate and fine-tune complex models internally during inference (e.g., pre-trained language models). In particular, we introduce innovative approximation techniques that allow a TinT model with less than 2 billion parameters to simulate and fine-tune a 125 million parameter transformer model within a single forward pass. TinT accommodates many common transformer variants and its design ideas also improve the efficiency of past instantiations of simple models inside transformers. We conduct end-to-end experiments to validate the internal fine-tuning procedure of TinT on various language modeling and downstream tasks. For example, even with a limited one-step budget, we observe TinT for a OPT-125M model improves performance by 4-16% absolute on average compared to OPT-125M. These findings suggest that large pre-trained language models are capable of performing intricate subroutines. To facilitate further work, a modular and extensible codebase for TinT is included.
翻訳日:2023-07-05 12:01:37 公開日:2023-07-03
# SAMAug:セグメンテーションモデルのためのポイントプロンプト拡張

SAMAug: Point Prompt Augmentation for Segment Anything Model ( http://arxiv.org/abs/2307.01187v1 )

ライセンス: Link先を確認
Haixing Dai, Chong Ma, Zhengliang Liu, Yiwei Li, Peng Shu, Xiaozheng Wei, Lin Zhao, Zihao Wu, Dajiang Zhu, Wei Liu, Quanzheng Li, Tianming Liu, and Xiang Li(参考訳) 本稿では,対話型画像分割性能を向上させるSegment Anything Model(SAM)のための新しい視覚点拡張手法であるSAMAugを紹介する。 SAMAugはSAMにさらなる情報を提供するために拡張ポイントプロンプトを生成する。 最初のポイントプロンプトからSAMは初期マスクを生成し、提案したSAMAugに入力して拡張ポイントプロンプトを生成する。 これらの追加ポイントを組み込むことで、samは拡張ポイントプロンプトと初期プロンプトに基づいて拡張セグメンテーションマスクを生成することができ、セグメンテーション性能が向上する。 ランダム選択法,最大差分エントロピー法,最大距離法,塩分モデルという4点拡張法を評価した。 COCO、Fundus、Chest X-rayデータセットの実験は、SAMAugがSAMのセグメンテーション結果、特に最大距離とサリエンシモデル手法を用いて促進できることを実証している。 SAMAugは、インタラクティブコンピュータビジョンモデルを進化させる視覚的プロンプト工学の可能性を強調している。

This paper introduces SAMAug, a novel visual point augmentation method for the Segment Anything Model (SAM) that enhances interactive image segmentation performance. SAMAug generates augmented point prompts to provide more information to SAM. From the initial point prompt, SAM produces the initial mask, which is then fed into our proposed SAMAug to generate augmented point prompts. By incorporating these extra points, SAM can generate augmented segmentation masks based on the augmented point prompts and the initial prompt, resulting in improved segmentation performance. We evaluate four point augmentation techniques: random selection, maximum difference entropy, maximum distance, and a saliency model. Experiments on the COCO, Fundus, and Chest X-ray datasets demonstrate that SAMAug can boost SAM's segmentation results, especially using the maximum distance and saliency model methods. SAMAug underscores the potential of visual prompt engineering to advance interactive computer vision models.
翻訳日:2023-07-05 12:01:12 公開日:2023-07-03
# 楕円体をランダム点の2次数に適合させる

Fitting an ellipsoid to a quadratic number of random points ( http://arxiv.org/abs/2307.01181v1 )

ライセンス: Link先を確認
Afonso S. Bandeira, Antoine Maillard, Shahar Mendelson, Elliot Paquette(参考訳) 我々は、中心楕円体の境界に対して$(\mathrm{p})$n$の標準ガウス確率ベクトルを$\mathbb{r}^d$ で満たす問題を$n, d \to \infty$ として考える。 任意の$\varepsilon > 0$ に対して、$n \leq (1 - \varepsilon) d^2 / 4$ ならば、$(\mathrm{P})$ は高い確率の解を持ち、$(\mathrm{P})$ は $n \geq (1 + \varepsilon) d^2 / 4$ である。 これまでのところ、負側は自明な有界な$n \geq d^2 / 2$しか知られておらず、正側は$n \leq d^2 / \mathrm{polylog}(d)$と仮定する。 本研究は, bartl & mendelson による, ランダムベクトルのグラム行列の濃度に関する重要な結果を用いて, 尾の挙動に関する軽度仮定の下で, 従来のアプローチよりも改善する。 これにより、$(\mathrm{P})$ が (おそらく大きい)定数 $C > 0$ に対して $n \leq d^2 / C$ が高確率で実現可能であるという簡単な証明を与えることができる。

We consider the problem $(\mathrm{P})$ of fitting $n$ standard Gaussian random vectors in $\mathbb{R}^d$ to the boundary of a centered ellipsoid, as $n, d \to \infty$. This problem is conjectured to have a sharp feasibility transition: for any $\varepsilon > 0$, if $n \leq (1 - \varepsilon) d^2 / 4$ then $(\mathrm{P})$ has a solution with high probability, while $(\mathrm{P})$ has no solutions with high probability if $n \geq (1 + \varepsilon) d^2 /4$. So far, only a trivial bound $n \geq d^2 / 2$ is known on the negative side, while the best results on the positive side assume $n \leq d^2 / \mathrm{polylog}(d)$. In this work, we improve over previous approaches using a key result of Bartl & Mendelson on the concentration of Gram matrices of random vectors under mild assumptions on their tail behavior. This allows us to give a simple proof that $(\mathrm{P})$ is feasible with high probability when $n \leq d^2 / C$, for a (possibly large) constant $C > 0$.
翻訳日:2023-07-05 12:00:56 公開日:2023-07-03
# PlanE: 平面グラフによる表現学習

PlanE: Representation Learning over Planar Graphs ( http://arxiv.org/abs/2307.01180v1 )

ライセンス: Link先を確認
Radoslav Dimitrov, Zeyang Zhao, Ralph Abboud, \.Ismail \.Ilkan Ceylan(参考訳) グラフニューラルネットワークは、グラフ上の表現学習のための顕著なモデルであり、学習されたグラフ関数がグラフ上の同型不変であるように、一連の変換を通じて入力グラフのノードの表現を反復的に計算し、学習された表現グラフ不変量にする。 一方、これらのモデルのクラスで学習されたグラフ不変量は不完全であることはよく知られている: 標準グラフニューラルネットワークでは区別できない非同型グラフのペアが存在する。 一般グラフにおけるグラフ同型テストの計算の難しさを考えると、これは驚くべきことではないが、平面グラフのような効率的なグラフ同型テストアルゴリズムが知られている特別なグラフクラスでは状況が異なっている。 この研究の目標は、平面グラフの完全不変量を効率的に学習するためのアーキテクチャを設計することである。 HopcroftとTarjanの古典的平面グラフ同型アルゴリズムに着想を得て,平面表現学習の枠組みとしてPlanEを提案する。 PlanEには、実用的な拡張性を維持しながら、平面グラフ上の完全な不変性を学習できるアーキテクチャが含まれている。 我々は、よく知られた平面グラフベンチマークで得られたモデルアーキテクチャの強力なパフォーマンスを実証的に検証し、複数の最先端結果を得る。

Graph neural networks are prominent models for representation learning over graphs, where the idea is to iteratively compute representations of nodes of an input graph through a series of transformations in such a way that the learned graph function is isomorphism invariant on graphs, which makes the learned representations graph invariants. On the other hand, it is well-known that graph invariants learned by these class of models are incomplete: there are pairs of non-isomorphic graphs which cannot be distinguished by standard graph neural networks. This is unsurprising given the computational difficulty of graph isomorphism testing on general graphs, but the situation begs to differ for special graph classes, for which efficient graph isomorphism testing algorithms are known, such as planar graphs. The goal of this work is to design architectures for efficiently learning complete invariants of planar graphs. Inspired by the classical planar graph isomorphism algorithm of Hopcroft and Tarjan, we propose PlanE as a framework for planar representation learning. PlanE includes architectures which can learn complete invariants over planar graphs while remaining practically scalable. We empirically validate the strong performance of the resulting model architectures on well-known planar graph benchmarks, achieving multiple state-of-the-art results.
翻訳日:2023-07-05 12:00:23 公開日:2023-07-03
# ddpm目標を用いたガウス語の混合学習

Learning Mixtures of Gaussians Using the DDPM Objective ( http://arxiv.org/abs/2307.01178v1 )

ライセンス: Link先を確認
Kulin Shah, Sitan Chen, Adam Klivans(参考訳) 近年の研究では、拡散モデルが本質的に任意の分布を学習できることが示されている。 しかし、このタスクの実際的な勾配に基づくアルゴリズムが確実に成功する場合は言うまでもなく、どの設定スコア推定が可能かは、まだよく分かっていない。 本研究では、最も基本的な分布族であるガウス混合モデルに対して、これらの線に沿って初めて証明可能な効率的な結果を与える。 DDPM(denoising diffusion probabilistic model)目標の勾配勾配は,混合モデルの基底真理パラメータを,以下の2つの設定で効率的に回収できることを示す。 1) ランダム初期化による勾配降下は, 1/\text{poly}(d)$-セパレートセンターと$d$次元の2つの球状ガウスの混合を学習する。 2) 温暖なスタートの勾配降下は,$k$球面ガウスと$\omega(\sqrt{\log(\min(k,d))})$-分離中心の混合物を学習する。 この証明の鍵となる要素は、スコアベース手法と、分布学習における他の2つのアプローチ、EMアルゴリズムとスペクトル法との新たな接続である。

Recent works have shown that diffusion models can learn essentially any distribution provided one can perform score estimation. Yet it remains poorly understood under what settings score estimation is possible, let alone when practical gradient-based algorithms for this task can provably succeed. In this work, we give the first provably efficient results along these lines for one of the most fundamental distribution families, Gaussian mixture models. We prove that gradient descent on the denoising diffusion probabilistic model (DDPM) objective can efficiently recover the ground truth parameters of the mixture model in the following two settings: 1) We show gradient descent with random initialization learns mixtures of two spherical Gaussians in $d$ dimensions with $1/\text{poly}(d)$-separated centers. 2) We show gradient descent with a warm start learns mixtures of $K$ spherical Gaussians with $\Omega(\sqrt{\log(\min(K,d))})$-separated centers. A key ingredient in our proofs is a new connection between score-based methods and two other approaches to distribution learning, the EM algorithm and spectral methods.
翻訳日:2023-07-05 12:00:00 公開日:2023-07-03
# オフライン強化学習と模倣学習の橋渡し--悲観主義の物語

Bridging Offline Reinforcement Learning and Imitation Learning: A Tale of Pessimism ( http://arxiv.org/abs/2103.12021v2 )

ライセンス: Link先を確認
Paria Rashidinejad, Banghua Zhu, Cong Ma, Jiantao Jiao, Stuart Russell(参考訳) オフライン(あるいはバッチ)強化学習(RL)アルゴリズムは、アクティブなデータ収集なしに、固定データセットから最適なポリシーを学習しようとする。 オフラインデータセットの構成に基づいて、専門家データセットに適した模倣学習と、均一なカバレッジデータセットを必要とするバニラオフラインRLの2つの主要なカテゴリが使用される。 現実的な見地からすると、データセットはこれらの2つの極端から逸脱することが多く、正確なデータ構成は通常は未知である。 このギャップを埋めるために、データ合成の2つの極端をスムーズに補間し、模倣学習とバニラオフラインRLを統一する新しいオフラインRLフレームワークを提案する。 新しいフレームワークは、行動ポリシーから専門家ポリシーへの逸脱を測定する集中力係数の弱いバージョンを中心に構成されている。 この新たな枠組みの下では、アルゴリズム設計に関する問題をさらに調査する: 極小の最適レートを達成し、未知のデータ合成に適応するアルゴリズムを開発できるか? この問題に対処するために、オフラインRLにおける不確実性に直面した悲観主義に基づく低信頼境界(LCB)アルゴリズムを検討する。 lcbの有限サンプル特性と多腕バンディット,コンテクストバンディット,マルコフ決定過程(mdps)の情報理論的限界について検討した。 我々の分析は最適率に関する驚くべき事実を明らかにしている。 特に3つの設定すべてにおいて、lcbは、バッチデータセットのサンプル数が$n$であるオフラインrlの1/\sqrt{n}$よりも、ほぼ専門的なデータセットに対して1/n$の速いレートを実現している。 少なくとも2つの文脈を持つ文脈的帯域幅の場合、LCBはデータ合成範囲全体に対して適応的に最適であり、模倣学習からオフラインRLへのスムーズな移行を実現する。 さらに, LCB は MDP においてほぼ適応的に最適であることを示す。

Offline (or batch) reinforcement learning (RL) algorithms seek to learn an optimal policy from a fixed dataset without active data collection. Based on the composition of the offline dataset, two main categories of methods are used: imitation learning which is suitable for expert datasets and vanilla offline RL which often requires uniform coverage datasets. From a practical standpoint, datasets often deviate from these two extremes and the exact data composition is usually unknown a priori. To bridge this gap, we present a new offline RL framework that smoothly interpolates between the two extremes of data composition, hence unifying imitation learning and vanilla offline RL. The new framework is centered around a weak version of the concentrability coefficient that measures the deviation from the behavior policy to the expert policy alone. Under this new framework, we further investigate the question on algorithm design: can one develop an algorithm that achieves a minimax optimal rate and also adapts to unknown data composition? To address this question, we consider a lower confidence bound (LCB) algorithm developed based on pessimism in the face of uncertainty in offline RL. We study finite-sample properties of LCB as well as information-theoretic limits in multi-armed bandits, contextual bandits, and Markov decision processes (MDPs). Our analysis reveals surprising facts about optimality rates. In particular, in all three settings, LCB achieves a faster rate of $1/N$ for nearly-expert datasets compared to the usual rate of $1/\sqrt{N}$ in offline RL, where $N$ is the number of samples in the batch dataset. In the case of contextual bandits with at least two contexts, we prove that LCB is adaptively optimal for the entire data composition range, achieving a smooth transition from imitation learning to offline RL. We further show that LCB is almost adaptively optimal in MDPs.
翻訳日:2023-07-04 16:44:26 公開日:2023-07-03
# 一般化イテレーテッドサムシグネチャ

Generalized iterated-sums signatures ( http://arxiv.org/abs/2012.04597v3 )

ライセンス: Link先を確認
Joscha Diehl, Kurusch Ebrahimi-Fard, Nikolas Tapia(参考訳) 反復和符号の一般化版の代数的性質を, f の以前の業績に触発されて検討する。 〜kir\'alyとh。 オーベルハウザー。 特に、テンソル代数上の関連する線型写像のキャラクタ特性を、後者の単語の変形した準シャッフル積を考えることによって回復する方法を示す。 繰り返しサマーシグネチャに3つの非線形変換を導入し、機械学習アプリケーションに近づき、それらの特性をいくつか示す。

We explore the algebraic properties of a generalized version of the iterated-sums signature, inspired by previous work of F.~Kir\'aly and H.~Oberhauser. In particular, we show how to recover the character property of the associated linear map over the tensor algebra by considering a deformed quasi-shuffle product of words on the latter. We introduce three non-linear transformations on iterated-sums signatures, close in spirit to Machine Learning applications, and show some of their properties.
翻訳日:2023-07-04 16:43:53 公開日:2023-07-03
# 実験可能な半量子鍵分配プロトコルの集団攻撃に対するセキュリティ証明

Security Proof Against Collective Attacks for an Experimentally Feasible Semiquantum Key Distribution Protocol ( http://arxiv.org/abs/2012.02127v4 )

ライセンス: Link先を確認
Walter O. Krawec, Rotem Liss, Tal Mor(参考訳) 半量子鍵分配(SQKD)により、2つのパーティ(アリスとボブ)が共通の秘密鍵を作成することができる。 しかし、ほとんどのSQKDプロトコルは光子を用いて実装する場合、深刻なセキュリティ問題に悩まされる。 最近開発された"Mirror Protocol" (Boyer, Katz, Liss, Mor, Phys. A 96, 062335 (2017))は、これらの欠点を克服する実験可能なSQKDプロトコルである。 Mirrorプロトコルは堅牢であることが証明された(すなわち、すべてのノイズレス攻撃を含む限られた種類の攻撃に対して安全であることが証明された)が、何らかのノイズが許された場合(自然または盗聴による)のセキュリティはまだ証明されていない。 ここでは,広範にわたる量子攻撃(「集合攻撃」)に対するミラープロトコルのセキュリティを証明し,許容雑音閾値と結果の鍵レートを評価する。

Semiquantum key distribution (SQKD) allows two parties (Alice and Bob) to create a shared secret key, even if one of these parties (say, Alice) is classical. However, most SQKD protocols suffer from severe practical security problems when implemented using photons. The recently developed "Mirror protocol" [Boyer, Katz, Liss, and Mor, Phys. Rev. A 96, 062335 (2017)] is an experimentally feasible SQKD protocol overcoming those drawbacks. The Mirror protocol was proven robust (namely, it was proven secure against a limited class of attacks including all noiseless attacks), but its security in case some noise is allowed (natural or due to eavesdropping) has not been proved yet. Here we prove security of the Mirror protocol against a wide class of quantum attacks (the "collective attacks"), and we evaluate the allowed noise threshold and the resulting key rate.
翻訳日:2023-07-04 16:43:44 公開日:2023-07-03
# 因果推論に向けて:医学診断における連続的差別的アプローチ

Towards Causality-Aware Inferring: A Sequential Discriminative Approach for Medical Diagnosis ( http://arxiv.org/abs/2003.06534v5 )

ライセンス: Link先を確認
Junfan Lin and Keze Wang and Ziliang Chen and Xiaodan Liang and Liang Lin(参考訳) 医学診断アシスタント(MDA)は、疾患を識別するための症状を逐次調査する対話型診断エージェントを構築することを目的としている。 しかし,患者シミュレータ構築に用いた対話記録は受動的に収集されるため,収集者の好みなどのタスク非関連バイアスによってデータは劣化する可能性がある。 これらのバイアスは、シミュレータから輸送可能な知識をキャプチャする診断エージェントを妨げる可能性がある。 この研究は、MDAにおけるこれらの重要な問題に対処するために、因果図を利用して2つの代表的な非因果バイアス、すなわち2つの非因果バイアスを特定し、解決する。 (i)デフォルトの回答バイアス (ii)分布的問合せバイアス。 特に偏見は i) 患者シミュレータは,未記録の質問にバイアスのあるデフォルト回答で答えようとするものである。 したがって、診断剤は偏りのある回答のため、その利点を十分に証明できない。 このバイアスを解消し,因果図を用いた傾向スコアマッチング技術にインスパイアされた我々は,他の記録から知識を引き出して未記録の質問に効果的に答える傾向ベースの患者シミュレータを提案する。 (ii) 受動的に収集されたデータとともに本来,エージェントが「記憶する」のではなく,「どのように学習するか」を訓練する上で重要な障害の1つである。 例えば、訓練データの分布において、ある症状が特定の疾患と高度に結合している場合、その症状を識別するためにその症状についてのみ問い合わせることを学び、その結果、分布外症例に一般化することはない。 そこで本研究では,症状調査と疾患診断をそれぞれ考慮した2つのプロセスを含むプログレッシブ保証剤を提案する。 診断プロセスは、診断の信頼性を高めるための症状を調査するために、トップダウンで診断プロセスによって駆動される。

Medical diagnosis assistant (MDA) aims to build an interactive diagnostic agent to sequentially inquire about symptoms for discriminating diseases. However, since the dialogue records used to build a patient simulator are collected passively, the data might be deteriorated by some task-unrelated biases, such as the preference of the collectors. These biases might hinder the diagnostic agent to capture transportable knowledge from the simulator. This work attempts to address these critical issues in MDA by taking advantage of the causal diagram to identify and resolve two representative non-causal biases, i.e., (i) default-answer bias and (ii) distributional inquiry bias. Specifically, Bias (i) originates from the patient simulator which tries to answer the unrecorded inquiries with some biased default answers. Consequently, the diagnostic agents cannot fully demonstrate their advantages due to the biased answers. To eliminate this bias and inspired by the propensity score matching technique with causal diagram, we propose a propensity-based patient simulator to effectively answer unrecorded inquiry by drawing knowledge from the other records; Bias (ii) inherently comes along with the passively collected data, and is one of the key obstacles for training the agent towards "learning how" rather than "remembering what". For example, within the distribution of training data, if a symptom is highly coupled with a certain disease, the agent might learn to only inquire about that symptom to discriminate that disease, thus might not generalize to the out-of-distribution cases. To this end, we propose a progressive assurance agent, which includes the dual processes accounting for symptom inquiry and disease diagnosis respectively. The inquiry process is driven by the diagnosis process in a top-down manner to inquire about symptoms for enhancing diagnostic confidence.
翻訳日:2023-07-04 16:42:48 公開日:2023-07-03
# 不完全データを用いた時系列ネットワーク予測

Networked Time Series Prediction with Incomplete Data ( http://arxiv.org/abs/2110.02271v2 )

ライセンス: Link先を確認
Yichen Zhu, Mengtian Zhang, Bo Jiang, Haiming Jin, Jianqiang Huang, Xinbing Wang(参考訳) networked time series (nets) は、あるグラフ上の時系列の族であり、各ノードに対して1つずつである。 インテリジェントな輸送、環境監視、モバイルネットワーク管理に至るまで、幅広いアプリケーションを見出している。 このようなアプリケーションにおける重要なタスクは、その履歴値と基礎となるグラフに基づいて、NETSの将来値を予測することである。 既存の方法の多くは、トレーニングのために完全なデータを必要とする。 しかし、現実のシナリオでは、センサーの故障や不完全な検知範囲などによってデータが失われることは珍しくない。 本稿では,不完全データを用いたNetS予測問題について検討する。 我々は、歴史と未来の両方で欠落した値を持つ不完全なデータでトレーニングできる新しいディープラーニングフレームワークであるNetS-ImpGANを提案する。 さらに,時系列相関と時間相関の両方を捉えるための注意機構を組み込んだ新しいグラフ時空間注意ネットワークを提案する。 3つの実世界のデータセットに対して、異なるパターンと欠落率で広範な実験を行う。 実験の結果,NETS-ImpGANはデータの分散度が非常に低い場合を除き,既存の手法よりも優れており,その場合も競争性能は高いことがわかった。

A networked time series (NETS) is a family of time series on a given graph, one for each node. It has found a wide range of applications from intelligent transportation, environment monitoring to mobile network management. An important task in such applications is to predict the future values of a NETS based on its historical values and the underlying graph. Most existing methods require complete data for training. However, in real-world scenarios, it is not uncommon to have missing data due to sensor malfunction, incomplete sensing coverage, etc. In this paper, we study the problem of NETS prediction with incomplete data. We propose NETS-ImpGAN, a novel deep learning framework that can be trained on incomplete data with missing values in both history and future. Furthermore, we propose novel Graph Temporal Attention Networks by incorporating the attention mechanism to capture both inter-time series correlations and temporal correlations. We conduct extensive experiments on three real-world datasets under different missing patterns and missing rates. The experimental results show that NETS-ImpGAN outperforms existing methods except when data exhibit very low variance, in which case NETS-ImpGAN still achieves competitive performance.
翻訳日:2023-07-04 16:38:37 公開日:2023-07-03
# 経路を用いた進化戦略の整形政策探索

Shaped Policy Search for Evolutionary Strategies using Waypoints ( http://arxiv.org/abs/2105.14639v2 )

ライセンス: Link先を確認
Kiran Lekkala, Laurent Itti(参考訳) 本稿では,中間経路ポイント/サブゴールが利用できる強化学習(RL)問題に適用した場合,ブラックボックス手法,特に進化戦略(ES)の探索を改善することを試みる。 進化的戦略は非常に並列化可能であり、単にスカラー累積報酬を抽出するのではなく、ロールアウト/評価時に得られた軌道から状態-作用対を用いてエージェントのダイナミクスを学習する。 学習ダイナミクスは、トレーニングをスピードアップするために最適化手順で使用される。 最後に,カーラ駆動とUR5ロボットアームシミュレータを用いた実験の結果から,提案手法が広く適用可能であることを示す。

In this paper, we try to improve exploration in Blackbox methods, particularly Evolution strategies (ES), when applied to Reinforcement Learning (RL) problems where intermediate waypoints/subgoals are available. Since Evolutionary strategies are highly parallelizable, instead of extracting just a scalar cumulative reward, we use the state-action pairs from the trajectories obtained during rollouts/evaluations, to learn the dynamics of the agent. The learnt dynamics are then used in the optimization procedure to speed-up training. Lastly, we show how our proposed approach is universally applicable by presenting results from experiments conducted on Carla driving and UR5 robotic arm simulators.
翻訳日:2023-07-04 16:35:57 公開日:2023-07-03
# 教師なし異常検出のための全周波数チャネル選択表現

Omni-frequency Channel-selection Representations for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2203.00259v2 )

ライセンス: Link先を確認
Yufei Liang, Jiangning Zhang, Shiwei Zhao, Runze Wu, Yong Liu, and Shuwen Pan(参考訳) 近年、密度ベースおよび分類ベース手法は、教師なし異常検出を規定しているが、再構成ベースの手法は、復元能力の低さと性能の低さに言及されることは稀である。 しかし, 後者では, より実践的な教師なしトレーニングのために, コストのかかるトレーニングサンプルを必要としないため, この種の手法の改善に焦点をあて, 周波数の観点で異常検出タスクを処理する新しいOmni- frequency Channel-Selection Reconstruction (OCR-GAN) ネットワークを提案する。 具体的には,正規画像と異常画像の周波数分布の有意差を観測し,入力画像を異なる周波数成分に分離し,再構成過程を並列全周波数画像復元の組み合わせとしてモデル化する周波数分離(fd)モジュールを提案する。 さらに,複数周波数間の相関を考慮し,異なるチャネルを適応的に選択することにより,異なるエンコーダ間の周波数インタラクションを行うチャネル選択(cs)モジュールを提案する。 例えば、MVTec ADデータセット上で、再構成ベースラインを+38.1以上、現在のSOTAメソッドを+0.3以上越える余分なトレーニングデータなしで、新しい最先端の98.3検出AUCを実現する。 ソースコードはhttps://github.com/zhangzjn/ocr-ganで入手できる。

Density-based and classification-based methods have ruled unsupervised anomaly detection in recent years, while reconstruction-based methods are rarely mentioned for the poor reconstruction ability and low performance. However, the latter requires no costly extra training samples for the unsupervised training that is more practical, so this paper focuses on improving this kind of method and proposes a novel Omni-frequency Channel-selection Reconstruction (OCR-GAN) network to handle anomaly detection task in a perspective of frequency. Concretely, we propose a Frequency Decoupling (FD) module to decouple the input image into different frequency components and model the reconstruction process as a combination of parallel omni-frequency image restorations, as we observe a significant difference in the frequency distribution of normal and abnormal images. Given the correlation among multiple frequencies, we further propose a Channel Selection (CS) module that performs frequency interaction among different encoders by adaptively selecting different channels. Abundant experiments demonstrate the effectiveness and superiority of our approach over different kinds of methods, e.g., achieving a new state-of-the-art 98.3 detection AUC on the MVTec AD dataset without extra training data that markedly surpasses the reconstruction-based baseline by +38.1 and the current SOTA method by +0.3. Source code is available at https://github.com/zhangzjn/OCR-GAN.
翻訳日:2023-07-04 16:29:01 公開日:2023-07-03
# 可変環境における改良NEATの適応性

Adaptability of Improved NEAT in Variable Environments ( http://arxiv.org/abs/2201.07977v2 )

ライセンス: Link先を確認
Destiny Bailey(参考訳) 人工知能(AI)の大きな課題は、可変環境に適切に適応できる制御エージェントの訓練である。 条件が変わる環境は、エージェントが操作しようとする問題を引き起こす可能性がある。 これらの環境でエージェントを訓練し、変化する状況に適切に対処できるアルゴリズムを構築することが重要である。 神経進化(NeuroEvolution of Augmenting Topologies、NEAT)は、新しい遺伝的アルゴリズム(GA)である。 本稿では,これらの環境においてNEATが有効であるかどうかを判断するために,NEATの改良版を可変環境に実装することで,本研究をさらに進める。 すべての組み合わせで改善されているのは、リカレント接続、自動機能選択、人口増加である。 繰り返し接続の改善は極めて良好に行われた。 自動特徴選択の改善は性能に悪影響を及ぼすことが判明し,人口規模の改善は性能を低下させたが,計算要件は著しく低下した。

A large challenge in Artificial Intelligence (AI) is training control agents that can properly adapt to variable environments. Environments in which the conditions change can cause issues for agents trying to operate in them. Building algorithms that can train agents to operate in these environments and properly deal with the changing conditions is therefore important. NeuroEvolution of Augmenting Topologies (NEAT) was a novel Genetic Algorithm (GA) when it was created, but has fallen aside with newer GAs outperforming it. This paper furthers the research on this subject by implementing various versions of improved NEAT in a variable environment to determine if NEAT can perform well in these environments. The improvements included, in every combination, are: recurrent connections, automatic feature selection, and increasing population size. The recurrent connections improvement performed extremely well. The automatic feature selection improvement was found to be detrimental to performance, and the increasing population size improvement lowered performance a small amount, but decreased computation requirements noticeably.
翻訳日:2023-07-04 16:28:23 公開日:2023-07-03
# モチーフグラフニューラルネットワーク

Motif Graph Neural Network ( http://arxiv.org/abs/2112.14900v3 )

ライセンス: Link先を確認
Xuexin Chen, Ruichu Cai, Yuan Fang, Min Wu, Zijian Li, Zhifeng Hao(参考訳) グラフはエンティティ間の複雑な相互作用をモデル化することができる。 これらのアプリケーションは、しばしば標準的なグラフ学習タスクにキャストされ、重要なステップは低次元グラフ表現を学ぶことである。 グラフニューラルネットワーク(GNN)は現在、グラフ埋め込みアプローチで最も人気のあるモデルである。 しかし、近傍集約のパラダイムにおける標準GNNは、 \emph{high-order} グラフ構造を \emph{low-order} 構造とは対照的に区別する際の限定的な識別力に悩まされる。 高次構造を捉えるために、研究者はモチーフに頼り、モチーフベースのGNNを開発した。 しかし、既存のモチーフベースのGNNは高次構造に対する識別力の低下に悩まされることが多い。 上記の制約を克服するために,高次構造をよりよく捉えるための新しい枠組みであるモチーフグラフニューラルネットワーク(mgnn)を提案し,提案するモチーフ冗長化演算子とインジェクティブモチーフの組み合わせについて検討した。 まず、MGNNは各モチーフのノード表現のセットを生成する。 次の段階はモチーフ間の冗長性の最小化であり、モチーフを互いに比較し、各モチーフ特有の特徴を蒸留する。 最後に、MGNNは異なるモチーフから複数の表現を組み合わせることでノード表現の更新を行う。 特に、差別力を高めるために、MGNNは、異なるモチーフの表現を結合するためにインジェクティブ関数を利用する。 さらに,提案アーキテクチャは理論解析により,GNNの表現力を高めることを示す。 MGNNはノード分類とグラフ分類の両方において、7つの公開ベンチマークにおいて最先端の手法よりも優れていることを示す。

Graphs can model complicated interactions between entities, which naturally emerge in many important applications. These applications can often be cast into standard graph learning tasks, in which a crucial step is to learn low-dimensional graph representations. Graph neural networks (GNNs) are currently the most popular model in graph embedding approaches. However, standard GNNs in the neighborhood aggregation paradigm suffer from limited discriminative power in distinguishing \emph{high-order} graph structures as opposed to \emph{low-order} structures. To capture high-order structures, researchers have resorted to motifs and developed motif-based GNNs. However, existing motif-based GNNs still often suffer from less discriminative power on high-order structures. To overcome the above limitations, we propose Motif Graph Neural Network (MGNN), a novel framework to better capture high-order structures, hinging on our proposed motif redundancy minimization operator and injective motif combination. First, MGNN produces a set of node representations w.r.t. each motif. The next phase is our proposed redundancy minimization among motifs which compares the motifs with each other and distills the features unique to each motif. Finally, MGNN performs the updating of node representations by combining multiple representations from different motifs. In particular, to enhance the discriminative power, MGNN utilizes an injective function to combine the representations w.r.t. different motifs. We further show that our proposed architecture increases the expressive power of GNNs with a theoretical analysis. We demonstrate that MGNN outperforms state-of-the-art methods on seven public benchmarks on both node classification and graph classification tasks.
翻訳日:2023-07-04 16:27:16 公開日:2023-07-03
# 二変量ベクトルコプラに基づく回帰、二変量レベルおよび量子曲線

Bivariate vine copula based regression, bivariate level and quantile curves ( http://arxiv.org/abs/2205.02557v2 )

ライセンス: Link先を確認
Marija Tepegjozova and Claudia Czado(参考訳) 単変量体の統計解析は、よく発達した研究トピックである。 しかし、多変量四量体の研究は必要である。 ビンコプラに基づく二変量回帰モデルのレベル曲線を用いた二変量体(条件付き)を構成する。 vine copula は連結木列によって同定されたグラフ理論的モデルであり、辺分布と依存構造を分離したモデリングを可能にする。 予測回帰設定において,2つの応答の対称的処理に特化して設計された新しいグラフ構造モデルを提案する。 我々は,モデルの計算的トラクタビリティと,異なる条件分布を得るための直進的な方法を確立する。 ワインコプラを用いた回帰の典型的な欠点は、予測子の変換や相互作用を必要とするため、コリニアリティや量子交差は避けられる。 異なるコプラ分布に対するコプラに基づく二変量曲線を示し、有効な量子曲線を形成するためにそれらをどのように調整するかを示す。 我々は,韓国ソウルの気象観測に本手法を適用した。 このデータ例は、2つの別々の単変量回帰と対照的に、あるいは条件依存の存在下で設定された二変量応答データセットに対して条件独立を仮定することで、共同二変量応答モデリングの利点を強調している。

The statistical analysis of univariate quantiles is a well developed research topic. However, there is a need for research in multivariate quantiles. We construct bivariate (conditional) quantiles using the level curves of vine copula based bivariate regression model. Vine copulas are graph theoretical models identified by a sequence of linked trees, which allow for separate modelling of marginal distributions and the dependence structure. We introduce a novel graph structure model (given by a tree sequence) specifically designed for a symmetric treatment of two responses in a predictive regression setting. We establish computational tractability of the model and a straight forward way of obtaining different conditional distributions. Using vine copulas the typical shortfalls of regression, as the need for transformations or interactions of predictors, collinearity or quantile crossings are avoided. We illustrate the copula based bivariate level curves for different copula distributions and show how they can be adjusted to form valid quantile curves. We apply our approach to weather measurements from Seoul, Korea. This data example emphasizes the benefits of the joint bivariate response modelling in contrast to two separate univariate regressions or by assuming conditional independence, for bivariate response data set in the presence of conditional dependence.
翻訳日:2023-07-04 16:19:29 公開日:2023-07-03
# ELQA:英語に関するメタ言語学的質問と回答コーパス

ELQA: A Corpus of Metalinguistic Questions and Answers about English ( http://arxiv.org/abs/2205.00395v2 )

ライセンス: Link先を確認
Shabnam Behzad, Keisuke Sakaguchi, Nathan Schneider, Amir Zeldes(参考訳) 本稿では,英語に関する質問と回答のコーパスであるELQAを紹介する。 2つのオンラインフォーラムから集められた70k以上の質問(英語学習者など)は、文法、意味、流布、語源など幅広いトピックをカバーしている。 この回答には、英語の語彙と文法の一般的な性質の説明や、特定の(正しくない)使用例の説明が含まれる。 ほとんどのNLPデータセットとは異なり、このコーパスはメタ言語であり、言語に関する言語で構成されています。 そのため、NLUモデルのメタ言語的能力や、言語学習分野における教育的応用の解明が容易となる。 そこで本研究では,自由形式の質問応答タスクをデータセット上で定義し,複数のllm (large language model) 上で評価を行い,メタリング的回答を生成する能力を分析する。

We present ELQA, a corpus of questions and answers in and about the English language. Collected from two online forums, the >70k questions (from English learners and others) cover wide-ranging topics including grammar, meaning, fluency, and etymology. The answers include descriptions of general properties of English vocabulary and grammar as well as explanations about specific (correct and incorrect) usage examples. Unlike most NLP datasets, this corpus is metalinguistic -- it consists of language about language. As such, it can facilitate investigations of the metalinguistic capabilities of NLU models, as well as educational applications in the language learning domain. To study this, we define a free-form question answering task on our dataset and conduct evaluations on multiple LLMs (Large Language Models) to analyze their capacity to generate metalinguistic answers.
翻訳日:2023-07-04 16:18:49 公開日:2023-07-03
# vsa: 視覚トランスフォーマーにおける可変サイズのウィンドウアテンションの学習

VSA: Learning Varied-Size Window Attention in Vision Transformers ( http://arxiv.org/abs/2204.08446v2 )

ライセンス: Link先を確認
Qiming Zhang, Yufei Xu, Jing Zhang, Dacheng Tao(参考訳) ウィンドウ内の注意は、性能、計算複雑性、メモリフットプリントのバランスをとるために、視覚変換器で広く研究されている。 しかし、現在のモデルは手作りの固定サイズウィンドウデザインを採用しており、これは長期依存をモデル化し、異なるサイズのオブジェクトに適応する能力を制限する。 この欠点に対処するために、データから適応的なウィンドウ構成を学習するために、 \textbf{V}aried-\textbf{S}ize Window \textbf{A}ttention (VSA)を提案する。 具体的には、デフォルトウィンドウ内のトークンに基づいて、VSAはターゲットウィンドウのサイズと位置、すなわちキーと値トークンがサンプリングされる注意領域を予測するために、ウィンドウ回帰モジュールを使用する。 各アテンションヘッドに独立してVSAを採用することで、長期依存関係をモデル化し、多様なウィンドウからリッチなコンテキストをキャプチャし、重なり合うウィンドウ間での情報交換を促進することができる。 vsaは実装が容易なモジュールで、最先端の代表モデルのウィンドウの注意を小さな修正と余分な計算コストで置き換えることができると同時に、imagenetの分類においてswin-tの1.1\%のような大きなマージンで性能を向上させることができる。 さらに、トレーニングやテストにより大きな画像を使用すると、パフォーマンスが向上する。 オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどの下流タスクの実験結果は、異なるサイズのオブジェクトを扱う場合のバニラウィンドウに対するVSAの優位性をさらに証明している。 コードはhttps://github.com/ViTAE-Transformer/ViTAE-VSAでリリースされる。

Attention within windows has been widely explored in vision transformers to balance the performance, computation complexity, and memory footprint. However, current models adopt a hand-crafted fixed-size window design, which restricts their capacity of modeling long-term dependencies and adapting to objects of different sizes. To address this drawback, we propose \textbf{V}aried-\textbf{S}ize Window \textbf{A}ttention (VSA) to learn adaptive window configurations from data. Specifically, based on the tokens within each default window, VSA employs a window regression module to predict the size and location of the target window, i.e., the attention area where the key and value tokens are sampled. By adopting VSA independently for each attention head, it can model long-term dependencies, capture rich context from diverse windows, and promote information exchange among overlapped windows. VSA is an easy-to-implement module that can replace the window attention in state-of-the-art representative models with minor modifications and negligible extra computational cost while improving their performance by a large margin, e.g., 1.1\% for Swin-T on ImageNet classification. In addition, the performance gain increases when using larger images for training and test. Experimental results on more downstream tasks, including object detection, instance segmentation, and semantic segmentation, further demonstrate the superiority of VSA over the vanilla window attention in dealing with objects of different sizes. The code will be released https://github.com/ViTAE-Transformer/ViTAE-VSA.
翻訳日:2023-07-04 16:18:35 公開日:2023-07-03
# 周波数パス相関を用いたコヒーレント励起Hong-Ou-Mandel効果

Coherently excited Hong-Ou-Mandel effects using frequency-path correlation ( http://arxiv.org/abs/2204.01897v3 )

ライセンス: Link先を確認
B. S. Ham(参考訳) 非局所量子相関は、過去1世紀にわたって量子力学の主要な問題であった。 ホン・ウー・マンデル(hom)効果はビームスプリッターの2光子強度相関と関連し、非古典的な光子束現象を引き起こす。 HOM効果は、量子リピータやフォトニクス量子コンピューティングのような量子技術のベル測定による量子特性の検証に用いられている。 ここでは、HOM効果のコヒーレンスバージョンを提案し、反相関と絡み合いの基本物理を理解するために分析した。 このため、減衰レーザからの同期対変調器を用いて、周波数相関コヒーレント光子対をmzi(mach-zhender interferometers)の独立なセットで作成する。 HOM効果では、周波数関連光子間の位相関係が重要な役割を果たす。 積基底ランダム性については、対称的に変調された2つの独立なMZIが無矛盾に結合される。 2つの独立な光検出器間の古典的な強度積も、選択的なマクロ計測方式で同じHOM効果を示す。

Nonlocal quantum correlation has been the main issue of quantum mechanics over the last century. The Hong-Ou-Mandel (HOM) effect relates to the two-photon intensity correlation on a beam splitter, resulting in a nonclassical photon-bunching phenomenon. The HOM effect has been used to verify the quantum feature via Bell measurements for quantum technologies such as quantum repeaters and photonics quantum computing. Here, a coherence version of the HOM effect is proposed and analyzed to understand the fundamental physics of the anticorrelation and entanglement. For this, frequency-correlated coherent photon pairs are prepared in an independent set of Mach-Zhender interferometers (MZI) using a synchronized pair of modulators from an attenuated laser. For the HOM effect, the phase relation between frequency-correlated photons plays an essential role. For the product-basis randomness, the symmetrically modulated two independent MZIs are combined together incoherently. A classical intensity product between two independent photodetectors is also discussed for the same HOM effect in a selective macroscopic measurement scheme.
翻訳日:2023-07-04 16:17:47 公開日:2023-07-03
# 識別機構を有するスケーラブルビデオオブジェクト分割

Scalable Video Object Segmentation with Identification Mechanism ( http://arxiv.org/abs/2203.11442v6 )

ライセンス: Link先を確認
Zongxin Yang, Xiaohan Wang, Jiaxu Miao, Yunchao Wei, Wenguan Wang, Yi Yang(参考訳) 本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのスケーラブルで効果的なマルチオブジェクトモデリングを実現するための課題について述べる。 従来のvosメソッドは単一の正のオブジェクトで特徴をデコードし、複数のオブジェクトの表現の学習を制限する。 さらに、以前のテクニックは特定のアプリケーション目標に適合し、異なるスピード精度要件を満たす柔軟性に欠けていた。 これらの問題を解決するために,AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)という2つの革新的なアプローチを提案する。 効果的なマルチオブジェクトモデリングの追求において、AOTは各オブジェクトにユニークなIDを割り当てるためのID(ID)メカニズムを導入する。 このアプローチにより、ネットワークはすべてのオブジェクト間の関連性を同時にモデル化し、単一のネットワークパスにおけるオブジェクトの追跡とセグメンテーションを容易にする。 非フレキシブルなデプロイメントの課題に対処するため、AOSTはさらに、レイヤワイドIDベースの注意とスケーラブルな監視を含む、スケーラブルな長期的な短期トランスフォーマーを統合する。 これはID埋め込みの表現制限を克服し、VOSにおけるオンラインアーキテクチャのスケーラビリティを初めて実現します。 マルチオブジェクトアノテーションを含むVOSのベンチマークが欠如していることを踏まえ,我々のアプローチを検証するために,ビデオオブジェクトセグメンテーション・イン・ザ・ワイルド(VOSW)ベンチマークを提案する。 VOSWおよび5種類のVOSベンチマークを用いて,様々なAOTおよびAOST変異体の評価を行った。 当社のアプローチは最先端のコンペティタを上回っており、6つのベンチマークで一貫して優れた効率性とスケーラビリティを示しています。 また,第3回大規模映像オブジェクトセグメンテーションチャレンジにおいて,第1位となった。

This paper delves into the challenges of achieving scalable and effective multi-object modeling for semi-supervised Video Object Segmentation (VOS). Previous VOS methods decode features with a single positive object, limiting the learning of multi-object representation as they must match and segment each target separately under multi-object scenarios. Additionally, earlier techniques catered to specific application objectives and lacked the flexibility to fulfill different speed-accuracy requirements. To address these problems, we present two innovative approaches, Associating Objects with Transformers (AOT) and Associating Objects with Scalable Transformers (AOST). In pursuing effective multi-object modeling, AOT introduces the IDentification (ID) mechanism to allocate each object a unique identity. This approach enables the network to model the associations among all objects simultaneously, thus facilitating the tracking and segmentation of objects in a single network pass. To address the challenge of inflexible deployment, AOST further integrates scalable long short-term transformers that incorporate layer-wise ID-based attention and scalable supervision. This overcomes ID embeddings' representation limitations and enables online architecture scalability in VOS for the first time. Given the absence of a benchmark for VOS involving densely multi-object annotations, we propose a challenging Video Object Segmentation in the Wild (VOSW) benchmark to validate our approaches. We evaluated various AOT and AOST variants using extensive experiments across VOSW and five commonly-used VOS benchmarks. Our approaches surpass the state-of-the-art competitors and display exceptional efficiency and scalability consistently across all six benchmarks. Moreover, we notably achieved the 1st position in the 3rd Large-scale Video Object Segmentation Challenge.
翻訳日:2023-07-04 16:17:28 公開日:2023-07-03
# 野生におけるバーチャルリアリティ映像の知覚的品質評価

Perceptual Quality Assessment of Virtual Reality Videos in the Wild ( http://arxiv.org/abs/2206.08751v2 )

ライセンス: Link先を確認
Wen Wen, Mu Li, Yiru Yao, Xiangjie Sui, Yabin Zhang, Long Lan, Yuming Fang, Kede Ma(参考訳) 人々がバーチャルリアリティービデオをどのように知覚するかを調べることは、空間と時間にローカライズされた複雑な \textit{authentic} 歪みのため、vr関連のアプリケーションにおいて重要かつ困難なタスクである。 既存のパノラマビデオデータベースは、合成歪みのみを考慮し、一定の視聴条件を仮定し、サイズを制限している。 これらの欠点を克服するため、我々はVRVQW(VR Video Quality in the Wild)データベースを構築した。 VRVQWに基づいて,2つの異なる視聴条件下で,スキャンパスと品質スコアを139ドルの参加者から記録する,正式な心理物理実験を行った。 記録されたデータの詳細な統計解析を行い、ヒトのスキャンパスと知覚品質の両方に観察条件が与える影響を観察した。 さらに,擬似円筒表現と畳み込みに基づくVRビデオの客観的品質評価モデルを構築した。 提案したVRVQWの結果から,提案手法は既存の映像品質評価モデルよりも優れており,投影のための人間の走査パスに依存しないビューポートベースモデルよりも優れていた。 最後に,VRVQWデータセットによる塩分濃度検出手法のベンチマークを行い,さらなる研究の必要性を強調した。 データベースとコードは \url{https://github.com/limuhit/VR-Video-Quality-in-the-Wild} で公開しています。

Investigating how people perceive virtual reality videos in the wild (\ie, those captured by everyday users) is a crucial and challenging task in VR-related applications due to complex \textit{authentic} distortions localized in space and time. Existing panoramic video databases only consider synthetic distortions, assume fixed viewing conditions, and are limited in size. To overcome these shortcomings, we construct the VR Video Quality in the Wild (VRVQW) database, which is one of the first of its kind, and contains $502$ user-generated videos with diverse content and distortion characteristics. Based on VRVQW, we conduct a formal psychophysical experiment to record the scanpaths and perceived quality scores from $139$ participants under two different viewing conditions. We provide a thorough statistical analysis of the recorded data, observing significant impact of viewing conditions on both human scanpaths and perceived quality. Moreover, we develop an objective quality assessment model for VR videos based on pseudocylindrical representation and convolution. Results on the proposed VRVQW show that our method is superior to existing video quality assessment models, only underperforming viewport-based models that otherwise rely on human scanpaths for projection. Last, we explore the additional use of the VRVQW dataset to benchmark saliency detection techniques, highlighting the need for further research. We have made the database and code available at \url{https://github.com/limuhit/VR-Video-Quality-in-the-Wild}.
翻訳日:2023-07-04 16:08:57 公開日:2023-07-03
# ゲームにおける学習のための統一確率近似フレームワーク

A unified stochastic approximation framework for learning in games ( http://arxiv.org/abs/2206.03922v2 )

ライセンス: Link先を確認
Panayotis Mertikopoulos and Ya-Ping Hsieh and Volkan Cevher(参考訳) ゲームにおける学習の長期的挙動(連続的かつ有限的)を解析するためのフレキシブル確率近似フレームワークを開発する。 提案する解析テンプレートには,グラデーションに基づく手法,有限ゲーム学習のための指数的/乗法重み付けアルゴリズム,楽観的およびバンドイット型など,多岐にわたる一般的な学習アルゴリズムが組み込まれている。 これらのアルゴリズムの統合ビューを提供するのに加えて、このフレームワークにより、連続ゲームと有限ゲームの両方において、漸近的および有限時間の両方で、いくつかの新しい収束結果を得ることができる。 具体的には,nash平衡のクラスと高確率で引き付ける行動プロファイルのセットを識別するための基準として,厳密で鋭い平衡を含むゲーム理論的な性質であるコヒーレンスの概念を導入し,有限時間で収束する。 重要なことは、我々の分析はオラクルベースとバンディットベースのペイオフベースの方法の両方に適用されます。

We develop a flexible stochastic approximation framework for analyzing the long-run behavior of learning in games (both continuous and finite). The proposed analysis template incorporates a wide array of popular learning algorithms, including gradient-based methods, the exponential/multiplicative weights algorithm for learning in finite games, optimistic and bandit variants of the above, etc. In addition to providing an integrated view of these algorithms, our framework further allows us to obtain several new convergence results, both asymptotic and in finite time, in both continuous and finite games. Specifically, we provide a range of criteria for identifying classes of Nash equilibria and sets of action profiles that are attracting with high probability, and we also introduce the notion of coherence, a game-theoretic property that includes strict and sharp equilibria, and which leads to convergence in finite time. Importantly, our analysis applies to both oracle-based and bandit, payoff-based methods - that is, when players only observe their realized payoffs.
翻訳日:2023-07-04 16:08:32 公開日:2023-07-03
# あなたの機能はどのくらいバイアスか? グローバル感性分析による公正影響関数の計算

How Biased are Your Features?: Computing Fairness Influence Functions with Global Sensitivity Analysis ( http://arxiv.org/abs/2206.00667v3 )

ライセンス: Link先を確認
Bishwamittra Ghosh, Debabrota Basu, Kuldeep S. Meel(参考訳) 機械学習の公正性は、ハイテイクな意思決定タスクに広く適用されているため、重要な焦点となった。 非規制機械学習分類器は、データ中の特定の人口集団に対する偏見を示すことができるため、分類器バイアスの定量化と緩和は、機械学習における公平性の中心的な関心事である。 本稿では,データセットの異なる特徴が分類器のバイアスに与える影響を定量化することを目的とする。 これを実現するために、Fairness Influence Function (FIF)を紹介する。 この関数は、個々の特徴と複数の特徴の交叉の間のコンポーネントにバイアスを分解する。 鍵となるアイデアは、分類器の予測におけるスケールされた条件付き分散の差として既存のグループフェアネスメトリクスを表現し、大域的感度分析に従って分散の分解を適用することである。 fifを推定するために,局所回帰による分類器予測の分散分解を適用するアルゴリズムfairxplainerをインスタンス化する。 実験により、FairXplainerは個々の特徴と交叉特徴のFIFをキャプチャし、FIFに基づくバイアスのより優れた近似を提供し、FIFと公平な介入の相関を高く示し、また、分類器における公正肯定的/疑似的行動によるバイアスの変化を検出する。 コードはhttps://github.com/reaile/bias-explainerで入手できる。

Fairness in machine learning has attained significant focus due to the widespread application in high-stake decision-making tasks. Unregulated machine learning classifiers can exhibit bias towards certain demographic groups in data, thus the quantification and mitigation of classifier bias is a central concern in fairness in machine learning. In this paper, we aim to quantify the influence of different features in a dataset on the bias of a classifier. To do this, we introduce the Fairness Influence Function (FIF). This function breaks down bias into its components among individual features and the intersection of multiple features. The key idea is to represent existing group fairness metrics as the difference of the scaled conditional variances in the classifier's prediction and apply a decomposition of variance according to global sensitivity analysis. To estimate FIFs, we instantiate an algorithm FairXplainer that applies variance decomposition of classifier's prediction following local regression. Experiments demonstrate that FairXplainer captures FIFs of individual feature and intersectional features, provides a better approximation of bias based on FIFs, demonstrates higher correlation of FIFs with fairness interventions, and detects changes in bias due to fairness affirmative/punitive actions in the classifier. The code is available at https://github.com/ReAILe/bias-explainer.
翻訳日:2023-07-04 16:07:09 公開日:2023-07-03
# 単一光子散乱に基づくオンチップスピン光子絡み合い

On-chip spin-photon entanglement based on single-photon scattering ( http://arxiv.org/abs/2205.12844v2 )

ライセンス: Link先を確認
Ming Lai Chan, Alexey Tiranov, Martin Hayhurst Appel, Ying Wang, Leonardo Midolo, Sven Scholz, Andreas D. Wieck, Arne Ludwig, Anders S{\o}ndberg S{\o}rensen and Peter Lodahl(参考訳) 光子と固体スピンの間のオンチップ量子ゲートの実現は、量子情報プロセッサの重要な構築ブロックであり、例えば、リモート量子レジスタが空飛ぶ光子によって相互接続される分散量子コンピューティングを可能にする。 ナノ構造に集積された自己集合量子ドットは、光子-エミッタ結合と高速自発放出速度のおかげで、そのような取り組みの最も有望なシステムの一つである。 ここでは、入射光子と定常量子ドットスピン量子ビットの間のオンチップエンタングゲートを示す。 ゲートは導波路埋め込み量子ドットによる時間ビン符号化光子の逐次散乱に基づいており、他のプラットフォームよりも2桁高速なサブミクロ秒タイムスケールで動作する。 反射光子を検出することで、ゲートの忠実度はエミッタのスペクトル移動に完全に免疫する。 これらの結果は、量子ネットワークや量子リピータで要求されるように、フォトニックエンタングルメント生成とオンチップ量子論理の両方が可能な量子ノードを実現するための大きなステップである。

The realization of on-chip quantum gates between photons and solid-state spins is a key building block for quantum-information processors, enabling, e.g., distributed quantum computing, where remote quantum registers are interconnected by flying photons. Self-assembled quantum dots integrated in nanostructures are one of the most promising systems for such an endeavor thanks to their near-unity photon-emitter coupling and fast spontaneous emission rate. Here we demonstrate an on-chip entangling gate between an incoming photon and a stationary quantum-dot spin qubit. The gate is based on sequential scattering of a time-bin encoded photon with a waveguide-embedded quantum dot and operates on sub-microsecond timescale; two orders of magnitude faster than other platforms. Heralding on detection of a reflected photon renders the gate fidelity fully immune to spectral wandering of the emitter. These results represent a major step in realizing a quantum node capable of both photonic entanglement generation and on-chip quantum logic, as demanded in quantum networks and quantum repeaters.
翻訳日:2023-07-04 16:06:44 公開日:2023-07-03
# 高次元時系列データ解析のための深部直接識別デコーダ

Deep Direct Discriminative Decoders for High-dimensional Time-series Data Analysis ( http://arxiv.org/abs/2205.10947v2 )

ライセンス: Link先を確認
Mohammad R. Rezaei, Milos R. Popovic, Milad Lankarany, Ali Yousefi(参考訳) 状態空間モデル(SSM)は時系列データの解析に広く利用されている。 SSMは状態と観察プロセスの明確な定義に依存している。 これらのプロセスのキャラクタリゼーションは必ずしも簡単ではなく、観測されたデータの次元が大きくなるか、観測されたデータ分布が正規分布から逸脱した場合、モデリングの課題となる。 本稿では,高次元観察プロセスにおけるSSMの新しい定式化を提案する。 我々はこの解をD4(Deep direct discriminative decoder)と呼ぶ。 D4は、深いニューラルネットワークの表現力とスケーラビリティをSSMの定式化にもたらすことで、高次元の観測信号を通じて基礎となる状態を効率的に推定する新しいソリューションを構築することができます。 シミュレーションおよび実データ(Lorenz attractors, Langevin dynamics, random walk dynamics, and rat hippocampus spiking Neural data)では,D4が従来のSSMやRNNよりも優れていることを示す。 D4は、高次元観察と下層の潜伏過程との接続が特徴付けにくいより広範な時系列データに適用することができる。

The state-space models (SSMs) are widely utilized in the analysis of time-series data. SSMs rely on an explicit definition of the state and observation processes. Characterizing these processes is not always easy and becomes a modeling challenge when the dimension of observed data grows or the observed data distribution deviates from the normal distribution. Here, we propose a new formulation of SSM for high-dimensional observation processes. We call this solution the deep direct discriminative decoder (D4). The D4 brings deep neural networks' expressiveness and scalability to the SSM formulation letting us build a novel solution that efficiently estimates the underlying state processes through high-dimensional observation signal. We demonstrate the D4 solutions in simulated and real data such as Lorenz attractors, Langevin dynamics, random walk dynamics, and rat hippocampus spiking neural data and show that the D4 performs better than traditional SSMs and RNNs. The D4 can be applied to a broader class of time-series data where the connection between high-dimensional observation and the underlying latent process is hard to characterize.
翻訳日:2023-07-04 16:06:07 公開日:2023-07-03
# ReLU Fields: 最小限の非線形性

ReLU Fields: The Little Non-linearity That Could ( http://arxiv.org/abs/2205.10824v2 )

ライセンス: Link先を確認
Animesh Karnewar and Tobias Ritschel and Oliver Wang and Niloy J. Mitra(参考訳) 近年の多くの研究において、多層知覚(mlps)は、画像や3dシーンを含む複雑な空間変動関数のモデリングに適していることが示されている。 MLPは、前例のない品質とメモリフットプリントを持つ複雑なシーンを表現できるが、MLPのこの表現力は、長いトレーニングと推論のコストがかかる。 一方、正規グリッドベース表現上の双線形/トリ線形補間は、高速なトレーニングと推論時間を与えるが、重要な追加メモリを必要とすることなく、MPPの品質にマッチすることができない。 そこで本研究では,MLPの高忠実度を保ちつつ,高速な再構成とレンダリングを可能としたグリッドベース表現の最小変化について検討する。 単純に補間されたグリッド値に固定された非線形性(relu)を許可するのです。 粗粒度最適化と組み合わせることで、そのようなアプローチが最先端技術と競合することを示す。 本報告では, 放射場, 占有場について報告し, 既存の複数の代替品との比較を行った。 この論文のコードとデータは、https://geometry.cs.ucl.ac.uk/projects/2022/relu_fieldsで入手できる。

In many recent works, multi-layer perceptions (MLPs) have been shown to be suitable for modeling complex spatially-varying functions including images and 3D scenes. Although the MLPs are able to represent complex scenes with unprecedented quality and memory footprint, this expressive power of the MLPs, however, comes at the cost of long training and inference times. On the other hand, bilinear/trilinear interpolation on regular grid based representations can give fast training and inference times, but cannot match the quality of MLPs without requiring significant additional memory. Hence, in this work, we investigate what is the smallest change to grid-based representations that allows for retaining the high fidelity result of MLPs while enabling fast reconstruction and rendering times. We introduce a surprisingly simple change that achieves this task -- simply allowing a fixed non-linearity (ReLU) on interpolated grid values. When combined with coarse to-fine optimization, we show that such an approach becomes competitive with the state-of-the-art. We report results on radiance fields, and occupancy fields, and compare against multiple existing alternatives. Code and data for the paper are available at https://geometry.cs.ucl.ac.uk/projects/2022/relu_fields.
翻訳日:2023-07-04 16:05:48 公開日:2023-07-03
# 分子の相関電子構造に対する最適実空間軌道の直接決定

Direct determination of optimal real-space orbitals for correlated electronic structure of molecules ( http://arxiv.org/abs/2207.10841v2 )

ライセンス: Link先を確認
Edward F. Valeev, Robert J. Harrison. Adam A. Holmes, Charles C. Peterson, and Deborah A. Penchoff(参考訳) ラグランジアンエネルギーの最小化により、原子や分子の任意の(関連する)状態のエネルギーを評価するのに最適なほぼ正確な正則軌道を決定する方法を示す。 軌道は、ユーザーが特定した目標精度を達成するために適応的に洗練されたマルチレゾリューションスペクトル要素基底を用いて実空間で表現され、伝統的に分子電子構造の相関モデルに使用されるao基底集合展開を悩ませる悪条件問題を回避している。 光原子の場合、軌道ソルバは変分電子構造モデル(選択された構成相互作用(CI))とともに、最先端の原子CIソルバと同等の精度のエネルギーを提供する。 計算された原子や分子の電子エネルギーは、同じランクのガウスao基数で得られるものよりもかなり正確であり、線形依存の問題がao基数の使用を妨げる場合であっても決定可能である。 単一のコンピュータノード上で100以上の完全相関数値軌道を最適化することは可能であり、さらなる最適化のために重要な空間が存在する。 これらのことから、実空間軌道表現は分子や物質の相関電子状態のハイエンド古典および量子回路モデルのao表現に好適な代替となる可能性が示唆された。

We demonstrate how to determine nearly numerically exact orthonormal orbitals that are optimal for evaluation of the energy of arbitrary (correlated) states of atoms and molecules by minimization of the energy Lagrangian. Orbitals are expressed in real space using a multiresolution spectral element basis that is refined adaptively to achieve the user-specified target precision while avoiding the ill-conditioning issues that plague AO basis set expansions traditionally used for correlated models of molecular electronic structure. For light atoms, the orbital solver, in conjunction with a variational electronic structure model [selected Configuration Interaction (CI)] provides energies of comparable precision to a state-of-the-art atomic CI solver. The computed electronic energies of atoms and molecules are significantly more accurate than the counterparts obtained with the Gaussian AO bases of the same rank, and can be determined even when linear dependence issues preclude the use of the AO bases. It is feasible to optimize more than 100 fully-correlated numerical orbitals on a single computer node, and significant room exists for additional optimization. These findings suggest that the real-space orbital representations might be the preferred alternative to AO representations for high-end classical and quantum circuit models of correlated electronic states of molecules and materials.
翻訳日:2023-07-04 15:58:28 公開日:2023-07-03
# 生成拡散モデルに関する調査研究

A Survey on Generative Diffusion Model ( http://arxiv.org/abs/2209.02646v9 )

ライセンス: Link先を確認
Hanqun Cao, Cheng Tan, Zhangyang Gao, Yilun Xu, Guangyong Chen, Pheng-Ann Heng, and Stan Z. Li(参考訳) 深層生成モデルはデータ生成の際立ったアプローチであり、様々な領域で高品質なサンプルを生成するために使われてきた。 深層生成モデルの新興クラスである拡散モデルは、その例外的な生成品質のためにかなりの注目を集めている。 それにもかかわらず、時間を要する反復生成プロセスや高次元ユークリッド空間への閉じ込めなど、ある種の制限がある。 本研究は, サンプリング加速や新しい拡散プロセスの設計など, 拡散モデルの向上を目的とした, 高度な手法を多数提示する。 さらに, 多様体空間と離散空間における拡散モデルの実装戦略, 拡散モデルの最大確率トレーニング, 2つの任意の分布間のブリッジを作成する手法について考察した。 本稿では,近年の拡散モデルの機能性と効率向上に向けた取り組みについて述べる。 既存のモデルの有効性を検討するために、特定のNFEにFIDスコア、IS、NLLのベンチマークを示す。 さらに、拡散モデルはコンピュータビジョン、オーディオ、シーケンスモデリング、科学のためのAIといった様々な領域で有用である。 論文は、既存の制限と今後の方向性とともに、この分野の概要で締めくくっている。 既存のよく分類されたメソッドの要約はgithubにある: https://github.com/chq1155/a-survey-on-generative-diffusion-model

Deep generative models are a prominent approach for data generation, and have been used to produce high quality samples in various domains. Diffusion models, an emerging class of deep generative models, have attracted considerable attention owing to their exceptional generative quality. Despite this, they have certain limitations, including a time-consuming iterative generation process and confinement to high-dimensional Euclidean space. This survey presents a plethora of advanced techniques aimed at enhancing diffusion models, including sampling acceleration and the design of new diffusion processes. In addition, we delve into strategies for implementing diffusion models in manifold and discrete spaces, maximum likelihood training for diffusion models, and methods for creating bridges between two arbitrary distributions. The innovations we discuss represent the efforts for improving the functionality and efficiency of diffusion models in recent years. To examine the efficacy of existing models, a benchmark of FID score, IS, and NLL is presented in a specific NFE. Furthermore, diffusion models are found to be useful in various domains such as computer vision, audio, sequence modeling, and AI for science. The paper concludes with a summary of this field, along with existing limitations and future directions. Summation of existing well-classified methods is in our Github: https://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model
翻訳日:2023-07-04 15:50:47 公開日:2023-07-03
# PCDNF: 連成正規フィルタリングによる学習ベースポイントクラウドデノイングの再検討

PCDNF: Revisiting Learning-based Point Cloud Denoising via Joint Normal Filtering ( http://arxiv.org/abs/2209.00798v2 )

ライセンス: Link先を確認
Zheng Liu, Yaowu Zhao, Sijing Zhan, Yuanyuan Liu, Renjie Chen, Ying He(参考訳) ノイズの多い点雲から高品質な表面を復元する点雲(point cloud denoising)は、幾何処理の根本的な問題である。 既存の手法のほとんどはノイズの入力を直接無視するか、生の正規化をフィルタリングし、ポイント位置を更新する。 マルチタスクの観点から点群を復調する点群を復調し,PCDNFと名づけられたエンドツーエンドのネットワークを提案し,接続正規フィルタリングにより点群を復調する。 特に,幾何的特徴をより正確に保存しながら,ネットワーク全体のノイズ除去を支援するための補助的正規フィルタリングタスクを導入する。 アーキテクチャ全体に加えて、ネットワークには2つの新しいモジュールがあります。 一方,ノイズ除去性能を向上させるため,学習点や正規特徴,形状を包括的に考慮し,特定の点の潜在接空間表現を構成する形状認識セレクタの設計を行った。 一方、点特徴は幾何学的詳細を記述するのに適しており、通常の特徴は幾何学的構造(例えば鋭い辺や角)を表現するのにより導出的である。 点と通常の特徴を組み合わせることで、弱点を克服できます。 そこで我々は,幾何情報をよりよく回復するために,点と通常の特徴を融合させる機能改良モジュールを設計する。 大規模な評価, 比較, アブレーション研究により, 提案手法は, 点群と正常なフィルタリングの両方において, 最先端の手法より優れていることを示した。

Recovering high quality surfaces from noisy point clouds, known as point cloud denoising, is a fundamental yet challenging problem in geometry processing. Most of the existing methods either directly denoise the noisy input or filter raw normals followed by updating point positions. Motivated by the essential interplay between point cloud denoising and normal filtering, we revisit point cloud denoising from a multitask perspective, and propose an end-to-end network, named PCDNF, to denoise point clouds via joint normal filtering. In particular, we introduce an auxiliary normal filtering task to help the overall network remove noise more effectively while preserving geometric features more accurately. In addition to the overall architecture, our network has two novel modules. On one hand, to improve noise removal performance, we design a shape-aware selector to construct the latent tangent space representation of the specific point by comprehensively considering the learned point and normal features and geometry priors. On the other hand, point features are more suitable for describing geometric details, and normal features are more conducive for representing geometric structures (e.g., sharp edges and corners). Combining point and normal features allows us to overcome their weaknesses. Thus, we design a feature refinement module to fuse point and normal features for better recovering geometric information. Extensive evaluations, comparisons, and ablation studies demonstrate that the proposed method outperforms state-of-the-arts for both point cloud denoising and normal filtering.
翻訳日:2023-07-04 15:50:30 公開日:2023-07-03
# ミスマッチ基底測定による単一ビットレジームにおける実用量子鍵分布の安全性の簡易かつ厳密な証明法

Simple and Rigorous Proof Method for the Security of Practical Quantum Key Distribution in the Single-Qubit Regime Using Mismatched Basis Measurements ( http://arxiv.org/abs/2208.13754v3 )

ライセンス: Link先を確認
Michel Boyer, Gilles Brassard, Nicolas Godbout, Rotem Liss, St\'ephane Virally(参考訳) 量子鍵分配(QKD)プロトコルは、2つのパーティが秘密の共有鍵を生成できるようにすることを目的としている。 理論上、多くのQKDプロトコルは無条件で安全であることが証明されているが、実験的なQKD実装の実際のセキュリティ分析は、通常、可能なすべての抜け穴を考慮していない。 本稿では、まず、単一量子ビットロスレスシステムにおいて、離散変数QKD(測定デバイスに依存しないQKDにも適用できる)の実用的実装に対して、セキュアなキーレートの計算方法を提案する。 我々は,本手法がQKDの実践的実現を解析,ベンチマーク,標準化するための標準ツールの1つになることを願っている。

Quantum key distribution (QKD) protocols aim at allowing two parties to generate a secret shared key. While many QKD protocols have been proven unconditionally secure in theory, practical security analyses of experimental QKD implementations typically do not take into account all possible loopholes, and practical devices are still not fully characterized for obtaining tight and realistic key rates. We present a simple method of computing secure key rates for any practical implementation of discrete-variable QKD (which can also apply to measurement-device-independent QKD), initially in the single-qubit lossless regime, and we rigorously prove its unconditional security against any possible attack. We hope our method becomes one of the standard tools used for analysing, benchmarking, and standardizing all practical realizations of QKD.
翻訳日:2023-07-04 15:49:59 公開日:2023-07-03
# 広告主のオンライン入札アルゴリズム

Online Bidding Algorithms for Return-on-Spend Constrained Advertisers ( http://arxiv.org/abs/2208.13713v3 )

ライセンス: Link先を確認
Zhe Feng, Swati Padmanabhan, Di Wang(参考訳) オンライン広告は競争の激しい数十億ドル規模の業界へと成長し、広告主は大規模かつ高頻度の広告スロットを入札している。 これにより、特定の制約に基づいて広告主のターゲットを最大化するために、入ってくるクエリの入札を決定する効率的な「自動入札」アルゴリズムの必要性が高まっている。 本研究は,価値を最大化する広告主に対して,ros(return-on-spend)という制約下で効率的なオンラインアルゴリズムを提案する。 全てのクエリを事前に知っている最適アルゴリズムに対して、後悔の観点から効率を定量化する。 我々は,ある分布から入力されたクエリのシーケンスがサンプルである場合に,常に指定されたRoS制約を尊重しながら,期待のほぼ最適に後悔する簡単なオンラインアルゴリズムに寄与する。 また,これまでのbalseiro,lu,mirrokni [blm20] の成果と統合して,ros と固定予算の制約を尊重しながら,ほぼ最適の後悔を実現した。 本アルゴリズムは原始双対フレームワークに従い,オンラインミラー降下(omd)を用いてデュアルアップデートを行う。 しかし、OMDの非標準設定を用いる必要があるため、オンライン学習における逆境設定であるOMDの古典的な低レベル保証はもはや保持されない。 しかしながら,アルゴリズム設計において低相対性ダイナミクスが適用される場合,OMDが直面する勾配は逆数とは程遠いが,アルゴリズム選択の影響を受けやすい。 我々は、この重要な洞察を利用して、omd設定がアルゴリズムの領域において低い後悔を達成していることを示す。

Online advertising has recently grown into a highly competitive and complex multi-billion-dollar industry, with advertisers bidding for ad slots at large scales and high frequencies. This has resulted in a growing need for efficient "auto-bidding" algorithms that determine the bids for incoming queries to maximize advertisers' targets subject to their specified constraints. This work explores efficient online algorithms for a single value-maximizing advertiser under an increasingly popular constraint: Return-on-Spend (RoS). We quantify efficiency in terms of regret relative to the optimal algorithm, which knows all queries a priori. We contribute a simple online algorithm that achieves near-optimal regret in expectation while always respecting the specified RoS constraint when the input sequence of queries are i.i.d. samples from some distribution. We also integrate our results with the previous work of Balseiro, Lu, and Mirrokni [BLM20] to achieve near-optimal regret while respecting both RoS and fixed budget constraints. Our algorithm follows the primal-dual framework and uses online mirror descent (OMD) for the dual updates. However, we need to use a non-canonical setup of OMD, and therefore the classic low-regret guarantee of OMD, which is for the adversarial setting in online learning, no longer holds. Nonetheless, in our case and more generally where low-regret dynamics are applied in algorithm design, the gradients encountered by OMD can be far from adversarial but influenced by our algorithmic choices. We exploit this key insight to show our OMD setup achieves low regret in the realm of our algorithm.
翻訳日:2023-07-04 15:49:40 公開日:2023-07-03
# 盗難パッケージを用いたrの時系列特徴量解析

Feature-Based Time-Series Analysis in R using the theft Package ( http://arxiv.org/abs/2208.06146v4 )

ライセンス: Link先を確認
Trent Henderson and Ben D. Fulcher(参考訳) 時系列は科学全体で測定され分析される。 時系列の構造を定量化する一つの方法は、要約統計または「特徴」の組を計算し、その特性を特徴ベクトルとして時系列を表現することである。 得られた特徴空間は解釈可能で情報的であり、クラスタリング、回帰、分類を含む従来の統計的学習アプローチを時系列データセットに適用することができる。 catch22 (22機能): Matlab, R, Python, Julia), feasts (42機能: R), tsfeatures (63機能: R), Kats (40機能: Python), tsfresh (779機能: Python), TSFEL (390機能: Python) など,時系列機能を計算するためのオープンソースソフトウェアパッケージが多数存在する。 しかし、いくつか問題がある。 (i)これらのパッケージに対する特異なアクセスポイントは現在利用できない。 (ii)すべての機能セットにアクセスするには、ユーザは複数の言語に精通しなければならない。 3)これらの特徴抽出パッケージは,時系列分類などの特徴量に基づく時系列解析を行うための方法論的パイプラインを欠いている。 ここでは、これらの問題の解決策を、theft: Tools for Handling Processing of Features from Time seriesというRソフトウェアパッケージで紹介する。 theftは、上述の6つのオープンソースの時系列機能セットからコンピューティング機能を統一し拡張可能なフレームワークである。 また、広範囲のデータ視覚化テンプレート、低次元投影、時系列分類操作など、抽出された特徴の処理と解釈のための一連の機能を含んでいる。 科学と産業における時系列データセットの量と複雑さの増大に伴い、盗難は時系列における情報構造を包括的に定量化し解釈するための標準化されたフレームワークを提供する。

Time series are measured and analyzed across the sciences. One method of quantifying the structure of time series is by calculating a set of summary statistics or `features', and then representing a time series in terms of its properties as a feature vector. The resulting feature space is interpretable and informative, and enables conventional statistical learning approaches, including clustering, regression, and classification, to be applied to time-series datasets. Many open-source software packages for computing sets of time-series features exist across multiple programming languages, including catch22 (22 features: Matlab, R, Python, Julia), feasts (42 features: R), tsfeatures (63 features: R), Kats (40 features: Python), tsfresh (779 features: Python), and TSFEL (390 features: Python). However, there are several issues: (i) a singular access point to these packages is not currently available; (ii) to access all feature sets, users must be fluent in multiple languages; and (iii) these feature-extraction packages lack extensive accompanying methodological pipelines for performing feature-based time-series analysis, such as applications to time-series classification. Here we introduce a solution to these issues in an R software package called theft: Tools for Handling Extraction of Features from Time series. theft is a unified and extendable framework for computing features from the six open-source time-series feature sets listed above. It also includes a suite of functions for processing and interpreting the performance of extracted features, including extensive data-visualization templates, low-dimensional projections, and time-series classification operations. With an increasing volume and complexity of time-series datasets in the sciences and industry, theft provides a standardized framework for comprehensively quantifying and interpreting informative structure in time series.
翻訳日:2023-07-04 15:47:22 公開日:2023-07-03
# てんかん状態としての埋め込み:知識蓄積のためのプール演算子の使用制限

Embeddings as Epistemic States: Limitations on the Use of Pooling Operators for Accumulating Knowledge ( http://arxiv.org/abs/2210.05723v2 )

ライセンス: Link先を確認
Steven Schockaert(参考訳) さまざまなニューラルネットワークアーキテクチャは、異なるソースからの情報を集約するためにプールオペレータに依存している。 そのような文脈では、ベクトルがエピステミック状態を符号化する、すなわち、ベクトルが興味のある性質について得られた証拠を捉え、これらのベクトルをプールすると、この証拠を組み合わせるベクトルが得られるという暗黙的に仮定されることが多い。 多くの標準的なプール演算子に対して、このアイデアとどのような条件で互換性があるのかを考察し、それをエピステミック・プール原理(英語版)と呼ぶ。 検討された全てのプール作用素は、エピステミック・プールの原理を満たすことができるが、これは埋め込みが十分に高次元であり、ほとんどのプール作用素が特定の制約を満たすときのみ成り立つ(例えば、非負座標を持つ)。 さらに,これらの制約は組込みを実際にどのように使用できるかに重要な意味を持つことを示した。 特に、疫学的なプール原理が満たされると、ほとんどの場合、線形スコアリング関数を用いた命題公式の満足度を2つの例外で検証することは不可能である。 (i)上界および上界の埋め込みによる最大プール (II)非負の埋め込みを伴うアダマールプール この発見は、なぜグラフニューラルネットワークが推論タスクで低パフォーマンスなのかを明確化するのに役立つ。 最後に, 最大プーリングが最適な演算子として現れる非単調推論の文脈において重要な, 重み付けされたてんかん状態に対するてんかんプールの原理の拡張についても検討する。

Various neural network architectures rely on pooling operators to aggregate information coming from different sources. It is often implicitly assumed in such contexts that vectors encode epistemic states, i.e. that vectors capture the evidence that has been obtained about some properties of interest, and that pooling these vectors yields a vector that combines this evidence. We study, for a number of standard pooling operators, under what conditions they are compatible with this idea, which we call the epistemic pooling principle. While we find that all the considered pooling operators can satisfy the epistemic pooling principle, this only holds when embeddings are sufficiently high-dimensional and, for most pooling operators, when the embeddings satisfy particular constraints (e.g. having non-negative coordinates). We furthermore show that these constraints have important implications on how the embeddings can be used in practice. In particular, we find that when the epistemic pooling principle is satisfied, in most cases it is impossible to verify the satisfaction of propositional formulas using linear scoring functions, with two exceptions: (i) max-pooling with embeddings that are upper-bounded and (ii) Hadamard pooling with non-negative embeddings. This finding helps to clarify, among others, why Graph Neural Networks sometimes under-perform in reasoning tasks. Finally, we also study an extension of the epistemic pooling principle to weighted epistemic states, which are important in the context of non-monotonic reasoning, where max-pooling emerges as the most suitable operator.
翻訳日:2023-07-04 15:41:01 公開日:2023-07-03
# ニューラルネットワーク拡張カルマンフィルタによる構造系のダイナミクスの学習と予測

Neural Extended Kalman Filters for Learning and Predicting Dynamics of Structural Systems ( http://arxiv.org/abs/2210.04165v2 )

ライセンス: Link先を確認
Wei Liu, Zhilu Lai, Kiran Bacsa, Eleni Chatzi(参考訳) 正確な構造応答予測は、構造的健康モニタリングおよび制御アプリケーションの主要なドライバとなる。 これはしばしば、複雑な構造システムの基盤となるダイナミクスを適切に捉えるために提案されたモデルを必要とする。 本研究では, ニューラルネットワーク拡張カルマンフィルタ (Neural Extended Kalman Filter (Neural EKF) と呼ばれる学習可能な拡張カルマンフィルタ (EKF) を用いて, 複雑な物理系の潜在進化力学を学習する。 ニューラルEKFは従来のEKFの一般化版であり、プロセスダイナミクスと感覚観測のモデリングはニューラルネットワークによってパラメータ化できるため、エンドツーエンドのトレーニングによって学習される。 測定結果から推定を行うEKFを用いて,変分推論の枠組みの下で実装した。 通常、従来の変分推論モデルは潜在力学モデルに依存しないニューラルネットワークによってパラメータ化される。 この特徴は、力学モデルに基づいて推論と再構成の精度を弱め、関連するトレーニングを不十分にする。 本研究では,ニューラルEKFによって課される構造が学習プロセスに有益であることを示す。 本研究では,シミュレーションおよび実世界の構造監視データセットにおけるフレームワークの有効性を実証し,提案手法の有意な予測能力を示す。

Accurate structural response prediction forms a main driver for structural health monitoring and control applications. This often requires the proposed model to adequately capture the underlying dynamics of complex structural systems. In this work, we utilize a learnable Extended Kalman Filter (EKF), named the Neural Extended Kalman Filter (Neural EKF) throughout this paper, for learning the latent evolution dynamics of complex physical systems. The Neural EKF is a generalized version of the conventional EKF, where the modeling of process dynamics and sensory observations can be parameterized by neural networks, therefore learned by end-to-end training. The method is implemented under the variational inference framework with the EKF conducting inference from sensing measurements. Typically, conventional variational inference models are parameterized by neural networks independent of the latent dynamics models. This characteristic makes the inference and reconstruction accuracy weakly based on the dynamics models and renders the associated training inadequate. In this work, we show that the structure imposed by the Neural EKF is beneficial to the learning process. We demonstrate the efficacy of the framework on both simulated and real-world structural monitoring datasets, with the results indicating significant predictive capabilities of the proposed scheme.
翻訳日:2023-07-04 15:40:32 公開日:2023-07-03
# 意思決定者へのアドバイスをいつ学ぶか

Learning When to Advise Human Decision Makers ( http://arxiv.org/abs/2209.13578v2 )

ライセンス: Link先を確認
Gali Noti and Yiling Chen(参考訳) 人工知能(AI)システムは、医療、刑事司法、金融など幅広い分野において、人間の意思決定を促進するためのアドバイスを提供するために、ますます使われてきている。 意思決定パイプラインの定数要素として人間にアルゴリズムアドバイスを提供する現在の慣行の制限により、本論文ではアルゴリズムがいつアドバイスを提供するべきかという疑問を提起する。 本稿では,AIシステムの新しい設計手法を提案する。この設計では,アルゴリズムが人間のユーザと双方向に対話し,ユーザが意思決定に有益である場合にのみアドバイスを提供することを目的としている。 大規模実験の結果、我々のアドバイスアプローチは必要に応じてアドバイスを提供し、固定的で非インタラクティブなアドバイスアプローチに比べて人間の意思決定を大幅に改善することがわかった。 このアプローチは、人間学習の促進、人間の意思決定者の補完的な強みの維持、そしてアドバイスに対するよりポジティブな応答性をもたらす。

Artificial intelligence (AI) systems are increasingly used for providing advice to facilitate human decision making in a wide range of domains, such as healthcare, criminal justice, and finance. Motivated by limitations of the current practice where algorithmic advice is provided to human users as a constant element in the decision-making pipeline, in this paper we raise the question of when should algorithms provide advice? We propose a novel design of AI systems in which the algorithm interacts with the human user in a two-sided manner and aims to provide advice only when it is likely to be beneficial for the user in making their decision. The results of a large-scale experiment show that our advising approach manages to provide advice at times of need and to significantly improve human decision making compared to fixed, non-interactive, advising approaches. This approach has additional advantages in facilitating human learning, preserving complementary strengths of human decision makers, and leading to more positive responsiveness to the advice.
翻訳日:2023-07-04 15:38:43 公開日:2023-07-03
# 非相反性を用いたホットプロパゲーティングモードの高純度絡み合わせ

High-Purity Entanglement of Hot Propagating Modes Using Nonreciprocity ( http://arxiv.org/abs/2209.06847v3 )

ライセンス: Link先を確認
Lindsay Orr, Saeed A. Khan, Nils Buchholz, Shlomi Kotler, A. Metelmann(参考訳) 分散量子情報処理と通信プロトコルは、伝播モード間の絡み合いを生成する能力を要求する。 しかし、熱揺らぎは、特に高周波(rf)信号に関連する低周波モードにおいて、エンタングル状態の忠実性と純度を著しく制限することができる。 ここでは、熱ゆらぎに対して頑健な伝播モードの連続可変絡み付けを行うための資源として非相互性を提案する。 冷熱貯留層を利用することで、低周波モードと高周波モードとの標準的な2モードスクイーズ相互作用における相互の対称性を壊し、熱揺らぎの再構成により高純度な飛行絡み状態の発生を可能にすることを示す。 本手法はガウス対相互作用のみを必要とするため,パラメトリック回路QEDの実装に最適である。

Distributed quantum information processing and communication protocols demand the ability to generate entanglement among propagating modes. However, thermal fluctuations can severely limit the fidelity and purity of propagating entangled states, especially for low-frequency modes relevant for radio-frequency (RF) signals. Here we propose nonreciprocity as a resource to render continuous-variable entanglement of propagating modes robust against thermal fluctuations. By utilising a cold-engineered reservoir we break the symmetry of reciprocity in a standard two-mode squeezing interaction between a low- and a high-frequency mode, and show that the rerouting of thermal fluctuations allows the generation of flying entangled states with high purity. Our approach requires only pairwise Gaussian interactions and is thus ideal for parametric circuit QED implementations.
翻訳日:2023-07-04 15:38:27 公開日:2023-07-03
# CausalBench: シングルセル摂動データによるネットワーク推論のための大規模ベンチマーク

CausalBench: A Large-scale Benchmark for Network Inference from Single-cell Perturbation Data ( http://arxiv.org/abs/2210.17283v2 )

ライセンス: Link先を確認
Mathieu Chevalley, Yusuf Roohani, Arash Mehrjou, Jure Leskovec, Patrick Schwab(参考訳) 因果推論は、複数の科学分野において重要な側面であり、医学のような高影響の応用に日常的に適用される。 しかし, 実環境における因果推論手法の性能評価は, 介入条件と制御条件の両方で観測する必要があるため困難である。 合成データセットを用いた従来の評価は、実世界のシステムの性能を反映していない。 そこで我々は,大規模な単一セル摂動実験から実世界の干渉データに対するネットワーク推定手法を評価するベンチマークスイートCausalBenchを紹介する。 causalbenchは、新しい分散ベースの介入メトリクスを含む、生物学的に動機づけられたパフォーマンスメトリクスを組み込んでいる。 CausalBench スイートを用いた最先端因果推論手法の体系的評価では,現在のメソッドのスケーラビリティの低さがパフォーマンスを損なうことを強調している。 さらに、介入情報を使用する手法は、合成ベンチマークで観察される方法とは対照的に、観測データのみを使用する手法よりも優れていない。 このようにcausalbenchは因果ネットワーク推論研究に新たな道を開き、実世界の介入データを活用する進捗を追跡するための原則と信頼性を提供する。

Causal inference is a vital aspect of multiple scientific disciplines and is routinely applied to high-impact applications such as medicine. However, evaluating the performance of causal inference methods in real-world environments is challenging due to the need for observations under both interventional and control conditions. Traditional evaluations conducted on synthetic datasets do not reflect the performance in real-world systems. To address this, we introduce CausalBench, a benchmark suite for evaluating network inference methods on real-world interventional data from large-scale single-cell perturbation experiments. CausalBench incorporates biologically-motivated performance metrics, including new distribution-based interventional metrics. A systematic evaluation of state-of-the-art causal inference methods using our CausalBench suite highlights how poor scalability of current methods limits performance. Moreover, methods that use interventional information do not outperform those that only use observational data, contrary to what is observed on synthetic benchmarks. Thus, CausalBench opens new avenues in causal network inference research and provides a principled and reliable way to track progress in leveraging real-world interventional data.
翻訳日:2023-07-04 15:31:33 公開日:2023-07-03
# 雑音量子状態のパワーと資源希釈の利点

The power of noisy quantum states and the advantage of resource dilution ( http://arxiv.org/abs/2210.14192v2 )

ライセンス: Link先を確認
Marek Miller, Manfredi Scalici, Marco Fellous Asiani, Alexander Streltsov(参考訳) 絡み合った蒸留はノイズの多い量子状態を一重項に変換することができ、量子テレポーテーションや量子鍵分布といった様々な量子技術的タスクに使用できる。 絡み合い希釈は逆過程であり、一重項は絡み合いが少なく量子状態へと変換される。 蒸留の有用性は明らかであるが、絡み合い希釈の実用的応用は少ない。 ここで,エンタングルメント希釈は局所雑音に対する共有量子状態のレジリエンスを高めることができることを示す。 一重項を任意に絡み合った状態に希釈しても、レジリエンスの増加は観察される。 我々は分析を、量子コヒーレンス、量子熱力学、純度などの他の量子資源理論に拡張する。 これらの資源理論では、純粋な量子状態をノイズのあるものに希釈することは、ノイズからシステムを保護するのに有利であることを示す。 本結果は, 量子資源希釈の有用性を実証し, 量子情報処理における純状態よりもノイズの多い量子状態の利点を示す稀な例である。

Entanglement distillation allows to convert noisy quantum states into singlets, which can in turn be used for various quantum technological tasks, such as quantum teleportation and quantum key distribution. Entanglement dilution is the inverse process: singlets are converted into quantum states with less entanglement. While the usefulness of distillation is apparent, practical applications of entanglement dilution are less obvious. Here, we show that entanglement dilution can increase the resilience of shared quantum states to local noise. The increased resilience is observed even if diluting singlets into states with arbitrarily little entanglement. We extend our analysis to other quantum resource theories, such as quantum coherence, quantum thermodynamics, and purity. For these resource theories, we demonstrate that diluting pure quantum states into noisy ones can be advantageous for protecting the system from noise. Our results demonstrate the usefulness of quantum resource dilution, and provide a rare example for an advantage of noisy quantum states over pure states in quantum information processing.
翻訳日:2023-07-04 15:30:51 公開日:2023-07-03
# ssit:糖尿病網膜症格付けのための自己教師付き画像トランスフォーマ

SSiT: Saliency-guided Self-supervised Image Transformer for Diabetic Retinopathy Grading ( http://arxiv.org/abs/2210.10969v4 )

ライセンス: Link先を確認
Yijin Huang, Junyan Lyu, Pujin Cheng, Roger Tam, Xiaoying Tang(参考訳) 自己教師付き学習(ssl)はラベルのない画像を利用して画像表現を学ぶために広く利用されている。 しかし, 医用画像解析分野では完全には研究されていない。 本研究では,糖尿病網膜症 (dr) に対するssit (saliency-guided self-supervised image transformer) を提案する。 我々は,自己教師付き事前学習をドメイン固有の事前知識で導くことを目標として,ssl にサリエンシーマップを導入する。 具体的には,(1) モーメントコントラストに基づくサラマンシー誘導型コントラスト学習を行い,(2) モーメント更新キーエンコーダの入力シーケンスから自明なパッチを除去するために,基金画像のサラマンシーマップを利用する。 したがって、キーエンコーダは、正常な領域に焦点を当てたターゲット表現を提供し、クエリエンコーダに正常な特徴をキャプチャするように指示する。 2) 問合せエンコーダを訓練し, 給与区分の予測を行い, 学習表現におけるきめ細かい情報の保存を奨励する。 4つの公開アクセス可能な基礎画像データセットで大規模な実験を行う。 提案したSSiTは、すべてのデータセットおよび様々な評価設定において、他の最先端SSLメソッドよりも大幅に優れ、SSiTから学習した表現の有効性を確立する。 ソースコードはhttps://github.com/yijinhuang/ssitで入手できる。

Self-supervised learning (SSL) has been widely applied to learn image representations through exploiting unlabeled images. However, it has not been fully explored in the medical image analysis field. In this work, we propose Saliency-guided Self-Supervised image Transformer (SSiT) for diabetic retinopathy (DR) grading from fundus images. We novelly introduce saliency maps into SSL, with a goal of guiding self-supervised pre-training with domain-specific prior knowledge. Specifically, two saliency-guided learning tasks are employed in SSiT: (1) We conduct saliency-guided contrastive learning based on the momentum contrast, wherein we utilize fundus images' saliency maps to remove trivial patches from the input sequences of the momentum-updated key encoder. And thus, the key encoder is constrained to provide target representations focusing on salient regions, guiding the query encoder to capture salient features. (2) We train the query encoder to predict the saliency segmentation, encouraging preservation of fine-grained information in the learned representations. Extensive experiments are conducted on four publicly-accessible fundus image datasets. The proposed SSiT significantly outperforms other representative state-of-the-art SSL methods on all datasets and under various evaluation settings, establishing the effectiveness of the learned representations from SSiT. The source code is available at https://github.com/YijinHuang/SSiT.
翻訳日:2023-07-04 15:30:23 公開日:2023-07-03
# シーケンス間音声認識における言語に依存しないコードスイッチング

Language-agnostic Code-Switching in Sequence-To-Sequence Speech Recognition ( http://arxiv.org/abs/2210.08992v2 )

ライセンス: Link先を確認
Enes Yavuz Ugan, Christian Huber, Juan Hussain and Alexander Waibel(参考訳) Code-Switching (CS)は、異なる言語の単語やフレーズを交互に使用する現象である。 今日のニューラルエンド・ツー・エンド(E2E)モデルは、自動音声認識(ASR)タスクで最先端のパフォーマンスを提供するが、これらのシステムが非常にデータ集約的であることは一般的に知られている。 しかし、書き起こされ、整列されたCS音声のみが利用可能である。 この問題を克服し、cs音声の書き起こしが可能な多言語システムを訓練するために、異なるソース言語の音声と対応するラベルを結合した、シンプルで効果的なデータ拡張を提案する。 このトレーニングデータを用いて,CS音声の書き起こしを改良したE2Eモデルを提案する。 また、単言語テストの単言語モデルを超えている。 その結果,この拡張手法は,5,03%のwarのトレーニングでは見られなかった言語間スイッチにおけるモデルの性能を向上させることさえ可能であった。

Code-Switching (CS) is referred to the phenomenon of alternately using words and phrases from different languages. While today's neural end-to-end (E2E) models deliver state-of-the-art performances on the task of automatic speech recognition (ASR) it is commonly known that these systems are very data-intensive. However, there is only a few transcribed and aligned CS speech available. To overcome this problem and train multilingual systems which can transcribe CS speech, we propose a simple yet effective data augmentation in which audio and corresponding labels of different source languages are concatenated. By using this training data, our E2E model improves on transcribing CS speech. It also surpasses monolingual models on monolingual tests. The results show that this augmentation technique can even improve the model's performance on inter-sentential language switches not seen during training by 5,03% WER.
翻訳日:2023-07-04 15:29:24 公開日:2023-07-03
# ダブルブラインドレビュー: 深層学習による著者の貢献

Cracking Double-Blind Review: Authorship Attribution with Deep Learning ( http://arxiv.org/abs/2211.07467v3 )

ライセンス: Link先を確認
Leonard Bauersfeld and Angel Romero and Manasi Muglikar and Davide Scaramuzza(参考訳) 二重盲検ピアレビューは、公平で偏りのない、事実中心の科学的な議論を確実にするため、学術研究の柱と考えられている。 しかし、経験豊富な研究者たちは、どの研究グループが匿名で提出したのかを正確に推測することができ、ピアレビュープロセスに偏っている。 本研究では,著者に匿名の原稿を属性付けるために,書誌中のテキストコンテンツと著者名のみを使用するトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。 提案手法を訓練し,評価するために,これまでで最大の著者識別データセットを作成した。 arXivで公開されているすべての研究論文を活用し、200万冊以上の原稿を公開している。 最大2000名の著者によるarXiv-subsetでは,論文の73%が正確である前例のない著者帰属精度を達成している。 本稿では,提案手法が学術コミュニティに広く普及している場合に,さらに大きなデータセットに適用可能であることを示すスケーリング分析を提案する。 さらに,匿名原稿の著者を識別することを目的とした設定において,帰属精度を解析した。 この手法により,匿名の著作の著者を予測できるだけでなく,論文を帰属させる重要な側面の実証的証拠も提供する。 実験を再現するために必要なツールをオープンソースとして公開しました。

Double-blind peer review is considered a pillar of academic research because it is perceived to ensure a fair, unbiased, and fact-centered scientific discussion. Yet, experienced researchers can often correctly guess from which research group an anonymous submission originates, biasing the peer-review process. In this work, we present a transformer-based, neural-network architecture that only uses the text content and the author names in the bibliography to attribute an anonymous manuscript to an author. To train and evaluate our method, we created the largest authorship identification dataset to date. It leverages all research papers publicly available on arXiv amounting to over 2 million manuscripts. In arXiv-subsets with up to 2,000 different authors, our method achieves an unprecedented authorship attribution accuracy, where up to 73% of papers are attributed correctly. We present a scaling analysis to highlight the applicability of the proposed method to even larger datasets when sufficient compute capabilities are more widely available to the academic community. Furthermore, we analyze the attribution accuracy in settings where the goal is to identify all authors of an anonymous manuscript. Thanks to our method, we are not only able to predict the author of an anonymous work, but we also provide empirical evidence of the key aspects that make a paper attributable. We have open-sourced the necessary tools to reproduce our experiments.
翻訳日:2023-07-04 15:21:43 公開日:2023-07-03
# マルチモーダル時間データに対するアクティブな獲得: 整合的意思決定タスク

Active Acquisition for Multimodal Temporal Data: A Challenging Decision-Making Task ( http://arxiv.org/abs/2211.05039v2 )

ライセンス: Link先を確認
Jannik Kossen, C\u{a}t\u{a}lina Cangea, Eszter V\'ertes, Andrew Jaegle, Viorica Patraucean, Ira Ktena, Nenad Tomasev, Danielle Belgrave(参考訳) 我々は,マルチモーダル時間データ(A2MT)の能動的取得という,困難な意思決定タスクを導入する。 多くの現実世界のシナリオでは、入力機能はテスト時に簡単に利用できず、大きなコストで取得する必要がある。 A2MTでは,取得する入力のモダリティ,取得コスト,予測性能を積極的に選択するエージェントを学習することを目的としている。 A2MTは、アクティブ特徴獲得と呼ばれる以前のタスクを拡張して、高次元入力に関する時間的決定を行う。 本稿では,Perceiver IOアーキテクチャに基づくA2MTの実現手法を提案する。 我々のエージェントは、実用的なクロスモーダル推論スキルを必要とする新しい合成シナリオを解くことができる。 実世界の2つの大規模データセット、kinetics-700とaudiosetにおいて、エージェントはコスト-反応性獲得行動の学習に成功しました。 しかし、アブレーションは適応的な獲得戦略を学べず、最先端のモデルであってもタスクの難しさを強調している。 a2mtの応用は、医療、ロボティクス、金融などの分野において、買収コストと情報性においてモダリティが異なる可能性がある。

We introduce a challenging decision-making task that we call active acquisition for multimodal temporal data (A2MT). In many real-world scenarios, input features are not readily available at test time and must instead be acquired at significant cost. With A2MT, we aim to learn agents that actively select which modalities of an input to acquire, trading off acquisition cost and predictive performance. A2MT extends a previous task called active feature acquisition to temporal decision making about high-dimensional inputs. We propose a method based on the Perceiver IO architecture to address A2MT in practice. Our agents are able to solve a novel synthetic scenario requiring practically relevant cross-modal reasoning skills. On two large-scale, real-world datasets, Kinetics-700 and AudioSet, our agents successfully learn cost-reactive acquisition behavior. However, an ablation reveals they are unable to learn adaptive acquisition strategies, emphasizing the difficulty of the task even for state-of-the-art models. Applications of A2MT may be impactful in domains like medicine, robotics, or finance, where modalities differ in acquisition cost and informativeness.
翻訳日:2023-07-04 15:21:04 公開日:2023-07-03
# 生成モデルと異常検出のための量子確率ハミルトン学習

Quantum-probabilistic Hamiltonian learning for generative modelling & anomaly detection ( http://arxiv.org/abs/2211.03803v2 )

ライセンス: Link先を確認
Jack Y. Araz and Michael Spannowsky(参考訳) 孤立量子力学系のハミルトニアンはその力学と物理的挙動を決定する。 本研究では,システムのハミルトニアンを学習し,その変動熱状態推定をデータ解析に活用する可能性について検討する。 そこで本研究では,シミュレーションによる大型ハドロン衝突型加速器データの生成モデルとして量子ハミルトニアンモデルを用いて,混合状態として表現可能性を示す。 さらに、学習したハミルトニアンを用いて異常検出を行い、異なるサンプル型が量子多体系として扱われたときの異なる動的挙動を形成することを示した。 これらの特徴を利用してサンプルタイプの違いを定量化する。 本研究は,フィールド理論計算のための手法を機械学習アプリケーションに応用し,データ解析手法の理論的アプローチを応用できることを示唆する。

The Hamiltonian of an isolated quantum mechanical system determines its dynamics and physical behaviour. This study investigates the possibility of learning and utilising a system's Hamiltonian and its variational thermal state estimation for data analysis techniques. For this purpose, we employ the method of Quantum Hamiltonian-Based Models for the generative modelling of simulated Large Hadron Collider data and demonstrate the representability of such data as a mixed state. In a further step, we use the learned Hamiltonian for anomaly detection, showing that different sample types can form distinct dynamical behaviours once treated as a quantum many-body system. We exploit these characteristics to quantify the difference between sample types. Our findings show that the methodologies designed for field theory computations can be utilised in machine learning applications to employ theoretical approaches in data analysis techniques.
翻訳日:2023-07-04 15:20:43 公開日:2023-07-03
# 量子オープンシステムにおける詳細なバランス違反

Violation of Detailed Balance in Quantum Open Systems ( http://arxiv.org/abs/2211.03070v2 )

ライセンス: Link先を確認
Robert Alicki, Milan \v{S}indelka and David Gelbwaser-Klimovsky(参考訳) 低密度極限法を適用した量子マルコフマスター方程式を用いて、熱力学平衡の希薄気体に浸漬した量子系のダイナミクスを考察する。 浴槽温度のギブス状態は常に定常であり、この状態の詳細なバランス状態はボルン近似を超えて破ることができる。 この違反は、熱平衡における持続確率と熱電流の存在を可能にする熱化機構を生成する散乱T-行列の時間反転対称性の欠如と関連している。 この現象は、外部磁場中の3つの量子ドット間の電子ホッピングのモデルによって説明される。

We consider the dynamics of a quantum system immersed in a dilute gas at thermodynamics equilibrium using a quantum Markovian master equation derived by applying the low-density limit technique. It is shown that the Gibbs state at the bath temperature is always stationary while the detailed balance condition at this state can be violated beyond the Born approximation. This violation is generically related to the absence of time-reversal symmetry for the scattering T-matrix, which produces a thermalization mechanism that allows the presence of persistent probability and heat currents at thermal equilibrium. This phenomenon is illustrated by a model of an electron hopping between three quantum dots in an external magnetic field.
翻訳日:2023-07-04 15:20:04 公開日:2023-07-03
# 12段階心電図分類のための深層学習モデルの解析 : 診断基準に類似した特徴について

Analysis of a Deep Learning Model for 12-Lead ECG Classification Reveals Learned Features Similar to Diagnostic Criteria ( http://arxiv.org/abs/2211.01738v2 )

ライセンス: Link先を確認
Theresa Bender, Jacqueline Michelle Beinecke, Dagmar Krefting, Carolin M\"uller, Henning Dathe, Tim Seidler, Nicolai Spicher, Anne-Christin Hauschild(参考訳) その顕著な性能にもかかわらず、深いニューラルネットワークは、その説明可能性の欠如によって部分的にあると考えられている臨床実践において未経験のままである。 本研究では,12誘導心電図分類のための前訓練深層ニューラルネットワーク(dnn)への帰属法を適用し,この「ブラックボックス」を開き,モデル予測と学習特徴の関係を理解する。 我々は、公開データセットからデータを分類し、帰属法は、分類された各信号のサンプルに「関連スコア」を割り当てる。 これにより、トレーニング中にネットワークが学んだことを分析し、定量的手法を提案する。 a) クラス b) リード,及び c) 平均ビート。 心房細動(af)と左房分枝ブロック(lbbb)に対する妥当性スコアの解析 : 健常者と比較して a) 高い分類確率で増加し、0前後の場合に誤分類に対応し、 b) 考慮すべき事項に関する臨床勧告に該当する。 さらに c) 可視P波とコンコーダントT波は, AFとLBBBの分類において, それぞれ明らかに負の相関点を示す。 要約すると、DNNは、心臓学の教科書知識に類似した特徴を学習したことを示唆している。

Despite their remarkable performance, deep neural networks remain unadopted in clinical practice, which is considered to be partially due to their lack in explainability. In this work, we apply attribution methods to a pre-trained deep neural network (DNN) for 12-lead electrocardiography classification to open this "black box" and understand the relationship between model prediction and learned features. We classify data from a public data set and the attribution methods assign a "relevance score" to each sample of the classified signals. This allows analyzing what the network learned during training, for which we propose quantitative methods: average relevance scores over a) classes, b) leads, and c) average beats. The analyses of relevance scores for atrial fibrillation (AF) and left bundle branch block (LBBB) compared to healthy controls show that their mean values a) increase with higher classification probability and correspond to false classifications when around zero, and b) correspond to clinical recommendations regarding which lead to consider. Furthermore, c) visible P-waves and concordant T-waves result in clearly negative relevance scores in AF and LBBB classification, respectively. In summary, our analysis suggests that the DNN learned features similar to cardiology textbook knowledge.
翻訳日:2023-07-04 15:19:12 公開日:2023-07-03
# 古典的雑音の存在下での自己保護量子シミュレーションと量子位相推定

Self-protected quantum simulation and quantum phase estimation in the presence of classical noise ( http://arxiv.org/abs/2212.03664v2 )

ライセンス: Link先を確認
Lian-Ao Wu(参考訳) デコヒーレンス現象は必然的に量子コンピューティングプロセスに存在する。 したがって、動的デカップリングや量子誤り訂正符号(QECC)などによるデコヒーレンスの動的抑制は、既知の量子アルゴリズムや、現在開発中の量子アルゴリズムの正確な実行に不可欠である。 このダイナミックゼロノイズ戦略は量子コンピューティングの将来への期待に合致するが、現状を踏まえると、我々は15年以上にわたって自己保護型量子アルゴリズムを、反対のリビング・アンド・ノイズ戦略に基づいて立ち上げてきた。 本稿では,古典的雑音に免疫する自己保護量子シミュレーションを提案する。 したがって、読み出しには従来の量子位相推定を古典雑音の存在下でのアップグレード版に一般化する。

The decoherence phenomenon inevitably exists in quantum computing processes. Consequently, dynamic suppression of decoherence for instance via dynamical decoupling, quantum error correction codes (QECC) etc. is crucial in accurately executing known or to-be-developed quantum algorithms. While this dynamic zero noise strategy well fits into our expectations for the future of quantum computing, given the status quo, we have launched self-protected quantum algorithms for over 15 years based on the opposite living-with-noise strategy. Here we propose self-protected quantum simulations immune to a large class of classical noise. Accordingly, for readout we generalize the conventional quantum phase estimation to its upgraded version in the presence of classical noise.
翻訳日:2023-07-04 15:11:43 公開日:2023-07-03
# リモートセンシング画像のマルチラベル分類のための深層能動学習

Deep Active Learning for Multi-Label Classification of Remote Sensing Images ( http://arxiv.org/abs/2212.01165v2 )

ライセンス: Link先を確認
Lars M\"ollenbrok, Gencer Sumbul, Beg\"um Demir(参考訳) 本稿では,リモートセンシング(RS)におけるマルチラベル分類(MLC)問題に対する深層能動学習(AL)を紹介する。 特に,RS画像のMLCに対する複数のALクエリ関数の有効性を検討した。 既存のalクエリ関数(単一ラベル分類やセマンティクスセグメンテーション問題で定義されている)とは異なり、各クエリ関数は2つの基準の評価に基づいている。 一 複数ラベルの不確実性 ii)マルチラベルの多様性。 マルチラベルの不確実性基準は、ディープニューラルネットワーク(DNN)の信頼度に関連付けられ、各画像に複数のラベルを正しく割り当てる。 この基準を評価するために,我々は3つの戦略を検討する。 一 複数レーベルの損失発注の学習 二 複数ラベル予測の時間的不一致の測定、及び 三 近似勾配埋め込みの大きさを測定すること。 マルチラベル多様性基準は、冗長性を防止するために互いに可能な限り多様な画像のセットを選択することに関連している。 この基準を評価するために、クラスタリングベースの戦略を利用する。 上記の不確実性戦略とクラスタリングに基づく多様性戦略をそれぞれ組み合わせ、3つの異なるクエリ関数を生成する。 すべての考慮されたクエリ関数は、rsのmlc問題のフレームワークで初めて導入された。 2つのベンチマークアーカイブで得られた実験結果は、これらのクエリ関数がalプロセスの各イテレーションで非常に有益なサンプルセットを選択する結果をもたらすことを示している。

In this letter, we introduce deep active learning (AL) for multi-label classification (MLC) problems in remote sensing (RS). In particular, we investigate the effectiveness of several AL query functions for MLC of RS images. Unlike the existing AL query functions (which are defined for single-label classification or semantic segmentation problems), each query function in this paper is based on the evaluation of two criteria: i) multi-label uncertainty; and ii) multi-label diversity. The multi-label uncertainty criterion is associated to the confidence of the deep neural networks (DNNs) in correctly assigning multi-labels to each image. To assess this criterion, we investigate three strategies: i) learning multi-label loss ordering; ii) measuring temporal discrepancy of multi-label predictions; and iii) measuring magnitude of approximated gradient embeddings. The multi-label diversity criterion is associated to the selection of a set of images that are as diverse as possible to each other that prevents redundancy among them. To assess this criterion, we exploit a clustering based strategy. We combine each of the above-mentioned uncertainty strategies with the clustering based diversity strategy, resulting in three different query functions. All the considered query functions are introduced for the first time in the framework of MLC problems in RS. Experimental results obtained on two benchmark archives show that these query functions result in the selection of a highly informative set of samples at each iteration of the AL process.
翻訳日:2023-07-04 15:11:31 公開日:2023-07-03
# モノクロ3次元物体検出のための3次元位置認識符号化による注意型深度蒸留

Attention-Based Depth Distillation with 3D-Aware Positional Encoding for Monocular 3D Object Detection ( http://arxiv.org/abs/2211.16779v2 )

ライセンス: Link先を確認
Zizhang Wu, Yunzhe Wu, Jian Pu, Xianzhi Li and Xiaoquan Wang(参考訳) モノクロ3Dオブジェクト検出は、単一の画像入力からのみ正確な3Dローカライゼーションを生成する必要があるため、低コストで難しい作業である。 近年の奥行き支援手法では,単眼深度推定ネットワークによる事前計算や3次元物体検出による共同評価の中間的特徴として,明示的な奥行きマップを用いた有望な結果が得られる。 しかし、推定された深度事前からの避けられない誤りは、誤ったセマンティック情報と3Dの局所化をもたらし、特徴のスミアリングと準最適予測をもたらす可能性がある。 この問題を軽減するために,3次元位置対応符号化を用いた注意型深度知識蒸留フレームワークであるADDを提案する。 ステレオのLiDARベースの教師を取り入れた従来の知識蒸留フレームワークとは異なり、私たちは学生と同じアーキテクチャで教師を構築できる。 教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。 具体的には,中間的特徴と応答を知識蒸留に活用する。 長距離3D依存を考慮し,学生適応のための「emph{3D-aware self-attention」および「emph{target-aware cross-attention」モジュールを提案する。 KITTI 3Dオブジェクト検出ベンチマークにおけるフレームワークの有効性を検証するため,大規模な実験を行った。 提案手法は,3種類のモノクロ検出器に実装し,ベースラインモデルに対する計算コストを加算することなく,最先端の性能を実現する。 私たちのコードはhttps://github.com/rockywind/addで利用可能です。

Monocular 3D object detection is a low-cost but challenging task, as it requires generating accurate 3D localization solely from a single image input. Recent developed depth-assisted methods show promising results by using explicit depth maps as intermediate features, which are either precomputed by monocular depth estimation networks or jointly evaluated with 3D object detection. However, inevitable errors from estimated depth priors may lead to misaligned semantic information and 3D localization, hence resulting in feature smearing and suboptimal predictions. To mitigate this issue, we propose ADD, an Attention-based Depth knowledge Distillation framework with 3D-aware positional encoding. Unlike previous knowledge distillation frameworks that adopt stereo- or LiDAR-based teachers, we build up our teacher with identical architecture as the student but with extra ground-truth depth as input. Credit to our teacher design, our framework is seamless, domain-gap free, easily implementable, and is compatible with object-wise ground-truth depth. Specifically, we leverage intermediate features and responses for knowledge distillation. Considering long-range 3D dependencies, we propose \emph{3D-aware self-attention} and \emph{target-aware cross-attention} modules for student adaptation. Extensive experiments are performed to verify the effectiveness of our framework on the challenging KITTI 3D object detection benchmark. We implement our framework on three representative monocular detectors, and we achieve state-of-the-art performance with no additional inference computational cost relative to baseline models. Our code is available at https://github.com/rockywind/ADD.
翻訳日:2023-07-04 15:10:53 公開日:2023-07-03
# 継続的学習の脆弱性を狙うデータ中毒攻撃

Data Poisoning Attack Aiming the Vulnerability of Continual Learning ( http://arxiv.org/abs/2211.15875v2 )

ライセンス: Link先を確認
Gyojin Han, Jaehyun Choi, Hyeong Gwon Hong, Junmo Kim(参考訳) 一般に、正規化に基づく連続学習モデルは、メモリとプライバシに関連する現実的な制約を模倣するために、以前のタスクデータへのアクセスを制限する。 しかし、これは各タスクのパフォーマンスを追跡できないことで、これらのモデルに問題をもたらす。 本質的に、現在の連続学習方法は、以前のタスクに対する攻撃に影響を受けやすい。 新しいタスクの学習プロセスで使用できる単純なタスク固有のデータ中毒攻撃を提示することにより、正規化に基づく連続学習手法の脆弱性を実証する。 提案した攻撃によって生成されたトレーニングデータは、攻撃者がターゲットとする特定のタスクのパフォーマンス劣化を引き起こす。 我々は,2つの代表的な正規化に基づく連続学習手法であるElastic Weight Consolidation(EWC)とSynaptic Intelligence(SI)に対する攻撃実験を行った。 実験結果は,本論文で提案する脆弱性を正当化し,敵の攻撃に頑健な連続学習モデルの開発の重要性を実証する。

Generally, regularization-based continual learning models limit access to the previous task data to imitate the real-world constraints related to memory and privacy. However, this introduces a problem in these models by not being able to track the performance on each task. In essence, current continual learning methods are susceptible to attacks on previous tasks. We demonstrate the vulnerability of regularization-based continual learning methods by presenting a simple task-specific data poisoning attack that can be used in the learning process of a new task. Training data generated by the proposed attack causes performance degradation on a specific task targeted by the attacker. We experiment with the attack on the two representative regularization-based continual learning methods, Elastic Weight Consolidation (EWC) and Synaptic Intelligence (SI), trained with variants of MNIST dataset. The experiment results justify the vulnerability proposed in this paper and demonstrate the importance of developing continual learning models that are robust to adversarial attacks.
翻訳日:2023-07-04 15:10:23 公開日:2023-07-03
# Shapley Curves:スムースな視点

Shapley Curves: A Smoothing Perspective ( http://arxiv.org/abs/2211.13289v3 )

ライセンス: Link先を確認
Ratmir Miftachov, Georg Keilbar, Wolfgang Karl H\"ardle(参考訳) 協調ゲーム理論から派生したShapley値は、応用機械学習において最も広く使われている変数重要度尺度の1つである。 しかし、シャプリー値の統計的理解はまだ限られている。 本稿では、変数重要性の局所測度としてシェープリー曲線を導入することにより、非パラメトリック(あるいは滑らか化)の視点をとる。 そこで本研究では,2つの推定戦略を提案し,独立性と特徴間の依存性の両立と漸近正規性の導出を行う。 これにより、信頼区間を構築し、推定したシェープリー曲線上で推論を行うことができる。 本稿では,シャープリー曲線の有限なサンプルカバレッジを与えるために,ワイルドブートストラップ手順の新しいバージョンを提案する。 漸近的な結果は広範な実験で検証される。 実証的なアプリケーションでは、どの属性が車両の価格を押し上げるかを分析する。

Originating from cooperative game theory, Shapley values have become one of the most widely used measures for variable importance in applied Machine Learning. However, the statistical understanding of Shapley values is still limited. In this paper, we take a nonparametric (or smoothing) perspective by introducing Shapley curves as a local measure of variable importance. We propose two estimation strategies and derive the consistency and asymptotic normality both under independence and dependence among the features. This allows us to construct confidence intervals and conduct inference on the estimated Shapley curves. We propose a novel version of the wild bootstrap procedure, specifically adjusted to give good finite sample coverage of the Shapley curves. The asymptotic results are validated in extensive experiments. In an empirical application, we analyze which attributes drive the prices of vehicles.
翻訳日:2023-07-04 15:09:45 公開日:2023-07-03
# チャンス制約型Makespanスケジューリング問題に対する進化的アルゴリズムの実行性能

Runtime Performance of Evolutionary Algorithms for the Chance-constrained Makespan Scheduling Problem ( http://arxiv.org/abs/2212.11478v2 )

ライセンス: Link先を確認
Feng Shi, Xiankun Yan, and Frank Neumann(参考訳) Makespan Scheduling問題(英語版)は広く研究されているNP-hard問題であり、最も単純なバージョンは、決定論的処理時間を持つジョブを2つの同一マシンに割り当てるアプローチを探究する。 しかし、実際のシナリオでは、各ジョブの実際の処理時間は、外部要因の影響下、ばらつきを伴う期待値の周りに確率的であり、これらのジョブの実際の処理時間は共分散と相関する可能性がある。 そこで本稿では,Makespan スケジューリング問題の確率制約版を提案し,古典的ランダム化局所探索と (1+1) EA の理論的性能について検討する。 より具体的には、まず確率制約されたmakepanスケジューリング問題とその計算複雑性の2つの変種を調査し、次に2つのアルゴリズムの期待実行時間を分析して、その2つの変種について最適な解またはほぼ最適解を得る。 さらに,2つの変種に対する2つのアルゴリズムの実験性能について検討した。

The Makespan Scheduling problem is an extensively studied NP-hard problem, and its simplest version looks for an allocation approach for a set of jobs with deterministic processing times to two identical machines such that the makespan is minimized. However, in real life scenarios, the actual processing time of each job may be stochastic around the expected value with a variance, under the influence of external factors, and the actual processing times of these jobs may be correlated with covariances. Thus within this paper, we propose a chance-constrained version of the Makespan Scheduling problem and investigate the theoretical performance of the classical Randomized Local Search and (1+1) EA for it. More specifically, we first study two variants of the Chance-constrained Makespan Scheduling problem and their computational complexities, then separately analyze the expected runtime of the two algorithms to obtain an optimal solution or almost optimal solution to the instances of the two variants. In addition, we investigate the experimental performance of the two algorithms for the two variants.
翻訳日:2023-07-04 15:01:15 公開日:2023-07-03
# 2次元における機械学習と高分子自己整合場理論

Machine Learning and Polymer Self-Consistent Field Theory in Two Spatial Dimensions ( http://arxiv.org/abs/2212.10478v2 )

ライセンス: Link先を確認
Yao Xuan, Kris T. Delaney, Hector D. Ceniceros, Glenn H. Fredrickson(参考訳) ブロック共重合体のパラメータ空間の探索を高速化するために, 深層学習による自己整合場理論シミュレーションのデータを活用する計算フレームワークを提案する。 これは[1]で導入されたフレームワークの相当な2次元拡張である。 いくつかの革新と改善が提案されている。 1) ソボレフ空間学習畳み込みニューラルネットワーク(CNN)を用いて, 離散化された局所平均モノマー密度場の指数次元増加を処理し, 予測された場理論集中型ハミルトンの空間変換と回転不変性の両方を強く強制する。 2) GAN (generative adversarial network) を導入し, トレーニングセットを用いた勾配降下法を使わずに, サドル点, 局所平均モノマー密度場を効率的に正確に予測する。 このGANアプローチは、メモリと計算コストの両方を節約する。 (3) 提案する機械学習フレームワークを2次元セルサイズ最適化に適用し, 高分子ナノ構造発見のためのパラメータ空間の探索を加速する広い可能性を示す。 三次元位相発見への拡張は実現可能である。

A computational framework that leverages data from self-consistent field theory simulations with deep learning to accelerate the exploration of parameter space for block copolymers is presented. This is a substantial two-dimensional extension of the framework introduced in [1]. Several innovations and improvements are proposed. (1) A Sobolev space-trained, convolutional neural network (CNN) is employed to handle the exponential dimension increase of the discretized, local average monomer density fields and to strongly enforce both spatial translation and rotation invariance of the predicted, field-theoretic intensive Hamiltonian. (2) A generative adversarial network (GAN) is introduced to efficiently and accurately predict saddle point, local average monomer density fields without resorting to gradient descent methods that employ the training set. This GAN approach yields important savings of both memory and computational cost. (3) The proposed machine learning framework is successfully applied to 2D cell size optimization as a clear illustration of its broad potential to accelerate the exploration of parameter space for discovering polymer nanostructures. Extensions to three-dimensional phase discovery appear to be feasible.
翻訳日:2023-07-04 15:00:35 公開日:2023-07-03
# IndicMT Eval: インド言語のためのメタ評価機械翻訳メトリクスデータセット

IndicMT Eval: A Dataset to Meta-Evaluate Machine Translation metrics for Indian Languages ( http://arxiv.org/abs/2212.10180v2 )

ライセンス: Link先を確認
Ananya B. Sai, Vignesh Nagarajan, Tanay Dixit, Raj Dabre, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra(参考訳) 機械翻訳(MT)システムの急速な成長は、使用中の評価指標をメタ評価するために総合的な研究を必要としており、MTの品質を最もよく反映した指標の選択を可能にする。 残念なことに、研究の大半は高リソース言語(主に英語)に焦点を当てており、他の言語には必ずしも当てはまらない。 インド語は10億以上の話者を持つが、言語学的に英語とは異なっており、これまでは、MTシステムを英語からインド語に評価する体系的な研究は行われていない。 本稿では,5つのインド語と7つのMTシステムにまたがる,7000の細かいアノテーションからなるMQMデータセットを作成し,既存の自動メトリクスを用いて得られるアノテータスコアとスコアの相関関係を確立することにより,このギャップを埋める。 この結果から,COMETなどの事前学習メトリクスはアノテータスコアと高い相関関係を示した。 さらに,インド言語におけるフルーエンシーに基づくエラーを適切に捉えていないこと,インド言語に焦点を絞ったメトリクスを開発する必要があること,などを見いだした。 われわれのデータセットと分析が、この分野のさらなる研究を促進することを願っている。

The rapid growth of machine translation (MT) systems has necessitated comprehensive studies to meta-evaluate evaluation metrics being used, which enables a better selection of metrics that best reflect MT quality. Unfortunately, most of the research focuses on high-resource languages, mainly English, the observations for which may not always apply to other languages. Indian languages, having over a billion speakers, are linguistically different from English, and to date, there has not been a systematic study of evaluating MT systems from English into Indian languages. In this paper, we fill this gap by creating an MQM dataset consisting of 7000 fine-grained annotations, spanning 5 Indian languages and 7 MT systems, and use it to establish correlations between annotator scores and scores obtained using existing automatic metrics. Our results show that pre-trained metrics, such as COMET, have the highest correlations with annotator scores. Additionally, we find that the metrics do not adequately capture fluency-based errors in Indian languages, and there is a need to develop metrics focused on Indian languages. We hope that our dataset and analysis will help promote further research in this area.
翻訳日:2023-07-04 15:00:15 公開日:2023-07-03
# 早期誤情報検出のためのループ内ヒト評価 : COVID-19治療の事例

Human-in-the-loop Evaluation for Early Misinformation Detection: A Case Study of COVID-19 Treatments ( http://arxiv.org/abs/2212.09683v4 )

ライセンス: Link先を確認
Ethan Mendes, Yang Chen, Wei Xu, Alan Ritter(参考訳) 本稿では,新たな誤情報主張を事実チェックし,それをサポートするソーシャルメディアメッセージを特定するための,ループ内人間評価フレームワークを提案する。 当社のアプローチでは,チェック価値の高いクレームを抽出し,レビュー用にランク付けする。 スタンス分類器は、新しい誤った情報クレームをサポートするツイートを識別するために使用され、関連するポリシーに違反しているかどうかを判断するためにさらにレビューされる。 提案手法の有効性を実証するため,HIV治療領域におけるヒト・イン・ザ・ループファクトチェックのための最新のNLP法に基づくベースラインシステムを開発した。 我々は,ユーザ生成コンテンツから直接,新たな誤情報を識別するループシステムの評価を支援するために,データおよび詳細なガイドラインを公開している。

We present a human-in-the-loop evaluation framework for fact-checking novel misinformation claims and identifying social media messages that support them. Our approach extracts check-worthy claims, which are aggregated and ranked for review. Stance classifiers are then used to identify tweets supporting novel misinformation claims, which are further reviewed to determine whether they violate relevant policies. To demonstrate the feasibility of our approach, we develop a baseline system based on modern NLP methods for human-in-the-loop fact-checking in the domain of COVID-19 treatments. We make our data and detailed annotation guidelines available to support the evaluation of human-in-the-loop systems that identify novel misinformation directly from raw user-generated content.
翻訳日:2023-07-04 14:59:54 公開日:2023-07-03
# PromptBoosting: 10の前方パスを持つブラックボックステキスト分類

PromptBoosting: Black-Box Text Classification with Ten Forward Passes ( http://arxiv.org/abs/2212.09257v2 )

ライセンス: Link先を確認
Bairu Hou, Joe O'Connor, Jacob Andreas, Shiyu Chang, Yang Zhang(参考訳) ニューラルネットワークモデル(lm)からテキスト分類器を構築するためのクエリ効率の高い手順であるpromplyboostingを,lmのパラメータや勾配,隠れた表現にアクセスせずに記述する。 大規模LMのトレーニングと推論のコストが増大するにつれて、このような「ブラックボックス」分類器の訓練はますます重要になっている。 しかし、既存のブラックボックスlm分類器学習アプローチは計算効率が悪く、通常、ゼロ次最適化法を用いて(離散的または連続的な)プロンプトの広い空間を探索することで、ターゲットタスクにlmsを特殊化する。 PromptBoostingは、プロンプト空間を直接最適化する代わりに、勾配のないアプローチでプロンプトの小さなプールを取得し、その後、これらのプロンプトとLMの出力分布の異なる要素をペアリングすることによって、弱い学習者の大きなプールを構築する。 これらの弱い学習者はAdaBoostアルゴリズムを使って組み立てられる。 学習プロセス全体は少数の前方パスのみを必要とし、後方パスは不要である。 実験によると、PromptBoostingは複数のブラックボックスのいくつかのショット分類タスクで最先端のパフォーマンスを達成し、既存のブラックボックスメソッドよりも10倍速くトレーニングしながら、少数ショットと標準学習のパラダイムの両方で完全な微調整をマッチまたは上回っている。

We describe PromptBoosting, a query-efficient procedure for building a text classifier from a neural language model (LM) without access to the LM's parameters, gradients, or hidden representations. This form of "black-box" classifier training has become increasingly important as the cost of training and inference in large-scale LMs grows. But existing black-box LM classifier learning approaches are themselves computationally inefficient, typically specializing LMs to the target task by searching in a large space of (discrete or continuous) prompts using zeroth-order optimization methods. Instead of directly optimizing in prompt space, PromptBoosting obtains a small pool of prompts via a gradient-free approach and then constructs a large pool of weak learners by pairing these prompts with different elements of the LM's output distribution. These weak learners are then ensembled using the AdaBoost algorithm. The entire learning process requires only a small number of forward passes and no backward pass. Experiments show that PromptBoosting achieves state-of-the-art performance in multiple black-box few-shot classification tasks, and matches or outperforms full fine-tuning in both few-shot and standard learning paradigms, while training 10x faster than existing black-box methods.
翻訳日:2023-07-04 14:59:41 公開日:2023-07-03
# ローカルプランニングによる高効率深層強化学習

Sample Efficient Deep Reinforcement Learning via Local Planning ( http://arxiv.org/abs/2301.12579v2 )

ライセンス: Link先を確認
Dong Yin, Sridhar Thiagarajan, Nevena Lazic, Nived Rajaraman, Botao Hao, Csaba Szepesvari(参考訳) 本研究の焦点は,シミュレータを用いた試料効率深部強化学習(RL)である。 シミュレーターの便利な特性の1つは、通常、環境を以前観測された状態にリセットすることが容易であることである。 本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。 具体的には、各データ収集イテレーションにおいて、いくつかの確率で、我々のメタアルゴリズムは、初期状態分布に従ってサンプリングするのではなく、環境を高い不確実性を持つ観測状態にリセットする。 エージェント-環境相互作用は、標準オンラインRL設定のように進行する。 この簡単な手順は、難しい探索タスクにおいて、いくつかのベースラインrlアルゴリズムのサンプルコストを劇的に改善できることを実証する。 特に、我々のフレームワークでは、単純な(分配的な)ダブルDQNで、悪名高いアタリゲームであるモンテズマのリベンジで超人的なパフォーマンスを達成することができる。 我々の研究は、理論的な保証のある既存のアルゴリズムの効率的な近似実装と見なすことができ、肯定的な結果の解釈を提供する。

The focus of this work is sample-efficient deep reinforcement learning (RL) with a simulator. One useful property of simulators is that it is typically easy to reset the environment to a previously observed state. We propose an algorithmic framework, named uncertainty-first local planning (UFLP), that takes advantage of this property. Concretely, in each data collection iteration, with some probability, our meta-algorithm resets the environment to an observed state which has high uncertainty, instead of sampling according to the initial-state distribution. The agent-environment interaction then proceeds as in the standard online RL setting. We demonstrate that this simple procedure can dramatically improve the sample cost of several baseline RL algorithms on difficult exploration tasks. Notably, with our framework, we can achieve super-human performance on the notoriously hard Atari game, Montezuma's Revenge, with a simple (distributional) double DQN. Our work can be seen as an efficient approximate implementation of an existing algorithm with theoretical guarantees, which offers an interpretation of the positive empirical results.
翻訳日:2023-07-04 14:50:57 公開日:2023-07-03
# 長距離カップリングによるマヨラナエッジ状態の軟化

Softening of Majorana edge states by long-range couplings ( http://arxiv.org/abs/2301.12514v2 )

ライセンス: Link先を確認
Alessandro Tarantola and Nicol\`o Defenu(参考訳) キタエフ連鎖における長距離結合の包含は、臨界点に近い位相状態の普遍的スケーリングを変えることが示されている。 散乱アプローチにより、マヨルタナ状態は、相互作用範囲によってのみ決定される普遍的な速度で徐々に非局在化されていくことを証明した。 このエッジ機構は、臨界度におけるバルクトポロジカル指数の値の変化に関係し、後者の再定義を慎重に行うことができる。 臨界点は、2つの位相の間を補間するよりも、自明な位相に近いことが判明した。 さらに、量子モデルの様々なトポロジ的側面を解析的に研究できることを示す。

The inclusion of long-range couplings in the Kitaev chain is shown to modify the universal scaling of topological states close to the critical point. By means of the scattering approach, we prove that the Majorana states \textit{soften}, becoming increasingly delocalised at a universal rate which is only determined by the interaction range. This edge mechanism can be related to a change in the value of the bulk topological index at criticality, upon careful redefinition of the latter. The critical point turns out to be topologically akin to the trivial phase rather than interpolating between the two phases. Our treatment moreover showcases how various topological aspects of quantum models can be investigated analytically.
翻訳日:2023-07-04 14:50:40 公開日:2023-07-03
# Bipol:ベンチマークデータセットで説明可能なバイアスのマルチアックス評価

Bipol: Multi-axes Evaluation of Bias with Explainability in Benchmark Datasets ( http://arxiv.org/abs/2301.12139v2 )

ライセンス: Link先を確認
Tosin Adewumi, Isabella S\"odergren, Lama Alkhaled, Sana Sabah Sabry, Foteini Liwicki and Marcus Liwicki(参考訳) スウェーデンの5つのNLPベンチマークデータセット(スーパーGLUEリーダーボード)と2つのスウェーデンのデータセットを複数の軸に沿って検討する。 データセットは、Boolean Question (Boolq)、CommitmentBank (CB)、Winograd Schema Challenge (WSC)、Wino-gender diagnosis (AXg)、Recognising Textual Entailment (RTE)、スウェーデンのCB、SWEDNである。 バイアスは有害であり、MLモデルが学習するデータに共通していることが知られている。 データのバイアスを軽減するためには,それを客観的に見積もることが不可欠である。 説明可能性を持つ新しい多軸バイアスメトリックであるbipolを使用して、これらのデータセットにどの程度のバイアスが存在するかを推定し、説明します。 多言語多軸バイアス評価はあまり一般的ではない。 したがって、私たちはまた、英語バージョンから翻訳され、それ上にsoma mt5モデルをトレーニングした、スウェーデンのバイアスラベル付きデータセット(200万サンプル)を新たに提供します。 さらに,スウェーデン語で新たに多軸レキシカを用いてバイアス検出を行った。 コード、モデル、新しいデータセットを公開しています。

We investigate five English NLP benchmark datasets (on the superGLUE leaderboard) and two Swedish datasets for bias, along multiple axes. The datasets are the following: Boolean Question (Boolq), CommitmentBank (CB), Winograd Schema Challenge (WSC), Wino-gender diagnostic (AXg), Recognising Textual Entailment (RTE), Swedish CB, and SWEDN. Bias can be harmful and it is known to be common in data, which ML models learn from. In order to mitigate bias in data, it is crucial to be able to estimate it objectively. We use bipol, a novel multi-axes bias metric with explainability, to estimate and explain how much bias exists in these datasets. Multilingual, multi-axes bias evaluation is not very common. Hence, we also contribute a new, large Swedish bias-labelled dataset (of 2 million samples), translated from the English version and train the SotA mT5 model on it. In addition, we contribute new multi-axes lexica for bias detection in Swedish. We make the codes, model, and new dataset publicly available.
翻訳日:2023-07-04 14:50:27 公開日:2023-07-03
# 画像中の認知的バックドアパターンの蒸留: バックドアサンプル検出のためのSOTA法

Distilling Cognitive Backdoor Patterns within an Image: A SOTA Method for Backdoor Sample Detection ( http://arxiv.org/abs/2301.10908v3 )

ライセンス: Link先を確認
Hanxun Huang, Xingjun Ma, Sarah Erfani, James Bailey(参考訳) 本稿では,画像中のバックドアパターンを簡易に蒸留・検出する手法である \emph{cognitive distillation} (cd)を提案する。 そのアイデアは、モデルの予測に責任を持つ入力画像から「最小本質」を抽出することである。 CDは入力マスクを最適化し、入力画像から同じモデル出力(例えば、ロジットや深い特徴)につながる小さなパターンを抽出する。 抽出されたパターンは、クリーン対バックドア画像におけるモデルの認知メカニズムを理解するのに役立ち、これを \emph{cognitive pattern} (cp) と呼ぶ。 cdと蒸留したcpsを使用することで、バックドア攻撃の興味深い現象が明らかになる。異なる攻撃で使われるトリガーパターンの形態やサイズにもかかわらず、バックドアサンプルのcpsは驚くほど小さく、疑わしいほど小さい。 これにより、学習されたマスクを利用して、有毒なトレーニングデータセットからバックドアの例を検出し、取り除くことができる。 我々は広範囲な実験を行い、CDが広範囲の高度なバックドア攻撃を確実に検出できることを示す。 また、顔のデータセットから潜在的なバイアスを検出するためにCDを適用できることも示しています。 コードは \url{https://github.com/hanxunh/cognitivedistillation} で入手できる。

This paper proposes a simple method to distill and detect backdoor patterns within an image: \emph{Cognitive Distillation} (CD). The idea is to extract the "minimal essence" from an input image responsible for the model's prediction. CD optimizes an input mask to extract a small pattern from the input image that can lead to the same model output (i.e., logits or deep features). The extracted pattern can help understand the cognitive mechanism of a model on clean vs. backdoor images and is thus called a \emph{Cognitive Pattern} (CP). Using CD and the distilled CPs, we uncover an interesting phenomenon of backdoor attacks: despite the various forms and sizes of trigger patterns used by different attacks, the CPs of backdoor samples are all surprisingly and suspiciously small. One thus can leverage the learned mask to detect and remove backdoor examples from poisoned training datasets. We conduct extensive experiments to show that CD can robustly detect a wide range of advanced backdoor attacks. We also show that CD can potentially be applied to help detect potential biases from face datasets. Code is available at \url{https://github.com/HanxunH/CognitiveDistillation}.
翻訳日:2023-07-04 14:50:05 公開日:2023-07-03
# 学習保証と組み合わせて公平性を高める

Increasing Fairness via Combination with Learning Guarantees ( http://arxiv.org/abs/2301.10813v2 )

ライセンス: Link先を確認
Yijun Bian, Kun Zhang, Anqi Qiu(参考訳) MLモデルに隠された根底にある差別に関する懸念は増大しており、MLシステムは現実のシナリオに広く適用され、その中に隠された差別は人間の生活に直接影響を及ぼす。 グループフェアネス尺度や、アンサンブル学習を組み合わせたフェアネス認識手法など、フェアネスを高めるために多くの手法が開発されている。 しかし、既存の公正度尺度は、グループまたは個々の公正度のいずれかにのみ焦点をあてることができ、それら間のハードな互換性は、一方が満足してもバイアスが残る可能性を示している。 さらに、公平性を高める既存のメカニズムは、通常、有効性を示すために実証的な結果を示すが、公平性が特定の理論的な保証によって促進されるかどうかを議論できるものはほとんどない。 これらの課題に対処するため,本論文では,個人的・集団的公正性の両面を反映した差別的リスクという公平性評価尺度を提案する。 さらに,提案手法の特性を検証し,一階および二階のオラクル境界を提案し,理論学習保証と合理化によって公平性が向上することを示す。 この分析は二進分類と多進分類の両方に適している。 また,提案手法を利用した刈り取り手法を提案し,提案手法の有効性を評価するための総合実験を行った。

The concern about underlying discrimination hidden in ML models is increasing, as ML systems have been widely applied in more and more real-world scenarios and any discrimination hidden in them will directly affect human life. Many techniques have been developed to enhance fairness including commonly-used group fairness measures and several fairness-aware methods combining ensemble learning. However, existing fairness measures can only focus on one aspect -- either group or individual fairness, and the hard compatibility among them indicates a possibility of remaining biases even if one of them is satisfied. Moreover, existing mechanisms to boost fairness usually present empirical results to show validity, yet few of them discuss whether fairness can be boosted with certain theoretical guarantees. To address these issues, we propose a fairness quality measure named discriminative risk in this paper to reflect both individual and group fairness aspects. Furthermore, we investigate the properties of the proposed measure and propose first- and second-order oracle bounds to show that fairness can be boosted via ensemble combination with theoretical learning guarantees. Note that the analysis is suitable for both binary and multi-class classification. A pruning method is also proposed to utilise our proposed measure and comprehensive experiments are conducted to evaluate the effectiveness of the proposed methods in this paper.
翻訳日:2023-07-04 14:49:43 公開日:2023-07-03
# ルビジウム蒸気の位相整合性向上による780nm単一光子の明るい低ノイズ源

Bright, low-noise source of single photons at 780 nm with improved phase-matching in rubidium vapor ( http://arxiv.org/abs/2301.06049v2 )

ライセンス: Link先を確認
Omri Davidson, Ohad Yogev, Eilon Poem, Ofer Firstenberg(参考訳) 将来の光量子ネットワークは、例えば量子記憶や決定論的フォトニックゲートなど、原子によく結合した単一光子から恩恵を受ける可能性がある。 しかし、そのような光子の効率的な生成は難しい課題である。 近年,ルビジウム蒸気中の4波長混合による波長可変GHz帯光子(Davidson et al. 2021 New J. Phys. 23 073050)による光子の多重化を実証した。 本稿では,この光子源の実装改善について報告する。 新たな実装では、より良い位相整合の周波数調整レジーム、シングルモードファイバーを用いた空間調整手順、異なるルビジウム同位体、より高い蒸気細胞透過を用いる。 ソースのキャラクタリゼーションは、高い検出効率と低いジッタを持つ超伝導ナノワイヤ検出器を用いて行われる。 光源は,20%以上と検出された単一光子,88%のHong-Ou-Mandel干渉可視性,毎秒100キロ秒以上の発生率,100以上の信号-雑音比を有し,光子を用いた量子情報処理に適している。

Future optical quantum networks could benefit from single photons that couple well to atoms, for realizing, e.g., quantum memories and deterministic photonic gates. However, the efficient generation of such photons remains a difficult challenge. Recently, we demonstrated a bright multiplexed source of indistinguishable single photons with tunable GHz-bandwidth based on four-wave-mixing in rubidium vapor [Davidson et al. 2021 New J. Phys. 23 073050]. Here we report on an improved implementation of this photon source. The new implementation employs a frequency-detuning regime that is better phase matched, a spatial-alignment procedure using single-mode fibers, a different rubidium isotope, and higher vapor-cell transmission. Characterization of the source is performed using superconducting-nanowire detectors with higher detection efficiency and lower jitter. Our source produces single photons with detected heralding efficiency of over 20%, Hong-Ou-Mandel interference visibility of 88%, generation rate of over 100 kilo-counts per second, and signal-to-noise ratio greater than 100, making it suitable for quantum information processing with photons.
翻訳日:2023-07-04 14:49:22 公開日:2023-07-03
# 深層学習手法によるBVOCマップの高分解能化

Super-Resolution of BVOC Maps by Adapting Deep Learning Methods ( http://arxiv.org/abs/2302.07570v4 )

ライセンス: Link先を確認
Antonio Giganti, Sara Mandelli, Paolo Bestagini, Marco Marcon, Stefano Tubaro(参考訳) 生物揮発性有機化合物(BVOC)は、大気圏と大気圏の相互作用において重要な役割を担い、大気や気候の物理的および化学的性質において重要な要素である。 大規模できめ細かなBVOCエミッションマップの取得は高価で時間を要するため、ほとんどのBVOCデータは、緩やかなサンプリンググリッドや小さな領域で得られる。 しかし、高解像度のBVOCデータは、大気質、大気化学、気候モニタリングなど多くの用途で望ましい。 本研究では,BVOC買収の促進の可能性について検討し,環境とこれらの化合物の関係をさらに説明する。 我々は、画像超解法(SR)のために提案されたいくつかの最先端ニューラルネットワークの性能を比較し、放射の大きなダイナミックレンジによる課題を克服し、予測における外れ値の影響を低減する。 さらに,時間的制約と地理的制約を考慮した現実的なシナリオも検討する。 最後に, SRの一般化に関する今後の展開について, スケール不変性および未知化合物からの超解離放出を考察する。

Biogenic Volatile Organic Compounds (BVOCs) play a critical role in biosphere-atmosphere interactions, being a key factor in the physical and chemical properties of the atmosphere and climate. Acquiring large and fine-grained BVOC emission maps is expensive and time-consuming, so most available BVOC data are obtained on a loose and sparse sampling grid or on small regions. However, high-resolution BVOC data are desirable in many applications, such as air quality, atmospheric chemistry, and climate monitoring. In this work, we investigate the possibility of enhancing BVOC acquisitions, further explaining the relationships between the environment and these compounds. We do so by comparing the performances of several state-of-the-art neural networks proposed for image Super-Resolution (SR), adapting them to overcome the challenges posed by the large dynamic range of the emission and reduce the impact of outliers in the prediction. Moreover, we also consider realistic scenarios, considering both temporal and geographical constraints. Finally, we present possible future developments regarding SR generalization, considering the scale-invariance property and super-resolving emissions from unseen compounds.
翻訳日:2023-07-04 14:43:46 公開日:2023-07-03
# 非特定運動データを用いた拡張可能なXRユーザ同定

Extensible Motion-based Identification of XR Users using Non-Specific Motion Data ( http://arxiv.org/abs/2302.07517v4 )

ライセンス: Link先を確認
Christian Rack, Konstantin Kobs, Tamara Fernando, Andreas Hotho, Marc Erich Latoschik(参考訳) 本稿では,距離ベースと分類に基づくアプローチの強みを組み合わせることで,拡張現実ユーザの動きを識別する。 そこで我々は,深層メトリック学習を活用した組込みモデルについて検討する。 われわれは,VRゲーム‘Half-Life: Alyx’’をプレイするユーザのデータセット上でモデルをトレーニングし,アート分類ベースモデルの状態をベースラインとして,複数の実験と分析を行う。 その結果,埋め込み型手法が有効であった。 1) 数分間の登録データを使用して,非特定動作から新規ユーザを識別できる。 2)新しいユーザーを数秒以内に登録できるが、ベースラインアプローチの再トレーニングにはおよそ1日かかる。 3) 登録データが少ない場合にのみ,ベースラインアプローチよりも信頼性が高い。 4) 異なるVRデバイスで記録された別のデータセットから新しいユーザーを特定するために使用することができる。 全体として、我々のソリューションは、拡張可能なxrユーザ識別システムの基礎であり、幅広いユーザ動作に適用できる。 また、専門知識やハードウェア、あるいはディープラーニングモデルをトレーニングするためのデータを必要としない、XR実践者が使用可能なプロダクション対応モデルの道を開く。

In this paper, we combine the strengths of distance-based and classification-based approaches for the task of identifying extended reality users by their movements. For this we explore an embedding-based model that leverages deep metric learning. We train the model on a dataset of users playing the VR game ``Half-Life: Alyx'' and conduct multiple experiments and analyses using a state of the art classification-based model as baseline. The results show that the embedding-based method 1) is able to identify new users from non-specific movements using only a few minutes of enrollment data, 2) can enroll new users within seconds, while retraining the baseline approach takes almost a day, 3) is more reliable than the baseline approach when only little enrollment data is available, 4) can be used to identify new users from another dataset recorded with different VR devices. Altogether, our solution is a foundation for easily extensible XR user identification systems, applicable to a wide range of user motions. It also paves the way for production-ready models that could be used by XR practitioners without the requirements of expertise, hardware, or data for training deep learning models.
翻訳日:2023-07-04 14:43:26 公開日:2023-07-03
# 等角形E値を用いたFDR制御によるデランダム化ノベルティ検出

Derandomized Novelty Detection with FDR Control via Conformal E-values ( http://arxiv.org/abs/2302.07294v2 )

ライセンス: Link先を確認
Meshi Bashari, Amir Epstein, Yaniv Romano, Matteo Sesia(参考訳) コンフォーマル推論は、新規性検出のための任意の機械学習アルゴリズムの出力を厳格に校正する、一般分布のない方法を提供する。 このアプローチには多くの長所があるが、同じデータを2回分析する際に異なる結果をもたらす可能性があるという意味で、ランダム化の限界があり、任意の結果の解釈を妨げる可能性がある。 統計的意義を定量化するために、p値の代わりに適切な共形e値を用いることにより、共形推論をより安定させる。 このソリューションでは、同一データの複数の解析から集めた証拠を効果的に集約し、偽発見率を確実に制御することができる。 さらに, 提案手法は, 同一データから慎重に抽出した付加側情報に基づいて, 共形e値の重み付けを行う革新的な手法により, 従来の共形推論と比較して, 電力損失が少なく, ランダム性を低減できることを示す。 合成および実データによるシミュレーションにより、この解は最先端の代替技術で得られた推論におけるランダムノイズの除去に有効であり、時には高出力につながる。

Conformal inference provides a general distribution-free method to rigorously calibrate the output of any machine learning algorithm for novelty detection. While this approach has many strengths, it has the limitation of being randomized, in the sense that it may lead to different results when analyzing twice the same data, and this can hinder the interpretation of any findings. We propose to make conformal inferences more stable by leveraging suitable conformal e-values instead of p-values to quantify statistical significance. This solution allows the evidence gathered from multiple analyses of the same data to be aggregated effectively while provably controlling the false discovery rate. Further, we show that the proposed method can reduce randomness without much loss of power compared to standard conformal inference, partly thanks to an innovative way of weighting conformal e-values based on additional side information carefully extracted from the same data. Simulations with synthetic and real data confirm this solution can be effective at eliminating random noise in the inferences obtained with state-of-the-art alternative techniques, sometimes also leading to higher power.
翻訳日:2023-07-04 14:43:11 公開日:2023-07-03
# X線パルス駆動開殻分子の単一電子イオン化

Streaking single-electron ionization in open-shell molecules driven by X-ray pulses ( http://arxiv.org/abs/2302.07095v2 )

ライセンス: Link先を確認
M. E. Mountney, T. C. Driver, A. Marinelli, M. F. Kling, J. P. Cryan, A. Emmanouilidou(参考訳) 開殻分子に対する連続分子波動関数をhartree-fockフレームワークで求める。 我々は、分子イオン、すなわち開殻軌道と電子がイオン化する初期軌道の一重項または三重項の全スピン対称性を計算しながらそうする。 これらの連続波動関数を用いて、線形偏光X線パルスによる単光子吸収によりイオン化するコア電子の双極子行列要素を得る。 x線パルスからのイオン化後、円偏光赤外(ir)パルスを用いて電子のダイナミクスを制御または引き裂く。 1{\sigma}$または2{\sigma}$軌道のイオン化しきい値に近いx線パルスの高出力irパルスと光子エネルギーのために、x線とirパルスの位相遅延を変化させて、イオン化電子の脱離角度を制御する。 低強度のIRパルスに対して、IRパルスの平面上の最終的な電子モーメント分布を求め、これらの分布の多くの特徴がX線パルスのみによる電子逃避の角パターンに対応していることがわかった。

We obtain continuum molecular wavefunctions for open-shell molecules in the Hartree-Fock framework. We do so while accounting for the singlet or triplet total spin symmetry of the molecular ion, that is, of the open-shell orbital and the initial orbital where the electron ionizes from. Using these continuum wavefunctions, we obtain the dipole matrix elements for a core electron that ionizes due to single-photon absorption by a linearly polarized X-ray pulse. After ionization from the X-ray pulse, we control or streak the electron dynamics using a circularly polarized infrared (IR) pulse. For a high intensity IR pulse and photon energies of the X-ray pulse close to the ionization threshold of the $1{\sigma}$ or $2{\sigma}$ orbitals, we achieve control of the angle of escape of the ionizing electron by varying the phase delay between the X-ray and IR pulses. For a low intensity IR pulse, we obtain final electron momenta distributions on the plane of the IR pulse and we find that many features of these distributions correspond to the angular patterns of electron escape solely due to the X-ray pulse.
翻訳日:2023-07-04 14:42:49 公開日:2023-07-03
# Sneaky Spikes:ニューロモーフィックデータによるスパイクニューラルネットワークのバックドア攻撃を発見

Sneaky Spikes: Uncovering Stealthy Backdoor Attacks in Spiking Neural Networks with Neuromorphic Data ( http://arxiv.org/abs/2302.06279v2 )

ライセンス: Link先を確認
Gorka Abad, Oguzhan Ersoy, Stjepan Picek, Aitor Urbieta(参考訳) ディープニューラルネットワーク(DNN)は、画像や音声認識など、さまざまなタスクで顕著なパフォーマンスを示している。 しかし、DNNの有効性を最大化するには、トレーニングを通じて多数のハイパーパラメータとネットワークパラメータを慎重に最適化する必要がある。 さらに、高性能DNNには多くのパラメータがあり、トレーニング中にかなりのエネルギーを消費する。 これらの課題を克服するために、研究者はニューラルネットワーク(snn)をスパイクし、エネルギー効率の向上と生物学的に妥当なデータ処理能力を提供し、特にニューロモルフィックデータにおいて、感覚データタスクに非常に適している。 それらの利点にもかかわらず、DNNのようなSNNは、敵の例やバックドア攻撃など、様々な脅威を受けやすい。 しかし、これらの攻撃の理解と対処の観点からSNNの分野を探求する必要がある。 本稿では,ニューロモルフィックデータセットと多様なトリガーを用いたSNNのバックドア攻撃について検討する。 具体的には、画像などの領域における従来のトリガーよりも広い範囲の可能性を提供するために、その位置や色を操作できるニューロモルフィックデータ内のバックドアトリガーを探索する。 我々は,攻撃成功率を最大100\%まで達成しつつ,クリーンな精度に対する無視的な影響を保ちながら,様々な攻撃戦略を提示する。 さらに、これらの攻撃のステルス性を評価し、最も強力な攻撃が重要なステルス能力を持っていることを明らかにした。 最後に、画像領域から最先端の防御を適応させ、その効果をニューロモルフィックデータに評価し、それらが不足しているインスタンスを明らかにすることで、パフォーマンスが損なわれる。

Deep neural networks (DNNs) have demonstrated remarkable performance across various tasks, including image and speech recognition. However, maximizing the effectiveness of DNNs requires meticulous optimization of numerous hyperparameters and network parameters through training. Moreover, high-performance DNNs entail many parameters, which consume significant energy during training. In order to overcome these challenges, researchers have turned to spiking neural networks (SNNs), which offer enhanced energy efficiency and biologically plausible data processing capabilities, rendering them highly suitable for sensory data tasks, particularly in neuromorphic data. Despite their advantages, SNNs, like DNNs, are susceptible to various threats, including adversarial examples and backdoor attacks. Yet, the field of SNNs still needs to be explored in terms of understanding and countering these attacks. This paper delves into backdoor attacks in SNNs using neuromorphic datasets and diverse triggers. Specifically, we explore backdoor triggers within neuromorphic data that can manipulate their position and color, providing a broader scope of possibilities than conventional triggers in domains like images. We present various attack strategies, achieving an attack success rate of up to 100\% while maintaining a negligible impact on clean accuracy. Furthermore, we assess these attacks' stealthiness, revealing that our most potent attacks possess significant stealth capabilities. Lastly, we adapt several state-of-the-art defenses from the image domain, evaluating their efficacy on neuromorphic data and uncovering instances where they fall short, leading to compromised performance.
翻訳日:2023-07-04 14:41:47 公開日:2023-07-03
# フィーチャーパーティション・アグリゲーション:$$\ell_0$の攻撃に対する高速な認証された防御

Feature Partition Aggregation: A Fast Certified Defense Against a Union of $\ell_0$ Attacks ( http://arxiv.org/abs/2302.11628v2 )

ライセンス: Link先を確認
Zayd Hammoudeh and Daniel Lowd(参考訳) スパースまたは$\ell_0$ 敵攻撃は、機能の未知の部分集合を任意に摂動する。 $\ell_0$ロバストネス分析は、機能が異なる型やスケールを持つ異種(表型)データに特に適しています。 最先端の$\ell_0$認証された防御はランダムな平滑化に基づいており、回避攻撃にのみ適用される。 本稿では,$\ell_0$の回避,バックドア,毒殺攻撃に対する認証された防御機構である特徴分割アグリゲーション(FPA)を提案する。 fpaはその強固な堅牢性保証をアンサンブルを通じて生成し、そのサブモデルは互いに分離した特徴集合で訓練される。 最先端の$\ell_0$ defensesと比較して、fpaは最大3000${\times}$高速で、より強固な保証を提供する(例えば、cifar10では13ピクセル/10ピクセル、mnistでは12ピクセル/10ピクセル、天気では4機能/1機能/1機能/3機能など)。

Sparse or $\ell_0$ adversarial attacks arbitrarily perturb an unknown subset of the features. $\ell_0$ robustness analysis is particularly well-suited for heterogeneous (tabular) data where features have different types or scales. State-of-the-art $\ell_0$ certified defenses are based on randomized smoothing and apply to evasion attacks only. This paper proposes feature partition aggregation (FPA) -- a certified defense against the union of $\ell_0$ evasion, backdoor, and poisoning attacks. FPA generates its stronger robustness guarantees via an ensemble whose submodels are trained on disjoint feature sets. Compared to state-of-the-art $\ell_0$ defenses, FPA is up to 3,000${\times}$ faster and provides larger median robustness guarantees (e.g., median certificates of 13 pixels over 10 for CIFAR10, 12 pixels over 10 for MNIST, 4 features over 1 for Weather, and 3 features over 1 for Ames), meaning FPA provides the additional dimensions of robustness essentially for free.
翻訳日:2023-07-04 14:32:20 公開日:2023-07-03
# 自己監視による探査

Exploration by self-supervised exploitation ( http://arxiv.org/abs/2302.11563v2 )

ライセンス: Link先を確認
Matej Pech\'a\v{c}, Michal Chovanec, Igor Farka\v{s}(参考訳) 強化学習は意思決定問題を解決し、予め設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。 しかし, 環境調査において報酬が小さすぎて, エージェントが報酬に遭遇しない場合, このようなアプローチは非常に問題となる。 このような問題の解決策は、エージェントに本質的なモチベーションを持たせることで、エージェントが外部の報酬に遭遇する可能性がある情報探索を提供するかもしれない。 ノベルティ検出は本質的動機づけ研究の有望な分野の1つである。 本稿では, 蒸留誤差に基づく内部モチベーションアルゴリズムのクラスである自己教師ネットワーク蒸留(SND)について, 対象モデルを自己教師学習を用いて訓練するノベルティ指標として提示する。 この目的のために既存の3つの自己監督手法を適用し, 探索が困難と考えられる10の環境上で実験を行った。 その結果,我々のアプローチは,ベースラインモデルと比較して,同じトレーニング時間に対して,より速い成長と高い外部報酬を達成できることがわかった。

Reinforcement learning can solve decision-making problems and train an agent to behave in an environment according to a predesigned reward function. However, such an approach becomes very problematic if the reward is too sparse and the agent does not come across the reward during the environmental exploration. The solution to such a problem may be in equipping the agent with an intrinsic motivation, which will provide informed exploration, during which the agent is likely to also encounter external reward. Novelty detection is one of the promising branches of intrinsic motivation research. We present Self-supervised Network Distillation (SND), a class of internal motivation algorithms based on the distillation error as a novelty indicator, where the target model is trained using self-supervised learning. We adapted three existing self-supervised methods for this purpose and experimentally tested them on a set of ten environments that are considered difficult to explore. The results show that our approach achieves faster growth and higher external reward for the same training time compared to the baseline models, which implies improved exploration in a very sparse reward environment.
翻訳日:2023-07-04 14:31:58 公開日:2023-07-03
# 因果規則化を伴うニューラルアルゴリズム推論

Neural Algorithmic Reasoning with Causal Regularisation ( http://arxiv.org/abs/2302.10258v2 )

ライセンス: Link先を確認
Beatrice Bevilacqua, Kyriacos Nikiforou, Borja Ibarz, Ioana Bica, Michela Paganini, Charles Blundell, Jovana Mitrovic, Petar Veli\v{c}kovi\'c(参考訳) ニューラルアルゴリズム推論に関する最近の研究は、ニューラルネットワークの推論能力を調査し、列車の分布から得られる見えないデータの古典的アルゴリズムを効果的に実行できることを実証している。 しかし、既存のニューラル推論の性能は、入力がより大きなサイズを持つout-of-distribution(ood)テストデータで著しく低下する。 本研究では,アルゴリズムが特定の中間計算を同一に実行する多くの異なる入力が存在することを示す。 この洞察により、アルゴリズムの中間軌道が与えられた場合、ターゲットアルゴリズムが正確に同じ次の軌道ステップを持つ入力を生成するデータ拡張手順を開発することができる。 因果グラフで定式化された観察から導かれた自己教師付き目標を用いることにより、これらの入力をまたいだ次のステップ予測の不均一性を保証する。 我々は、Hint-Relicと呼ばれる結果の手法が、推論器のOOD一般化能力を改善することを証明した。 提案手法をclrsアルゴリズム推論ベンチマークで評価し,oodテストデータに対して最大3$\times$改善を行った。

Recent work on neural algorithmic reasoning has investigated the reasoning capabilities of neural networks, effectively demonstrating they can learn to execute classical algorithms on unseen data coming from the train distribution. However, the performance of existing neural reasoners significantly degrades on out-of-distribution (OOD) test data, where inputs have larger sizes. In this work, we make an important observation: there are many different inputs for which an algorithm will perform certain intermediate computations identically. This insight allows us to develop data augmentation procedures that, given an algorithm's intermediate trajectory, produce inputs for which the target algorithm would have exactly the same next trajectory step. We ensure invariance in the next-step prediction across such inputs, by employing a self-supervised objective derived by our observation, formalised in a causal graph. We prove that the resulting method, which we call Hint-ReLIC, improves the OOD generalisation capabilities of the reasoner. We evaluate our method on the CLRS algorithmic reasoning benchmark, where we show up to 3$\times$ improvements on the OOD test data.
翻訳日:2023-07-04 14:30:29 公開日:2023-07-03
# 概念ボトルネックモデルの干渉手順のより綿密な考察

A Closer Look at the Intervention Procedure of Concept Bottleneck Models ( http://arxiv.org/abs/2302.14260v3 )

ライセンス: Link先を確認
Sungbin Shin, Yohan Jo, Sungsoo Ahn, Namhoon Lee(参考訳) 概念ボトルネックモデル(cbms)は、そのハイレベルな概念に基づいて与えられた入力のターゲット応答を予測する、解釈可能なニューラルネットワークモデルのクラスである。 標準のエンドツーエンドモデルとは異なり、CBMはドメインの専門家が予測された概念に介入し、テスト時に間違いを修正できるので、最後にもっと正確なタスク予測ができる。 このような対話性は強力な制御手段を提供するが、介入手順の多くの側面は未調査のままである。 本研究では,介入効果を改善するために介入概念を選択する様々な方法を開発し,異なる状況下でどのように進化するかを詳細に分析する。 具体的には、情報的介入戦略は、実際の介入数と同じ量の介入数で現在のベースラインと比較して10倍以上のタスクエラーを低減できるが、異なる介入粒度を考慮すると、かなり大きな違いがある。 我々は, 標準実データ集合だけでなく, 異なる因果グラフの集合に基づいて生成する合成データセットについても, 総合的な評価を行い, 検証を行った。 適切な対応がなければ、介入手続きの信頼性と公平性に対する懸念が高まる現在のプラクティスのいくつかの大きな落とし穴をさらに発見する。

Concept bottleneck models (CBMs) are a class of interpretable neural network models that predict the target response of a given input based on its high-level concepts. Unlike the standard end-to-end models, CBMs enable domain experts to intervene on the predicted concepts and rectify any mistakes at test time, so that more accurate task predictions can be made at the end. While such intervenability provides a powerful avenue of control, many aspects of the intervention procedure remain rather unexplored. In this work, we develop various ways of selecting intervening concepts to improve the intervention effectiveness and conduct an array of in-depth analyses as to how they evolve under different circumstances. Specifically, we find that an informed intervention strategy can reduce the task error more than ten times compared to the current baseline under the same amount of intervention counts in realistic settings, and yet, this can vary quite significantly when taking into account different intervention granularity. We verify our findings through comprehensive evaluations, not only on the standard real datasets, but also on synthetic datasets that we generate based on a set of different causal graphs. We further discover some major pitfalls of the current practices which, without a proper addressing, raise concerns on reliability and fairness of the intervention procedure.
翻訳日:2023-07-04 14:22:32 公開日:2023-07-03
# 大規模言語モデルによるゼロショットクロスリンガル要約

Zero-Shot Cross-Lingual Summarization via Large Language Models ( http://arxiv.org/abs/2302.14229v3 )

ライセンス: Link先を確認
Jiaan Wang, Yunlong Liang, Fandong Meng, Beiqi Zou, Zhixu Li, Jianfeng Qu, Jie Zhou(参考訳) ソース言語の文書が与えられた場合、言語間要約(CLS)は異なるターゲット言語で要約を生成することを目的としている。 近年, GPT-3.5, ChatGPT, GPT-4 などの大規模言語モデル (LLM) の出現は, 計算言語学コミュニティから広く注目を集めている。 しかし、LS上でのLSMの性能は未だ分かっていない。 本稿では,異なるパラダイム(エンド・ツー・エンド・エンド・パイプライン)からゼロショットCLSを誘導するための様々なプロンプトを実証的に使用し,生成したサマリーの予備評価を行う。 ChatGPT と GPT-4 はもともと,詳細な情報を持つ長文要約が好まれていた。 これらの2つのLSMは、対話的なプロンプトの助けを借りて、情報量と簡潔さを更にバランスさせ、CLSの性能を大幅に向上させることができる。 3つの広く使用されているCLSデータセットによる実験結果から、GPT-4は最先端のゼロショットCLS性能を達成し、微細調整されたmBART-50と競合して性能を発揮することが示された。 さらに,多言語およびバイリンガルLLM(BLOOMZ,ChatGLM-6B,Vicuna-13B,ChatYuan)はゼロショットCLS能力に制限がある。 要約と翻訳を同時に行うモデルを必要とするCLSの合成特性のため、ゼロショット方式でこのタスクを実現することは、LSMにとっての課題である。 したがって、今後のLSM研究がLSをテストベッドとして利用できることを心から願っています。

Given a document in a source language, cross-lingual summarization (CLS) aims to generate a summary in a different target language. Recently, the emergence of Large Language Models (LLMs), such as GPT-3.5, ChatGPT and GPT-4, has attracted wide attention from the computational linguistics community. However, it is not yet known the performance of LLMs on CLS. In this report, we empirically use various prompts to guide LLMs to perform zero-shot CLS from different paradigms (i.e., end-to-end and pipeline), and provide a preliminary evaluation on the generated summaries. We find that ChatGPT and GPT-4 originally prefer to produce lengthy summaries with detailed information. These two LLMs can further balance informativeness and conciseness with the help of an interactive prompt, significantly improving their CLS performance. Experimental results on three widely-used CLS datasets show that GPT-4 achieves state-of-the-art zero-shot CLS performance, and performs competitively compared with the fine-tuned mBART-50. Moreover, we also find some multi-lingual and bilingual LLMs (i.e., BLOOMZ, ChatGLM-6B, Vicuna-13B and ChatYuan) have limited zero-shot CLS ability. Due to the composite nature of CLS, which requires models to perform summarization and translation simultaneously, accomplishing this task in a zero-shot manner is even a challenge for LLMs. Therefore, we sincerely hope and recommend future LLM research could use CLS as a testbed.
翻訳日:2023-07-04 14:22:02 公開日:2023-07-03
# 雑音の固定点反復から集中学習のためのプライベートADMMへ

From Noisy Fixed-Point Iterations to Private ADMM for Centralized and Federated Learning ( http://arxiv.org/abs/2302.12559v2 )

ライセンス: Link先を確認
Edwige Cyffers, Aur\'elien Bellet, Debabrota Basu(参考訳) 我々は、このよく研究されたフレームワークからプライバシーとユーティリティー結果を引き出すために、ノイズの多い固定点反復の例として、差分プライベート(DP)機械学習アルゴリズムについて研究する。 本稿では,DP-SGDのようなプライベート勾配に基づく手法を復元し,フレキシブルな方法で新しいプライベート最適化アルゴリズムの設計と解析を行う方法を提案する。 広範に用いられている乗算器の交互方向法(admm)に着目し,本手法の汎用的枠組みを用いて,集中型,フェデレーション型,完全分散型学習のための新しいプライベートadmmアルゴリズムを導出する。 これら3つのアルゴリズムに対して、繰り返しおよびサブサンプリングによるプライバシー増幅を活用する強力なプライバシー保証を確立する。 最後に、雑音の多い固定点反復に対する最近の線形収束結果を利用する統一解析を用いてユーティリティ保証を提供する。

We study differentially private (DP) machine learning algorithms as instances of noisy fixed-point iterations, in order to derive privacy and utility results from this well-studied framework. We show that this new perspective recovers popular private gradient-based methods like DP-SGD and provides a principled way to design and analyze new private optimization algorithms in a flexible manner. Focusing on the widely-used Alternating Directions Method of Multipliers (ADMM) method, we use our general framework to derive novel private ADMM algorithms for centralized, federated and fully decentralized learning. For these three algorithms, we establish strong privacy guarantees leveraging privacy amplification by iteration and by subsampling. Finally, we provide utility guarantees using a unified analysis that exploits a recent linear convergence result for noisy fixed-point iterations.
翻訳日:2023-07-04 14:21:11 公開日:2023-07-03
# ecgと脳波分類のドメイン一般化に向けて:アルゴリズムとベンチマーク

Towards Domain Generalization for ECG and EEG Classification: Algorithms and Benchmarks ( http://arxiv.org/abs/2303.11338v3 )

ライセンス: Link先を確認
Aristotelis Ballas and Christos Diou(参考訳) 多くの分野で大きな成功を収めているが、機械学習とディープラーニングのシステムは、まだ医療におけるミッションクリティカルな応用において確固たる地位を確立していない。 主な理由の1つは、モデルが未発見の分散サンプルで提示されると、その性能が著しく低下するという事実である。 これはドメイン一般化(DG)問題として知られている。 本研究の目的は,生体信号分類におけるDG処理のための新しいアーキテクチャの導入に加えて,DGアルゴリズムの評価のためのベンチマークを提案することである。 本稿では,心電図(ecg)と脳波(eeg)に着目し,生体信号の領域一般化問題を説明し,オープンソースの生体信号dg評価ベンチマークを提案する。 さらに,コンピュータビジョンから1次元生体信号分類問題への最先端DGアルゴリズムの適用と,その有効性の評価を行った。 最後に、モデル一般化性を改善するために多層表現を活用する新しいニューラルネットワークアーキテクチャを導入する。 上記のDG設定を実装することで、ECGおよびEEGデータセットにおけるDG問題の存在を実験的に実証することができる。 さらに,提案モデルでは,ベースラインアルゴリズムよりも精度が向上し,両者のデータセットの最先端性を上回っている。 提案ベンチマークは,生体信号データセットに存在する分布変化の重要性を認識し,提案アルゴリズムの評価プロセスを簡素化し,バイオメディカルDG分野のさらなる研究を促すことを目的とする。 我々の知る限り、これはECGとEEG DGアルゴリズムを評価するためのオープンソースのフレームワークを開発するための最初の試みである。

Despite their immense success in numerous fields, machine and deep learning systems have not yet been able to firmly establish themselves in mission-critical applications in healthcare. One of the main reasons lies in the fact that when models are presented with previously unseen, Out-of-Distribution samples, their performance deteriorates significantly. This is known as the Domain Generalization (DG) problem. Our objective in this work is to propose a benchmark for evaluating DG algorithms, in addition to introducing a novel architecture for tackling DG in biosignal classification. In this paper, we describe the Domain Generalization problem for biosignals, focusing on electrocardiograms (ECG) and electroencephalograms (EEG) and propose and implement an open-source biosignal DG evaluation benchmark. Furthermore, we adapt state-of-the-art DG algorithms from computer vision to the problem of 1D biosignal classification and evaluate their effectiveness. Finally, we also introduce a novel neural network architecture that leverages multi-layer representations for improved model generalizability. By implementing the above DG setup we are able to experimentally demonstrate the presence of the DG problem in ECG and EEG datasets. In addition, our proposed model demonstrates improved effectiveness compared to the baseline algorithms, exceeding the state-of-the-art in both datasets. Recognizing the significance of the distribution shift present in biosignal datasets, the presented benchmark aims at urging further research into the field of biomedical DG by simplifying the evaluation process of proposed algorithms. To our knowledge, this is the first attempt at developing an open-source framework for evaluating ECG and EEG DG algorithms.
翻訳日:2023-07-04 14:13:35 公開日:2023-07-03
# 建物足跡抽出のためのデュアルスキップ接続を用いたu-net, resunet, u-net3+アーキテクチャの再検討

Rethinking the U-Net, ResUnet, and U-Net3+ architectures with dual skip connections for building footprint extraction ( http://arxiv.org/abs/2303.09064v3 )

ライセンス: Link先を確認
Bipul Neupane, Jagannath Aryal, and Abbas Rajabifard(参考訳) 建物の足跡とその在庫の重要性は、複数の社会問題に対する基礎的な空間情報として認識されている。 複雑な都市建物の抽出には、超高解像度(VHR)地球観測(EO)画像の分割が含まれる。 U-Netは、ResUnet、U-Net++、U-Net3+のような新しいセグメンテーションの基礎となる、共通のディープラーニングネットワークである。 再導入は、スキップ接続コンポーネントを再設計し、U-Netのマルチスケール機能を活用することで効率向上を求める。 しかし、スキップ接続は必ずしもこれらのネットワークを改善しておらず、その一部を取り除くことで効率が向上し、ネットワークパラメータが減少する。 本稿では,U-Net,ResUnet,U-Net3+の3つの二重スキップ接続機構を提案する。 これらのメカニズムにより、スキップ接続によって転送される機能マップが深くなり、最も効率のよいゲインを得るために、スキップ接続がより密にする必要があるかの研究が可能になります。 これらのメカニズムは3つのネットワークの異なるスケールの特徴マップで評価され、9つのネットワーク構成が生成される。 ネットワークは、vhr (0.3m)、高解像度 (1mと1.2m)、マルチレゾリューション (0.3+0.6+1.2m) の4つの異なる空間解像度のビルディングフットプリントデータセット (3つの既存および1つの新しい) を使用して、元のバニラバージョンに対して評価される。 提案機構は、U-NetとResUnetの4つの評価尺度における効率向上を報告し、最大17.7%と18.4%のF1スコアとU-Net3+のIoU(Intersection over Union)の上昇を報告した。 コードは、ピアレビューの後にGitHubのリンクで入手できる。

The importance of building footprints and their inventory has been recognised as foundational spatial information for multiple societal problems. Extracting complex urban buildings involves the segmentation of very high-resolution (VHR) earth observation (EO) images. U-Net is a common deep learning network and foundation for its new incarnations like ResUnet, U-Net++ and U-Net3+ for such segmentation. The re-incarnations look for efficiency gain by re-designing the skip connection component and exploiting the multi-scale features in U-Net. However, skip connections do not always improve these networks and removing some of them provides efficiency gains and reduced network parameters. In this paper, we propose three dual skip connection mechanisms for U-Net, ResUnet, and U-Net3+. These mechanisms deepen the feature maps forwarded by the skip connections and allow us to study which skip connections need to be denser to yield the highest efficiency gain. The mechanisms are evaluated on feature maps of different scales in the three networks, producing nine new network configurations. The networks are evaluated against their original vanilla versions using four building footprint datasets (three existing and one new) of different spatial resolutions: VHR (0.3m), high-resolution (1m and 1.2m), and multi-resolution (0.3+0.6+1.2m). The proposed mechanisms report efficiency gain on four evaluation measures for U-Net and ResUnet, and up to 17.7% and 18.4% gain in F1 score and Intersection over Union (IoU) for U-Net3+. The codes will be available in a GitHub link after peer review.
翻訳日:2023-07-04 14:12:26 公開日:2023-07-03
# イベントポラリティによる高速オートフォーカスの改善

Improving Fast Auto-Focus with Event Polarity ( http://arxiv.org/abs/2303.08611v2 )

ライセンス: Link先を確認
Yuhan Bao, Lei Sun, Yuqin Ma, Diyang Gu, Kaiwei Wang(参考訳) 悪条件下での迅速かつ正確なオートフォーカスは、いまだに大変な作業である。 イベントカメラの出現は、この課題に対処する新たな可能性を開いた。 本稿では,新しい高速かつ高精度なイベントセンシングアルゴリズムを提案する。 具体的には、焦点焦点における事象極性間の対称的関係について検討し、焦点焦点過程におけるイベントカメラの原理と撮像モデルに基づいて、事象に基づく焦点評価関数を提案する。 パブリックイベントベースのオートフォーカスデータセット(EAD)に関する総合的な実験は、モデルの堅牢性を示している。 さらに、我々の自作高速集中プラットフォーム上で、焦点深が1度未満の正確な焦点は0.004秒以内に達成される。 データセットとコードは公開される予定だ。

Fast and accurate auto-focus in adverse conditions remains an arduous task. The emergence of event cameras has opened up new possibilities for addressing the challenge. This paper presents a new high-speed and accurate event-based focusing algorithm. Specifically, the symmetrical relationship between the event polarities in focusing is investigated, and the event-based focus evaluation function is proposed based on the principles of the event cameras and the imaging model in the focusing process. Comprehensive experiments on the public event-based autofocus dataset (EAD) show the robustness of the model. Furthermore, precise focus with less than one depth of focus is achieved within 0.004 seconds on our self-built high-speed focusing platform. The dataset and code will be made publicly available.
翻訳日:2023-07-04 14:11:49 公開日:2023-07-03
# rtmpose:mmposeに基づくリアルタイム多人数ポーズ推定

RTMPose: Real-Time Multi-Person Pose Estimation based on MMPose ( http://arxiv.org/abs/2303.07399v2 )

ライセンス: Link先を確認
Tao Jiang, Peng Lu, Li Zhang, Ningsheng Ma, Rui Han, Chengqi Lyu, Yining Li, Kai Chen(参考訳) 2次元ポーズ推定に関する最近の研究は、公開ベンチマークで優れた性能を達成しているが、産業コミュニティにおけるその応用は、依然として重いモデルパラメータと高いレイテンシに苦しんでいる。 このギャップを埋めるために、我々は、パラダイム、モデルアーキテクチャ、トレーニング戦略、デプロイメントを含むポーズ推定における重要な要素を経験的に探求し、MMPoseに基づく高性能リアルタイム多人数ポーズ推定フレームワークRTMPoseを提案する。 我々のRTMPose-mは、Intel i7-11700 CPUで75.8%のAP、NVIDIA GTX 1660 Ti GPUで430以上のFPS、COCO-WholeBodyで130以上のFPSで67.0%のAPを達成した。 RTMPoseの重要リアルタイムアプリケーションにおける性能を更に評価するために,モバイルデバイス上でのデプロイ後の性能についても報告する。 RTMPose-s は COCO 上で 72.2% AP を達成し,Snapdragon 865 チップ上で 70 以上の FPS を実現している。 コードとモデルはhttps://github.com/open-mmlab/mmpose/tree/1.x/projects/rtmposeでリリースされる。

Recent studies on 2D pose estimation have achieved excellent performance on public benchmarks, yet its application in the industrial community still suffers from heavy model parameters and high latency. In order to bridge this gap, we empirically explore key factors in pose estimation including paradigm, model architecture, training strategy, and deployment, and present a high-performance real-time multi-person pose estimation framework, RTMPose, based on MMPose. Our RTMPose-m achieves 75.8% AP on COCO with 90+ FPS on an Intel i7-11700 CPU and 430+ FPS on an NVIDIA GTX 1660 Ti GPU, and RTMPose-l achieves 67.0% AP on COCO-WholeBody with 130+ FPS. To further evaluate RTMPose's capability in critical real-time applications, we also report the performance after deploying on the mobile device. Our RTMPose-s achieves 72.2% AP on COCO with 70+ FPS on a Snapdragon 865 chip, outperforming existing open-source libraries. Code and models are released at https://github.com/open-mmlab/mmpose/tree/1.x/projects/rtmpose.
翻訳日:2023-07-04 14:11:41 公開日:2023-07-03
# 言語モデルの概要:最近の発展と展望

An Overview on Language Models: Recent Developments and Outlook ( http://arxiv.org/abs/2303.05759v2 )

ライセンス: Link先を確認
Chengwei Wei, Yun-Cheng Wang, Bin Wang, C.-C. Jay Kuo(参考訳) 言語モデリングはテキストの文字列上の確率分布を研究する。 これは自然言語処理(NLP)における最も基本的なタスクの1つである。 テキスト生成、音声認識、機械翻訳などに広く使われている。 従来型言語モデル (clms) は言語系列の確率を因果的に予測することを目的としているが、事前学習型言語モデル (plm) はより広い概念をカバーし、因果逐次モデリングと下流アプリケーションの微調整の両方に使用できる。 PLMは独自の訓練パラダイム(通常は自己管理)を持ち、現代のNLPシステムの基盤モデルとして機能する。 本報告では,言語単位,アーキテクチャ,学習方法,評価方法,応用の5つの側面から,CLMとPLMについて紹介する。 さらに, CLM と PLM の関係について考察し, 事前学習時代の言語モデリングの今後の方向性について考察する。

Language modeling studies the probability distributions over strings of texts. It is one of the most fundamental tasks in natural language processing (NLP). It has been widely used in text generation, speech recognition, machine translation, etc. Conventional language models (CLMs) aim to predict the probability of linguistic sequences in a causal manner, while pre-trained language models (PLMs) cover broader concepts and can be used in both causal sequential modeling and fine-tuning for downstream applications. PLMs have their own training paradigms (usually self-supervised) and serve as foundation models in modern NLP systems. This overview paper provides an introduction to both CLMs and PLMs from five aspects, i.e., linguistic units, architectures, training methods, evaluation methods, and applications. Furthermore, we discuss the relationship between CLMs and PLMs and shed light on the future directions of language modeling in the pre-trained era.
翻訳日:2023-07-04 14:11:18 公開日:2023-07-03
# regionplc: オープンワールド3dシーン理解のための局所的ポイント言語コントラスト学習

RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding ( http://arxiv.org/abs/2304.00962v2 )

ライセンス: Link先を確認
Jihan Yang, Runyu Ding, Zhe Wang, Xiaojuan Qi(参考訳) 既存の3Dシーン理解タスクは、クローズセットベンチマークで高いパフォーマンスを達成したが、現実のアプリケーションでは新しいカテゴリを処理できなかった。 そこで本研究では,オープンボキャブラリー認識機能を備えたクローズドセットデータセット上で学習されたモデルを取り入れた,open-world 3dシーン理解のための地域的ポイント言語コントラスト学習フレームワークであるregionplcを提案する。 本研究では,2次元基礎モデルから地域レベルの視覚言語知識をキャプションを通して引き出すための密集した視覚プロンプトを提案する。 次に,シーン理解のためのキャプションから無意味なポイント独立学習を可能にするために,ポイント識別型コントラスト学習目標を設計する。 ScanNet, ScanNet200, nuScenesデータセットについて広範な実験を行った。 我々のRereaPLCは,従来の3次元オープンワールドシーン理解手法を,セマンティックスとインスタンスセグメンテーションで平均11.6\%,平均6.6\%で大幅に上回っている。 また、トレーニングと推論のコストが低い人間のアノテーションがない場合に、オープンワールドが有望な結果を示す。 コードはリリースされる。

Existing 3D scene understanding tasks have achieved high performance on close-set benchmarks but fail to handle novel categories in real-world applications. To this end, we propose a Regional Point-Language Contrastive learning framework, namely RegionPLC, for open-world 3D scene understanding, which equips models trained on closed-set datasets with open-vocabulary recognition capabilities. We propose dense visual prompts to elicit region-level visual-language knowledge from 2D foundation models via captioning, which further allows us to build dense regional point-language associations. Then, we design a point-discriminative contrastive learning objective to enable point-independent learning from captions for dense scene understanding. We conduct extensive experiments on ScanNet, ScanNet200, and nuScenes datasets. Our RegionPLC significantly outperforms previous base-annotated 3D open-world scene understanding approaches by an average of 11.6\% and 6.6\% for semantic and instance segmentation, respectively. It also shows promising open-world results in absence of any human annotation with low training and inference costs. Code will be released.
翻訳日:2023-07-04 14:03:58 公開日:2023-07-03
# BRECデータセットを用いたGNN表現性向上に向けて

Towards Better Evaluation of GNN Expressiveness with BREC Dataset ( http://arxiv.org/abs/2304.07702v3 )

ライセンス: Link先を確認
Yanbo Wang, Muhan Zhang(参考訳) グラフニューラルネットワーク(GNN)の理論表現性の研究は急速に進展し,その表現性を高めるために多くの手法が提案されている。 しかしながら、ほとんどのメソッドは、$k$-次元Weisfeiler-Lehman(k$-WL)テスト階層に厳密に従う数を除いて、一様表現性尺度を持たない。 それらの理論解析は、しばしば非同型グラフの特定の族を区別することに限定され、その表現性を定量的に比較することが困難となる。 理論的解析とは対照的に、表現性を測定する別の方法は、1-WL非識別グラフを含む特定のデータセット上でのモデル性能を評価することである。 しかし、この目的のために特別に設計された以前のデータセットは、難易度(1-WLを超えるモデルは100%近い精度)、粒度(モデルは100%正しいかランダムに近い確率で推測される)、スケール(各データセットで本質的に異なるグラフのみ)の問題に直面している。 これらの制約に対処するため、我々は4つの主要なカテゴリ(Basic, Regular, Extension, CFI)から慎重に選択された400組の非同型グラフを含む新しい表現性データセット、$\textbf{BREC}$を提案する。 これらのグラフはより難易度が高く(最大4-WLは区別できない)、より細かい粒度(1-WLと3-WLのモデルを比較することができる)、より大きなスケール(400対)を持つ。 さらに, BRECデータセット上で高-1-WL表現率23モデルを合成試験した。 我々の実験は、これらの1-WL GNNモデルを超える最先端の表現性を初めて徹底的に比較した。 我々は、このデータセットが将来のGNNの表現性をテストするためのベンチマークになることを期待している。 データセットと評価コードは、https://github.com/GraphPKU/BREC.comで公開されています。

Research on the theoretical expressiveness of Graph Neural Networks (GNNs) has developed rapidly, and many methods have been proposed to enhance the expressiveness. However, most methods do not have a uniform expressiveness measure except for a few that strictly follow the $k$-dimensional Weisfeiler-Lehman ($k$-WL) test hierarchy. Their theoretical analyses are often limited to distinguishing certain families of non-isomorphic graphs, leading to difficulties in quantitatively comparing their expressiveness. In contrast to theoretical analysis, another way to measure expressiveness is by evaluating model performance on certain datasets containing 1-WL-indistinguishable graphs. Previous datasets specifically designed for this purpose, however, face problems with difficulty (any model surpassing 1-WL has nearly 100% accuracy), granularity (models tend to be either 100% correct or near random guess), and scale (only a few essentially different graphs in each dataset). To address these limitations, we propose a new expressiveness dataset, $\textbf{BREC}$, which includes 400 pairs of non-isomorphic graphs carefully selected from four primary categories (Basic, Regular, Extension, and CFI). These graphs have higher difficulty (up to 4-WL-indistinguishable), finer granularity (able to compare models between 1-WL and 3-WL), and a larger scale (400 pairs). Further, we synthetically test 23 models with higher-than-1-WL expressiveness on our BREC dataset. Our experiment gives the first thorough comparison of the expressiveness of those state-of-the-art beyond-1-WL GNN models. We expect this dataset to serve as a benchmark for testing the expressiveness of future GNNs. Our dataset and evaluation code are released at: https://github.com/GraphPKU/BREC.
翻訳日:2023-07-04 13:54:04 公開日:2023-07-03
# 皮膚内視鏡的皮膚癌データセットにおけるドメインシフト : 臨床翻訳に必須限度の評価

Domain shifts in dermoscopic skin cancer datasets: Evaluation of essential limitations for clinical translation ( http://arxiv.org/abs/2304.06968v3 )

ライセンス: Link先を確認
Katharina Fogelberg, Sireesha Chamarthi, Roman C. Maron, Julia Niebling, Titus J. Brinker(参考訳) 畳み込みニューラルネットワークによる画像への一般化能力の制限は、特に皮膚内視鏡的皮膚がん分類のような安全性に重要な臨床的タスクに対する大きな制限である。 cnnベースのアプリケーションをクリニックに翻訳するには、彼らがドメインシフトに適応できることが不可欠である。 このような新しい条件は、異なる画像取得システムや様々な照明条件を使用することによって生じる。 皮膚内視鏡では、シフトは患者の年齢の変化や、稀な病変の局在(例えば手のひら)によって起こることもある。 これらはほとんどのトレーニングデータセットで顕著に表現されていないため、パフォーマンスが低下する可能性がある。 実際の臨床現場における分類モデルの一般化性を検証するためには,そのような領域シフトを模倣したデータにアクセスすることが重要である。 私たちの知識では、そのような領域シフトが適切に記述され、定量化されるような、dermoscopic imageデータセットは存在しない。 そこで我々は,isicアーカイブのメタデータ(獲得位置,病変の局在,患者年齢など)に基づいて公開画像を作成し,有意義なドメインを生成する。 これらの領域が実際には異なることを確認するために、複数の定量化尺度を用いて領域シフトの存在度と強度を推定した。 さらに,教師なしのドメイン適応手法を使わずに,これらのドメインの性能を解析した。 グループ化されたドメインのほとんどは、実際にはドメインシフトが存在する。 以上の結果から,これらのデータセットは皮膚内視鏡的皮膚癌分類器の一般化能力の検証に有用であると考えられた。

The limited ability of Convolutional Neural Networks to generalize to images from previously unseen domains is a major limitation, in particular, for safety-critical clinical tasks such as dermoscopic skin cancer classification. In order to translate CNN-based applications into the clinic, it is essential that they are able to adapt to domain shifts. Such new conditions can arise through the use of different image acquisition systems or varying lighting conditions. In dermoscopy, shifts can also occur as a change in patient age or occurence of rare lesion localizations (e.g. palms). These are not prominently represented in most training datasets and can therefore lead to a decrease in performance. In order to verify the generalizability of classification models in real world clinical settings it is crucial to have access to data which mimics such domain shifts. To our knowledge no dermoscopic image dataset exists where such domain shifts are properly described and quantified. We therefore grouped publicly available images from ISIC archive based on their metadata (e.g. acquisition location, lesion localization, patient age) to generate meaningful domains. To verify that these domains are in fact distinct, we used multiple quantification measures to estimate the presence and intensity of domain shifts. Additionally, we analyzed the performance on these domains with and without an unsupervised domain adaptation technique. We observed that in most of our grouped domains, domain shifts in fact exist. Based on our results, we believe these datasets to be helpful for testing the generalization capabilities of dermoscopic skin cancer classifiers.
翻訳日:2023-07-04 13:52:54 公開日:2023-07-03
# SqueezeとExcitation Networkの変動

Variations of Squeeze and Excitation networks ( http://arxiv.org/abs/2304.06502v2 )

ライセンス: Link先を確認
Mahendran NV(参考訳) 畳み込みニューラルネットワークは、空間的特徴を学習し、カーネル内で強くリンクされる。 SEモジュールは、結果全体を次のレイヤに渡す従来のニューラルネットワークの経路を壊した。 代わりにseは、swish and excitation (se)モジュールで学ぶべき重要な機能のみをパスする。 本稿では, スクイーズとエキサイティングのプロセスを即興で実現し, 性能を向上させるseモジュールのバリエーションを提案する。 提案されたスキューズまたはエキサイティングな層は、層重みの滑らかな遷移を可能にする。 これらのバリエーションはseモジュールの特性も保持する。 実験結果は残余ネットワーク上で行われ、その結果は集計される。

Convolutional neural networks learns spatial features and are heavily interlinked within kernels. The SE module have broken the traditional route of neural networks passing the entire result to next layer. Instead SE only passes important features to be learned with its squeeze and excitation (SE) module. We propose variations of the SE module which improvises the process of squeeze and excitation and enhances the performance. The proposed squeezing or exciting the layer makes it possible for having a smooth transition of layer weights. These proposed variations also retain the characteristics of SE module. The experimented results are carried out on residual networks and the results are tabulated.
翻訳日:2023-07-04 13:52:19 公開日:2023-07-03
# データサイエンスのための解釈可能なシンボリック回帰:2022年競争の分析

Interpretable Symbolic Regression for Data Science: Analysis of the 2022 Competition ( http://arxiv.org/abs/2304.01117v3 )

ライセンス: Link先を確認
F. O. de Franca, M. Virgolin, M. Kommenda, M. S. Majumder, M. Cranmer, G. Espada, L. Ingelse, A. Fonseca, M. Landajuela, B. Petersen, R. Glatt, N. Mundhenk, C. S. Lee, J. D. Hochhalter, D. L. Randall, P. Kamienny, H. Zhang, G. Dick, A. Simon, B. Burlacu, Jaan Kasak, Meera Machado, Casper Wilstrup, W. G. La Cava(参考訳) 現象を正確に記述した解析式に対する記号回帰探索 このアプローチの主な魅力は、ユーザにとって洞察力のある解釈可能なモデルを返すことだ。 歴史的に、記号回帰のアルゴリズムの大半は進化的アルゴリズムに基づいている。 しかし、最近、列挙アルゴリズム、混合線形整数プログラミング、ニューラルネットワーク、ベイズ最適化のようなアプローチを利用する新しい提案が急増している。 これらの新しいアプローチが現実世界のデータでしばしば直面する共通の課題に対してどのように振る舞うかを評価するために、私たちは2022年の遺伝的および進化的計算会議でコンペティションを開催しました。 実世界のトラックでは,ドメインエキスパートを用いて,候補モデルの信頼性を判断し,現実的に解釈可能性を評価する。このコンペで得られた結果の詳細な分析を行い,シンボル回帰アルゴリズムの課題について議論し,今後の競争改善の可能性を明らかにする。

Symbolic regression searches for analytic expressions that accurately describe studied phenomena. The main attraction of this approach is that it returns an interpretable model that can be insightful to users. Historically, the majority of algorithms for symbolic regression have been based on evolutionary algorithms. However, there has been a recent surge of new proposals that instead utilize approaches such as enumeration algorithms, mixed linear integer programming, neural networks, and Bayesian optimization. In order to assess how well these new approaches behave on a set of common challenges often faced in real-world data, we hosted a competition at the 2022 Genetic and Evolutionary Computation Conference consisting of different synthetic and real-world datasets which were blind to entrants. For the real-world track, we assessed interpretability in a realistic way by using a domain expert to judge the trustworthiness of candidate models.We present an in-depth analysis of the results obtained in this competition, discuss current challenges of symbolic regression algorithms and highlight possible improvements for future competitions.
翻訳日:2023-07-04 13:50:41 公開日:2023-07-03
# ヤンミル方程式に基づく角運動波の予測

Predicting Angular-Momentum Waves Based on Yang-Mills Equations ( http://arxiv.org/abs/2304.12625v3 )

ライセンス: Link先を確認
Xing-Yan Fan, Xiang-Ru Xie, and Jing-Ling Chen(参考訳) 物理学における最もエレガントな理論の1つとして、yang-mills (ym) 理論はマクスウェルの方程式を電磁気学に統一するだけでなく、電弱と強い相互作用を簡潔に説明する標準模型を基礎としている。 ポテンシャルと場の相互作用を含むym方程式の非常に非線形な項はそれらの分解を遅らせる。 u(1)$の場合、マクスウェル方程式の解は、世界中の現代の通信ネットワークで広く適用されている電磁波である。 同様に、弱結合と零結合の仮定の下でのym方程式の作用素解は、この研究の原点である$su(2)$ angular-momentum波を予測する。 このような角運動量波は、ディラックの電子の 'spin Zitterbewegung'' のようなスピン角運動量の振動によって実験で実現されることが望まれる。

As one of the most elegant theories in physics, Yang-Mills (YM) theory not only incorporates Maxwell's equations unifying electromagnetism, but also underpins the standard model explaining the electroweak and strong interactions in a succinct way. Whereas the highly nonlinear terms in YM equations involving the interactions between potentials and fields retard the resolution for them. In the $U(1)$ case, the solutions of Maxwell's equations are the electromagnetic waves, which have been applied extensively in the modern communication networks all over the world. Likewise the operator solutions of the YM equations under the assumptions of weak-coupling and zero-coupling predict the $SU(2)$ angular-momentum waves, which is the staple of this work. Such angular-momentum waves are hopefully realized in the experiments through the oscillations of spin angular momentum, such as the ``spin Zitterbewegung'' of Dirac's electron.
翻訳日:2023-07-04 13:44:35 公開日:2023-07-03
# 安定化符号の代数

The Algebra for Stabilizer Codes ( http://arxiv.org/abs/2304.10584v4 )

ライセンス: Link先を確認
Cole Comfort(参考訳) 奇数素数次元qudit純安定状態と有限次元シンプレクティックな$\mathbb{f}_p$-vector空間のアフィンラグランジアン部分空間の間には単射が存在する。 安定化形式論の言語において、フルランク安定化テーブルはちょうどアフィンラグランジュ部分空間の基底である。 この対応は、プロップの同型に拡張され、安定化回路の構成は、タドーによって張られるアフィン部分空間の関係合成に対応し、テンソル積は直和に対応する。 本稿では、この安定化器回路とテーブルローの対応を混合設定に拡張し、アフィン共等部分空間として安定化器符号について述べる(奇素キュート次元/キュービットCSS符号の場合のみ)。 安定化器符号のプロジェクタを分割することにより,エラー検出プロトコルとエラー訂正プロトコルをアフィン古典的な処理能力で復元することを示す。

There is a bijection between odd prime dimensional qudit pure stabilizer states modulo invertible scalars and affine Lagrangian subspaces of finite dimensional symplectic $\mathbb{F}_p$-vector spaces. In the language of the stabilizer formalism, full rank stabilizer tableaux are exactly the bases for affine Lagrangian subspaces. This correspondence extends to an isomorphism of props: the composition of stabilizer circuits corresponds to the relational composition of affine subspaces spanned by the tableaux, the tensor product corresponds to the direct sum. In this paper, we extend this correspondence between stabilizer circuits and tableaux to the mixed setting; regarding stabilizer codes as affine coisotropic subspaces (again only in odd prime qudit dimension/for qubit CSS codes). We show that by splitting the projector for a stabilizer code we recover the error detection protocol and the error correction protocol with affine classical processing power.
翻訳日:2023-07-04 13:42:59 公開日:2023-07-03
# 時系列レコメンデーションのための注意混合

Attention Mixtures for Time-Aware Sequential Recommendation ( http://arxiv.org/abs/2304.08158v2 )

ライセンス: Link先を確認
Viet-Anh Tran and Guillaume Salha-Galvan and Bruno Sguerra and Romain Hennequin(参考訳) 変圧器は逐次レコメンデーションの強力な方法として登場した。 しかし、既存のアーキテクチャはしばしば、ユーザの好みと時間的コンテキストの間の複雑な依存関係を見落としている。 本稿では,この制限に対処する改良された Transformer シーケンシャルレコメンデータシステム MOJITO を紹介する。 MOJITOは、注意に基づく時間的コンテキストとアイテム埋め込み表現のガウス混合を利用して、シーケンシャルモデリングを行う。 このようなアプローチによって、過去のアクションや時間的コンテキストに応じて、ユーザの隣で推奨すべき項目を正確に予測することができる。 我々は,既存のトランスフォーマーを経験的に上回って,実世界のデータセット上で逐次レコメンデーションを行うことで,このアプローチの妥当性を実証する。

Transformers emerged as powerful methods for sequential recommendation. However, existing architectures often overlook the complex dependencies between user preferences and the temporal context. In this short paper, we introduce MOJITO, an improved Transformer sequential recommender system that addresses this limitation. MOJITO leverages Gaussian mixtures of attention-based temporal context and item embedding representations for sequential modeling. Such an approach permits to accurately predict which items should be recommended next to users depending on past actions and the temporal context. We demonstrate the relevance of our approach, by empirically outperforming existing Transformers for sequential recommendation on several real-world datasets.
翻訳日:2023-07-04 13:41:42 公開日:2023-07-03
# ContraNeRF: Unsupervised Implicit Pose Embeddingを用いたコントラスト学習による3次元認識生成モデル

ContraNeRF: 3D-Aware Generative Model via Contrastive Learning with Unsupervised Implicit Pose Embedding ( http://arxiv.org/abs/2304.14005v2 )

ライセンス: Link先を確認
Mijeong Kim, Hyunjoon Lee, Bohyung Han(参考訳) ニューラルラディアンス場に基づく3D認識型GANは競争性能は高いが、その適用性は、明確に定義された標準カメラのポーズに対して、接地真実や予測モデルを持つオブジェクトやシーンに限られている。 適用可能なデータセットの範囲を拡大するため,暗黙のポーズ埋め込みを用いたコントラスト学習による新しい3D対応GAN最適化手法を提案する。 この目的のために,まず識別器の設計を改訂し,地上カメラのポーズへの依存を除去した。 そして,複雑な3次元シーン構造をより効果的に捉えるため,識別器は画像から隠れた高次元の暗黙のポーズを推定し,ポーズの埋め込みについてコントラスト学習を行う。 提案手法は、カメラのポーズを検索したり推定したりしないため、標準カメラのポーズが未定義であるデータセットに使用できる。 実験の結果,本アルゴリズムは,複数の対象カテゴリと非整合な正準カメラポーズを持つデータセットにおいて,既存の手法を大きなマージンで上回っていることがわかった。

Although 3D-aware GANs based on neural radiance fields have achieved competitive performance, their applicability is still limited to objects or scenes with the ground-truths or prediction models for clearly defined canonical camera poses. To extend the scope of applicable datasets, we propose a novel 3D-aware GAN optimization technique through contrastive learning with implicit pose embeddings. To this end, we first revise the discriminator design and remove dependency on ground-truth camera poses. Then, to capture complex and challenging 3D scene structures more effectively, we make the discriminator estimate a high-dimensional implicit pose embedding from a given image and perform contrastive learning on the pose embedding. The proposed approach can be employed for the dataset, where the canonical camera pose is ill-defined because it does not look up or estimate camera poses. Experimental results show that our algorithm outperforms existing methods by large margins on the datasets with multiple object categories and inconsistent canonical camera poses.
翻訳日:2023-07-04 13:32:19 公開日:2023-07-03
# R'enyi divergencesの有効性

Sufficiency of R\'enyi divergences ( http://arxiv.org/abs/2304.12989v5 )

ライセンス: Link先を確認
Niklas Galke, Lauritz van Luijk, Henrik Wilming(参考訳) 古典的あるいは量子的状態の集合が、古典的または量子的チャネルのペアが他方にセットされた場合、別のものと同値である。 ディコトミー(状態のペア)の場合、これは(古典的または量子的) R\'enyi divergences (RD) とデータ処理の不等式と密接に結びついている。 ここでは、古典的二分法について、RDs の等式だけでは、2つの方向のいずれかのチャネルの存在に十分であることを示すとともに、いくつかの応用について議論する。 最小量子RDの等式は量子の場合で十分であり、特殊の場合では証明できる。 また、ペッツ量子も最大量子RDも十分でないことを示す。 我々の手法の副作用として、古典、ペッツ量子、最大量子RDによって満たされる無限の不等式のリストを得る。 これらの不等式は最小量子rdsには当てはまらない。

A set of classical or quantum states is equivalent to another one if there exists a pair of classical or quantum channels mapping either set to the other one. For dichotomies (pairs of states) this is closely connected to (classical or quantum) R\'enyi divergences (RD) and the data-processing inequality: If a RD remains unchanged when a channel is applied to the dichotomy, then there is a recovery channel mapping the image back to the initial dichotomy. Here, we prove for classical dichotomies that equality of the RDs alone is already sufficient for the existence of a channel in any of the two directions and discuss some applications. We conjecture that equality of the minimal quantum RDs is sufficient in the quantum case and prove it for special cases. We also show that neither the Petz quantum nor the maximal quantum RDs are sufficient. As a side-result of our techniques we obtain an infinite list of inequalities fulfilled by the classical, the Petz quantum, and the maximal quantum RDs. These inequalities are not true for the minimal quantum RDs.
翻訳日:2023-07-04 13:31:37 公開日:2023-07-03
# TextSLAM: セマンティックな平面テキスト機能を備えたビジュアルSLAM

TextSLAM: Visual SLAM with Semantic Planar Text Features ( http://arxiv.org/abs/2305.10029v2 )

ライセンス: Link先を確認
Boying Li, Danping Zou, Yuan Huang, Xinghan Niu, Ling Pei, Wenxian Yu(参考訳) 本稿では,テキストオブジェクトを意味的特徴として扱うことによって,テキストオブジェクトを密に統合する新しい視覚SLAM手法を提案する。 テキストオブジェクトはテクスチャリッチな平面パッチとしてモデル化され、セマンティックな意味が抽出され、リアルタイムで更新され、データアソシエーションが向上する。 テキストオブジェクトの局所的な平面的特徴と意味的意味の完全な探索により、SLAMシステムは、画像のぼやけ、大きな視点の変化、重要な照明変化(昼夜)といった困難な条件下でも、より正確で堅牢になる。 地上真理データを用いて様々な場面で実験を行った。 その結果,テクスチャ機能を統合することで,日夜の画像にマッチするSLAMシステムを実現することができた。 再構成されたセマンティック3dテキストマップは、ロボットと混合現実アプリケーションにおけるナビゲーションとシーン理解に有用である。 プロジェクトページ:https://github.com/SJTU-ViSYS/TextSLAM。

We propose a novel visual SLAM method that integrates text objects tightly by treating them as semantic features via fully exploring their geometric and semantic prior. The text object is modeled as a texture-rich planar patch whose semantic meaning is extracted and updated on the fly for better data association. With the full exploration of locally planar characteristics and semantic meaning of text objects, the SLAM system becomes more accurate and robust even under challenging conditions such as image blurring, large viewpoint changes, and significant illumination variations (day and night). We tested our method in various scenes with the ground truth data. The results show that integrating texture features leads to a more superior SLAM system that can match images across day and night. The reconstructed semantic 3D text map could be useful for navigation and scene understanding in robotic and mixed reality applications. Our project page: https://github.com/SJTU-ViSYS/TextSLAM .
翻訳日:2023-07-04 13:25:00 公開日:2023-07-03
# 原始重力のデコヒーレンスについて

On the Decoherence of Primordial Gravitons ( http://arxiv.org/abs/2305.08071v3 )

ライセンス: Link先を確認
Sirui Ning, Chon Man Sou, Yi Wang(参考訳) 原始スカラー曲率とテンソル摂動の$\zeta$と$\gamma_{ij}$は、最小のインフレーションモデルにおける超水平スケールで保存されていることはよく知られている。 しかし、それらの波動関数は急速に振動する位相を持ち、宇宙論的摂動の境界(現在の微分)やホイーラー・デウィット方程式のWKB近似から見てもわかるように、緩やかに回転しない。 このような振動相は、スカラーとテンソルの摂動の間の重力非直線性を含む。 観測されていないモードの追跡により、発振相は、バルク相互作用によるよりも早く原始重力子の脱コヒーレンスを引き起こす。 以上の結果から, 収縮した原始重力場を探索する最近の提案に対して, 脱コヒーレンス効果はより低くなった。

It is well-known that the primordial scalar curvature and tensor perturbations, $\zeta$ and $\gamma_{ij}$, are conserved on super-horizon scales in minimal inflation models. However, their wave functional has a rapidly oscillating phase which is slow-roll unsuppressed, as can be seen either from boundary (total-derivative) terms of cosmological perturbations, or the WKB approximation of the Wheeler-DeWitt equation. Such an oscillatory phase involves gravitational non-linearity between scalar and tensor perturbations. By tracing out unobserved modes, the oscillatory phase causes faster decoherence of primordial gravitons compared to those by bulk interactions. Our results put a stronger lower bound of decoherence effect to the recent proposals probing squeezed primordial gravitons.
翻訳日:2023-07-04 13:24:42 公開日:2023-07-03
# ChatGPTは推奨に値するか? 大規模言語モデル推薦における公平性の評価

Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation ( http://arxiv.org/abs/2305.07609v2 )

ライセンス: Link先を確認
Jizhi Zhang, Keqin Bao, Yang Zhang, Wenjie Wang, Fuli Feng, Xiangnan He(参考訳) LLM(Large Language Models)の顕著な成果は、新しいレコメンデーションパラダイム -- LLM (RecLLM)によるレコメンデーション -- の出現につながった。 それにもかかわらず、LLMは社会的偏見を含む可能性があるため、RecLLMによる勧告の公正性はさらなる調査が必要であることに注意する必要がある。 RecLLMの潜在的なリスクを避けるため、ユーザ側の様々な機密属性に対して、RecLLMの公平性を評価することが不可欠である。 RecLLMパラダイムと従来のレコメンデーションパラダイムの違いから、従来のレコメンデーションの公平性ベンチマークを直接使用するのは問題である。 このジレンマに対処するために,LLM (FaiRLLM) を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。 このベンチマークは、慎重に作成されたメトリクスと、音楽と映画という2つの推奨シナリオで8つのセンシティブな属性1を占めるデータセットで構成されている。 FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。 コードとデータセットはhttps://github.com/jizhi-zhang/FaiRLLM.comで確認できます。

The remarkable achievements of Large Language Models (LLMs) have led to the emergence of a novel recommendation paradigm -- Recommendation via LLM (RecLLM). Nevertheless, it is important to note that LLMs may contain social prejudices, and therefore, the fairness of recommendations made by RecLLM requires further investigation. To avoid the potential risks of RecLLM, it is imperative to evaluate the fairness of RecLLM with respect to various sensitive attributes on the user side. Due to the differences between the RecLLM paradigm and the traditional recommendation paradigm, it is problematic to directly use the fairness benchmark of traditional recommendation. To address the dilemma, we propose a novel benchmark called Fairness of Recommendation via LLM (FaiRLLM). This benchmark comprises carefully crafted metrics and a dataset that accounts for eight sensitive attributes1 in two recommendation scenarios: music and movies. By utilizing our FaiRLLM benchmark, we conducted an evaluation of ChatGPT and discovered that it still exhibits unfairness to some sensitive attributes when generating recommendations. Our code and dataset can be found at https://github.com/jizhi-zhang/FaiRLLM.
翻訳日:2023-07-04 13:24:28 公開日:2023-07-03
# ssd-monodetr:単眼3次元物体検出のための教師付きスケールアウェア変形トランス

SSD-MonoDETR: Supervised Scale-aware Deformable Transformer for Monocular 3D Object Detection ( http://arxiv.org/abs/2305.07270v3 )

ライセンス: Link先を確認
Xuan He, Fan Yang, Kailun Yang, Jiacheng Lin, Haolong Fu, Meng Wang, Jin Yuan, Zhiyong Li(参考訳) トランスベースの手法は,1つの2次元画像から3d属性を予測することを目的とした,単眼的3d物体検出に優れた性能を示している。 既存のトランスフォーマティブベースの手法の多くは、オブジェクトの貴重なクエリポイントを探索するために視覚的表現と奥行き表現の両方を利用しており、学習したクエリポイントの品質は検出精度に大きな影響を与えている。 残念ながら、トランスフォーマーの既存の教師なしのアテンションメカニズムは、特にハードオブジェクトにおいて、不正確な受容フィールドのため、低品質のクエリ機能を生成する傾向がある。 そこで本研究では,モノクロ3次元物体検出のためのSSDA(Supervised Scale-aware Deformable Attention)を提案する。 具体的には、SSDAは複数のマスクを異なるスケールでプリセットし、深さと視覚的特徴を利用してオブジェクトクエリ拡張のためのスケール認識フィルタを適応的に学習する。 SSDAでは、オブジェクトクエリの正確な受容領域を予測して、堅牢なクエリ機能生成をサポートすることができる。 これとは別に、SSDAは、監視されていない注意機構と比較してより確実な結果を示すスケール予測を監督するために、重み付きスケールマッチング(WSM)損失を割り当てる。 KITTIベンチマークの大規模な実験により、SSDAは検出精度、特に中等度および硬度オブジェクトにおいて著しく向上し、既存のアプローチと比較して最先端の性能が得られることが示された。 私たちのコードはhttps://github.com/mikasa3lili/SSD-MonoDETRで公開されます。

Transformer-based methods have demonstrated superior performance for monocular 3D object detection recently, which aims at predicting 3D attributes from a single 2D image. Most existing transformer-based methods leverage both visual and depth representations to explore valuable query points on objects, and the quality of the learned query points has a great impact on detection accuracy. Unfortunately, existing unsupervised attention mechanisms in transformers are prone to generate low-quality query features due to inaccurate receptive fields, especially on hard objects. To tackle this problem, this paper proposes a novel Supervised Scale-aware Deformable Attention (SSDA) for monocular 3D object detection. Specifically, SSDA presets several masks with different scales and utilizes depth and visual features to adaptively learn a scale-aware filter for object query augmentation. Imposing the scale awareness, SSDA could well predict the accurate receptive field of an object query to support robust query feature generation. Aside from this, SSDA is assigned with a Weighted Scale Matching (WSM) loss to supervise scale prediction, which presents more confident results as compared to the unsupervised attention mechanisms. Extensive experiments on the KITTI benchmark demonstrate that SSDA significantly improves the detection accuracy, especially on moderate and hard objects, yielding state-of-the-art performance as compared to the existing approaches. Our code will be made publicly available at https://github.com/mikasa3lili/SSD-MonoDETR.
翻訳日:2023-07-04 13:24:07 公開日:2023-07-03
# 実世界の超解像に先立つ爆発拡散

Exploiting Diffusion Prior for Real-World Image Super-Resolution ( http://arxiv.org/abs/2305.07015v2 )

ライセンス: Link先を確認
Jianyi Wang, Zongsheng Yue, Shangchen Zhou, Kelvin C.K. Chan, Chen Change Loy(参考訳) 本稿では,事前学習されたテキストから画像への拡散モデルにカプセル化された先行知識をブラインド超解像(sr)に活用する新しい手法を提案する。 具体的には、時間認識エンコーダを用いることで、事前学習した合成モデルを変更せずに有望な復元結果が得られ、生成前の保存とトレーニングコストの最小化が可能となる。 拡散モデル固有の確率性に起因する忠実さの損失を解消するため,ユーザが推論処理中にスカラー値を調整するだけで品質と忠実さのバランスをとることができる制御可能な特徴包みモジュールを導入する。 さらに,事前学習された拡散モデルの固定サイズの制約を克服し,任意のサイズの解像度に適応できるように,漸進的アグリゲーションサンプリング戦略を開発した。 合成および実世界のベンチマークを用いて,本手法の総合評価を行い,現在の最先端手法よりも優れていることを示す。

We present a novel approach to leverage prior knowledge encapsulated in pre-trained text-to-image diffusion models for blind super-resolution (SR). Specifically, by employing our time-aware encoder, we can achieve promising restoration results without altering the pre-trained synthesis model, thereby preserving the generative prior and minimizing training cost. To remedy the loss of fidelity caused by the inherent stochasticity of diffusion models, we introduce a controllable feature wrapping module that allows users to balance quality and fidelity by simply adjusting a scalar value during the inference process. Moreover, we develop a progressive aggregation sampling strategy to overcome the fixed-size constraints of pre-trained diffusion models, enabling adaptation to resolutions of any size. A comprehensive evaluation of our method using both synthetic and real-world benchmarks demonstrates its superiority over current state-of-the-art approaches.
翻訳日:2023-07-04 13:23:40 公開日:2023-07-03
# CVB:牛の視覚行動のビデオデータセット

CVB: A Video Dataset of Cattle Visual Behaviors ( http://arxiv.org/abs/2305.16555v2 )

ライセンス: Link先を確認
Ali Zia, Renuka Sharma, Reza Arablouei, Greg Bishop-Hurley, Jody McNally, Neil Bagnall, Vivien Rolland, Brano Kusy, Lars Petersson, Aaron Ingham(参考訳) 牛の行動認識のための既存の画像/ビデオデータセットは、ほとんどが小さく、明確に定義されたラベルがないか、非現実的な制御環境で収集される。 これにより、機械学習(ML)モデルの有用性が制限される。 そこで本研究では,15秒毎に502本の映像クリップからなり,自然照明条件下で撮影され,放牧牛の視覚知覚行動11種類の注釈を付した,新たなデータセットであるcvbを提案する。 アノテーションの収集にはコンピュータビジョンアノテーションツール(cvat)を使用します。 この手法をより効率的にするために, 適切な事前学習モデルを用いて, ビデオ中のウシの初期検出と追跡を行う。 結果は、CVATにおける牛の行動ラベルとともに、ドメインの専門家によって修正される。 事前検出及び追跡ステップは、手動のアノテーションの時間と労力を大幅に削減する。 さらに,CVBをアトミック・ビジュアル・アクション(AVA)フォーマットに変換し,その上で人気のあるSlowFastアクション認識モデルを訓練し,評価する。 関連する予備結果は,牛の局所化と頻発する行動の認識を自信をもって行うことができることを確認した。 本研究の目的は,CVBの作成と共有により,すべての重要な行動を正確に認識できる改良モデルを開発し,ビデオデータを用いた牛の行動分類の新しいMLモデルの開発と評価を支援することである。

Existing image/video datasets for cattle behavior recognition are mostly small, lack well-defined labels, or are collected in unrealistic controlled environments. This limits the utility of machine learning (ML) models learned from them. Therefore, we introduce a new dataset, called Cattle Visual Behaviors (CVB), that consists of 502 video clips, each fifteen seconds long, captured in natural lighting conditions, and annotated with eleven visually perceptible behaviors of grazing cattle. We use the Computer Vision Annotation Tool (CVAT) to collect our annotations. To make the procedure more efficient, we perform an initial detection and tracking of cattle in the videos using appropriate pre-trained models. The results are corrected by domain experts along with cattle behavior labeling in CVAT. The pre-hoc detection and tracking step significantly reduces the manual annotation time and effort. Moreover, we convert CVB to the atomic visual action (AVA) format and train and evaluate the popular SlowFast action recognition model on it. The associated preliminary results confirm that we can localize the cattle and recognize their frequently occurring behaviors with confidence. By creating and sharing CVB, our aim is to develop improved models capable of recognizing all important behaviors accurately and to assist other researchers and practitioners in developing and evaluating new ML models for cattle behavior classification using video data.
翻訳日:2023-07-04 13:14:43 公開日:2023-07-03
# Scan and Snap: 1層トランスにおけるトレーニングダイナミクスとトークン構成の理解

Scan and Snap: Understanding Training Dynamics and Token Composition in 1-layer Transformer ( http://arxiv.org/abs/2305.16380v3 )

ライセンス: Link先を確認
Yuandong Tian, Yiping Wang, Beidi Chen, Simon Du(参考訳) トランスフォーマーアーキテクチャは、複数の研究領域で顕著なパフォーマンスを示し、多くのニューラルネットワークモデルのバックボーンとなっている。 しかし、その仕組みについては理解が限られている。 特に、単純な予測損失により、勾配 \emph{training dynamics} からどのように表現が現れるかは謎のままである。 本稿では, 1層自己着脱層と1層デコーダ層を有する1層変圧器について,次のトークン予測タスクに対するsgdトレーニングダイナミクスを数学的に厳密に解析する。 自己注意層が入力トークンを結合する方法の動的プロセスのブラックボックスを開き、基礎となる帰納バイアスの性質を明らかにする。 より具体的に言うと (a)位置符号化なし。 (b)長い入力シーケンス、及び (c)デコーダ層は自己アテンション層よりも早く学習し、自己アテンションが \emph{discriminative scan algorithm} として機能することを証明する。 異なるトークンの中では、トレーニングセット内のキーとクエリトークンの間の低いから高い共起の順序に従って、徐々に注目の重みを減らします。 興味深いことに、この手順は勝者の獲得に繋がらないが、2つの層の学習速度によって制御され、(ほとんど)固定されたトークンの組み合わせを残している 'emph{phase transition} によって減速する。 合成および実世界データ(wikitext)上でのこの \textbf{\emph{scan and snap}} ダイナミクスを検証する。

Transformer architecture has shown impressive performance in multiple research domains and has become the backbone of many neural network models. However, there is limited understanding on how it works. In particular, with a simple predictive loss, how the representation emerges from the gradient \emph{training dynamics} remains a mystery. In this paper, for 1-layer transformer with one self-attention layer plus one decoder layer, we analyze its SGD training dynamics for the task of next token prediction in a mathematically rigorous manner. We open the black box of the dynamic process of how the self-attention layer combines input tokens, and reveal the nature of underlying inductive bias. More specifically, with the assumption (a) no positional encoding, (b) long input sequence, and (c) the decoder layer learns faster than the self-attention layer, we prove that self-attention acts as a \emph{discriminative scanning algorithm}: starting from uniform attention, it gradually attends more to distinct key tokens for a specific next token to be predicted, and pays less attention to common key tokens that occur across different next tokens. Among distinct tokens, it progressively drops attention weights, following the order of low to high co-occurrence between the key and the query token in the training set. Interestingly, this procedure does not lead to winner-takes-all, but decelerates due to a \emph{phase transition} that is controllable by the learning rates of the two layers, leaving (almost) fixed token combination. We verify this \textbf{\emph{scan and snap}} dynamics on synthetic and real-world data (WikiText).
翻訳日:2023-07-04 13:14:20 公開日:2023-07-03
# DiffCLIP: 言語基底3次元分類のための安定拡散の活用

DiffCLIP: Leveraging Stable Diffusion for Language Grounded 3D Classification ( http://arxiv.org/abs/2305.15957v2 )

ライセンス: Link先を確認
Sitian Shen, Zilin Zhu, Linqian Fan, Harry Zhang, Xinxiao Wu(参考訳) 大規模な事前学習モデルはマルチモーダル学習を可能にし、CLIPモデルは画像分類、オブジェクト検出、セマンティックセグメンテーションにおいて印象的な結果を得た。 しかし、3Dポイントクラウド処理タスクにおけるモデルの性能は、3Dプロジェクションからの深度マップとCLIPのトレーニングイメージとのドメインギャップによって制限されている。 本稿では,ビジュアルブランチの領域ギャップを最小限に抑えるために,安定拡散とコントロールネットを組み込んだ新しい事前学習フレームワークdiffclipを提案する。 さらに、スタイルプロンプト生成モジュールがテキストブランチの少数タスクに導入されている。 ModelNet10、ModelNet40、ScanObjectNNデータセットに関する大規模な実験は、DiffCLIPが3D理解に強力な能力を持っていることを示している。 安定した拡散とスタイルプロンプト生成により、DiffCLIPは、最先端性能であるScanObjectNNのOBJ\_BGにおけるゼロショット分類の精度43.2\%、最先端性能のModelNet10におけるゼロショット分類の精度80.6\%を達成する。

Large pre-trained models have had a significant impact on computer vision by enabling multi-modal learning, where the CLIP model has achieved impressive results in image classification, object detection, and semantic segmentation. However, the model's performance on 3D point cloud processing tasks is limited due to the domain gap between depth maps from 3D projection and training images of CLIP. This paper proposes DiffCLIP, a new pre-training framework that incorporates stable diffusion with ControlNet to minimize the domain gap in the visual branch. Additionally, a style-prompt generation module is introduced for few-shot tasks in the textual branch. Extensive experiments on the ModelNet10, ModelNet40, and ScanObjectNN datasets show that DiffCLIP has strong abilities for 3D understanding. By using stable diffusion and style-prompt generation, DiffCLIP achieves an accuracy of 43.2\% for zero-shot classification on OBJ\_BG of ScanObjectNN, which is state-of-the-art performance, and an accuracy of 80.6\% for zero-shot classification on ModelNet10, which is comparable to state-of-the-art performance.
翻訳日:2023-07-04 13:13:50 公開日:2023-07-03
# 拡散MRIにおける超解像のための時空間変換

Spatio-Angular Convolutions for Super-resolution in Diffusion MRI ( http://arxiv.org/abs/2306.00854v2 )

ライセンス: Link先を確認
Matthew Lyon, Paul Armitage, Mauricio A \'Alvarez(参考訳) 拡散MRI(dMRI)は画像のモダリティとして広く用いられているが、高解像度データセットを取得するには長い走査時間が必要である。 この領域内に存在する特異な幾何学を利用して、パラメトリック連続畳み込み(PCConv)フレームワーク上に広がるdMRI角超解像への新しいアプローチを示す。 我々は、フーリエ特徴マッピング、グローバル座標、ドメイン固有コンテキストを含むオペレーションにいくつかの追加を導入する。 このフレームワークを用いて,完全パラメトリック連続畳み込みネットワーク(pccnn)を構築し,既存のモデルと比較する。 我々はPCCNNの競合性能を極めて少ないパラメータを用いて実証した。 また,本製剤は,フィステル分析や神経突起配向分散・密度イメージングなど,臨床的に関連する下流解析によく適用できることを示した。

Diffusion MRI (dMRI) is a widely used imaging modality, but requires long scanning times to acquire high resolution datasets. By leveraging the unique geometry present within this domain, we present a novel approach to dMRI angular super-resolution that extends upon the parametric continuous convolution (PCConv) framework. We introduce several additions to the operation including a Fourier feature mapping, global coordinates, and domain specific context. Using this framework, we build a fully parametric continuous convolution network (PCCNN) and compare against existing models. We demonstrate the PCCNN performs competitively while using significantly less parameters. Moreover, we show that this formulation generalises well to clinically relevant downstream analyses such as fixel-based analysis, and neurite orientation dispersion and density imaging.
翻訳日:2023-07-04 13:05:58 公開日:2023-07-03
# マルチソーストランスレーショナルct再構成のためのbpfアルゴリズム

BPF Algorithms for Multiple Source-Translation Computed Tomography Reconstruction ( http://arxiv.org/abs/2305.18878v2 )

ライセンス: Link先を確認
Zhisheng Wang (1 and 2), Haijun Yu (3), Yixing Huang (4), Shunli Wang (1 and 2), Song Ni (3), Zongfeng Li (3), Fenglin Liu (3), Junning Cui (1 and 2) ((1) Center of Ultra-Precision Optoelectronic Instrument Engineering, Harbin Institute of Technology, Harbin 150080, China, (2) Key Lab of Ultra-Precision Intelligent Instrumentation (Harbin Institute of Technology), Ministry of Industry and Information Technology, Harbin 150080, China, (3) Key Laboratory of Optoelectronic Technology and Systems, Ministry of Education, Chongqing University, Chongqing 400044, China, (4) Oncology, University Hospital Erlangen, Friedrich-Alexander-University Erlangen-Nuremberg, 91054 Erlangen, Germany)(参考訳) micro-computed tomography (micro-ct) は様々な分野の物体の形態構造を研究するために広く使われている最先端の装置である。 しかし、fov (small field-of-view) は、比較的大きな物体を高い空間分解能で撮像する要求を満たすことができない。 近年,マイクロCTのFOVを効果的に拡張するMultiple Source Translation CT (mSTCT) と呼ばれる新しい走査モードを考案し,これに対応する仮想投影型フィルタバックジェクション (V-FBP) アルゴリズムを開発した。 V-FBPはmSTCTの切り欠き問題を巧みに解決するが、高分解能再構成に到達するには高密度サンプル投影が必要であるため、画像効率が低下する。 本稿では, mSTCT に対する2つのバックプロジェクションフィルタ (BPF) に基づくアルゴリズム, S-BPF と D-BPF を開発した。 D-BPFは、V-FBPやS-BPFよりもプロジェクションが少なく、高分解能の再構成が可能である。 そこで本研究では, d-bpfを用いて, 同じ空間分解能のv-fbpと比較して, ソースサンプリングを75%削減できることを実証した。 一方、S-BPFはV-FBPと似たD-BPFよりも安定な結果が得られる。

Micro-computed tomography (micro-CT) is a widely used state-of-the-art instrument employed to study the morphological structures of objects in various fields. However, its small field-of-view (FOV) cannot meet the pressing demand for imaging relatively large objects at high spatial resolutions. Recently, we devised a novel scanning mode called multiple source translation CT (mSTCT) that effectively enlarges the FOV of the micro-CT and correspondingly developed a virtual projection-based filtered backprojection (V-FBP) algorithm for reconstruction. Although V-FBP skillfully solves the truncation problem in mSTCT, it requires densely sampled projections to arrive at high-resolution reconstruction, which reduces imaging efficiency. In this paper, we developed two backprojection-filtration (BPF)-based algorithms for mSTCT: S-BPF (derivatives along source) and D-BPF (derivatives along detector). D-BPF can achieve high-resolution reconstruction with fewer projections than V-FBP and S-BPF. Through simulated and real experiments conducted in this paper, we demonstrate that D-BPF can reduce source sampling by 75% compared with V-FBP at the same spatial resolution, which makes mSTCT more feasible in practice. Meanwhile, S-BPF can yield more stable results than D-BPF, which is similar to V-FBP.
翻訳日:2023-07-04 13:04:33 公開日:2023-07-03
# 適応型条件量子ニューラルプロセス

Adaptive Conditional Quantile Neural Processes ( http://arxiv.org/abs/2305.18777v3 )

ライセンス: Link先を確認
Peiman Mohseni, Nick Duffield, Bani Mallick, Arman Hasanzadeh(参考訳) ニューラルネットワークは確率論的過程をパラメータ化するためにニューラルネットワークの柔軟性を継承する確率論的モデルのファミリーである。 特に回帰問題において、よく校正された予測を提供し、新しいタスクに素早く適応するにもかかわらず、予測可能性を表すのによく使われるガウスの仮定は、マルチモーダル分布のようなより複雑な分布を捉えることに失敗する。 この制限を克服するために、ニューラルプロセスファミリーの新しいメンバーである条件量子ニューラルプロセス(CQNP)を提案する。 モデルが情報量の推定に集中することを学ぶ量子回帰の拡張を導入することにより、サンプリング効率と予測精度をさらに向上できることが示される。 実データおよび合成データを用いた実験は,ベースラインに比べて予測性能が大幅に向上し,マルチモーダリティなどの異種分布特性のモデル化が向上した。

Neural processes are a family of probabilistic models that inherit the flexibility of neural networks to parameterize stochastic processes. Despite providing well-calibrated predictions, especially in regression problems, and quick adaptation to new tasks, the Gaussian assumption that is commonly used to represent the predictive likelihood fails to capture more complicated distributions such as multimodal ones. To overcome this limitation, we propose Conditional Quantile Neural Processes (CQNPs), a new member of the neural processes family, which exploits the attractive properties of quantile regression in modeling the distributions irrespective of their form. By introducing an extension of quantile regression where the model learns to focus on estimating informative quantiles, we show that the sampling efficiency and prediction accuracy can be further enhanced. Our experiments with real and synthetic datasets demonstrate substantial improvements in predictive performance compared to the baselines, and better modeling of heterogeneous distributions' characteristics such as multimodality.
翻訳日:2023-07-04 13:04:09 公開日:2023-07-03
# 人間のフィードバックによる強化学習:ペシミズムによる動的選択の学習

Reinforcement Learning with Human Feedback: Learning Dynamic Choices via Pessimism ( http://arxiv.org/abs/2305.18438v3 )

ライセンス: Link先を確認
Zihao Li, Zhuoran Yang, Mengdi Wang(参考訳) 本稿では,人間の選択によって引き起こされる一連の軌道から,人間の基本的報酬とMDPの最適政策を学習することを目的としたオフライン強化学習と人間フィードバック(RLHF)について検討する。 RLHFは、大きな状態空間だが人間のフィードバックが限られていること、人間の決定の有界な合理性、政治外の分散シフトなど、さまざまな理由から挑戦されている。 本稿では,人間の選択をモデル化し理解するための動的離散選択(DDC)モデルに焦点を当てる。 dccは計量学と決定論に根ざしており、前方的かつ有界な合理性を持つ人間の意思決定プロセスをモデル化するために広く使われている。 dcppo法(\underline{d}ynamic-\underline{c}hoice-\underline{p}essimistic-\underline{p}olicy-\underline{o}ptimization)を提案する。 第2のステップは、学習された値関数を用いてベルマン平均2乗誤差を最小化し、人間の報酬関数を復元する。第3のステップは、学習した報酬をプラグインし、悲観的な価値反復を実行して、ほぼ最適ポリシーを見つけることである。 データセットの単一ポリシーカバレッジ(すなわち最適ポリシー)のみを用いて、dcppoのサブオプティリティが、分散シフトと次元へのサブオプティリティの依存性の観点から、古典的な悲観的オフラインrlアルゴリズムにほぼ一致することを証明する。 本稿では,動的離散的選択モデルを用いたオフラインrlhfに関する最初の理論的保証について述べる。

In this paper, we study offline Reinforcement Learning with Human Feedback (RLHF) where we aim to learn the human's underlying reward and the MDP's optimal policy from a set of trajectories induced by human choices. RLHF is challenging for multiple reasons: large state space but limited human feedback, the bounded rationality of human decisions, and the off-policy distribution shift. In this paper, we focus on the Dynamic Discrete Choice (DDC) model for modeling and understanding human choices. DCC, rooted in econometrics and decision theory, is widely used to model a human decision-making process with forward-looking and bounded rationality. We propose a \underline{D}ynamic-\underline{C}hoice-\underline{P}essimistic-\underline{P}olicy-\underline{O}ptimization (DCPPO) method. \ The method involves a three-stage process: The first step is to estimate the human behavior policy and the state-action value function via maximum likelihood estimation (MLE); the second step recovers the human reward function via minimizing Bellman mean squared error using the learned value functions; the third step is to plug in the learned reward and invoke pessimistic value iteration for finding a near-optimal policy. With only single-policy coverage (i.e., optimal policy) of the dataset, we prove that the suboptimality of DCPPO almost matches the classical pessimistic offline RL algorithm in terms of suboptimality's dependency on distribution shift and dimension. To the best of our knowledge, this paper presents the first theoretical guarantees for off-policy offline RLHF with dynamic discrete choice model.
翻訳日:2023-07-04 13:03:26 公開日:2023-07-03
# BigVideo:マルチモーダル機械翻訳のための大規模ビデオ字幕翻訳データセット

BigVideo: A Large-scale Video Subtitle Translation Dataset for Multimodal Machine Translation ( http://arxiv.org/abs/2305.18326v3 )

ライセンス: Link先を確認
Liyan Kang, Luyang Huang, Ningxin Peng, Peihao Zhu, Zewei Sun, Shanbo Cheng, Mingxuan Wang, Degen Huang and Jinsong Su(参考訳) 本稿では,マルチモダリティ機械翻訳の研究を容易にするために,大規模ビデオ字幕翻訳データセットbigvideoを提案する。 広く使われているhow2とvatexデータセットと比較して、bigvideoは450万文ペアと9,981時間のビデオからなる10倍以上の大きさである。 また、視覚情報の必要性を検証するために意図的に設計された2つのテストセットも導入する:曖昧な単語の存在にあいまいで、テキストコンテキストが翻訳のために自己完結しているあいまいさ。 テキストやビデオ間で共有される共通意味をモデル化するために,クロスモーダルエンコーダにコントラスト学習手法を導入する。 BigVideoの大規模な実験によると、 a)視覚情報は、あいまいなテストセットとあいまいなテストセットの両方において、BLEU、BLEURT、COMETの観点からNMTモデルを一貫して改善します。 b)視覚情報は,用語目標スコアと人的評価に基づく強いテキストベースラインと比較して曖昧さを助長する。 Datasetと実装はhttps://github.com/DeepLearnXMU/BigVideo-VMT.comで利用可能です。

We present a large-scale video subtitle translation dataset, BigVideo, to facilitate the study of multi-modality machine translation. Compared with the widely used How2 and VaTeX datasets, BigVideo is more than 10 times larger, consisting of 4.5 million sentence pairs and 9,981 hours of videos. We also introduce two deliberately designed test sets to verify the necessity of visual information: Ambiguous with the presence of ambiguous words, and Unambiguous in which the text context is self-contained for translation. To better model the common semantics shared across texts and videos, we introduce a contrastive learning method in the cross-modal encoder. Extensive experiments on the BigVideo show that: a) Visual information consistently improves the NMT model in terms of BLEU, BLEURT, and COMET on both Ambiguous and Unambiguous test sets. b) Visual information helps disambiguation, compared to the strong text baseline on terminology-targeted scores and human evaluation. Dataset and our implementations are available at https://github.com/DeepLearnXMU/BigVideo-VMT.
翻訳日:2023-07-04 13:02:57 公開日:2023-07-03
# シュル=オディンガー代数の自然な基礎におけるクリロフ複雑性

Krylov complexity in a natural basis for the Schr\"odinger algebra ( http://arxiv.org/abs/2306.03133v2 )

ライセンス: Link先を確認
Dimitrios Patramanis and Watse Sybesma(参考訳) クリロフ複雑性の研究により、2次元シュリンガー群対称性を持つ量子系の作用素成長を研究する。 半単純リー代数では実現可能であるが、半直和構造によって特徴づけられるシュリンガー代数のようなケースは複雑である。 我々は、この代数のクリロフ複雑性を自然な正則基底で計算し、通常の三対角ランツォスアルゴリズムの結果とは対照的に、時間発展作用素の五対角構造を生成することを提案する。 結果として生じる複雑性は期待通りに振る舞う。 このアプローチは他の半単純でない代数に洞察を与えることができると我々は主張する。

We investigate operator growth in quantum systems with two-dimensional Schr\"odinger group symmetry by studying the Krylov complexity. While feasible for semisimple Lie algebras, cases such as the Schr\"odinger algebra which is characterized by a semi-direct sum structure are complicated. We propose to compute Krylov complexity for this algebra in a natural orthonormal basis, which produces a pentadiagonal structure of the time evolution operator, contrasting the usual tridiagonal Lanczos algorithm outcome. The resulting complexity behaves as expected. We advocate that this approach can provide insights to other non-semisimple algebras.
翻訳日:2023-07-04 12:53:54 公開日:2023-07-03
# 人間のvrデモによる知識駆動型ロボットプログラム合成

Knowledge-Driven Robot Program Synthesis from Human VR Demonstrations ( http://arxiv.org/abs/2306.02739v2 )

ライセンス: Link先を確認
Benjamin Alt, Franklin Kenghagho Kenfack, Andrei Haidu, Darko Katic, Rainer J\"akel, Michael Beetz(参考訳) 高齢化社会、労働力不足、賃金の上昇は、様々な現実世界のタスクを自律的に遂行できる支援ロボットを呼び起こす。 このようなオープンなロボット操作には、強力な知識表現と推論(KR&R)アルゴリズムだけでなく、ロボットに実行すべきタスクと実行方法を教える方法も必要です。 本稿では,仮想現実(VR)におけるヒューマンタスクの実演から実行可能なロボット制御プログラムを自動生成するシステムを提案する。 私たちは、常識的な知識とゲームエンジンベースの物理を利用して、人間のvrデモを意味的に解釈し、表現力と一般的なタスク表現と自動パス計画とコード生成を最先端の認知アーキテクチャに組み込む。 ロボットショッピングアシスタントにおける力覚的フェッチ・アンド・プレイスという文脈でのアプローチを実証する。 ソースコードはhttps://github.com/ease-crc/vr-program- synthesisで入手できる。

Aging societies, labor shortages and increasing wage costs call for assistance robots capable of autonomously performing a wide array of real-world tasks. Such open-ended robotic manipulation requires not only powerful knowledge representations and reasoning (KR&R) algorithms, but also methods for humans to instruct robots what tasks to perform and how to perform them. In this paper, we present a system for automatically generating executable robot control programs from human task demonstrations in virtual reality (VR). We leverage common-sense knowledge and game engine-based physics to semantically interpret human VR demonstrations, as well as an expressive and general task representation and automatic path planning and code generation, embedded into a state-of-the-art cognitive architecture. We demonstrate our approach in the context of force-sensitive fetch-and-place for a robotic shopping assistant. The source code is available at https://github.com/ease-crc/vr-program-synthesis.
翻訳日:2023-07-04 12:53:43 公開日:2023-07-03
# 意味認識とプロトタイプコントラスト学習によるソースフリードメイン適応セマンティックセマンティックセグメンテーションに向けて

Towards Source-free Domain Adaptive Semantic Segmentation via Importance-aware and Prototype-contrast Learning ( http://arxiv.org/abs/2306.01598v2 )

ライセンス: Link先を確認
Yihong Cao, Hui Zhang, Xiao Lu, Zheng Xiao, Kailun Yang, Yaonan Wang(参考訳) ドメイン適応セマンティックセグメンテーションは、現実世界の運転シーンで堅牢なピクセルワイズ理解を可能にする。 ソースフリードメイン適応は、より実践的な手法として、典型的には教師なしのドメイン適応手法におけるデータプライバシとストレージ制限の懸念に対処する。 トレーニング済みのソースモデルとラベルなしのターゲットデータを使用して、ターゲットドメインへの適応を実現する。 しかし、ソースデータとターゲットラベルがない場合、現在のソリューションは、ドメインシフトの影響を十分に減らすことができず、ターゲットデータからの情報を十分に活用できない。 本稿では,Importance-Aware and Prototype-Contrast(IAPC)学習を用いた,エンドツーエンドなドメイン適応セマンティックセマンティックセマンティクス手法を提案する。 提案したIAPCフレームワークは、訓練済みソースモデルからドメイン不変知識を効果的に抽出し、ラベルなしターゲットドメインからドメイン固有知識を学習する。 具体的には、ソースモデルによる対象ドメインの予測におけるドメインシフトの問題を考慮して、偏りのあるターゲット予測確率分布の重要度を考慮したメカニズムを提案し、ソースモデルからドメイン不変知識を抽出する。 さらに,プロトタイプ対称クロスエントロピー損失とプロトタイプエントロピー損失を含むプロトタイプコントラスト戦略を導入し,ラベルに依存しずにドメイン内知識を学習する。 2つのドメイン適応的セマンティクスセグメンテーションベンチマークに関する包括的な実験により、提案するiapcソリューションが、既存の最先端手法よりも優れていることが示されている。 コードはhttps://github.com/yihong-97/Source-free_IAPCで公開される。

Domain adaptive semantic segmentation enables robust pixel-wise understanding in real-world driving scenes. Source-free domain adaptation, as a more practical technique, addresses the concerns of data privacy and storage limitations in typical unsupervised domain adaptation methods. It utilizes a well-trained source model and unlabeled target data to achieve adaptation in the target domain. However, in the absence of source data and target labels, current solutions cannot sufficiently reduce the impact of domain shift and fully leverage the information from the target data. In this paper, we propose an end-to-end source-free domain adaptation semantic segmentation method via Importance-Aware and Prototype-Contrast (IAPC) learning. The proposed IAPC framework effectively extracts domain-invariant knowledge from the well-trained source model and learns domain-specific knowledge from the unlabeled target domain. Specifically, considering the problem of domain shift in the prediction of the target domain by the source model, we put forward an importance-aware mechanism for the biased target prediction probability distribution to extract domain-invariant knowledge from the source model. We further introduce a prototype-contrast strategy, which includes a prototype-symmetric cross-entropy loss and a prototype-enhanced cross-entropy loss, to learn target intra-domain knowledge without relying on labels. A comprehensive variety of experiments on two domain adaptive semantic segmentation benchmarks demonstrates that the proposed end-to-end IAPC solution outperforms existing state-of-the-art methods. Code will be made publicly available at https://github.com/yihong-97/Source-free_IAPC.
翻訳日:2023-07-04 12:52:50 公開日:2023-07-03
# シリアスゲームのための確率的合成データの生成:サイバーいじめを事例として

Generation of Probabilistic Synthetic Data for Serious Games: A Case Study on Cyberbullying ( http://arxiv.org/abs/2306.01365v2 )

ライセンス: Link先を確認
Jaime P\'erez, Mario Castro, Edmond Awad, Gregorio L\'opez(参考訳) 合成データ生成は近年、研究の領域として成長している。 しかし、本格的ゲームに応用される可能性はまだ十分に検討されていない。 この分野の進歩は、データモデリングと分析を予測し、開発プロセスをスピードアップする可能性がある。 このギャップを埋めるために,インタラクティブな物語をベースとした真剣なゲームのための確率論的合成データを生成するシミュレーターアーキテクチャを提案する。 このアーキテクチャは、他の研究者が同様の問題を解決するために、汎用的でモジュール化された設計である。 質問に対する合成プレイヤーのインタラクションをシミュレートするために,項目応答理論フレームワークに基づく認知的テストモデルを用いる。 また,確率的グラフィカルモデル(特にベイズネットワーク)を用いて,シミュレーションに専門家の知識と外部データを導入する方法を示す。 最後に,サイバーいじめに焦点を当てた本格的ゲームにおいて,提案するアーキテクチャと手法を適用した。 階層モデルを用いてベイズ推定実験を行い、生成したデータの識別性と堅牢性を示す。

Synthetic data generation has been a growing area of research in recent years. However, its potential applications in serious games have not been thoroughly explored. Advances in this field could anticipate data modelling and analysis, as well as speed up the development process. To try to fill this gap in the literature, we propose a simulator architecture for generating probabilistic synthetic data for serious games based on interactive narratives. This architecture is designed to be generic and modular so that it can be used by other researchers on similar problems. To simulate the interaction of synthetic players with questions, we use a cognitive testing model based on the Item Response Theory framework. We also show how probabilistic graphical models (in particular Bayesian networks) can be used to introduce expert knowledge and external data into the simulation. Finally, we apply the proposed architecture and methods in a use case of a serious game focused on cyberbullying. We perform Bayesian inference experiments using a hierarchical model to demonstrate the identifiability and robustness of the generated data.
翻訳日:2023-07-04 12:52:21 公開日:2023-07-03
# V-LoL:ビジュアル論理学習のための診断データセット

V-LoL: A Diagnostic Dataset for Visual Logical Learning ( http://arxiv.org/abs/2306.07743v2 )

ライセンス: Link先を確認
Lukas Helff, Wolfgang Stammer, Hikaru Shindo, Devendra Singh Dhami, Kristian Kersting(参考訳) 近年のビジュアルAIの発展にもかかわらず、正確な論理的推論の欠如から抽象的な一般化能力、複雑でノイズの多いシーンの理解に至るまで、さまざまな欠点が残っている。 残念ながら、既存のベンチマークはこれらのいくつかの側面を捉えるように設計されていない。 ディープラーニングデータセットは、視覚的に複雑なデータではなく、単純な視覚的推論タスクに焦点を当てるが、帰納的論理データセットは複雑な論理的学習タスクを含む。 そこで我々は,視覚的および論理的課題をシームレスに組み合わせた視覚論理学習データセットV-LoLを提案する。 特に、V-LoLの最初のインスタンス化であるV-LoL-Trainsを紹介します。 複雑なビジュアルシーンと柔軟な論理推論タスクを汎用フレームワークに組み込むことで、v-lol-trainsは幅広い視覚的な論理学習の課題を調査するプラットフォームを提供する。 従来のシンボルAI、ニューラルAI、ニューラルシンボリックAIなど、さまざまなAIシステムを評価します。 我々の評価は、最先端のAIでさえ視覚論理学習の課題に対処する上で困難に直面しており、それぞれの方法論に特有の独特なアドバンテージと制限を強調していることを示している。 全体として、V-LoLはAIシステムの視覚論理学習における現在の能力を理解し、拡張するための新しい道を開く。

Despite the successes of recent developments in visual AI, different shortcomings still exist; from missing exact logical reasoning, to abstract generalization abilities, to understanding complex and noisy scenes. Unfortunately, existing benchmarks, were not designed to capture more than a few of these aspects. Whereas deep learning datasets focus on visually complex data but simple visual reasoning tasks, inductive logic datasets involve complex logical learning tasks, however, lack the visual component. To address this, we propose the visual logical learning dataset, V-LoL, that seamlessly combines visual and logical challenges. Notably, we introduce the first instantiation of V-LoL, V-LoL-Trains, -- a visual rendition of a classic benchmark in symbolic AI, the Michalski train problem. By incorporating intricate visual scenes and flexible logical reasoning tasks within a versatile framework, V-LoL-Trains provides a platform for investigating a wide range of visual logical learning challenges. We evaluate a variety of AI systems including traditional symbolic AI, neural AI, as well as neuro-symbolic AI. Our evaluations demonstrate that even state-of-the-art AI faces difficulties in dealing with visual logical learning challenges, highlighting unique advantages and limitations specific to each methodology. Overall, V-LoL opens up new avenues for understanding and enhancing current abilities in visual logical learning for AI systems.
翻訳日:2023-07-04 12:45:38 公開日:2023-07-03
# DRCFS:2倍のロバストな因果的特徴選択

DRCFS: Doubly Robust Causal Feature Selection ( http://arxiv.org/abs/2306.07024v2 )

ライセンス: Link先を確認
Francesco Quinzan, Ashkan Soleymani, Patrik Jaillet, Cristian R. Rojas, Stefan Bauer(参考訳) 特定の対象変数に高い関連性を持つ複雑なシステムの特徴を知ることは、科学の多くの分野において基本的な関心事である。 既存のアプローチは、しばしば線形設定に制限され、時には保証が欠如している。 非線形および高次元の設定においても因果的特徴を識別する2つの頑健な特徴選択法であるDRCFSを提案する。 理論的な保証を提供し、仮定に必要な条件を示し、幅広いシミュレーションおよび半合成データセットで広範な実験を行う。 DRCFSは既存の最先端手法を著しく上回り、高度に非線形かつ高次元の問題に挑戦しても頑健な特徴を選択する。

Knowing the features of a complex system that are highly relevant to a particular target variable is of fundamental interest in many areas of science. Existing approaches are often limited to linear settings, sometimes lack guarantees, and in most cases, do not scale to the problem at hand, in particular to images. We propose DRCFS, a doubly robust feature selection method for identifying the causal features even in nonlinear and high dimensional settings. We provide theoretical guarantees, illustrate necessary conditions for our assumptions, and perform extensive experiments across a wide range of simulated and semi-synthetic datasets. DRCFS significantly outperforms existing state-of-the-art methods, selecting robust features even in challenging highly non-linear and high-dimensional problems.
翻訳日:2023-07-04 12:45:12 公開日:2023-07-03
# segment anything model (sam: vision foundation model meets prompt engineering) に関する調査

A Survey on Segment Anything Model (SAM): Vision Foundation Model Meets Prompt Engineering ( http://arxiv.org/abs/2306.06211v3 )

ライセンス: Link先を確認
Chaoning Zhang, Fachrina Dewi Puspitasari, Sheng Zheng, Chenghao Li, Yu Qiao, Taegoo Kang, Xinru Shan, Chenshuang Zhang, Caiyan Qin, Francois Rameau, Lik-Hang Lee, Sung-Ho Bae, Choong Seon Hong(参考訳) Meta AI Researchが開発したSegment Any Model(SAM)が最近注目を集めている。 10億以上のマスクからなる大きなセグメンテーションデータセットでトレーニングされたsamは、特定のイメージ上の任意のオブジェクトをセグメンテーションすることができる。 オリジナルのSAM研究において、著者らはSAMの性能を評価するためにゼロショート転送タスク(エッジ検出など)に切り替えた。 近年,多くの研究がSAMの性能を様々なシナリオで検証し,オブジェクトの認識とセグメント化を試みている。 さらに、Grounding DINO、Stable Diffusion、ChatGPTといった他のモデルと組み合わせることで、SAMの基盤モデルとしての汎用性を示すプロジェクトも数多く現れています。 関連論文やプロジェクトが指数関数的に増加する中、読者がSAMの開発に追いつくことは困難である。 この目的のために、この研究はSAMに関する最初の包括的調査を実施している。 これは進行中のプロジェクトであり、定期的に原稿を更新するつもりです。 したがって、読者は、samに関する新しい作品が完成したら、次のバージョンに含められるように連絡を頂きたいと思います。

Segment anything model (SAM) developed by Meta AI Research has recently attracted significant attention. Trained on a large segmentation dataset of over 1 billion masks, SAM is capable of segmenting any object on a certain image. In the original SAM work, the authors turned to zero-short transfer tasks (like edge detection) for evaluating the performance of SAM. Recently, numerous works have attempted to investigate the performance of SAM in various scenarios to recognize and segment objects. Moreover, numerous projects have emerged to show the versatility of SAM as a foundation model by combining it with other models, like Grounding DINO, Stable Diffusion, ChatGPT, etc. With the relevant papers and projects increasing exponentially, it is challenging for the readers to catch up with the development of SAM. To this end, this work conducts the first yet comprehensive survey on SAM. This is an ongoing project and we intend to update the manuscript on a regular basis. Therefore, readers are welcome to contact us if they complete new works related to SAM so that we can include them in our next version.
翻訳日:2023-07-04 12:44:37 公開日:2023-07-03
# 医用画像のための人工知能

Artificial General Intelligence for Medical Imaging ( http://arxiv.org/abs/2306.05480v2 )

ライセンス: Link先を確認
Xiang Li, Lu Zhang, Zihao Wu, Zhengliang Liu, Lin Zhao, Yixuan Yuan, Jun Liu, Gang Li, Dajiang Zhu, Pingkun Yan, Quanzheng Li, Wei Liu, Tianming Liu, and Dinggang Shen(参考訳) 本稿では、基礎的大規模言語モデル(llm)、大規模視覚モデル、大規模マルチモーダルモデルを中心に、医療における人工知能(agi)モデルの潜在的な応用について検討する。 我々は,AGIモデルに臨床専門知識,ドメイン知識,マルチモーダル能力を統合することの重要性を強調した。 さらに、ヘルスケアAGIモデルの開発と展開をガイドする重要なロードマップを策定する。 レビューを通じて,医療分野における大規模agiモデルの展開に伴う潜在的な課題と落とし穴について,重要な視点を提示する。 この総合的なレビューは、医療画像、医療などにおけるAGIの将来的な意味についての洞察を提供することを目的としている。

In this review, we explore the potential applications of Artificial General Intelligence (AGI) models in healthcare, focusing on foundational Large Language Models (LLMs), Large Vision Models, and Large Multimodal Models. We emphasize the importance of integrating clinical expertise, domain knowledge, and multimodal capabilities into AGI models. In addition, we lay out key roadmaps that guide the development and deployment of healthcare AGI models. Throughout the review, we provide critical perspectives on the potential challenges and pitfalls associated with deploying large-scale AGI models in the medical field. This comprehensive review aims to offer insights into the future implications of AGI in medical imaging, healthcare and beyond.
翻訳日:2023-07-04 12:44:20 公開日:2023-07-03
# 層レベルの活性化機構

Layer-level activation mechanism ( http://arxiv.org/abs/2306.04940v2 )

ライセンス: Link先を確認
Kihyuk Yoon and Chiehyeon Lim(参考訳) 本研究では,レイヤレベルのアクティベーション(layeract)機能を確立するための新しいアクティベーションメカニズムを提案する。 これらの機能は、入力のシフトによるアクティベーション出力の層レベルの変動を減らすことにより、従来の要素レベルのアクティベーション機能よりもノイズロバストなように設計されている。 さらに、LayerAct関数は、アクティベーション出力空間を制限することなく、ゼロライク平均アクティベーション出力を達成する。 本稿では,要素レベルの活性化関数に比べ,層状関数がノイズロバスト性に優れることを示す解析と実験を行い,これらの関数がゼロライクな平均活性化を持つことを示す。 3つのベンチマーク画像分類タスクの実験結果によると、LayerAct関数はノイズの多い画像データセットの処理に優れ、要素レベルのアクティベーション関数よりも優れており、クリーンデータセットのパフォーマンスもほとんどの場合優れている。

In this work, we propose a novel activation mechanism aimed at establishing layer-level activation (LayerAct) functions. These functions are designed to be more noise-robust compared to traditional element-level activation functions by reducing the layer-level fluctuation of the activation outputs due to shift in inputs. Moreover, the LayerAct functions achieve a zero-like mean activation output without restricting the activation output space. We present an analysis and experiments demonstrating that LayerAct functions exhibit superior noise-robustness compared to element-level activation functions, and empirically show that these functions have a zero-like mean activation. Experimental results on three benchmark image classification tasks show that LayerAct functions excel in handling noisy image datasets, outperforming element-level activation functions, while the performance on clean datasets is also superior in most cases.
翻訳日:2023-07-04 12:44:07 公開日:2023-07-03
# contrimix: 顕微鏡画像解析における領域一般化のためのコンテンツと属性の教師なし乱れ

ContriMix: Unsupervised disentanglement of content and attribute for domain generalization in microscopy image analysis ( http://arxiv.org/abs/2306.04527v2 )

ライセンス: Link先を確認
Tan H. Nguyen, Dinkar Juyal, Jin Li, Aaditya Prakash, Shima Nofallah, Chintan Shah, Sai Chowdary Gullapally, Michael Griffin, Anand Sampat, John Abel, Justin Lee, Amaro Taylor-Weiner(参考訳) ドメインの一般化は、病理組織学や蛍光イメージングを含む顕微鏡画像への機械学習モデルの現実世界への応用に不可欠である。 病理組織学におけるアーティファクトは、組織収集と実験室処理に関連する因子と、患者サンプルに固有の因子の複雑な組み合わせによって生じる。 蛍光イメージングでは、これらのアーティファクトは実験バッチ間のバリエーションに由来する。 これらのアーティファクトの複雑さと微妙さは、データ領域の列挙を難なくする。 したがって、ドメイン識別子と手動微調整を必要とする拡張型ドメイン一般化法は、この設定では不十分である。 この課題を克服するために,コントリミックス(contrimix)というドメイン一般化手法を導入する。顕微鏡画像における生体コンテンツ(コンテンツ)と技術的なバリエーション(属性)を分離・置換することで合成画像を生成する。 contrimixはドメイン識別子や手作りの補足には依存せず、画像の入力特性についての仮定もしない。 本研究では2つの病理データセット(Camelyon17-WILDSと前立腺細胞分類データセット)と1つの蛍光顕微鏡データセット(RxRx1-WILDS)を用いてContriMixの性能を評価する。 contrimixは、現在の最先端の手法を全データセットで上回っており、ドメイン情報が行き渡らない現実の環境で顕微鏡画像解析に使用する動機付けになっている。

Domain generalization is critical for real-world applications of machine learning models to microscopy images, including histopathology and fluorescence imaging. Artifacts in histopathology arise through a complex combination of factors relating to tissue collection and laboratory processing, as well as factors intrinsic to patient samples. In fluorescence imaging, these artifacts stem from variations across experimental batches. The complexity and subtlety of these artifacts make the enumeration of data domains intractable. Therefore, augmentation-based methods of domain generalization that require domain identifiers and manual fine-tuning are inadequate in this setting. To overcome this challenge, we introduce ContriMix, a domain generalization technique that learns to generate synthetic images by disentangling and permuting the biological content ("content") and technical variations ("attributes") in microscopy images. ContriMix does not rely on domain identifiers or handcrafted augmentations and makes no assumptions about the input characteristics of images. We assess the performance of ContriMix on two pathology datasets (Camelyon17-WILDS and a prostate cell classification dataset) and one fluorescence microscopy dataset (RxRx1-WILDS). ContriMix outperforms current state-of-the-art methods in all datasets, motivating its usage for microscopy image analysis in real-world settings where domain information is hard to come by.
翻訳日:2023-07-04 12:43:23 公開日:2023-07-03
# AIによる教育コンテンツは信頼できるか? 人間とAIによる学習資源の比較分析

Can We Trust AI-Generated Educational Content? Comparative Analysis of Human and AI-Generated Learning Resources ( http://arxiv.org/abs/2306.10509v2 )

ライセンス: Link先を確認
Paul Denny and Hassan Khosravi and Arto Hellas and Juho Leinonen and Sami Sarsa(参考訳) パーソナライズされた学習体験を提供するオンライン学習プラットフォームに移行する学生が増えているため、高品質な教育コンテンツの生産には大きなニーズがある。 大規模言語モデル(llm)は、大規模学習教材の迅速な作成に有望な解決策を提供し、インストラクターの負担を軽減する。 本研究では,学習支援活動の一環として,LLMが生み出す資源の質を学生が生み出すものと比較することにより,導入プログラミングの文脈において学習資源を生み出す可能性を検討した。 盲目評価を用いて、学生はaiとその仲間によって生成されたリソースの正確性と有用性を評価した。 その結果,学生が認識するai生成資源の質は,仲間が生成する資源の質と同等であることがわかった。 これは、AI生成資源が特定の文脈において有効な補助材料として機能する可能性を示唆している。 llmsが生成するリソースは与えられた例に忠実に反映する傾向があるが、学生が生成するリソースは、使用するコンテンツの長さと特定の構文の特徴の点で、より多種多様である。 この研究は、さまざまなタイプの学習リソースと幅広い主題領域を探索し、AI生成リソースが学習結果に長期的な影響を理解することの必要性を強調している。

As an increasing number of students move to online learning platforms that deliver personalized learning experiences, there is a great need for the production of high-quality educational content. Large language models (LLMs) appear to offer a promising solution to the rapid creation of learning materials at scale, reducing the burden on instructors. In this study, we investigated the potential for LLMs to produce learning resources in an introductory programming context, by comparing the quality of the resources generated by an LLM with those created by students as part of a learnersourcing activity. Using a blind evaluation, students rated the correctness and helpfulness of resources generated by AI and their peers, after both were initially provided with identical exemplars. Our results show that the quality of AI-generated resources, as perceived by students, is equivalent to the quality of resources generated by their peers. This suggests that AI-generated resources may serve as viable supplementary material in certain contexts. Resources generated by LLMs tend to closely mirror the given exemplars, whereas student-generated resources exhibit greater variety in terms of content length and specific syntax features used. The study highlights the need for further research exploring different types of learning resources and a broader range of subject areas, and understanding the long-term impact of AI-generated resources on learning outcomes.
翻訳日:2023-07-04 12:35:43 公開日:2023-07-03
# 原点決定フローモデリングに関する学際的調査:理論と技術

An Interdisciplinary Survey on Origin-destination Flows Modeling: Theory and Techniques ( http://arxiv.org/abs/2306.10048v2 )

ライセンス: Link先を確認
Can Rong, Jingtao Ding, Yong Li(参考訳) 原点決定〜(OD)フローモデリングは、輸送における旅行需要の調査や地理における空間的相互作用モデリングなど、複数の分野にわたる広範な研究対象である。 しかし、異なる分野の研究者は独自の研究パラダイムを採用し、学際的なコミュニケーションが欠如しており、知識の相互受精や課題に対する新しい解決策の開発を妨げている。 本稿では,基本理論の活用から人口移動のメカニズムの研究,および計算モデルなどの工学的手法による実践的問題の解決に至るまで,ODフローを包括的かつ一括的に精査する系統的学際調査について述べる。 特に、地域経済学、都市地理学、社会物理学は、ODフローの基盤となるメカニズムを探求するために理論的な研究手法を採用することに長けている。 彼らは重力モデル、干渉機会モデル、放射モデルという3つの重要な理論モデルを開発した。 これらのモデルは, od流に対する距離, 機会, 人口の影響をそれぞれ検討することに焦点を当てている。 一方、交通、都市計画、計算機科学といった分野は、主にOD予測、OD構築、OD推定、OD予測の4つの実践的な問題に対処することに焦点を当てている。 ディープラーニングモデルのような高度な計算モデルは、これらの問題をより効果的に扱うために徐々に導入されている。 最後に,既存研究に基づき,現状の課題を概説し,今後の方向性を概説する。 本研究では,ODフロー関連研究における規律間の障壁を解消し,学際的視点と思考様式を育成することを目的とする。

Origin-destination~(OD) flow modeling is an extensively researched subject across multiple disciplines, such as the investigation of travel demand in transportation and spatial interaction modeling in geography. However, researchers from different fields tend to employ their own unique research paradigms and lack interdisciplinary communication, preventing the cross-fertilization of knowledge and the development of novel solutions to challenges. This article presents a systematic interdisciplinary survey that comprehensively and holistically scrutinizes OD flows from utilizing fundamental theory to studying the mechanism of population mobility and solving practical problems with engineering techniques, such as computational models. Specifically, regional economics, urban geography, and sociophysics are adept at employing theoretical research methods to explore the underlying mechanisms of OD flows. They have developed three influential theoretical models: the gravity model, the intervening opportunities model, and the radiation model. These models specifically focus on examining the fundamental influences of distance, opportunities, and population on OD flows, respectively. In the meantime, fields such as transportation, urban planning, and computer science primarily focus on addressing four practical problems: OD prediction, OD construction, OD estimation, and OD forecasting. Advanced computational models, such as deep learning models, have gradually been introduced to address these problems more effectively. Finally, based on the existing research, this survey summarizes current challenges and outlines future directions for this topic. Through this survey, we aim to break down the barriers between disciplines in OD flow-related research, fostering interdisciplinary perspectives and modes of thinking.
翻訳日:2023-07-04 12:34:54 公開日:2023-07-03
# オンライン重み付き変化点検出

Online Heavy-tailed Change-point detection ( http://arxiv.org/abs/2306.09548v2 )

ライセンス: Link先を確認
Abishek Sankararaman and Balakrishnan (Murali) Narayanaswamy(参考訳) オンライン変更点検出(OCPD)のアルゴリズムについて検討し、重み付けされたサンプルを1回ずつ提示し、基礎となる平均値の変更をできるだけ早く検出する必要がある。 我々は,データ生成過程の第2モーメントが有界であると仮定した場合でも,クリップ型確率勾配降下 (sgd) に基づくアルゴリズムを提案する。 我々は、有界第2モーメントを持つ全ての分布の族に対して、最悪の場合、有限サンプル偽陽性率(FPR)を導出する。 そこで本手法は,データが高次元かつ基礎となる分布が重み付きであっても,有限サンプルFPRを保証する最初のOCPDアルゴリズムである。 本論文の技術的貢献は,クリッピングSGDがランダムなベクトルの平均を推定し,すべての信頼値に信頼境界を同時に提供することを示すことである。 この頑健な推定を結合境界引数と組み合わせ、有限サンプルFPR保証付き逐次変化点アルゴリズムを構築する。 我々は,本アルゴリズムが重み付け,軽量化,高次元化,離散化など,様々な状況において有効であることを示す。 同時に研究するすべての設定に対して理論的あるいは経験的に有界なFPRを達成するアルゴリズムは他にない。

We study algorithms for online change-point detection (OCPD), where samples that are potentially heavy-tailed, are presented one at a time and a change in the underlying mean must be detected as early as possible. We present an algorithm based on clipped Stochastic Gradient Descent (SGD), that works even if we only assume that the second moment of the data generating process is bounded. We derive guarantees on worst-case, finite-sample false-positive rate (FPR) over the family of all distributions with bounded second moment. Thus, our method is the first OCPD algorithm that guarantees finite-sample FPR, even if the data is high dimensional and the underlying distributions are heavy-tailed. The technical contribution of our paper is to show that clipped-SGD can estimate the mean of a random vector and simultaneously provide confidence bounds at all confidence values. We combine this robust estimate with a union bound argument and construct a sequential change-point algorithm with finite-sample FPR guarantees. We show empirically that our algorithm works well in a variety of situations, whether the underlying data are heavy-tailed, light-tailed, high dimensional or discrete. No other algorithm achieves bounded FPR theoretically or empirically, over all settings we study simultaneously.
翻訳日:2023-07-04 12:34:27 公開日:2023-07-03
# DEYOv2: エンドツーエンドオブジェクト検出のためのグレディマッチング付きランク機能

DEYOv2: Rank Feature with Greedy Matching for End-to-End Object Detection ( http://arxiv.org/abs/2306.09165v2 )

ライセンス: Link先を確認
Haodong Ouyang(参考訳) 本稿では,第1世代DEYO(DETR with YOLO)モデルの改良版であるDEYOv2を提案する。 DEYOv2は前任のDEYOv2と同様、モデルトレーニングの加速と性能向上のために進歩的な推論手法を採用している。 この研究は、最適化における1対1マッチングの限界を掘り下げ、ランク特徴やグリーディマッチングといった問題に効果的に取り組むソリューションを提案する。 このアプローチにより、DEYOv2の第3段階は、NMSを必要とせずに、第1段階と第2段階からの情報取得を最大化し、エンドツーエンドの最適化を実現することができる。 密度の高いクエリ、スパースクエリ、ワンツーマンマッチング、ワンツーマンマッチングを組み合わせることで、DEYOv2は各メソッドの利点を活用する。 既存のクエリベースのエンドツーエンド検出を、同じ設定ですべて上回る。 COCOデータセットのバックボーンとマルチスケール機能としてResNet-50を使用する場合、DeYOv2はそれぞれ51.1 APと51.8 APを12時間と24時間で達成している。 エンドツーエンドモデルであるDINOと比較して、DEYOv2は2つのエポック設定で2.1 APと1.4 APの大幅なパフォーマンス向上を提供する。 私たちの知る限りでは、DEYOv2は古典的な検出器とクエリベースの検出器のそれぞれの強度を組み合わせた、最初の完全なエンドツーエンドのオブジェクト検出器である。

This paper presents a novel object detector called DEYOv2, an improved version of the first-generation DEYO (DETR with YOLO) model. DEYOv2, similar to its predecessor, DEYOv2 employs a progressive reasoning approach to accelerate model training and enhance performance. The study delves into the limitations of one-to-one matching in optimization and proposes solutions to effectively address the issue, such as Rank Feature and Greedy Matching. This approach enables the third stage of DEYOv2 to maximize information acquisition from the first and second stages without needing NMS, achieving end-to-end optimization. By combining dense queries, sparse queries, one-to-many matching, and one-to-one matching, DEYOv2 leverages the advantages of each method. It outperforms all existing query-based end-to-end detectors under the same settings. When using ResNet-50 as the backbone and multi-scale features on the COCO dataset, DEYOv2 achieves 51.1 AP and 51.8 AP in 12 and 24 epochs, respectively. Compared to the end-to-end model DINO, DEYOv2 provides significant performance gains of 2.1 AP and 1.4 AP in the two epoch settings. To the best of our knowledge, DEYOv2 is the first fully end-to-end object detector that combines the respective strengths of classical detectors and query-based detectors.
翻訳日:2023-07-04 12:34:06 公開日:2023-07-03
# 畳み込みに基づく人間の動き予測の逆ロバスト性の評価

Evaluating the Adversarial Robustness of Convolution-based Human Motion Prediction ( http://arxiv.org/abs/2306.11990v2 )

ライセンス: Link先を確認
Chengxu Duan, Zhicheng Zhang, Xiaoli Liu, Yonghao Dang and Jianqin Yin(参考訳) 人間の動作予測は、人間と機械の協調を促進するcnnの助けを借りて素晴らしい成果を上げている。 しかし、現在、敵の攻撃に直面した際の人間の動き予測の潜在的なリスクを評価する研究は行われていない。 敵の攻撃は、人間の動き予測に2つの問題に直面します。 1.自然にとって、ポーズデータは、Lpノルム制約が敵の例にも制約できない人間の骨格の物理力学に強く関係している。 2. 画像中の画素値とは違って, 異なる取得装置とデータ処理により, 大規模に多彩なポーズデータが得られるため, 攻撃を行うための固定パラメータの設定が困難になる。 上記の課題を解決するために,入力された人間の動作順序を物理的制約で最大化することで妨害する新たな逆攻撃法を提案する。 具体的には,ターゲットポーズのスケールに適合する攻撃を容易にする新しい適応性スキームと,攻撃例の非受容性を高めるために2つの物理的制約を導入する。 3つのデータセットにおける評価実験により,すべての対象モデルの予測誤差が大幅に大きくなることが分かった。 定量的解析により、先行知識と意味情報モデリングが人間の動き予測器の対角的堅牢性の鍵となることが示された。 定性的な結果から, フレーム毎に比較した場合, 反対側のサンプルは注目されにくいが, サンプルをアニメーションする場合は比較的容易に検出できることがわかった。

Human motion prediction has achieved a brilliant performance with the help of CNNs, which facilitates human-machine cooperation. However, currently, there is no work evaluating the potential risk in human motion prediction when facing adversarial attacks, which may cause danger in real applications. The adversarial attack will face two problems against human motion prediction: 1. For naturalness, pose data is highly related to the physical dynamics of human skeletons where Lp norm constraints cannot constrain the adversarial example well; 2. Unlike the pixel value in images, pose data is diverse at scale because of the different acquisition equipment and the data processing, which makes it hard to set fixed parameters to perform attacks. To solve the problems above, we propose a new adversarial attack method that perturbs the input human motion sequence by maximizing the prediction error with physical constraints. Specifically, we introduce a novel adaptable scheme that facilitates the attack to suit the scale of the target pose and two physical constraints to enhance the imperceptibility of the adversarial example. The evaluating experiments on three datasets show that the prediction errors of all target models are enlarged significantly, which means current convolution-based human motion prediction models can be easily disturbed under the proposed attack. The quantitative analysis shows that prior knowledge and semantic information modeling can be the key to the adversarial robustness of human motion predictors. The qualitative results indicate that the adversarial sample is hard to be noticed when compared frame by frame but is relatively easy to be detected when the sample is animated.
翻訳日:2023-07-04 12:25:31 公開日:2023-07-03
# 構造に基づく薬物設計のための幾何学的深層学習の体系的調査

A Systematic Survey in Geometric Deep Learning for Structure-based Drug Design ( http://arxiv.org/abs/2306.11768v3 )

ライセンス: Link先を確認
Zaixi Zhang, Jiaxian Yan, Qi Liu, and Enhong Chen(参考訳) タンパク質の3次元形状を利用して潜在的な薬物候補を特定する構造に基づく薬物設計(SBDD)は、薬物発見においてますます重要になっている。 しかし、従来の物理化学モデリングと専門家のドメイン知識に基づく手法は時間と労力がかかる。 幾何学的深層学習の最近の進歩は、AlphaFoldのようなツールによる正確なタンパク質3D構造予測の可用性と相まって、構造に基づく薬物設計の進歩を著しく促進している。 本稿では,構造に基づく薬物設計における幾何深層学習の最近の進歩を体系的に概観する。 まず、構造に基づく薬物設計における主要な課題、一般的に使用される3Dタンパク質表現、および代表的予測・生成モデルについて、簡単な議論から始める。 次に、問題設定、代表方法、データセット、評価メトリクスを含む各タスクの詳細なレビュー(バインディングサイト予測、バインディングポーズ生成、\emph{de novo}分子生成、リンカ設計、バインディング親和性予測)について検討する。 最後に、この調査は現在の課題と、構造に基づく薬物設計のための幾何学的深層学習の可能性を強調し、関連する論文である‘url{https://github.com/zaixizhang/Awesome-SBDD} を含むGitHubリポジトリをキュレートする。

Structure-based drug design (SBDD), which utilizes the three-dimensional geometry of proteins to identify potential drug candidates, is becoming increasingly vital in drug discovery. However, traditional methods based on physiochemical modeling and experts' domain knowledge are time-consuming and laborious. The recent advancements in geometric deep learning, which integrates and processes 3D geometric data, coupled with the availability of accurate protein 3D structure predictions from tools like AlphaFold, have significantly propelled progress in structure-based drug design. In this paper, we systematically review the recent progress of geometric deep learning for structure-based drug design. We start with a brief discussion of the mainstream tasks in structure-based drug design, commonly used 3D protein representations and representative predictive/generative models. Then we delve into detailed reviews for each task (binding site prediction, binding pose generation, \emph{de novo} molecule generation, linker design, and binding affinity prediction), including the problem setup, representative methods, datasets, and evaluation metrics. Finally, we conclude this survey with the current challenges and highlight potential opportunities of geometric deep learning for structure-based drug design.We curate a GitHub repo containing the related papers \url{https://github.com/zaixizhang/Awesome-SBDD}.
翻訳日:2023-07-04 12:25:05 公開日:2023-07-03
# Att-KGCN:アテンション機構と知識グラフ畳み込みネットワークを用いた観光案内システム

Att-KGCN: Tourist Attractions Recommendation System by using Attention mechanism and Knowledge Graph Convolution Network ( http://arxiv.org/abs/2306.10946v4 )

ライセンス: Link先を確認
Ahmad A. Mubarak and JingJing Li and Han Cao(参考訳) 知識グラフに基づく推薦アルゴリズムは比較的成熟した段階にある。 しかし、特定の分野の推薦にはいくつかの問題がある。 例えば、観光分野では、観光アトラクションの推奨基盤として、適切な観光アトラクション属性の選択プロセスが複雑である。 本稿では,対象の景観スポットの近傍のエンティティを自動的に意味的に発見する改良された意識知識グラフ畳み込みネットワークモデル(Att-KGCN$)を提案する。 注意層は比較的類似した位置を集約し、隣接するベクトルでそれらを表現する。 そして、観光客の好む選択により、類似点の確率を推薦システムとして予測する。 Socotra Island-Yemenの観光データに基づく観光名所の知識グラフデータセット 実験により,アテンションナレッジグラフ畳み込みネットワークが観光名所のレコメンデーションに良い影響を与え,観光客の選択により多くのレコメンデーションをすることができることを確認した。

The recommendation algorithm based on knowledge graphs is at a relatively mature stage. However, there are still some problems in the recommendation of specific areas. For example, in the tourism field, selecting suitable tourist attraction attributes process is complicated as the recommendation basis for tourist attractions. In this paper, we propose the improved Attention Knowledge Graph Convolution Network model, named ($Att-KGCN$), which automatically discovers the neighboring entities of the target scenic spot semantically. The attention layer aggregates relatively similar locations and represents them with an adjacent vector. Then, according to the tourist's preferred choices, the model predicts the probability of similar spots as a recommendation system. A knowledge graph dataset of tourist attractions used based on tourism data on Socotra Island-Yemen. Through experiments, it is verified that the Attention Knowledge Graph Convolution Network has a good effect on the recommendation of tourist attractions and can make more recommendations for tourists' choices.
翻訳日:2023-07-04 12:24:09 公開日:2023-07-03
# hrnetによるリハビリテーションモニタリングシステム

A HRNet-based Rehabilitation Monitoring System ( http://arxiv.org/abs/2306.10756v3 )

ライセンス: Link先を確認
Yi-Ching Hung, Yu-Qing Jiang, Fong-Syuan Liou, Yu-Hsuan Tsao, Zi-Cing Chiang, MIn-Te Sun(参考訳) リハビリテーション治療は、マイナースポーツや職業的外傷の治癒に役立つ。 従来のリハビリテーションプロセスでは、セラピストは患者に特定のアクションを割り当てて病院の訪問の間に実行し、患者は正しいアクションを記憶し、それを実行するためのスケジュールに依存する。 残念なことに、多くの患者はアクションを忘れたり、詳細でアクションを思い出すのに失敗する。 その結果、リハビリテーション治療が阻害されるか、最悪の場合、不適切な行動によって追加の怪我を負う可能性がある。 これらの課題を解決するため,患者のスマートフォンを介して患者の行動をいつ実行すべきかを患者に知らせるHRNetベースのリハビリテーション監視システムを提案する。 さらに、セラピストが患者のリハビリテーションの進捗を監視するのに役立つ。 私たちのシステムはiOSアプリとサーバ側のいくつかのコンポーネントで構成されています。 アプリはアクションビデオの表示と収集を担当している。 サーバは、各アクションの反復回数を追跡するために、セラピストのアクションとビデオ中の患者の類似度スコアを算出する。 これらの統計は、患者とセラピストの両方に表示される。 実験により, 類似度計算のF1スコアは0.9以上であり, 繰り返し回数のソフト精度は90%以上であった。

The rehabilitation treatment helps to heal minor sports and occupational injuries. In a traditional rehabilitation process, a therapist will assign certain actions to a patient to perform in between hospital visits, and it will rely on the patient to remember actions correctly and the schedule to perform them. Unfortunately, many patients forget to perform actions or fail to recall actions in detail. As a consequence, the rehabilitation treatment is hampered or, in the worst case, the patient may suffer from additional injury caused by performing incorrect actions. To resolve these issues, we propose a HRNet-based rehabilitation monitoring system, which can remind a patient when to perform the actions and display the actions for the patient to follow via the patient's smartphone. In addition, it helps the therapist to monitor the progress of the rehabilitation for the patient. Our system consists of an iOS app and several components at the server side. The app is in charge of displaying and collecting action videos. The server computes the similarity score between the therapist's actions and the patient's in the videos to keep track of the number of repetitions of each action. Theses stats will be shown to both of the patient and therapist. The extensive experiments show that the F1-Score of the similarity calculation is as high as 0.9 and the soft accuracy of the number of repetitions is higher than 90%.
翻訳日:2023-07-04 12:23:53 公開日:2023-07-03
# 経験的エントロピー最適輸送のための低複雑性適応

Lower Complexity Adaptation for Empirical Entropic Optimal Transport ( http://arxiv.org/abs/2306.13580v2 )

ライセンス: Link先を確認
Michel Groppe and Shayan Hundrieser(参考訳) エントロピック最適輸送 (eot) は非正規化最適輸送 (ot) に代わる有効かつ計算可能な代替手段であり、大規模データ解析に多様な応用を提供する。 本研究では、EOTコストの経験的プラグイン推定器に対する新しい統計的境界を導出し、エントロピー正規化パラメータ$\epsilon$とサンプルサイズ$n$の統計性能が2つの確率測度の単純さにのみ依存していることを示す。 例えば、十分な滑らかなコストの下では、パラメトリックレート $n^{-1/2}$ と因子 $\epsilon^{-d/2}$ が得られ、ここでは$d$ は2つの人口測度の最小次元である。 これは、経験的EOTが、非正規化OTに対して最近特定されたホールマーク特徴である低い複雑性適応原理にも準拠していることを確認する。 この理論の結果として、ユークリッド空間上の測度に対する経験的エントロピーGromov-Wasserstein距離とその非正規化バージョンもこの原理に従うことを示した。 また,モンテカルロシミュレーションを用いて計算の側面を考察し,その知見を補完する。 本手法は経験的プロセス理論を用い, 1 つの関数クラス上の eot の双対定式化に依存する。 解析に不可欠なのは、関数クラスのエントロピーコスト変換は、その均一な計量エントロピーを多く増加させないという観察である。

Entropic optimal transport (EOT) presents an effective and computationally viable alternative to unregularized optimal transport (OT), offering diverse applications for large-scale data analysis. In this work, we derive novel statistical bounds for empirical plug-in estimators of the EOT cost and show that their statistical performance in the entropy regularization parameter $\epsilon$ and the sample size $n$ only depends on the simpler of the two probability measures. For instance, under sufficiently smooth costs this yields the parametric rate $n^{-1/2}$ with factor $\epsilon^{-d/2}$, where $d$ is the minimum dimension of the two population measures. This confirms that empirical EOT also adheres to the lower complexity adaptation principle, a hallmark feature only recently identified for unregularized OT. As a consequence of our theory, we show that the empirical entropic Gromov-Wasserstein distance and its unregularized version for measures on Euclidean spaces also obey this principle. Additionally, we comment on computational aspects and complement our findings with Monte Carlo simulations. Our techniques employ empirical process theory and rely on a dual formulation of EOT over a single function class. Crucial to our analysis is the observation that the entropic cost-transformation of a function class does not increase its uniform metric entropy by much.
翻訳日:2023-07-04 12:13:16 公開日:2023-07-03
# マルチインスタンス学習に基づく全スライド画像分類のための疑似バッグミックスアップ拡張

Pseudo-Bag Mixup Augmentation for Multiple Instance Learning-Based Whole Slide Image Classification ( http://arxiv.org/abs/2306.16180v2 )

ライセンス: Link先を確認
Pei Liu, Luping Ji, Xinyu Zhang, Feng Ye(参考訳) ギガピクセル画像のモデリングの特別な状況を考えると、MIL(Multiple Case Learning)はWSI(Whole Slide Image)分類において最も重要なフレームワークの1つとなっている。 現在、ほとんどのMILネットワークは、トレーニングにおいて避けられない2つの問題に直面している。 i) 不十分なWSIデータ及び 二 ニューラルネットワークに固有のサンプル記憶傾き これらの問題は、WSIの分類モデルの継続的な性能向上を抑えるため、MILモデルが適切かつ効率的な訓練から妨げられる可能性がある。 そこで本研究では,MILモデルのトレーニングを改善するために,Pseudo-bag Mixup(PseMix)データ拡張方式を提案する。 このスキームは、MILに基づくWSI分類に適用するために、一般的な画像のMixup戦略を擬似バグを介して特別なWSIに一般化する。 疑似バッグによる協調により,psemixはミックスアップ戦略におけるクリティカルサイズアライメントとセマンティクスアライメントを満足する。 さらに、時間を要する操作やMILモデル予測に依存しない、効率的で疎結合な手法として設計されている。 比較実験とアブレーション研究はPseMixの有効性と利点を評価するために特別に設計されている。 実験の結果、PseMixは最先端のMILネットワークがWSIの分類性能を更新するのを助けることができた。 さらに、MILモデルの一般化能力を高め、その堅牢性を高めてオクルージョンやノイズラベルをパッチすることも可能だ。 ソースコードはhttps://github.com/liupei101/psemixで入手できます。

Given the special situation of modeling gigapixel images, multiple instance learning (MIL) has become one of the most important frameworks for Whole Slide Image (WSI) classification. In current practice, most MIL networks often face two unavoidable problems in training: i) insufficient WSI data, and ii) the sample memorization inclination inherent in neural networks. These problems may hinder MIL models from adequate and efficient training, suppressing the continuous performance promotion of classification models on WSIs. Inspired by the basic idea of Mixup, this paper proposes a new Pseudo-bag Mixup (PseMix) data augmentation scheme to improve the training of MIL models. This scheme generalizes the Mixup strategy for general images to special WSIs via pseudo-bags so as to be applied in MIL-based WSI classification. Cooperated by pseudo-bags, our PseMix fulfills the critical size alignment and semantic alignment in Mixup strategy. Moreover, it is designed as an efficient and decoupled method, neither involving time-consuming operations nor relying on MIL model predictions. Comparative experiments and ablation studies are specially designed to evaluate the effectiveness and advantages of our PseMix. Experimental results show that PseMix could often assist state-of-the-art MIL networks to refresh the classification performance on WSIs. Besides, it could also boost the generalization ability of MIL models, and promote their robustness to patch occlusion and noisy labels. Our source code is available at https://github.com/liupei101/PseMix.
翻訳日:2023-07-04 12:07:27 公開日:2023-07-03
# 1mのパラメータで十分か? 医用画像分割のための軽量CNNモデル

1M parameters are enough? A lightweight CNN-based model for medical image segmentation ( http://arxiv.org/abs/2306.16103v2 )

ライセンス: Link先を確認
Binh-Duong Dinh, Thanh-Thu Nguyen, Thi-Thao Tran, Van-Truong Pham(参考訳) 畳み込みニューラルネットワーク(CNN)とトランスフォーマーベースのモデルは、高レベルの特徴を抽出し、画像の重要な側面を捉える能力により、医療画像セグメンテーションに広く適用されている。 しかし、高い精度の必要性と低い計算コストの要求との間にはトレードオフがしばしばある。 高いパラメータを持つモデルは理論的にはより優れた性能を達成できるが、計算の複雑さとメモリ使用量の増加をもたらすため、実装には実用的ではない。 本稿では,u-lite という,同一のままでも優れた性能を得られる軽量な u-net ベースのモデルを提案する。 我々は,CNNの強みを生かし,演算パラメータの著しい削減を図るために,Depthwise Separable Convolutionの原理に基づいてU-Liteを設計する。 具体的には、エンコーダとデコーダの両方で7x7のカーネルを持つAxial Depthwise Convolutionsを提案し、モデル受容場を拡大する。 性能をさらに向上するため,フィルタ3x3によるAxial Dilated Depthwise Convolutionsをいくつかのブランチとして使用しています。 全体として、U-Lite は 878K のパラメータしか持たず、従来の U-Net の35倍も小さく、トランスフォーマーベースのモデルよりもはるかに少ない。 提案手法は, 計算複雑性を削減しつつ, 他の最先端アーキテクチャと比較して医療用セグメンテーションタスクにおいて印象的な性能を実現する。 コードはhttps://github.com/duong-db/u-lite。

Convolutional neural networks (CNNs) and Transformer-based models are being widely applied in medical image segmentation thanks to their ability to extract high-level features and capture important aspects of the image. However, there is often a trade-off between the need for high accuracy and the desire for low computational cost. A model with higher parameters can theoretically achieve better performance but also result in more computational complexity and higher memory usage, and thus is not practical to implement. In this paper, we look for a lightweight U-Net-based model which can remain the same or even achieve better performance, namely U-Lite. We design U-Lite based on the principle of Depthwise Separable Convolution so that the model can both leverage the strength of CNNs and reduce a remarkable number of computing parameters. Specifically, we propose Axial Depthwise Convolutions with kernels 7x7 in both the encoder and decoder to enlarge the model receptive field. To further improve the performance, we use several Axial Dilated Depthwise Convolutions with filters 3x3 for the bottleneck as one of our branches. Overall, U-Lite contains only 878K parameters, 35 times less than the traditional U-Net, and much more times less than other modern Transformer-based models. The proposed model cuts down a large amount of computational complexity while attaining an impressive performance on medical segmentation tasks compared to other state-of-the-art architectures. The code will be available at: https://github.com/duong-db/U-Lite.
翻訳日:2023-07-04 12:06:59 公開日:2023-07-03
# 分離可能な物理インフォームニューラルネットワーク

Separable Physics-Informed Neural Networks ( http://arxiv.org/abs/2306.15969v2 )

ライセンス: Link先を確認
Junwoo Cho, Seungtae Nam, Hyunmo Yang, Seok-Bae Yun, Youngjoon Hong, Eunbyung Park(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、様々なPDEに対して有望なデータ駆動型PDE解法として最近登場した。 しかし、多次元pdesや近似高複素解関数を解くための訓練ピンの基本的な制限がある。 これらの困難なpdesに必要なトレーニングポイント(ロケーションポイント)の数は大幅に増加するが、高価な計算コストとメモリのオーバーヘッドのため、かなり制限されている。 この問題を克服するため,我々はpinnのネットワークアーキテクチャとトレーニングアルゴリズムを提案する。 提案手法である分離可能なPINN(SPINN)は,従来のPINNのポイントワイド処理とは異なり,多次元PDEにおけるネットワーク伝搬数を著しく削減する。 また,PDE残差計算の計算コストを削減し,単一のコモディティGPU上で多数のコロケーションポイント(>10^7)を実現するために,前方モード自動微分法を提案する。 実験の結果,多次元PDEにおける計算コスト(壁面時間62倍,FLOPでは1,394倍)を大幅に削減し,精度が向上した。 さらに,SPINN は,2+1-d Navier-Stokes 方程式を最良性能の先行手法 (1GPUでは9分対10時間) よりもはるかに高速に解き,精度を維持できることを示した。 最後に、SPINNは高非線形多次元PDE(3+1-d Navier-Stokes方程式)の解を正確に得ることを示す。 結果を視覚化するには、https://jwcho5576.github.io/spinn.github.io/をご覧ください。

Physics-informed neural networks (PINNs) have recently emerged as promising data-driven PDE solvers showing encouraging results on various PDEs. However, there is a fundamental limitation of training PINNs to solve multi-dimensional PDEs and approximate highly complex solution functions. The number of training points (collocation points) required on these challenging PDEs grows substantially, but it is severely limited due to the expensive computational costs and heavy memory overhead. To overcome this issue, we propose a network architecture and training algorithm for PINNs. The proposed method, separable PINN (SPINN), operates on a per-axis basis to significantly reduce the number of network propagations in multi-dimensional PDEs unlike point-wise processing in conventional PINNs. We also propose using forward-mode automatic differentiation to reduce the computational cost of computing PDE residuals, enabling a large number of collocation points (>10^7) on a single commodity GPU. The experimental results show drastically reduced computational costs (62x in wall-clock time, 1,394x in FLOPs given the same number of collocation points) in multi-dimensional PDEs while achieving better accuracy. Furthermore, we present that SPINN can solve a chaotic (2+1)-d Navier-Stokes equation significantly faster than the best-performing prior method (9 minutes vs 10 hours in a single GPU), maintaining accuracy. Finally, we showcase that SPINN can accurately obtain the solution of a highly nonlinear and multi-dimensional PDE, a (3+1)-d Navier-Stokes equation. For visualized results and code, please see https://jwcho5576.github.io/spinn.github.io/.
翻訳日:2023-07-04 12:06:29 公開日:2023-07-03
# grass: リモートセンシング画像セマンティクスセグメンテーションのためのグラデーション誘導サンプリング戦略を用いたコントラスト学習

GraSS: Contrastive Learning with Gradient Guided Sampling Strategy for Remote Sensing Image Semantic Segmentation ( http://arxiv.org/abs/2306.15868v2 )

ライセンス: Link先を確認
Zhaoyang Zhang, Zhen Ren, Chao Tao, Yunsheng Zhang, Chengli Peng, Haifeng Li(参考訳) 自己教師付きコントラスト学習(SSCL)は、リモートセンシング画像(RSI)理解において重要なマイルストーンを達成している。 その本質は、ダウンストリームタスクに有益である多数のラベルのない画像から画像の特徴を抽出するための教師なしインスタンス識別プリテキストタスクを設計することである。 しかしながら、既存のインスタンス識別ベースのssclは、rsiセマンティックセグメンテーションタスクに適用される場合、2つの制限に苦しむ。 1) 肯定的なサンプル結合問題 2)特徴適応バイアス。 ピクセルレベルやオブジェクトレベルの機能を必要とするセマンティックセグメンテーションタスクに適用すると、機能適応バイアスが導入される。 本研究では,RSIの特定領域に対して,教師なしのコントラスト損失の勾配によって識別情報をマッピングできることを見いだし,これらの特定領域は特異な接地対象を含む傾向にあることを示した。 そこで本研究では,RSIセマンティックセグメンテーションのためのGradient Guided Sampling Strategy(GraSS)を用いたコントラスト学習を提案する。 GraSSは、インスタンス識別ウォームアップ(IDウォームアップ)とGradient Guided Sampling contrastive training(GSトレーニング)の2つのステージで構成される。 idウォームアップは、コントラスト損失勾配に初期識別情報を提供することを目的としている。 gsトレーニングステージは、より特異な接地対象を含むrsiパッチのコントラスト損失勾配および適応的に選択された領域に含まれる識別情報を活用し、新しい正と負のサンプルを構築することを目的としている。 3つのオープンデータセットの実験結果から、GraSSは高分解能RSIセマンティックセグメンテーションにおけるSSCLの性能を効果的に向上することが示された。 5つの異なる種類のssclからの7つのベースライン法と比較すると、草は平均で 1.57 %、最大で 3.58 % の改善を達成している。 ソースコードはhttps://github.com/GeoX-Lab/GraSSで入手できる。

Self-supervised contrastive learning (SSCL) has achieved significant milestones in remote sensing image (RSI) understanding. Its essence lies in designing an unsupervised instance discrimination pretext task to extract image features from a large number of unlabeled images that are beneficial for downstream tasks. However, existing instance discrimination based SSCL suffer from two limitations when applied to the RSI semantic segmentation task: 1) Positive sample confounding issue; 2) Feature adaptation bias. It introduces a feature adaptation bias when applied to semantic segmentation tasks that require pixel-level or object-level features. In this study, We observed that the discrimination information can be mapped to specific regions in RSI through the gradient of unsupervised contrastive loss, these specific regions tend to contain singular ground objects. Based on this, we propose contrastive learning with Gradient guided Sampling Strategy (GraSS) for RSI semantic segmentation. GraSS consists of two stages: Instance Discrimination warm-up (ID warm-up) and Gradient guided Sampling contrastive training (GS training). The ID warm-up aims to provide initial discrimination information to the contrastive loss gradients. The GS training stage aims to utilize the discrimination information contained in the contrastive loss gradients and adaptively select regions in RSI patches that contain more singular ground objects, in order to construct new positive and negative samples. Experimental results on three open datasets demonstrate that GraSS effectively enhances the performance of SSCL in high-resolution RSI semantic segmentation. Compared to seven baseline methods from five different types of SSCL, GraSS achieves an average improvement of 1.57\% and a maximum improvement of 3.58\% in terms of mean intersection over the union. The source code is available at https://github.com/GeoX-Lab/GraSS
翻訳日:2023-07-04 12:06:01 公開日:2023-07-03
# SparseOptimizer: Moreau-Yosida正規化による言語モデルのスパース化とコンパイラ共設計による高速化

SparseOptimizer: Sparsify Language Models through Moreau-Yosida Regularization and Accelerate via Compiler Co-design ( http://arxiv.org/abs/2306.15656v2 )

ライセンス: Link先を確認
Fu-Ming Guo(参考訳) 本稿では、モロー・ヨシダ正規化を利用してBERT、ALBERT、GPTなどの大規模言語モデルにおいて、自然に空間性を誘導する新しいディープラーニングオプティマイザであるSparseOptimizerを紹介する。 スパースオプティマイザの設計の鍵は、最適化プロセス内で直接スパース性を与える埋め込み縮小演算子である。 この演算子は、音理論の枠組みによって支えられ、解析的な解を含み、最適化者の堅牢性と有効性を補強する。 重要なことに、SparseOptimizerのプラグイン・アンド・プレイ機能は、コード修正の必要性を排除し、幅広い大きな言語モデルに対して普遍的に適応可能なツールである。 GLUE, RACE, SQuAD1, SQuAD2などのベンチマークデータセットに対する実証的な評価では、SparseOptimizerを使用してスパースされたSparseBERTとSparseALBERTが、密度の高いBERTとALBERTに匹敵するパフォーマンスを実現し、パラメータ数を大幅に削減した。 さらに本研究では,pytorch,tensorflow,llvmジェネリックコンパイルと比較して,sparsebertにおける推論加速度(\textbf{3.37x}, \textbf{6.30x}, \textbf{7.15x})の可能性を示す,革新的なオプティマイザ・コンパイラの共同設計戦略を提案する。 この研究は、効率的でスケーラブルでハイパフォーマンスな大規模言語モデルの進化における重要な一歩であり、この領域における将来の探索と最適化の先例となる。 SparseOptimizerコードとSparseALBERTモデルは、論文の受理時に公開される。

This paper introduces SparseOptimizer, a novel deep learning optimizer that exploits Moreau-Yosida regularization to naturally induce sparsity in large language models such as BERT, ALBERT and GPT. Key to the design of SparseOptimizer is an embedded shrinkage operator, which imparts sparsity directly within the optimization process. This operator, backed by a sound theoretical framework, includes an analytical solution, thereby reinforcing the optimizer's robustness and efficacy. Crucially, SparseOptimizer's plug-and-play functionality eradicates the need for code modifications, making it a universally adaptable tool for a wide array of large language models. Empirical evaluations on benchmark datasets such as GLUE, RACE, SQuAD1, and SQuAD2 confirm that SparseBERT and SparseALBERT, when sparsified using SparseOptimizer, achieve performance comparable to their dense counterparts, BERT and ALBERT, while significantly reducing their parameter count. Further, this work proposes an innovative optimizer-compiler co-design strategy, demonstrating the potential of inference acceleration (\textbf{3.37x}, \textbf{6.30x}, and \textbf{7.15x} in comparison with Pytorch, TensorFlow, and LLVM generic compile, respectively) in SparseBERT when paired with an appropriately designed compiler. This study represents a significant step forward in the evolution of efficient, scalable, and high-performing large language models, setting a precedent for future exploration and optimization in this domain. The SparseOptimizer code and SparseALBERT model will be publicly available upon paper acceptance.
翻訳日:2023-07-04 12:05:29 公開日:2023-07-03
# DataCI: データストリーミングのためのデータ中心AIプラットフォーム

DataCI: A Platform for Data-Centric AI on Streaming Data ( http://arxiv.org/abs/2306.15538v2 )

ライセンス: Link先を確認
Huaizheng Zhang, Yizheng Huang, Yuanming Li(参考訳) 動的ストリーミングデータ設定におけるデータ中心aiに特化した,包括的なオープンソースプラットフォームであるdataciを紹介する。 dataciが提供する 1)シームレスなストリーミングデータセット管理,データ中心パイプライン開発,ストリーミングシナリオの評価のためのリッチapiを備えたインフラストラクチャ 2)パイプライン系統を追跡するための注意深く設計されたバージョニング制御関数 3) インタラクティブなユーザエクスペリエンスを改善するための直感的なグラフィカルインターフェース。 データCIの使いやすさと有効性を証明する予備的な研究とデモは、ストリーミングデータコンテキストにおけるデータ中心AIの実践に革命をもたらす可能性を強調している。

We introduce DataCI, a comprehensive open-source platform designed specifically for data-centric AI in dynamic streaming data settings. DataCI provides 1) an infrastructure with rich APIs for seamless streaming dataset management, data-centric pipeline development and evaluation on streaming scenarios, 2) an carefully designed versioning control function to track the pipeline lineage, and 3) an intuitive graphical interface for a better interactive user experience. Preliminary studies and demonstrations attest to the easy-to-use and effectiveness of DataCI, highlighting its potential to revolutionize the practice of data-centric AI in streaming data contexts.
翻訳日:2023-07-04 12:04:50 公開日:2023-07-03
# 頭部拡張現実デバイスを用いた反射型ツール追跡と空間再構成によるEVD手術誘導

EVD Surgical Guidance with Retro-Reflective Tool Tracking and Spatial Reconstruction using Head-Mounted Augmented Reality Device ( http://arxiv.org/abs/2306.15490v2 )

ライセンス: Link先を確認
Haowei Li, Wenqing Yan, Du Liu, Long Qian, Yuxing Yang, Yihao Liu, Zhe Zhao, Hui Ding, Guangzhi Wang(参考訳) Augmented Reality (AR) は、外室ドレイン(EVD)手術の外科的指導を促進するために使われており、手動操作におけるずれのリスクを低減する。 この過程で重要な課題は、AR環境における術前画像と実際の患者解剖との空間的関係を正確に推定することである。 本研究では、市販のARヘッドマウントデバイス(HMD)に組み込まれた飛行時間(ToF)深度センサを正確なEVD手術指導に用いる新しいフレームワークを提案する。 tofセンサの奥行き誤差が過去の研究で証明されたので、ar-hmdでその特性を最初に評価した。 その後、正確な表面情報のために深度誤差モデルと患者固有のパラメータ同定法を導入する。 逆反射マーカーと点雲を組み合わせた追跡パイプラインが、正確なヘッドトラッキングのために提案される。 頭部は、深度データを用いて再構成され、患者の頭蓋骨に厳格に追跡対象を固定するのを避ける。 まず, 皮膚に7.580\pm 1.488 mm の深さ値誤差が認められ, 深さ補正の意義が示唆された。 以上の結果から, 頭部ファントムの深さ補正法を用いて, 誤差を85%以上低減した。 一方、修正深度データで再構成した頭部は、サブミリメートル精度を達成した。 羊の頭部実験で0.79mmの再構成誤差が確認された。 また,頭部ファントムに対して5人の外科医が9本のk線注射を行い,仮想指導を行った。 この研究の結果、2.09 \pm 0.16 mm$翻訳精度、2.97\pm 0.91$方向精度が明らかになった。

Augmented Reality (AR) has been used to facilitate surgical guidance during External Ventricular Drain (EVD) surgery, reducing the risks of misplacement in manual operations. During this procedure, the key challenge is accurately estimating the spatial relationship between pre-operative images and actual patient anatomy in AR environment. This research proposes a novel framework utilizing Time of Flight (ToF) depth sensors integrated in commercially available AR Head Mounted Devices (HMD) for precise EVD surgical guidance. As previous studies have proven depth errors for ToF sensors, we first assessed their properties on AR-HMDs. Subsequently, a depth error model and patient-specific parameter identification method are introduced for accurate surface information. A tracking pipeline combining retro-reflective markers and point clouds is then proposed for accurate head tracking. The head surface is reconstructed using depth data for spatial registration, avoiding fixing tracking targets rigidly on the patient's skull. Firstly, $7.580\pm 1.488 mm$ depth value error was revealed on human skin, indicating the significance of depth correction. Our results showed that the error was reduced by over $85\%$ using proposed depth correction method on head phantoms in different materials. Meanwhile, the head surface reconstructed with corrected depth data achieved sub-millimetre accuracy. An experiment on sheep head revealed $0.79 mm$ reconstruction error. Furthermore, a user study was conducted for the performance in simulated EVD surgery, where five surgeons performed nine k-wire injections on a head phantom with virtual guidance. Results of this study revealed $2.09 \pm 0.16 mm$ translational accuracy and $2.97\pm 0.91$ degree orientational accuracy.
翻訳日:2023-07-04 12:04:41 公開日:2023-07-03
# マインドディアル:神経対話生成のための理論オブマインドモデリングによる信念のダイナミクス追跡

MindDial: Belief Dynamics Tracking with Theory-of-Mind Modeling for Situated Neural Dialogue Generation ( http://arxiv.org/abs/2306.15253v3 )

ライセンス: Link先を確認
Shuwen Qiu, Song-Chun Zhu, Zilong Zheng(参考訳) 人間は表現された意味や共通点を交渉しながら自由に話す。 大きな生成言語モデルの印象的な会話能力にもかかわらず、共有場所における文脈理解の個人差は考慮されていない。 本研究はMindDialを提案する。MindDialは、位置自由な応答を生成できる新しい対話型フレームワークで、共通基盤の交渉を行う。 我々は,3段階の信念を追跡可能な明示的なマインドモジュールを設計する。話者の信念,話者の聴取者の信念の予測,および最初の2つの間隙に基づく共通信念である。 そして、話す行為分類ヘッドは、話を続けるか、このターンを終了するか、タスク関連のアクションを取ることに決めます。 2つのエージェント間の無料チャットに基づいて,1つの相互友人を見つけることを目標とする,信念ダイナミクスアノテーションを用いた共通基底アライメントデータセットの相互フレンドを補強する。 実験により, 人間の自然な会話の流れを再現する上で, 心的状態モデリングを用いたモデルが人間の反応に類似することが確認された。 さらに、アブレーション研究により、第3レベルの共通信念は、第1および第2の信念の情報を集約し、共通基盤をより効率的に調整することができる。

Humans talk in free-form while negotiating the expressed meanings or common ground. Despite the impressive conversational abilities of the large generative language models, they do not consider the individual differences in contextual understanding in a shared situated environment. In this work, we propose MindDial, a novel conversational framework that can generate situated free-form responses to negotiate common ground. We design an explicit mind module that can track three-level beliefs -- the speaker's belief, the speaker's prediction of the listener's belief, and the common belief based on the gap between the first two. Then the speaking act classification head will decide to continue to talk, end this turn, or take task-related action. We augment a common ground alignment dataset MutualFriend with belief dynamics annotation, of which the goal is to find a single mutual friend based on the free chat between two agents. Experiments show that our model with mental state modeling can resemble human responses when aligning common ground meanwhile mimic the natural human conversation flow. The ablation study further validates the third-level common belief can aggregate information of the first and second-order beliefs and align common ground more efficiently.
翻訳日:2023-07-04 12:04:15 公開日:2023-07-03
# シクラ:マルチモーダルLLMの参照対話マジックを公開

Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic ( http://arxiv.org/abs/2306.15195v2 )

ライセンス: Link先を確認
Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu, Rui Zhao(参考訳) 人間の会話では、個人は、他人に話しかけながらシーン内の関連領域を示すことができる。 相手は、必要に応じて特定の地域を参照して応答することができる。 この対話における自然な参照能力は、現在のマルチモーダル大言語モデル(mllm)にはない。 そこで本研究では,空間座標の入力と出力を自然言語で処理できる「シクラ」というMLLMを提案する。 そのアーキテクチャはビジョンエンコーダ、アライメント層、llmで構成されている。 余分な語彙、位置エンコーダ、プレ/ポスト検出モジュール、外部プラグインモデルを必要としない、単純でシンプルなように設計されている。 すべての入力と出力は自然言語形式である。 参照対話は様々な視覚言語(VL)タスクのスーパーセットである。 Shikraは、RECやPointQAといった位置関連タスクや、Image CaptioningやVQAといった従来のVLタスクを自然に処理できる。 実験結果はシクラの有望なパフォーマンスを示している。 さらに、前述のオブジェクトの座標を思考の連鎖で提供したり、ユーザ視点の領域の類似性を比較するなど、多くのエキサイティングなアプリケーションを可能にします。 私たちのコード、モデル、データセットはhttps://github.com/shikras/shikraでアクセスできます。

In human conversations, individuals can indicate relevant regions within a scene while addressing others. In turn, the other person can then respond by referring to specific regions if necessary. This natural referential ability in dialogue remains absent in current Multimodal Large Language Models (MLLMs). To fill this gap, this paper proposes an MLLM called Shikra, which can handle spatial coordinate inputs and outputs in natural language. Its architecture consists of a vision encoder, an alignment layer, and a LLM. It is designed to be straightforward and simple, without the need for extra vocabularies, position encoder, pre-/post-detection modules, or external plug-in models. All inputs and outputs are in natural language form. Referential dialogue is a superset of various vision-language (VL) tasks. Shikra can naturally handle location-related tasks like REC and PointQA, as well as conventional VL tasks such as Image Captioning and VQA. Experimental results showcase Shikra's promising performance. Furthermore, it enables numerous exciting applications, like providing mentioned objects' coordinates in chains of thoughts and comparing user-pointed regions similarities. Our code, model and dataset are accessed at https://github.com/shikras/shikra.
翻訳日:2023-07-04 12:03:47 公開日:2023-07-03
# 時間的アンサンブルによるオンライン連続学習性能と安定性の向上

Improving Online Continual Learning Performance and Stability with Temporal Ensembles ( http://arxiv.org/abs/2306.16817v2 )

ライセンス: Link先を確認
Albin Soutif--Cormerais, Antonio Carta, Joost Van de Weijer(参考訳) ニューラルネットワークは、大規模なデータセットで大量のイテレーションをトレーニングする場合、非常に効果的です。 しかし、非定常的なデータストリームでトレーニングされた場合、(1)データの可用性を制限するオンライン設定により、(2)データの非定常的な性質のために悲惨な忘れをし、その性能が低下する。 さらに、最近のいくつかの研究(Caccia et al., 2022; Lange et al., 2023) arXiv:2205.13452 は、連続学習で使用されるリプレイ法が安定性のギャップに悩まされていることを示した。 本稿では,オンライン連続学習の性能と安定性向上のためのモデルアンサンブルの効果について検討する。 オンライン連続学習において,様々なトレーニングタスクから生み出すナレーション的アンサンブルモデルにより,性能が著しく向上していることに気付く。 この観察から,半教師付き学習アンサンブル法からインスピレーションを得た軽量の時間アンサンブルを用いて,実験時の重量(EMA)の指数移動平均を計算し,文献からのいくつかの手法と組み合わせることで,性能と安定性を劇的に向上させることができることを示す。

Neural networks are very effective when trained on large datasets for a large number of iterations. However, when they are trained on non-stationary streams of data and in an online fashion, their performance is reduced (1) by the online setup, which limits the availability of data, (2) due to catastrophic forgetting because of the non-stationary nature of the data. Furthermore, several recent works (Caccia et al., 2022; Lange et al., 2023) arXiv:2205.13452 showed that replay methods used in continual learning suffer from the stability gap, encountered when evaluating the model continually (rather than only on task boundaries). In this article, we study the effect of model ensembling as a way to improve performance and stability in online continual learning. We notice that naively ensembling models coming from a variety of training tasks increases the performance in online continual learning considerably. Starting from this observation, and drawing inspirations from semi-supervised learning ensembling methods, we use a lightweight temporal ensemble that computes the exponential moving average of the weights (EMA) at test time, and show that it can drastically increase the performance and stability when used in combination with several methods from the literature.
翻訳日:2023-07-04 10:22:20 公開日:2023-07-03
# 確率的言語知識とトークンレベルのテキスト拡張

Probabilistic Linguistic Knowledge and Token-level Text Augmentation ( http://arxiv.org/abs/2306.16644v2 )

ライセンス: Link先を確認
Zhengxiang Wang(参考訳) 本稿では,トークンレベルのテキスト強化の有効性と,言語的に動機付けられた評価文脈における確率的言語知識の役割について検討する。 REDAとREDA$_{NG}$という2つのテキスト拡張プログラムが開発され、どちらもトークンレベルのテキスト編集操作であるSynonym Replacement (SR)、Random Swap (RS)、Random Insertion (RI)、Random Deletion (RD)、Random Mix (RM)を実装した。 REDA$_{NG}$は、事前訓練された$n$-gram言語モデルを利用して、REDAの出力から最も可能性の高い拡張テキストを選択する。 中国語と英語の2つの質問マッチング分類タスクについて、包括的およびきめ細かい実験を行った。 その結果,5種類のトークンレベルのテキスト増補手法の汎用的有効性は,これらを併用するか,個別に適用するかにかかわらず強く否定され,トランスフォーマーを含む多種多様な共通分類モデルが適用された。 さらに,確率的言語知識の役割は最小限であることが判明した。

This paper investigates the effectiveness of token-level text augmentation and the role of probabilistic linguistic knowledge within a linguistically-motivated evaluation context. Two text augmentation programs, REDA and REDA$_{NG}$, were developed, both implementing five token-level text editing operations: Synonym Replacement (SR), Random Swap (RS), Random Insertion (RI), Random Deletion (RD), and Random Mix (RM). REDA$_{NG}$ leverages pretrained $n$-gram language models to select the most likely augmented texts from REDA's output. Comprehensive and fine-grained experiments were conducted on a binary question matching classification task in both Chinese and English. The results strongly refute the general effectiveness of the five token-level text augmentation techniques under investigation, whether applied together or separately, and irrespective of various common classification model types used, including transformers. Furthermore, the role of probabilistic linguistic knowledge is found to be minimal.
翻訳日:2023-07-04 10:21:18 公開日:2023-07-03
# GNNとカーネル平均埋め込みを用いた原子シミュレーションのための伝達学習

Transfer learning for atomistic simulations using GNNs and kernel mean embeddings ( http://arxiv.org/abs/2306.01589v3 )

ライセンス: Link先を確認
John Falk, Luigi Bonati, Pietro Novelli, Michele Parrinello, Massimiliano Pontil(参考訳) 機械学習を用いて学習した原子間ポテンシャルは原子論シミュレーションにうまく応用されている。 しかし、ディープラーニングパイプラインはデータ不足で悪名高い一方、参照計算の生成は計算的に要求される。 この課題を克服するために,グラフニューラルネットワーク(gnns)の化学環境記述能力とカーネル平均埋め込みを活用した転送学習アルゴリズムを提案する。 OC20データセット上で事前学習したGNNの特徴マップを抽出し,それを用いて触媒プロセスのシステム固有のデータセットからポテンシャルエネルギー面を学習する。 本手法は, 化学種情報を組み込んだフレキシブルカーネル機能によりさらに拡張され, 性能と解釈性が向上する。 我々は,GNNやリッジレグレッションのみに依存する手法,および類似の微調整手法を改良し,複雑性を増大させ,優れた一般化と転送可能性性能を示す一連の現実的なデータセットを検証した。 コードはhttps://github.com/IsakFalk/atomistic_transfer_mekrrでコミュニティに公開しています。

Interatomic potentials learned using machine learning methods have been successfully applied to atomistic simulations. However, deep learning pipelines are notoriously data-hungry, while generating reference calculations is computationally demanding. To overcome this difficulty, we propose a transfer learning algorithm that leverages the ability of graph neural networks (GNNs) in describing chemical environments, together with kernel mean embeddings. We extract a feature map from GNNs pre-trained on the OC20 dataset and use it to learn the potential energy surface from system-specific datasets of catalytic processes. Our method is further enhanced by a flexible kernel function that incorporates chemical species information, resulting in improved performance and interpretability. We test our approach on a series of realistic datasets of increasing complexity, showing excellent generalization and transferability performance, and improving on methods that rely on GNNs or ridge regression alone, as well as similar fine-tuning approaches. We make the code available to the community at https://github.com/IsakFalk/atomistic_transfer_mekrr.
翻訳日:2023-07-04 10:20:58 公開日:2023-07-03
# SPAE:冷凍LDMを用いた多モード生成用セマンティックピラミッドオートエンコーダ

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs ( http://arxiv.org/abs/2306.17842v2 )

ライセンス: Link先を確認
Lijun Yu, Yong Cheng, Zhiruo Wang, Vivek Kumar, Wolfgang Macherey, Yanping Huang, David A. Ross, Irfan Essa, Yonatan Bisk, Ming-Hsuan Yang, Kevin Murphy, Alexander G. Hauptmann, Lu Jiang(参考訳) 本研究では,凍結LDMが画像やビデオなどの非言語的モダリティを含む理解タスクと生成タスクを同時に実行できるようにするためのセマンティックピラミッドオートエンコーダ(SPAE)を提案する。 SPAEは、LLMの語彙から抽出された原画素と解釈可能な語彙(または単語)を変換する。 結果として得られるトークンは、視覚的再構成に必要な意味と細かな詳細の両方をキャプチャし、視覚コンテンツをLLMに理解可能な言語に効果的に翻訳し、幅広いマルチモーダルタスクを実行する権限を与える。 本手法は,パーム2とgpt3.5を用いた多種多様な画像理解と生成タスクにおける文脈内学習実験によって検証される。 本手法は,凍結したLCMが画像理解タスクの最先端性能を25%以上越えながら,画像コンテンツを生成する試みとして,初めて成功した試みである。

In this work, we introduce Semantic Pyramid AutoEncoder (SPAE) for enabling frozen LLMs to perform both understanding and generation tasks involving non-linguistic modalities such as images or videos. SPAE converts between raw pixels and interpretable lexical tokens (or words) extracted from the LLM's vocabulary. The resulting tokens capture both the semantic meaning and the fine-grained details needed for visual reconstruction, effectively translating the visual content into a language comprehensible to the LLM, and empowering it to perform a wide array of multimodal tasks. Our approach is validated through in-context learning experiments with frozen PaLM 2 and GPT 3.5 on a diverse set of image understanding and generation tasks. Our method marks the first successful attempt to enable a frozen LLM to generate image content while surpassing state-of-the-art performance in image understanding tasks, under the same setting, by over 25%.
翻訳日:2023-07-04 10:18:12 公開日:2023-07-03
# Statler: 身体的推論のための状態維持型言語モデル

Statler: State-Maintaining Language Models for Embodied Reasoning ( http://arxiv.org/abs/2306.17840v2 )

ライセンス: Link先を確認
Takuma Yoneda, Jiading Fang, Peng Li, Huanyu Zhang, Tianchong Jiang, Shengjie Lin, Ben Picker, David Yunis, Hongyuan Mei, Matthew R. Walter(参考訳) 大きな言語モデル(LLM)は、ロボットが複雑なロボット推論タスクを実行できる有望なツールを提供する。 しかし、現代のllmの限られたコンテキストウィンドウは、長い時間軸の推論を困難にしている。 家庭内ロボットが行うことを期待するタスクのような具体化されたタスクは、プランナーが以前から取得した情報を考慮しなければならない(例えば、以前に環境においてロボットが遭遇した多くのオブジェクトの特性)。 LLMの暗黙的な内部表現を用いて世界状態を捉えようとする試みは、ロボットの行動履歴で利用可能なタスク関連および環境関連情報の明細さによって複雑であり、LLMへのプロンプトを介して情報を伝える能力に依存する手法は、その限られたコンテキストウインドウに従う。 本稿では,世界状態の明示的な表現を,時間とともに維持される ``memory'' の形式としてllmを内包するフレームワークである statler を提案する。 Statlerと統合することは、世界モデルリーダーと世界モデルライターである一般LLMの2つのインスタンスを使用して、世界状態とインターフェースし、維持することです。 この世界状態 ``Memory'' へのアクセスを提供することで、Statler はコンテキスト長の制約なしに、既存の LLM が長い時間的水平線を推論する能力を向上させる。 シミュレーションによる3つのテーブルトップ操作領域と実ロボットドメインの有効性を評価し,llmに基づくロボット推論における最先端技術の改善を示す。 プロジェクトウェブサイト: https://statler-lm.github.io/

Large language models (LLMs) provide a promising tool that enable robots to perform complex robot reasoning tasks. However, the limited context window of contemporary LLMs makes reasoning over long time horizons difficult. Embodied tasks such as those that one might expect a household robot to perform typically require that the planner consider information acquired a long time ago (e.g., properties of the many objects that the robot previously encountered in the environment). Attempts to capture the world state using an LLM's implicit internal representation is complicated by the paucity of task- and environment-relevant information available in a robot's action history, while methods that rely on the ability to convey information via the prompt to the LLM are subject to its limited context window. In this paper, we propose Statler, a framework that endows LLMs with an explicit representation of the world state as a form of ``memory'' that is maintained over time. Integral to Statler is its use of two instances of general LLMs -- a world-model reader and a world-model writer -- that interface with and maintain the world state. By providing access to this world state ``memory'', Statler improves the ability of existing LLMs to reason over longer time horizons without the constraint of context length. We evaluate the effectiveness of our approach on three simulated table-top manipulation domains and a real robot domain, and show that it improves the state-of-the-art in LLM-based robot reasoning. Project website: https://statler-lm.github.io/
翻訳日:2023-07-04 10:17:56 公開日:2023-07-03
# ポーズと形状の一貫性を考慮した暗黙の3次元メッシュ復元

Implicit 3D Human Mesh Recovery using Consistency with Pose and Shape from Unseen-view ( http://arxiv.org/abs/2306.17651v2 )

ライセンス: Link先を確認
Hanbyel Cho, Yooshin Cho, Jaesung Ahn, Junmo Kim(参考訳) 人物像から、曖昧性が存在する場合でも、自然の3dポーズや形状を容易に推測することができる。 これは、ある画像と異なる視線方向の人物の出現を想像し、それら間の一貫性を推論に活用できる精神モデルがあるためである。 しかしながら、既存のヒューマンメッシュリカバリ手法は、その構造的制限のために画像が撮影された方向のみを考慮する。 そこで本研究では,3次元空間にいる人物を神経的特徴領域を介して特徴量レベルで暗黙的に想像できる"implicit 3d human mesh recovery (imphmr)"を提案する。 ImpHMRでは、特定の画像に対してCNNベースの画像エンコーダによって特徴フィールドが生成される。 そして、所定の視聴方向のために特徴フィールドから2D特徴マップをボリュームレンダリングし、その特徴からポーズと形状パラメータを後退させる。 3次元ラベルが存在する場合、任意の方向からシルエットを含む結果を予測し、回転した接地トラスと等しくする。 2次元ラベルのみの場合、異なる方向から推定されるポーズパラメータと形状パラメータが同じであるべきという制約を通じて自己教師付き学習を行う。 大規模評価は,提案手法の有効性を示す。

From an image of a person, we can easily infer the natural 3D pose and shape of the person even if ambiguity exists. This is because we have a mental model that allows us to imagine a person's appearance at different viewing directions from a given image and utilize the consistency between them for inference. However, existing human mesh recovery methods only consider the direction in which the image was taken due to their structural limitations. Hence, we propose "Implicit 3D Human Mesh Recovery (ImpHMR)" that can implicitly imagine a person in 3D space at the feature-level via Neural Feature Fields. In ImpHMR, feature fields are generated by CNN-based image encoder for a given image. Then, the 2D feature map is volume-rendered from the feature field for a given viewing direction, and the pose and shape parameters are regressed from the feature. To utilize consistency with pose and shape from unseen-view, if there are 3D labels, the model predicts results including the silhouette from an arbitrary direction and makes it equal to the rotated ground-truth. In the case of only 2D labels, we perform self-supervised learning through the constraint that the pose and shape parameters inferred from different directions should be the same. Extensive evaluations show the efficacy of the proposed method.
翻訳日:2023-07-04 10:17:28 公開日:2023-07-03
# 3次元監視を伴わない多視点画像からのニューラル3次元シーン再構成

Neural 3D Scene Reconstruction from Multi-view Images without 3D Supervision ( http://arxiv.org/abs/2306.17643v2 )

ライセンス: Link先を確認
Yi Guo, Che Sun, Yunde Jia, and Yuwei Wu(参考訳) ニューラルシーン再構成法は,大規模シーンにおける複雑な形状と低テクスチャ領域の再構成において,優れた性能を達成している。 しかし,これらの手法は実世界での入手に要するコストと時間を要する3次元教師付き情報に大きく依存している。 本稿では,3次元の監督なしにシーンを再構築するニューラル再構成手法を提案する。 本研究では,2次元画像へのアクセスを監督として,シーン復元のための微分可能なボリュームレンダリングを行う。 我々は,シーン内の複雑な幾何学領域の再構成品質を向上させるために幾何学を課し,シーンの低テクスチャ領域の復元品質を改善するために平面制約を課す。 具体的には、シーンを表す符号付き距離関数(sdf)フィールド、色フィールド、確率フィールドを導入し、微分可能なレイマーチングの下でフィールドを最適化してシーンを再構築する。 さらに、異なる視点で類似した特徴を持つ類似した領域に対して、表面上の3Dポイントを投影する幾何学的制約を課す。 また、大きな平面を壁や床に平行または垂直に保つために、平面制約を課します。 これら2つの制約は、シーンの正確で滑らかな幾何学構造を再構築するのに役立ちます。 ScanNetデータセットの監視として3D情報を利用する既存手法と比較して,3Dの監視情報がなければ競争力のある再構築を実現する。

Neural scene reconstruction methods have achieved impressive performance in reconstructing complex geometry and low-textured regions in large scenes. However, these methods heavily rely on 3D supervised information which is costly and time-consuming to obtain in the real world. In this paper, we propose a novel neural reconstruction method that reconstructs scenes without 3D supervision. We perform differentiable volume rendering for scene reconstruction by using accessible 2D images as supervision. We impose geometry to improve the reconstruction quality of complex geometry regions in the scenes, and impose plane constraints to improve the reconstruction quality of low-textured regions in the scenes. Specifically, we introduce a signed distance function (SDF) field, a color field, and a probability field to represent the scene, and optimize the fields under the differentiable ray marching to reconstruct the scene. Besides, we impose geometric constraints that project 3D points on the surface to similar-looking regions with similar features in different views. We also impose plane constraints to make large planes keep parallel or vertical to the wall or floor. These two constraints help to reconstruct accurate and smooth geometry structures of the scene. Without 3D supervision information, our method achieves competitive reconstruction compared with some existing methods that use 3D information as supervision on the ScanNet dataset.
翻訳日:2023-07-04 10:17:09 公開日:2023-07-03
# Sphere2Vec:大規模地理空間予測のための球面上の汎用位置表現学習

Sphere2Vec: A General-Purpose Location Representation Learning over a Spherical Surface for Large-Scale Geospatial Predictions ( http://arxiv.org/abs/2306.17624v2 )

ライセンス: Link先を確認
Gengchen Mai, Yao Xuan, Wenyun Zuo, Yutong He, Jiaming Song, Stefano Ermon, Krzysztof Janowicz, and Ni Lao(参考訳) 空間上の点に対する学習に親しみやすい表現を生成することは、MLの基本的かつ長年にわたる問題である。 最近では、2D/3Dユークリッド空間の任意の点を直接高次元ベクトルとして符号化するマルチスケール符号化スキーム(Space2VecやNeRFなど)が提案されている。 しかしながら、現在の2Dおよび3D位置エンコーダはすべてユークリッド空間内の点距離をモデル化するように設計されている。 したがって、球面上の距離メートル法学習を必要とする大規模な実世界のGPS座標データセットに適用した場合、どちらのモデルも地図投影歪み問題(2D)と球面からユークリッド距離近似誤差(3D)により失敗する可能性がある。 そこで本稿では,球面上の点座標を符号化する際に球面距離を保存できるマルチスケール位置エンコーダsphere2vecを提案する。 DFSに基づく球面上の距離保存符号化の統一ビューを開発した。 また、Sphere2Vecは任意の2点間の球面距離を保持するが、既存の符号化スキームは保存しないという理論的証明を与える。 20の合成データセットの実験により、Sphere2Vecは、これらのデータセットのベースラインモデルを最大30.8%のエラー率で上回ることができることが示された。 次にsphere2vecを3つのジオウェア画像分類タスク(細粒度種認識、flickr画像認識、リモートセンシング画像分類)に適用した。 7つの実世界のデータセットの結果、3つのタスクすべてにおいて、複数の位置エンコーダに対するsphere2vecの優位性が示されている。 さらなる解析により、球面距離保存の性質から、球面2vecは他の位置エンコーダモデル、特に極域やデータスパース領域よりも優れていることが判明した。 コードとデータはhttps://gengchenmai.github.io/sphere2vec-website/で入手できる。

Generating learning-friendly representations for points in space is a fundamental and long-standing problem in ML. Recently, multi-scale encoding schemes (such as Space2Vec and NeRF) were proposed to directly encode any point in 2D/3D Euclidean space as a high-dimensional vector, and has been successfully applied to various geospatial prediction and generative tasks. However, all current 2D and 3D location encoders are designed to model point distances in Euclidean space. So when applied to large-scale real-world GPS coordinate datasets, which require distance metric learning on the spherical surface, both types of models can fail due to the map projection distortion problem (2D) and the spherical-to-Euclidean distance approximation error (3D). To solve these problems, we propose a multi-scale location encoder called Sphere2Vec which can preserve spherical distances when encoding point coordinates on a spherical surface. We developed a unified view of distance-reserving encoding on spheres based on the DFS. We also provide theoretical proof that the Sphere2Vec preserves the spherical surface distance between any two points, while existing encoding schemes do not. Experiments on 20 synthetic datasets show that Sphere2Vec can outperform all baseline models on all these datasets with up to 30.8% error rate reduction. We then apply Sphere2Vec to three geo-aware image classification tasks - fine-grained species recognition, Flickr image recognition, and remote sensing image classification. Results on 7 real-world datasets show the superiority of Sphere2Vec over multiple location encoders on all three tasks. Further analysis shows that Sphere2Vec outperforms other location encoder models, especially in the polar regions and data-sparse areas because of its nature for spherical surface distance preservation. Code and data are available at https://gengchenmai.github.io/sphere2vec-website/.
翻訳日:2023-07-04 10:16:41 公開日:2023-07-03
# 中国語テキスト誤り訂正のためのプログレッシブマルチタスク学習フレームワーク

Progressive Multi-task Learning Framework for Chinese Text Error Correction ( http://arxiv.org/abs/2306.17447v2 )

ライセンス: Link先を確認
Shirong Ma, Yinghui Li, Haojing Huang, Shulin Huang, Yangning Li, Hai-Tao Zheng, and Ying Shen(参考訳) 中国語テキスト誤り訂正(ctec)は、人間の日常生活や下流の様々なタスクに役立つ入力テキストの誤りを検出し、訂正することを目的としている。 近年,CTECの課題を解決し,大きな成功を収めるために,プレトレーニング言語モデル(PLM)を主に採用している。 しかし, 従来のアプローチでは過補正と過補正の問題があり, 前者は特に高精度CTECタスクにおいて顕著である。 オーバーコレクションの問題を緩和するために,CTECのモデルに依存しないプログレッシブマルチタスク学習フレームワークProTECを提案する。 我々はCTECタスクを,誤り検出,誤り型同定,補正結果生成という3つのサブタスクに分割する。 トレーニングプロセス中、ProTECは、これらのサブタスクをマルチタスクトレーニング目標に組み込むことで、テキストエラー訂正を段階的に学習するモデルをガイドする。 推論プロセスの間、モデルはこれらのサブタスクを完了し、修正結果を生成する。 大規模な実験と詳細な分析により,提案フレームワークの有効性と有効性を実証した。

Chinese Text Error Correction (CTEC) aims to detect and correct errors in the input text, which benefits human's daily life and various downstream tasks. Recent approaches mainly employ Pre-trained Language Models (PLMs) to resolve CTEC task and achieve tremendous success. However, previous approaches suffer from issues of over-correction and under-correction, and the former is especially conspicuous in the precision-critical CTEC task. To mitigate the issue of overcorrection, we propose a novel model-agnostic progressive multitask learning framework for CTEC, named ProTEC, which guides a CTEC model to learn the task from easy to difficult. We divide CTEC task into three sub-tasks from easy to difficult: Error Detection, Error Type Identification, and Correction Result Generation. During the training process, ProTEC guides the model to learn text error correction progressively by incorporating these sub-tasks into a multi-task training objective. During the inference process, the model completes these sub-tasks in turn to generate the correction results. Extensive experiments and detailed analyses fully demonstrate the effectiveness and efficiency of our proposed framework.
翻訳日:2023-07-04 10:16:08 公開日:2023-07-03
# LMBot: Twitterボット検出におけるグラフレスデプロイメントのための言語モデルへのグラフ知識の注入

LMBot: Distilling Graph Knowledge into Language Model for Graph-less Deployment in Twitter Bot Detection ( http://arxiv.org/abs/2306.17408v2 )

ライセンス: Link先を確認
Zijian Cai, Zhaoxuan Tan, Zhenyu Lei, Zifeng Zhu, Hongrui Wang, Qinghua Zheng, Minnan Luo(参考訳) 悪役が悪質な情報を拡散し、世論を操作するためにますます進歩し、広く普及しているボットを雇う中、twitterボットの検出は重要な課題となっている。 グラフベースのtwitterボット検出手法は最先端のパフォーマンスを実現していますが、その推論はターゲットから複数ホップ離れた近隣のユーザに依存しており、隣人のフェッチには時間がかかり、バイアスが生じる可能性があります。 同時に、twitterボット検出を微調整した後、事前トレーニングされた言語モデルが競合性能を達成し、デプロイ時にグラフ構造を必要としないことも分かりました。 この発見に触発されて,グラフニューラルネットワーク(gnns)の知識を言語モデル(lms)に抽出し,twitterボット検出にグラフレスデプロイすることにより,データ依存の課題に対処した,新たなボット検出フレームワークlmbotを提案する。 さらに、LMBotはグラフベースおよびグラフレスデータセットと互換性がある。 具体的には、まず各ユーザをテキストシーケンスとして表現し、それらをLMに入力してドメイン適応する。 グラフベースのデータセットでは、LMの出力はGNNの入力機能を提供し、ボットの検出と知識の抽出を反復的かつ相互に強化するプロセスでLMに戻すことができる。 LMと組み合わされたグラフレス推論は、グラフデータの依存性を解消し、バイアス問題をサンプリングする。 グラフ構造を持たないデータセットの場合、GNNをMPPで置き換えるだけで、性能も高い。 実験の結果,LMBotは4つのTwitterボット検出ベンチマークで最先端のパフォーマンスを達成した。 大規模な研究により、LMBotはグラフベースのTwitterボット検出方法よりも堅牢で、汎用的で、効率的であることが示されている。

As malicious actors employ increasingly advanced and widespread bots to disseminate misinformation and manipulate public opinion, the detection of Twitter bots has become a crucial task. Though graph-based Twitter bot detection methods achieve state-of-the-art performance, we find that their inference depends on the neighbor users multi-hop away from the targets, and fetching neighbors is time-consuming and may introduce bias. At the same time, we find that after finetuning on Twitter bot detection, pretrained language models achieve competitive performance and do not require a graph structure during deployment. Inspired by this finding, we propose a novel bot detection framework LMBot that distills the knowledge of graph neural networks (GNNs) into language models (LMs) for graph-less deployment in Twitter bot detection to combat the challenge of data dependency. Moreover, LMBot is compatible with graph-based and graph-less datasets. Specifically, we first represent each user as a textual sequence and feed them into the LM for domain adaptation. For graph-based datasets, the output of LMs provides input features for the GNN, enabling it to optimize for bot detection and distill knowledge back to the LM in an iterative, mutually enhancing process. Armed with the LM, we can perform graph-less inference, which resolves the graph data dependency and sampling bias issues. For datasets without graph structure, we simply replace the GNN with an MLP, which has also shown strong performance. Our experiments demonstrate that LMBot achieves state-of-the-art performance on four Twitter bot detection benchmarks. Extensive studies also show that LMBot is more robust, versatile, and efficient compared to graph-based Twitter bot detection methods.
翻訳日:2023-07-04 10:15:48 公開日:2023-07-03
# 状態空間削減と入力セグメンテーションによるDNN解析のためのスケーリングモデル検査(拡張版)

Scaling Model Checking for DNN Analysis via State-Space Reduction and Input Segmentation (Extended Version) ( http://arxiv.org/abs/2306.17323v2 )

ライセンス: Link先を確認
Mahum Naseer and Osman Hasan and Muhammad Shafique(参考訳) その優れた学習能力と実世界のアプリケーションの性能により、ニューラルネットワーク(nns)に基づく機械学習システムの利用は継続的に増加している。 しかし、文献における様々なケーススタディと経験的知見は、nn入力のわずかな変化が誤動作や望ましくないnn行動につながる可能性を示唆している。 これは、あるNNの行動に関する保証を提供することを目的として、公式な分析にかなりの関心を惹き付けている。 既存のフレームワークは、トレーニングされたNNに対して、満足度解決と線形プログラミングを使用して堅牢性と/または安全性を保証する。 我々は、幅広いNN特性を分析するための最初のモデルチェックベースのフレームワークであるFANNetを提案した。 しかし、モデルチェックに関連する状態空間の爆発はスケーラビリティの問題を引き起こし、FANNetは小さなNNにのみ適用できる。 本研究は,形式的NN解析のスケーラビリティとタイミング効率を向上させるために,状態空間の削減と入力セグメンテーション手法を開発する。 最先端のFANNetと比較して、我々の新しいモデルチェックベースのフレームワークは、検証の時間オーバーヘッドを最大8000倍に減らし、約80ドル以上のネットワークパラメータを持つNNに適用できる。 これにより、FANNetにすでに含まれているすべてのNNプロパティに加えて、新しいフレームワークを使用してNN安全性プロパティの分析が可能になる。 このフレームワークは、医療データセットとよく認識されているACAS Xu NNでトレーニングされたNNの特性を効率的に分析できることが示されている。

Owing to their remarkable learning capabilities and performance in real-world applications, the use of machine learning systems based on Neural Networks (NNs) has been continuously increasing. However, various case studies and empirical findings in the literature suggest that slight variations to NN inputs can lead to erroneous and undesirable NN behavior. This has led to considerable interest in their formal analysis, aiming to provide guarantees regarding a given NN's behavior. Existing frameworks provide robustness and/or safety guarantees for the trained NNs, using satisfiability solving and linear programming. We proposed FANNet, the first model checking-based framework for analyzing a broader range of NN properties. However, the state-space explosion associated with model checking entails a scalability problem, making the FANNet applicable only to small NNs. This work develops state-space reduction and input segmentation approaches, to improve the scalability and timing efficiency of formal NN analysis. Compared to the state-of-the-art FANNet, this enables our new model checking-based framework to reduce the verification's timing overhead by a factor of up to 8000, making the framework applicable to NNs even with approximately $80$ times more network parameters. This in turn allows the analysis of NN safety properties using the new framework, in addition to all the NN properties already included with FANNet. The framework is shown to be efficiently able to analyze properties of NNs trained on healthcare datasets as well as the well--acknowledged ACAS Xu NNs.
翻訳日:2023-07-04 10:15:19 公開日:2023-07-03
# 雑音型中間スケール量子コンピュータにおける適応変分量子アルゴリズム

Adaptive variational quantum algorithms on a noisy intermediate scale quantum computer ( http://arxiv.org/abs/2306.17159v2 )

ライセンス: Link先を確認
C\'esar Feniou, Baptiste Claudon, Muhammad Hassan, Axel Courtat, Olivier Adjoua, Yvon Maday, Jean-Philip Piquemal(参考訳) ハイブリッド量子古典アルゴリズムは、量子多体系をシミュレートする古典的な計算方法よりも優れた可能性を持っている。 特に適応変分量子固有解器(VQE)は、コンパクトな量子回路を用いて高精度なアンザッツ波動関数を生成する能力を示した。 しかし、これらの手法の現在の量子処理ユニット(QPU)への実践的な実装は、演算子選択ステップ中に多項式スケーリング数を測定すること、高次元のノイズの多いコスト関数を最適化すること、といった大きな課題に直面している。 本研究では,これらの困難を克服する新しい手法を導入し,高速GPU加速量子シミュレータと組み合わされた25量子ビットの誤差緩和量子ハードウェア上でハイブリッド適応アルゴリズムを実行する。 物理応用として,キュービット数や演算子プールのサイズに関わらず,各イテレーションに5つの回路計測しか必要としない新しいグリーディADAPT-VQE法を用いて,25体Isingモデルの基底状態を計算する。 化学応用として、分子系の基底状態を近似するために、この欲求とオーバーラップ-ADAPT-VQEアルゴリズムを組み合わせる。 これらのハイブリッドQPU/シミュレータ計算の実装が成功したことにより、適応VQEアルゴリズムがQPUに適用可能となり、量子コンピューティングの短期的優位性に関するさらなる楽観性がもたらされる。

Hybrid quantum-classical algorithms hold the potential to outperform classical computing methods for simulating quantum many-body systems. Adaptive Variational Quantum Eigensolvers (VQE) in particular have demonstrated an ability to generate highly accurate ansatz wave-functions using compact quantum circuits. However, the practical implementation of these methods on current quantum processing units (QPUs) faces significant challenges: the requirement to measure a polynomially scaling number of observables during the operator selection step, followed by the need to optimize a high-dimensional, noisy cost-function. In this study, we introduce new techniques to overcome these difficulties and execute hybrid adaptive algorithms on a 25-qubit error-mitigated quantum hardware coupled to a high performance GPU-accelerated quantum simulator. As a physics application, we compute the ground state of a 25-body Ising model using a novel greedy ADAPT-VQE procedure that requires only five circuit measurements for each iteration, regardless of the number of qubits and the size of the operator pool. As a chemistry application, we combine this greedy approach with the Overlap-ADAPT-VQE algorithm to approximate the ground state of a molecular system. The successful implementation of these hybrid QPU/simulator computations enhances the applicability of adaptive VQE algorithms on QPUs and instills further optimism regarding the near-term advantages of quantum computing.
翻訳日:2023-07-04 10:14:53 公開日:2023-07-03
# ミケランジェロ:形状画像テキスト適応潜在表現に基づく条件付き3次元形状生成

Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text Aligned Latent Representation ( http://arxiv.org/abs/2306.17115v2 )

ライセンス: Link先を確認
Zibo Zhao, Wen Liu, Xin Chen, Xianfang Zeng, Rui Wang, Pei Cheng, Bin Fu, Tao Chen, Gang Yu and Shenghua Gao(参考訳) 本稿では,2次元画像やテキストから一般的な3次元形状を生成するという課題に対処する新しいアライメント・前世代手法を提案する。 画像やテキストから3次元形状への条件生成モデルを直接学習することは,3次元形状が2次元画像やテキストと大きく異なる追加次元を持つため,条件と矛盾する結果を生み出す傾向にある。 3つのモード間の領域ギャップを埋め、マルチモーダル条件の3次元形状生成を容易にするために、形状-画像-テキスト整列空間における3次元形状を表現する。 本フレームワークは,形状-画像-テキスト対応変分自動エンコーダ (SITA-VAE) と条件付き形状遅延拡散モデル (ASLDM) の2つのモデルからなる。 前者は3d形状を画像とテキストに整列した形状潜在空間にエンコードし、トランスベースのデコーダを介して所定の形状埋め込みに対応する細粒度の3dニューラルフィールドを再構成する。 後者のモデルは、画像またはテキスト空間から潜在形状空間への確率的マッピング関数を学習する。 提案手法は,視覚条件入力やテクスチャ条件入力に合致した高品位かつ多彩な3次元形状を生成でき,形状・画像・テキスト対応空間の有効性を検証できることを示す。

We present a novel alignment-before-generation approach to tackle the challenging task of generating general 3D shapes based on 2D images or texts. Directly learning a conditional generative model from images or texts to 3D shapes is prone to producing inconsistent results with the conditions because 3D shapes have an additional dimension whose distribution significantly differs from that of 2D images and texts. To bridge the domain gap among the three modalities and facilitate multi-modal-conditioned 3D shape generation, we explore representing 3D shapes in a shape-image-text-aligned space. Our framework comprises two models: a Shape-Image-Text-Aligned Variational Auto-Encoder (SITA-VAE) and a conditional Aligned Shape Latent Diffusion Model (ASLDM). The former model encodes the 3D shapes into the shape latent space aligned to the image and text and reconstructs the fine-grained 3D neural fields corresponding to given shape embeddings via the transformer-based decoder. The latter model learns a probabilistic mapping function from the image or text space to the latent shape space. Our extensive experiments demonstrate that our proposed approach can generate higher-quality and more diverse 3D shapes that better semantically conform to the visual or textural conditional inputs, validating the effectiveness of the shape-image-text-aligned space for cross-modality 3D shape generation.
翻訳日:2023-07-04 10:14:28 公開日:2023-07-03