このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230612となっている論文です。

PDF登録状況(公開日: 20230612)

TitleAuthorsAbstract論文公表日・翻訳日
# 深層画像・テキスト融合理解によるモバイルアプリクラウドソーシングテストレポートの一貫性検出

Mobile App Crowdsourced Test Report Consistency Detection via Deep Image-and-Text Fusion Understanding ( http://arxiv.org/abs/2108.07401v3 )

ライセンス: Link先を確認
Shengcheng Yu, Chunrong Fang, Quanjun Zhang, Zhihao Cao, Yexiao Yun, Zhenfei Cao, Kai Mei, Zhenyu Chen(参考訳) クラウドソーシングテストは、異なるテストパラダイムとして、特にモバイルアプリケーション(アプリケーション)テスト分野において、ソフトウェアテストに大きな注目を集めている。 社内テストと比較すると,クラウドソーステストは,モバイルテストの断片化問題に直面するさまざまなテスト環境よりも優れている。 しかし、クラウドソーステストは、異なる専門知識に関わる非専門的なクラウドワーカーによる低品質なテストレポート問題にも遭遇する。 不均一な品質に関する報告を処理するために、アプリ開発者は高品質のレポートと低品質のレポートを区別し、バグ検査を支援する必要がある。 典型的な低品質テストレポートの1つは、一貫性のないテストレポートである。 実証調査によると、クラウドソーステストレポートは18.07%に過ぎなかった。 一貫性のないレポートは、モバイルアプリのテストに無駄を引き起こす。 不整合性問題を解決するために,画像とテキストの融合理解によるクラウドソーシングテストレポートの一貫性を検出するReCoDeを提案する。 ReCoDeは、まずレポートをテキスト記述に基づいて、バグ機能に従って異なるカテゴリに分類する2段階のアプローチである。 第2段階では、recodeはアプリのスクリーンショットのguiイメージ機能を深く理解し、クラウドソースされたテストレポートの一貫性を検出するために、さまざまな種類のバグに対処するための戦略を適用する。 本研究では,22k以上のテストレポートを用いたデータセット上でReCoDeの評価を行い,クラウドソーステストレポートの一貫性の検出におけるReCoDeの有効性を示した。 さらに,ReCoDeの実践的価値を証明するためにユーザスタディを実施し,クラウドソーステストレポートのレビュー効率の向上を効果的に支援した。

Crowdsourced testing, as a distinct testing paradigm, has attracted much attention in software testing, especially in mobile application (app) testing field. Compared with in-house testing, crowdsourced testing shows superiority with the diverse testing environments when faced with the mobile testing fragmentation problem. However, crowdsourced testing also encounters the low-quality test report problem caused by unprofessional crowdworkers involved with different expertise. In order to handle the submitted reports of uneven quality, app developers have to distinguish high-quality reports from low-quality ones to help the bug inspection. One kind of typical low-quality test report is inconsistent test reports, which means the textual descriptions are not focusing on the attached bug-occurring screenshots. According to our empirical survey, only 18.07% crowdsourced test reports are consistent. Inconsistent reports cause waste on mobile app testing. To solve the inconsistency problem, we propose ReCoDe to detect the consistency of crowdsourced test reports via deep image-and-text fusion understanding. ReCoDe is a two-stage approach that first classifies the reports based on textual descriptions into different categories according to the bug feature. In the second stage, ReCoDe has a deep understanding of the GUI image features of the app screenshots and then applies different strategies to handle different types of bugs to detect the consistency of the crowdsourced test reports. We conduct an experiment on a dataset with over 22k test reports to evaluate ReCoDe, and the results show the effectiveness of ReCoDe in detecting the consistency of crowdsourced test reports. Besides, a user study is conducted to prove the practical value of ReCoDe in effectively helping app developers improve the efficiency of reviewing the crowdsourced test reports.
翻訳日:2023-10-24 15:47:24 公開日:2023-06-12
# 部分再コンパイルによるバイナリプログラムにおける脆弱性の自動緩和

Automatically Mitigating Vulnerabilities in Binary Programs via Partially Recompilable Decompilation ( http://arxiv.org/abs/2202.12336v2 )

ライセンス: Link先を確認
Pemma Reiter, Hui Jun Tay, Westley Weimer, Adam Doup\'e, Ruoyu Wang, Stephanie Forrest(参考訳) 特にソースコードが使用不能でバイナリパッチが必要な場合には、脆弱性の発見と修正が難しい。 手動メソッドは時間を要するものであり、かなりの専門知識が必要であり、新しい脆弱性が発見された速度までスケールしない。 自動解法は魅力的な代替手段であり,部分再コンパイル可能な解法(PRD)を提案する。 prdは疑わしいバイナリ機能をソースに持ち上げ、分析、リビジョン、レビューが可能で、ソースレベルとバイナリレベルの技術を使ってパッチ付きバイナリを作成する。 逆コンパイルと再コンパイルは通常バイナリ全体で動作するわけではないが、我々のアプローチは、バイナリ障害ローカライゼーションによって識別されるような、いくつかの関数に限定されているため成功している。 これらの仮定を評価し,文法やコンパイルの制限がなければ,70~89%の関数が再コンパイルされ,十分な型回復が得られた。 一方、完全Cバイナリの1.7%しか成功していない。 逆コンパイルが成功すると、RDはテスト等価なバイナリを92.9%生成する。 さらに,ソースレベルの自動プログラム修復(APR)手法を組み込んだ完全自動化プロセス,人為的に編集されたソースレベルの修復という2つの文脈でPRDを評価する。 DARPA Cyber Grand Challenge (CGC)バイナリで評価すると、PDD対応のAPRツールがバイナリ上でのみ動作し、148のシナリオの85を全体として軽減し、ソースコード全体へのアクセスと整合性のある成功率である、という結果が出ています。 PRDは、勝利したCGCエントリーと同様の成功率を獲得し、時には上位CGCチームによって作成されたものよりも高品質な緩和を見出す。 我々の評価には、独立して開発されたAPRツールとC++、Rode0day、現実世界のバイナリが含まれる。

Vulnerabilities are challenging to locate and repair, especially when source code is unavailable and binary patching is required. Manual methods are time-consuming, require significant expertise, and do not scale to the rate at which new vulnerabilities are discovered. Automated methods are an attractive alternative, and we propose Partially Recompilable Decompilation (PRD). PRD lifts suspect binary functions to source, available for analysis, revision, or review, and creates a patched binary using source- and binary-level techniques. Although decompilation and recompilation do not typically work on an entire binary, our approach succeeds because it is limited to a few functions, like those identified by our binary fault localization. We evaluate these assumptions and find that, without any grammar or compilation restrictions, 70-89% of individual functions are successfully decompiled and recompiled with sufficient type recovery. In comparison, only 1.7% of the full C-binaries succeed. When decompilation succeeds, PRD produces test-equivalent binaries 92.9% of the time. In addition, we evaluate PRD in two contexts: a fully automated process incorporating source-level Automated Program Repair (APR) methods; human-edited source-level repairs. When evaluated on DARPA Cyber Grand Challenge (CGC) binaries, we find that PRD-enabled APR tools, operating only on binaries, performs as well as, and sometimes better than full-source tools, collectively mitigating 85 of the 148 scenarios, a success rate consistent with these same tools operating with access to the entire source code. PRD achieves similar success rates as the winning CGC entries, sometimes finding higher-quality mitigations than those produced by top CGC teams. For generality, our evaluation includes two independently developed APR tools and C++, Rode0day, and real-world binaries.
翻訳日:2023-10-24 15:39:09 公開日:2023-06-12
# solidityスマートコントラクトプロジェクトの本当のバグ修正に関する実証的研究

An Empirical Study on Real Bug Fixes from Solidity Smart Contract Projects ( http://arxiv.org/abs/2210.11990v2 )

ライセンス: Link先を確認
Yilin Wang, Xiangping Chen, Yuan Huang, Hao-Nan Zhu, Jing Bian, Zibin Zheng(参考訳) smart contractsはブロックチェーン内に存在するコードの一部であり、事前定義された条件が満たされた時に、任意のトランザクションを実行するためにトリガーされる。 ブロックチェーンで商用トランザクションに一般的に使用されることにより、スマートコントラクトのセキュリティが特に重要になります。 ここ数年、solidityで書かれたスマートコントラクトのバグの検出と修正に、学術的、実践的な関心が数多く寄せられてきました。 しかし、solidityスマートコントラクトプロジェクトの本当のバグ修正についてはほとんど知られていない。 本稿では,実世界のプロジェクトにおけるバグフィックスを理解し,バグフィックスの知識を豊かにするために,実世界の46のスマートコントラクトプロジェクトの過去のバグフィックスに関する実証研究を行う。 多面的な議論を行い、主にFile TypeとAmount、Fix Complexity、Bug Distribution、Fix Patchesの4つの質問を調査します。 この過程で4つの知見を抽出し,これらの4つの疑問を探求する。 最後に、これらの知見に基づいて、solidityスマートコントラクトのバグを修正するための現在のアプローチを改善するために、自動修復技術、分析ツール、solidity開発者という3つの側面から、アクション可能な方法を提供する。

Smart contracts are pieces of code that reside inside the blockchains and can be triggered to execute any transaction when specifically predefined conditions are satisfied. Being commonly used for commercial transactions in blockchain makes the security of smart contracts particularly important. Over the last few years, we have seen a great deal of academic and practical interest in detecting and fixing the bugs in smart contracts written by Solidity. But little is known about the real bug fixes in Solidity smart contract projects. To understand the bug fixes and enrich the knowledge of bug fixes in real-world projects, we conduct an empirical study on historical bug fixes from 46 real-world Solidity smart contract projects in this paper. We provide a multi-faceted discussion and mainly explore the following four questions: File Type and Amount, Fix Complexity, Bug distribution, and Fix Patches. We distill four findings during the process to explore these four questions. Finally, based on these findings, we provide actionable implications to improve the current approaches to fixing bugs in Solidity smart contracts from three aspects: Automatic repair techniques, Analysis tools, and Solidity developers.
翻訳日:2023-10-24 14:16:40 公開日:2023-06-12
# ソフトウェア工学におけるアジャイル要件検証のためのモチベーションモデル

Motivational models for validating agile requirements in Software Engineering subjects ( http://arxiv.org/abs/2306.06834v1 )

ライセンス: Link先を確認
Eduardo A. Oliveira, Leon Sterling(参考訳) 本稿では,モチベーションモデルを用いてアジャイル要件アーティファクトのクロスチェックを行い,ソフトウェア要件の一貫性と完全性を改善する方法について説明する。 モチベーションモデルは、ソフトウェアシステムの目的に対する高いレベルの理解を提供する。 システム機能よりもユーザニーズを重視するペルソナとユーザストーリを補完するものだ。 本稿では,ソフトウェア工学の学生がモチベーションモデルを用いて,より優れた要件アーティファクトを作成する方法を理解し,非技術ユーザに対して理解しやすく,開発者が容易に理解し,相互に一貫性を持たせることを目的とした探索的ケーススタディを提案する。 9つの一貫性原則が研究の結果として作成され、現在はメルボルン大学のソフトウェア工学の学生によって、要求工学におけるモチベーションモデル、ペルソナ、ユーザストーリの一貫性を確保するためにうまく採用されています。

This paper describes how motivational models can be used to cross check agile requirements artifacts to improve consistency and completeness of software requirements. Motivational models provide a high level understanding of the purposes of a software system. They complement personas and user stories which focus more on user needs rather than on system features. We present an exploratory case study sought to understand how software engineering students could use motivational models to create better requirements artifacts so they are understandable to non-technical users, easily understood by developers, and are consistent with each other. Nine consistency principles were created as an outcome of our study and are now successfully adopted by software engineering students at the University of Melbourne to ensure consistency between motivational models, personas, and user stories in requirements engineering.
翻訳日:2023-10-24 03:56:04 公開日:2023-06-12
# webテストのためのニューラル組込み

Neural Embeddings for Web Testing ( http://arxiv.org/abs/2306.07400v1 )

ライセンス: Link先を確認
Andrea Stocco, Alexandra Willi, Luigi Libero Lucio Starace, Matteo Biagiola, Paolo Tonella(参考訳) Webテスト自動化技術は、Webクローラを使用して、テスト生成に使用されるWebアプリモデルを自動的に生成する。 既存のクローラは、状態等価性を評価するために、アプリ固有のしきい値ベースのアルゴリズムに依存している。 このようなアルゴリズムは一般的なケースではチューニングが困難であり、クローリングモデルからほぼ重複したWebページを正確に識別および削除することができない。 正確なWebアプリモデルを取得することに失敗すると、冗長なテストケースを生成する自動テスト生成ソリューションと、Webアプリの機能を適切にカバーしない不適切なテストスイートが実現します。 本稿では,ニューラルネット埋め込みに基づく新たな抽象化関数であるwebembedと,モデルベーステスト生成時に正確なwebアプリモデルを生成するためのしきい値フリー分類器を提案する。 9つのWebアプリに対する評価では,WEBEMBEDは,22%の精度,平均24%のリコール率を示す優れたWebアプリモデルを推定することにより,最先端技術よりも精度が高くなっている。 その結果、これらのモデルから生成されたテストスイートは、アプリ単位で2%から59%の改善と平均23%という高いコードカバレッジを達成している。

Web test automation techniques employ web crawlers to automatically produce a web app model that is used for test generation. Existing crawlers rely on app-specific, threshold-based, algorithms to assess state equivalence. Such algorithms are hard to tune in the general case and cannot accurately identify and remove near-duplicate web pages from crawl models. Failing to retrieve an accurate web app model results in automated test generation solutions that produce redundant test cases and inadequate test suites that do not cover the web app functionalities adequately. In this paper, we propose WEBEMBED, a novel abstraction function based on neural network embeddings and threshold-free classifiers that can be used to produce accurate web app models during model-based test generation. Our evaluation on nine web apps shows that WEBEMBED outperforms state-of-the-art techniques by detecting near-duplicates more accurately, inferring better web app models that exhibit 22% more precision, and 24% more recall on average. Consequently, the test suites generated from these models achieve higher code coverage, with improvements ranging from 2% to 59% on an app-wise basis and averaging at 23%.
翻訳日:2023-10-24 03:42:56 公開日:2023-06-12
# ソフトウェアアップデートは高度な脅威に対して役に立たないか?

Are Software Updates Useless Against Advanced Persistent Threats? ( http://arxiv.org/abs/2306.07355v1 )

ライセンス: Link先を確認
Fabio Massacci, Giorgio Di Tizio(参考訳) シェイクスピアのハムレットの価値あるジレンマは、企業やセキュリティ研究者を悩ませている。 ソフトウェアベンダが推奨する共通プラクティスの観点から見れば,その答は明確ではない – ソフトウェアを最新に保つべきだ。 でも 常識って いつも いい意味なの? 我々はそうではないと論じている。

A dilemma worth Shakespeare's Hamlet is increasingly haunting companies and security researchers: ``to update or not to update, this is the question``. From the perspective of recommended common practices by software vendors the answer is unambiguous: you should keep your software up-to-date. But is common sense always good sense? We argue it is not.
翻訳日:2023-10-24 03:42:28 公開日:2023-06-12
# BitcoinブロックチェーンのためのUMLプロファイル

A UML Profile for Bitcoin Blockchain ( http://arxiv.org/abs/2306.07054v1 )

ライセンス: Link先を確認
Behrouz Sefid-Dashti, Javad Salimi Sartakhti and Hassan Daghigh(参考訳) blockchainはビジネスにおける潜在的な利用で注目を集めている。 Bitcoinはブロックチェーンを利用しており、ここ数年でその関心が急増している。 モデル化する必要がある多くの用途があります。 モデリングは、アイデアを共有し、複雑さを減らし、ある人の視点を他と密に一致させ、あるレベルの精度と詳細でシステムの抽象化を提供するために、多くの人生の歩みで使われます。 ソフトウェアモデリングはモデル駆動工学(MDE)で使われ、ドメイン特化言語(DSL)はモデル開発を容易にし、ドメインの専門家に直感的な構文を提供する。 本研究は,アプリケーション開発の促進と,bitcoinの真理解を支援するために,bitcoinアプリケーションドメインのメタモデルの設計と評価を行った。 提案したメタモデルは、ステレオタイプ、タグ付き値、列挙、Object Constraint Language (OCL)によって定義された一連の制約を含むもので、統一モデリング言語(UML)プロファイルとして定義され、Sparx Enterprise Architect (Sparx EA)モデリングツールで実装された。 メタモデルによって開発されたケーススタディも紹介する。

Blockchain has received attention for its potential use in business. Bitcoin is powered by blockchain, and interest in it has surged in the past few years. It has many uses that need to be modeled. Modeling is used in many walks of life to share ideas, reduce complexity, achieve close alignment of one person viewpoint with another and provide abstractions of a system at some level of precision and detail. Software modeling is used in Model Driven Engineering (MDE), and Domain Specific Languages (DSLs) ease model development and provide intuitive syntax for domain experts. The present study has designed and evaluated a meta-model for the bitcoin application domain to facilitate application development and help in truly understanding bitcoin. The proposed meta-model, including stereotypes, tagged values, enumerations and a set of constraints defined by Object Constraint Language (OCL), was defined as a Unified Modeling Language (UML) profile and was implemented in the Sparx Enterprise Architect (Sparx EA) modeling tool. A case study developed by our meta-model is also presented.
翻訳日:2023-10-24 03:42:21 公開日:2023-06-12
# NLPとMLを用いたユースケース図の自動作成

Automated use case diagram generator using NLP and ML ( http://arxiv.org/abs/2306.06962v1 )

ライセンス: Link先を確認
Rukshan Piyumadu Dias, C.S.L.Vidanapathirana, Rukshala Weerasinghe, Asitha Manupiya, R.M.S.J.Bandara, Y.P.H.W.Ranasinghe(参考訳) 本稿では,NLPとMLを用いてユーザストーリーを解析し,ユースケース図を生成する手法を提案する。 ユースケース図は、sdlcの設計フェーズにおいて重要な役割を果たす。 これは、ユースケース図設計プロセスを自動化すれば、多くの時間と労力が省けるという事実を証明します。 これまで数多くの手動・半自動ツールが開発されてきた。 本稿では,それを設計する際に直面するユースケース図や問題についても述べる。 本稿は,ユースケース図を完全自動生成することで,これらの問題を解決する試みである。

This paper presents a novel approach to generate a use case diagram by analyzing the given user story using NLP and ML. Use case diagrams play a major role in the designing phase of the SDLC. This proves the fact that automating the use case diagram designing process would save a lot of time and effort. Numerous manual and semi-automated tools have been developed previously. This paper also discusses the need for use case diagrams and problems faced during designing that. This paper is an attempt to solve those issues by generating the use case diagram in a fully automatic manner.
翻訳日:2023-10-24 03:42:00 公開日:2023-06-12
# ファイル順序付け戦略がコードレビュープロセスに及ぼす影響の評価

Assessing the Impact of File Ordering Strategies on Code Review Process ( http://arxiv.org/abs/2306.06956v1 )

ライセンス: Link先を確認
Farid Bagirov, Pouria Derakhshanfar, Alexey Kalina, Elena Kartysheva, Vladimir Kovalenko(参考訳) 一般的なモダンなコードレビューツール(gerritやgithubなど)は、コードをアルファベット順にソートする。 以前の調査(オープンソースプロジェクト)では、コードレビューで変更されたファイルの位置がレビュープロセスに影響を与えることが示されている。 その結果、順番の低いファイルは、他のファイルよりもレビュー作業を受ける確率が低いことが判明した。 したがって、これらのファイルに欠陥がある可能性が高くなる。 本稿では、よく知られた産業プロジェクトIntelliJ IDEAのコードレビューにおけるファイル順序の影響について検討する。 まず, 大規模プロプライエタリソフトウェアプロジェクトにおける先行研究の結果を検証する。 次に、デフォルトのアルファベット順に代えて、変更したファイルをコード差分に従って順序付けする。 以上より,先行研究の観察を確認した。 コードレビューで表示されたファイルに対して、レビュアーがより多くのコメントを残すことが分かりました。 さらに、これらの結果は、データがアルファベット順に歪んだとしても、コード差分に従って変更ファイルを順序付けすると、コードレビューにおいてより精査を要する問題ファイルの配置に関して、標準のアルファベット順よりも優れたパフォーマンスが得られることを示している。 これらの結果は、コードレビューのための様々な順序付け戦略を探究する必要があることを裏付ける。

Popular modern code review tools (e.g. Gerrit and GitHub) sort files in a code review in alphabetical order. A prior study (on open-source projects) shows that the changed files' positions in the code review affect the review process. Their results show that files placed lower in the order have less chance of receiving reviewing efforts than the other files. Hence, there is a higher chance of missing defects in these files. This paper explores the impact of file order in the code review of the well-known industrial project IntelliJ IDEA. First, we verify the results of the prior study on a big proprietary software project. Then, we explore an alternative to the default Alphabetical order: ordering changed files according to their code diff. Our results confirm the observations of the previous study. We discover that reviewers leave more comments on the files shown higher in the code review. Moreover, these results show that, even with the data skewed toward Alphabetical order, ordering changed files according to their code diff performs better than standard Alphabetical order regarding placing problematic files, which needs more reviewing effort, in the code review. These results confirm that exploring various ordering strategies for code review needs more exploration.
翻訳日:2023-10-24 03:41:52 公開日:2023-06-12
# ペアプログラミングの心理的側面

Psychological Aspects of Pair Programming ( http://arxiv.org/abs/2306.07421v1 )

ライセンス: Link先を確認
Marcel Valov\'y(参考訳) 最近、ソフトウェア工学における人工知能とインテリジェントなペアリングのパートナーが出現し、ペアリングの心理学の研究を再考することは興味深い。 ペアプログラミングは、大学生にソフトウェア工学を教える魅力的な方法を提供する。 その研究は、様々なプログラミングの役割におけるプロのソフトウェアエンジニアのニーズと並行するペアリングソフトウェアの改善をよりよく理解することにも繋がる可能性がある。 目的: この予備研究の目的は, ペアプログラミング, 特に, 特定の役割に対する学生の態度と, ペアのパートナーから求められるものについて, 定量的かつ質的な洞察を得ることである。 この研究の目的は、この発見を利用して人工知能とのペアリングに関するさらなる研究を設計することである。 方法: 混合手法と実験手法を用いて, パイロット, ナビゲータ, ソロの役割が (n = 35) 学生の動機づけに及ぼす影響を判別した。 4つの実験セッションは、2つのソフトウェア工学大学の教室で豊富なデータコーパスを生み出した。 本研究は,シャピロ・ウィルク正規化試験と分散の一方向分析を用いて,異なる役割における平均固有モチベーションにおける変動の関係と意義を定量的に検証した。 その結果,実験参加者との半構造化インタビューが7回行われた。 定性的なデータの抜粋は,本質的な方法で理論解析法を適用された。 結果: ペアプログラミングの心理学的側面を理解するための7つのテーマと, 大学教室におけるその改善について, 体系的コーディング面接の書き起こしにより, 研究課題を解明した。 612の自己報告された本質的動機付けの統計分析により、学生は同時にプログラミングするよりもパイロットナビゲーターの役割のプログラミングがより興味深く楽しいことが判明した。

With the recent advent of artificially intelligent pairing partners in software engineering, it is interesting to renew the study of the psychology of pairing. Pair programming provides an attractive way of teaching software engineering to university students. Its study can also lead to a better understanding of the needs of professional software engineers in various programming roles and for the improvement of the concurrent pairing software. Objective: This preliminary study aimed to gain quantitative and qualitative insights into pair programming, especially students' attitudes towards its specific roles and what they require from the pairing partners. The research's goal is to use the findings to design further studies on pairing with artificial intelligence. Method: Using a mixed-methods and experimental approach, we distinguished the effects of the pilot, navigator, and solo roles on (N = 35) students' intrinsic motivation. Four experimental sessions produced a rich data corpus in two software engineering university classrooms. It was quantitatively investigated using the Shapiro-Wilk normality test and one-way analysis of variance (ANOVA) to confirm the relations and significance of variations in mean intrinsic motivation in different roles. Consequently, seven semi-structured interviews were conducted with the experiment's participants. The qualitative data excerpts were subjected to the thematic analysis method in an essentialist way. Results: The systematic coding interview transcripts elucidated the research topic by producing seven themes for understanding the psychological aspects of pair programming and for its improvement in university classrooms. Statistical analysis of 612 self-reported intrinsic motivation inventories confirmed that students find programming in pilot-navigator roles more interesting and enjoyable than programming simultaneously.
翻訳日:2023-10-23 19:45:27 公開日:2023-06-12
# 製品レベルでグローバルバリューチェーンをマッピングする

Mapping Global Value Chains at the Product Level ( http://arxiv.org/abs/2308.02491v1 )

ライセンス: Link先を確認
Lea Karbevska and C\'esar A. Hidalgo(参考訳) 新型コロナウイルス(COVID-19)のパンデミックやウクライナでの戦争など、経済の混乱をナビゲートするには、バリューチェーンのデータが不可欠だ。 しかし、その重要性にもかかわらず、"`World Input-Output Database''、"``Inter-Country Input-Output Tables'''、" ``EXIOBASE''、" ``EORA''" のような一般に利用可能なバリューチェーンデータセットは、製品(例えば、ラジオ受信機、電話機、電気コンデンサ、LCDなど)に関する詳細な情報がなく、より集約された産業部門(例えば、電気機器、電気通信)に依存している。 本稿では,きめ細かな国際貿易データから製品レベルの価値連鎖関係を推測するための機械学習と取引理論に基づく手法を提案する。 我々は,300以上の世界地域(例えば,米国,日本の県など)および1200以上の商品の輸出・輸入を要約したデータに適用し,貿易パターンに暗黙的に価値連鎖情報を推測する。 さらに、地域と国間の貿易フローを割り当てるために比例割当を用いる。 この研究は、物流、貿易、持続可能な開発に従事する人々にとって関心のある、関連する貿易フローでバリューチェーンデータを製品レベルでマッピングする近似的な方法を提供します。

Value chain data is crucial to navigate economic disruptions, such as those caused by the COVID-19 pandemic and the war in Ukraine. Yet, despite its importance, publicly available value chain datasets, such as the ``World Input-Output Database'', ``Inter-Country Input-Output Tables'', ``EXIOBASE'' or the ``EORA'', lack detailed information about products (e.g. Radio Receivers, Telephones, Electrical Capacitors, LCDs, etc.) and rely instead on more aggregate industrial sectors (e.g. Electrical Equipment, Telecommunications). Here, we introduce a method based on machine learning and trade theory to infer product-level value chain relationships from fine-grained international trade data. We apply our method to data summarizing the exports and imports of 300+ world regions (e.g. states in the U.S., prefectures in Japan, etc.) and 1200+ products to infer value chain information implicit in their trade patterns. Furthermore, we use proportional allocation to assign the trade flow between regions and countries. This work provides an approximate method to map value chain data at the product level with a relevant trade flow, that should be of interest to people working in logistics, trade, and sustainable development.
翻訳日:2023-10-23 15:22:10 公開日:2023-06-12
# Portfolioの最適化から量子ブロックチェーンとセキュリティへ:財務における量子コンピューティングの体系的レビュー

From Portfolio Optimization to Quantum Blockchain and Security: A Systematic Review of Quantum Computing in Finance ( http://arxiv.org/abs/2307.01155v1 )

ライセンス: Link先を確認
Abha Naik, Esra Yeniaras, Gerhard Hellstern, Grishma Prasad, Sanjay Kumar Lalta Prasad Vishwakarma(参考訳) 本稿では,量子ファイナンス分野における最近の研究の概要を,様々な観点から紹介する。 導出価格とリスク計算のためのPortfolio Optimization、Fraud Detection、Monte Carlo法が検討されている。 さらに,フィンテックの主要な概念であるブロックチェーン技術の分野における量子コンピューティングの応用について,総括的に概観する。 その意味では、まず、デジタルシグネチャアルゴリズム、ハッシュ関数、乱数生成器といった主要な暗号プリミティブと、ショアの量子ファクタリングとグローバーの量子検索アルゴリズムを考慮した量子コンピュータのマージ後のブロックチェーン技術のセキュリティ脆弱性と、ブロックチェーンの一般的な概要を紹介する。 次に、量子抵抗ブロックチェーンにおけるしきい値シグネチャ、リングシグネチャ、ゼロ知識証明システム、すなわちZK-SNARKによる量子抵抗ブロックチェーンシステムのプライバシー保護について議論する。 量子耐性ブロックチェーンと量子セーフブロックチェーンの違いを強調した後、これらのシステムを対象とした量子化攻撃に対するセキュリティ対策について言及します。 我々は,量子ブロックチェーン,効率的な量子マイニング,量子コンピューティングに基づくシステム構築に必要なインフラストラクチャに関する議論を終える。 このレビューは、量子コンピューティングと、その最も著名なアプリケーション領域であるファイナンスとの間のギャップを埋めるための橋渡しとなることを意図している。 我々は,金融と量子技術の交点における最先端の成果を,産業従事者と学者の両方に提供した。

In this paper, we provide an overview of the recent work in the quantum finance realm from various perspectives. The applications in consideration are Portfolio Optimization, Fraud Detection, and Monte Carlo methods for derivative pricing and risk calculation. Furthermore, we give a comprehensive overview of the applications of quantum computing in the field of blockchain technology which is a main concept in fintech. In that sense, we first introduce the general overview of blockchain with its main cryptographic primitives such as digital signature algorithms, hash functions, and random number generators as well as the security vulnerabilities of blockchain technologies after the merge of quantum computers considering Shor's quantum factoring and Grover's quantum search algorithms. We then discuss the privacy preserving quantum-resistant blockchain systems via threshold signatures, ring signatures, and zero-knowledge proof systems i.e. ZK-SNARKs in quantum resistant blockchains. After emphasizing the difference between the quantum-resistant blockchain and quantum-safe blockchain we mention the security countermeasures to take against the possible quantumized attacks aiming these systems. We finalize our discussion with quantum blockchain, efficient quantum mining and necessary infrastructures for constructing such systems based on quantum computing. This review has the intention to be a bridge to fill the gap between quantum computing and one of its most prominent application realms: Finance. We provide the state-of-the-art results in the intersection of finance and quantum technology for both industrial practitioners and academicians.
翻訳日:2023-07-09 13:50:57 公開日:2023-06-12
# キタエフリンドブラジアン中の混合状態量子スピン液体:動的アノン凝縮

Mixed-State Quantum Spin Liquid in Kitaev Lindbladian: Dynamical Anyon Condensation ( http://arxiv.org/abs/2305.09197v2 )

ライセンス: Link先を確認
Kyusung Hwang(参考訳) 縮合トポロジカル遷移を研究するための新しいプラットフォームとして,オープン量子スピン液体を提案する。 具体的な例として、北エフスピン液体 (KSL) をリンドブラッド・マスター方程式(英語版)法によるマルコフ環境に結合する。 厳密な解法と数値解法の組み合わせにより, 環境の脱コヒーレンスおよび散逸効果によって誘導される, 初期生成された純KSLと定常状態の混合状態KSLとの間の動的エノン凝縮遷移を示す。 オープン量子スピン液体中の任意の凝縮を生成する一般的な原理について論じる。 この研究は、混合状態の量子スピン液体を、任意の凝縮遷移の新しい経路として提示する。

We propose open quantum spin liquids as a novel platform for studying anyon condensation topological transitions. As a concrete example, we consider the Kitaev spin liquid (KSL) coupled to a Markovian environment via the Lindblad master equation approach. By a combined study of exact solutions and numerical approaches, we demonstrate a dynamical anyon condensation transition between the initially prepared pure KSL and mixed-state KSL arising in the steady state limit, induced by the environment's decoherence and dissipation effects. General principles of generating anyon condensations in open quantum spin liquids are discussed. This work presents mixed-state quantum spin liquids as a new route for anyon condensation transitions.
翻訳日:2023-07-02 14:00:30 公開日:2023-06-12
# アラビア語およびペルシア語多ドメイン感情分析のための重み付きカプセルネットネットワークに基づくアプローチの提案

Presenting an approach based on weighted CapsuleNet networks for Arabic and Persian multi-domain sentiment analysis ( http://arxiv.org/abs/2306.17068v1 )

ライセンス: Link先を確認
Mahboobeh Sadat Kobari, Nima Karimi, Benyamin Pourhosseini, Ramin Mousa(参考訳) 感情分類は自然言語処理における基本的なタスクであり、ポジティブ、ネガティブ、ニュートラルの3つのクラスのうちの1つを自由テキストに割り当てる。 しかし、感情分類モデルは高度にドメインに依存しており、分類器は、ある領域において妥当な精度で分類を行うが、単語の意味的重複が正確性に乏しいため、別の領域では分類しない。 本稿では,累積加重カプセルネットワークを用いたペルシャ/アラビア多ドメイン感情分析手法を提案する。 軽量カプセルアンサンブルは、各ドメインごとに別々のカプセルネットワークをトレーニングし、ドメイン依存度(DBD)と呼ばれる重み付け尺度から成っている。 この基準はTFとIDFから成り、各ドメインのそれぞれのドキュメントの依存関係を別々に計算し、この値は各カプセルが生成する可能性のある出力によって乗算される。 最終的に、これらの乗法の総和は最終的な出力の肩書きであり、極性を決定するために使われる。 そして、最も依存しているドメインは各ドメインの最終的な出力と見なされる。 提案手法はDigikalaデータセットを用いて評価し,既存の手法に比べて精度が高かった。 その結果,帰属領域の検出精度0.89,極性検出精度0.99が得られた。 また、不均衡なクラスを扱う問題に対して、コスト感受性関数が用いられた。 この機能は感情分類の精度を0.0162改善することができた。 amazon arabic dataに対するこのアプローチは、ドメイン分類において 0.9695 accuraciesを達成することができる。

Sentiment classification is a fundamental task in natural language processing, assigning one of the three classes, positive, negative, or neutral, to free texts. However, sentiment classification models are highly domain dependent; the classifier may perform classification with reasonable accuracy in one domain but not in another due to the Semantic multiplicity of words getting poor accuracy. This article presents a new Persian/Arabic multi-domain sentiment analysis method using the cumulative weighted capsule networks approach. Weighted capsule ensemble consists of training separate capsule networks for each domain and a weighting measure called domain belonging degree (DBD). This criterion consists of TF and IDF, which calculates the dependency of each document for each domain separately; this value is multiplied by the possible output that each capsule creates. In the end, the sum of these multiplications is the title of the final output, and is used to determine the polarity. And the most dependent domain is considered the final output for each domain. The proposed method was evaluated using the Digikala dataset and obtained acceptable accuracy compared to the existing approaches. It achieved an accuracy of 0.89 on detecting the domain of belonging and 0.99 on detecting the polarity. Also, for the problem of dealing with unbalanced classes, a cost-sensitive function was used. This function was able to achieve 0.0162 improvements in accuracy for sentiment classification. This approach on Amazon Arabic data can achieve 0.9695 accuracies in domain classification.
翻訳日:2023-07-02 13:07:47 公開日:2023-06-12
# MFAS: 人間の認知を模した多視点統合アーキテクチャ検索による感情認識

MFAS: Emotion Recognition through Multiple Perspectives Fusion Architecture Search Emulating Human Cognition ( http://arxiv.org/abs/2306.09361v1 )

ライセンス: Link先を確認
Haiyang Sun, Fulin Zhang, Zheng Lian, Yingying Guo, Shilei Zhang(参考訳) 音声感情認識は、人間に似たターゲット音声における感情状態を特定し分析することを目的としている。 完璧な感情認識は、幅広い人間と機械の相互作用に大いに役立つ。 人間の感情理解のプロセスに触発されて,人間のような理解に類似した連続的な視点から音声コンテンツを理解することによって,より包括的な感情情報を取得することができることを示した。 また,音声中の特定の手がかりに基づいて,人間が感情的な単語の知覚を調整することを考えると,新しい検索空間を設計し,その2種類の情報に対する最適な融合戦略を探索する。 実験結果は、この知覚調整の意義をさらに検証する。 これらの観測に基づいて,MFAS(Multiple perspectives Fusion Architecture Search)と呼ばれる新しいフレームワークを提案する。 具体的には,連続的知識を用いて音声意味と量子化に基づく知識を捉え,テキスト意味を学習する。 次に,それらの最適核融合戦略を探索する。 実験の結果,MFASは音声感情情報を包括的にキャプチャする既存のモデルを超え,融合戦略を自動的に調整できることがわかった。

Speech emotion recognition aims to identify and analyze emotional states in target speech similar to humans. Perfect emotion recognition can greatly benefit a wide range of human-machine interaction tasks. Inspired by the human process of understanding emotions, we demonstrate that compared to quantized modeling, understanding speech content from a continuous perspective, akin to human-like comprehension, enables the model to capture more comprehensive emotional information. Additionally, considering that humans adjust their perception of emotional words in textual semantic based on certain cues present in speech, we design a novel search space and search for the optimal fusion strategy for the two types of information. Experimental results further validate the significance of this perception adjustment. Building on these observations, we propose a novel framework called Multiple perspectives Fusion Architecture Search (MFAS). Specifically, we utilize continuous-based knowledge to capture speech semantic and quantization-based knowledge to learn textual semantic. Then, we search for the optimal fusion strategy for them. Experimental results demonstrate that MFAS surpasses existing models in comprehensively capturing speech emotion information and can automatically adjust fusion strategy.
翻訳日:2023-06-26 01:54:02 公開日:2023-06-12
# ソフトロボットのモルフォロジーと制御の共最適化を促進するモジュラーコントローラ

Modular Controllers Facilitate the Co-Optimization of Morphology and Control in Soft Robots ( http://arxiv.org/abs/2306.09358v1 )

ライセンス: Link先を確認
Alican Mertan and Nick Cheney(参考訳) ソフトロボティクスは急速に成長しているロボティクス研究の分野であり、手作業で複雑で、コンプライアンスが高く、一般的に直観的でないロボットボディ計画と行動の課題を考えると、デザインの自動化から大きな恩恵を受けるでしょう。 現在ソフトロボットのブレインボディーの共同最適化を制限する大きなハードルは、ロボットのコントローラーとそれが制御する特定のボディープランの間の脆弱な特殊化であり、早期収束に繋がることを示唆している。 ここでは、モジュラーコントローラはロボットのボディプランの変更に対してより堅牢であると仮定する。 モジュラーコントローラを用いたソフトロボットに形態的変異を施した後のロコモーション性能の低下を,フィッターオフスプリングに類似したグローバルコントローラを持つロボットと比較して示している。 さらに, モジュール型コントローラの類似体計画への移動性の向上により, ソフトロボットの脳-体共最適化が向上し, ポジティブな形態的変異が増加し, 進化したロボットの全体的な性能が向上することを示した。 この研究は、この特定の環境でソフトロボットの設計自動化を改善するための特定の方法を提供し、脳-身体の共最適化の課題をより一般的に理解するための証拠を提供することを望んでいる。

Soft robotics is a rapidly growing area of robotics research that would benefit greatly from design automation, given the challenges of manually engineering complex, compliant, and generally non-intuitive robot body plans and behaviors. It has been suggested that a major hurdle currently limiting soft robot brain-body co-optimization is the fragile specialization between a robot's controller and the particular body plan it controls, resulting in premature convergence. Here we posit that modular controllers are more robust to changes to a robot's body plan. We demonstrate a decreased reduction in locomotion performance after morphological mutations to soft robots with modular controllers, relative to those with similar global controllers - leading to fitter offspring. Moreover, we show that the increased transferability of modular controllers to similar body plans enables more effective brain-body co-optimization of soft robots, resulting in an increased rate of positive morphological mutations and higher overall performance of evolved robots. We hope that this work helps provide specific methods to improve soft robot design automation in this particular setting, while also providing evidence to support our understanding of the challenges of brain-body co-optimization more generally.
翻訳日:2023-06-26 01:53:22 公開日:2023-06-12
# 推薦システムにおける補間項目とユーザフェアネス

Interpolating Item and User Fairness in Recommendation Systems ( http://arxiv.org/abs/2306.10050v1 )

ライセンス: Link先を確認
Qinyi Chen, Jason Cheuk Nam Liang, Negin Golrezaei, Djallel Bouneffouf(参考訳) オンラインプラットフォームはレコメンデーションシステムを使用して顧客のエンゲージメントを高め、収益を上げる。 しかし、プラットフォームが売り手(アイテム)や顧客(ユーザ)といった多様な利害関係者と相互作用する多面的なプラットフォームでは、それぞれが望ましい結果を持っているため、適切な中間地を見つけることは複雑な運用上の課題となる。 本研究では,異なる利害関係者の利益のバランスをとる上で,プラットフォームの潜在的な妥協を捉えた‘公正価格’を調査した。 そこで我々は,商品とユーザの公正性の制約を補間しながら,プラットフォームが収益を最大化するフェアレコメンデーションフレームワークを提案する。 さらに,プラットフォームがユーザの好みに関する知識を欠き,バイナリ購入決定のみを観察できるような,より現実的で困難なオンライン環境において,公正な推奨問題をさらに検討する。 これに対処するために,我々は,商品とユーザの両方に対して公平性を確保しつつ,プラットフォームの収益を保ちながら,低精細なオンライン最適化アルゴリズムを設計する。 最後に,本手法の有効性を示すとともに,movielensデータを用いたケーススタディを通して提案手法を提案する。

Online platforms employ recommendation systems to enhance customer engagement and drive revenue. However, in a multi-sided platform where the platform interacts with diverse stakeholders such as sellers (items) and customers (users), each with their own desired outcomes, finding an appropriate middle ground becomes a complex operational challenge. In this work, we investigate the ``price of fairness'', which captures the platform's potential compromises when balancing the interests of different stakeholders. Motivated by this, we propose a fair recommendation framework where the platform maximizes its revenue while interpolating between item and user fairness constraints. We further examine the fair recommendation problem in a more realistic yet challenging online setting, where the platform lacks knowledge of user preferences and can only observe binary purchase decisions. To address this, we design a low-regret online optimization algorithm that preserves the platform's revenue while achieving fairness for both items and users. Finally, we demonstrate the effectiveness of our framework and proposed method via a case study on MovieLens data.
翻訳日:2023-06-26 01:38:48 公開日:2023-06-12
# ITカーボンフットプリントの測定 - 現状はどのようなものか?

Measuring IT Carbon Footprint: What is the Current Status Actually? ( http://arxiv.org/abs/2306.10049v1 )

ライセンス: Link先を確認
Tom Kennes(参考訳) 欧州連合(eu)からの新たな企業サステナビリティレポート指令にもかかわらず、大企業は温室効果ガス排出量をより透明にするよう圧力をかけている。 本稿では,これらの課題を4つのカテゴリに分類し,現状,欠点,今後の研究方向性を説明する。 これらのカテゴリは、ソフトウェアのエネルギー消費、サーバーのオーバーヘッドエネルギー消費、エネルギミックス、および実施炭素からの排出を測定する。 次に、さまざまな非営利およびオープンソースイニシアチブが導入され、cpu消費に基づく数学的フレームワークが、迅速かつ無力な評価のためのルールオブザウンブとして機能する。

Despite the new Corporate Sustainability Reporting Directive from the European Union, which presses large enterprises to be more transparent about their GHG emissions, and though large technology- or advisory firms might peddle otherwise, there are plenty of challenges ahead when it comes to measuring GHG emissions from IT activities in the first place. This paper categories those challenges into 4 categories, and explains the current status, shortcomings and potential future research directions. These categories are: measuring software energy consumption, server overhead energy consumption, Energy Mix and emissions from embodied carbon. Next to that, various non-profit and open-source initiatives are introduced as well as a mathematical framework, based on CPU consumption, that can act as a rule-of-thumb for quick and effortless assessments.
翻訳日:2023-06-26 01:38:28 公開日:2023-06-12
# 原点決定フローモデリングに関する学際的調査:理論と技術

An Interdisciplinary Survey on Origin-destination Flows Modeling: Theory and Techniques ( http://arxiv.org/abs/2306.10048v1 )

ライセンス: Link先を確認
Can Rong, Jingtao Ding, Yong Li(参考訳) 原点決定〜(OD)フローモデリングは、輸送における旅行需要の調査や地理における空間的相互作用モデリングなど、複数の分野にわたる広範な研究対象である。 しかし、異なる分野の研究者は独自の研究パラダイムを採用し、学際的なコミュニケーションが欠如しており、知識の相互受精や課題に対する新しい解決策の開発を妨げている。 本稿では,基本理論の活用から人口移動のメカニズムの研究,および計算モデルなどの工学的手法による実践的問題の解決に至るまで,ODフローを包括的かつ一括的に精査する系統的学際調査について述べる。 特に、地域経済学、都市地理学、社会物理学は、ODフローの基盤となるメカニズムを探求するために理論的な研究手法を採用することに長けている。 彼らは重力モデル、干渉機会モデル、放射モデルという3つの重要な理論モデルを開発した。 これらのモデルは, od流に対する距離, 機会, 人口の影響をそれぞれ検討することに焦点を当てている。 一方、交通、都市計画、計算機科学といった分野は、主にOD予測、OD構築、OD推定、OD予測の4つの実践的な問題に対処することに焦点を当てている。 ディープラーニングモデルのような高度な計算モデルは、これらの問題をより効果的に扱うために徐々に導入されている。 最後に,既存研究に基づき,現状の課題を概説し,今後の方向性を概説する。 本研究では,ODフロー関連研究における規律間の障壁を解消し,学際的視点と思考様式を育成することを目的とする。

Origin-destination~(OD) flow modeling is an extensively researched subject across multiple disciplines, such as the investigation of travel demand in transportation and spatial interaction modeling in geography. However, researchers from different fields tend to employ their own unique research paradigms and lack interdisciplinary communication, preventing the cross-fertilization of knowledge and the development of novel solutions to challenges. This article presents a systematic interdisciplinary survey that comprehensively and holistically scrutinizes OD flows from utilizing fundamental theory to studying the mechanism of population mobility and solving practical problems with engineering techniques, such as computational models. Specifically, regional economics, urban geography, and sociophysics are adept at employing theoretical research methods to explore the underlying mechanisms of OD flows. They have developed three influential theoretical models: the gravity model, the intervening opportunities model, and the radiation model. These models specifically focus on examining the fundamental influences of distance, opportunities, and population on OD flows, respectively. In the meantime, fields such as transportation, urban planning, and computer science primarily focus on addressing four practical problems: OD prediction, OD construction, OD estimation, and OD forecasting. Advanced computational models, such as deep learning models, have gradually been introduced to address these problems more effectively. Finally, based on the existing research, this survey summarizes current challenges and outlines future directions for this topic. Through this survey, we aim to break down the barriers between disciplines in OD flow-related research, fostering interdisciplinary perspectives and modes of thinking.
翻訳日:2023-06-26 01:38:11 公開日:2023-06-12
# シークエンシャルレコメンデーションのための近隣型ハード負マイニング

Neighborhood-based Hard Negative Mining for Sequential Recommendation ( http://arxiv.org/abs/2306.10047v1 )

ライセンス: Link先を確認
Lu Fan, Jiashu Pu, Rongsheng Zhang, Xiao-Ming Wu(参考訳) ネガティブサンプリングは、シーケンシャルレコメンデーションモデルのトレーニングにおいて重要な役割を果たす。 単にランダムな負のサンプル選択を採用するのではなく、訓練と性能を高めるために情報的な負のサンプルを抽出する多くの戦略が提案されている。 しかし、構造情報を利用するアプローチはほとんどない。 本研究では, 学習が進むにつれて, 異なる群におけるノード対類似性の分布は, 異なる群におけるアイテム対が異なる負の関係を持つ可能性が示唆された。 本研究の目的は,ユーザ行動に隠された構造情報を利用して負のマイニングを行うグラフベースの負のサンプリング手法を提案することである。 GNNOはまず、トレーニングシーケンスを用いたグローバルな重み付きアイテム遷移グラフを構築する。 その後、グラフ上の対象項目との重なりの度合いに基づいて、ハードネガティブなサンプルをマイニングする。 さらに、GNNOは、負のサンプルの硬さを制御するためにカリキュラム学習を採用している。 3つのAmazonベンチマークに対する大規模な実験は、GNNOが様々な最先端モデルのパフォーマンスを継続的に向上し、既存のネガティブサンプリング戦略を超越する効果を示した。 コードは \url{https://github.com/floatSDS/GNNO} でリリースされる。

Negative sampling plays a crucial role in training successful sequential recommendation models. Instead of merely employing random negative sample selection, numerous strategies have been proposed to mine informative negative samples to enhance training and performance. However, few of these approaches utilize structural information. In this work, we observe that as training progresses, the distributions of node-pair similarities in different groups with varying degrees of neighborhood overlap change significantly, suggesting that item pairs in distinct groups may possess different negative relationships. Motivated by this observation, we propose a Graph-based Negative sampling approach based on Neighborhood Overlap (GNNO) to exploit structural information hidden in user behaviors for negative mining. GNNO first constructs a global weighted item transition graph using training sequences. Subsequently, it mines hard negative samples based on the degree of overlap with the target item on the graph. Furthermore, GNNO employs curriculum learning to control the hardness of negative samples, progressing from easy to difficult. Extensive experiments on three Amazon benchmarks demonstrate GNNO's effectiveness in consistently enhancing the performance of various state-of-the-art models and surpassing existing negative sampling strategies. The code will be released at \url{https://github.com/floatSDSDS/GNNO}.
翻訳日:2023-06-26 01:37:44 公開日:2023-06-12
# 文書レイアウトアノテーション:公務領域におけるデータベースとベンチマーク

Document Layout Annotation: Database and Benchmark in the Domain of Public Affairs ( http://arxiv.org/abs/2306.10046v1 )

ライセンス: Link先を確認
Alejandro Pe\~na, Aythami Morales, Julian Fierrez, Javier Ortega-Garcia, Marcos Grande, I\~nigo Puente, Jorge Cordova, Gonzalo Cordova(参考訳) 毎日何千ものデジタル文書が、企業、公共団体、市民に有用な情報と共に生成される。 手動で処理できないことを考えると、これらの文書の自動処理は特定の分野においてますます必要となってきている。 しかし、ほとんどの場合、テキストのみの構文解析では、様々な意味を持つ異なるコンポーネントを通して提示される情報を十分に理解できないため、この課題は依然として困難なままである。 このような観点から、文書レイアウト分析(Document Layout Analysis, DLA)は、文書の基本コンポーネントを検出し分類することを目的とした、長年にわたる興味深い研究分野である。 本研究では4つの基本レイアウトブロックと4つのテキストカテゴリを含む,異なるレイアウトラベルを持つデジタル文書をセミオートマチックにアノテートする手法を用いた。 本稿では,スペイン政府から24件のデータソースを用いて,行政領域におけるDLAの新しいデータベースの収集に本手法を適用した。 データベースは、37.9Kドキュメントと441Kドキュメントページと、8Mラベルが8つのレイアウトブロックユニットに関連付けられている。 実験の結果,提案するテキストラベリング手順を最大99%の精度で検証した。

Every day, thousands of digital documents are generated with useful information for companies, public organizations, and citizens. Given the impossibility of processing them manually, the automatic processing of these documents is becoming increasingly necessary in certain sectors. However, this task remains challenging, since in most cases a text-only based parsing is not enough to fully understand the information presented through different components of varying significance. In this regard, Document Layout Analysis (DLA) has been an interesting research field for many years, which aims to detect and classify the basic components of a document. In this work, we used a procedure to semi-automatically annotate digital documents with different layout labels, including 4 basic layout blocks and 4 text categories. We apply this procedure to collect a novel database for DLA in the public affairs domain, using a set of 24 data sources from the Spanish Administration. The database comprises 37.9K documents with more than 441K document pages, and more than 8M labels associated to 8 layout block units. The results of our experiments validate the proposed text labeling procedure with accuracy up to 99%.
翻訳日:2023-06-26 01:37:24 公開日:2023-06-12
# 科学文献における表の実用的実体連結システム

A Practical Entity Linking System for Tables in Scientific Literature ( http://arxiv.org/abs/2306.10044v1 )

ライセンス: Link先を確認
Varish Mulwad, Tim Finin, Vijay S. Kumar, Jenny Weisenberg Williams, Sharad Dixit, and Anupam Joshi(参考訳) エンティティリンクは、これらのドキュメント内のテーブルに含まれる関連情報の検索を含む、科学的文書に対する高度な質問応答を容易にする知識グラフを構築するための重要なステップである。 本稿では,ウィキデータベース知識ベース内の項目とエンティティをリンクする汎用システムを提案する。 ドメイン固有のエンティティ、特にcovid-19関連科学文献の表に埋め込まれたエンティティをリンクするために、このシステムをどのように適応するかを説明します。 我々は、エンティティリンクアプローチを実際により実現可能にする、システムの効率的なオフラインインスタンスのセットアップについて説明する。 科学表の意味的意味を推測するより広範なアプローチの一環として,テーブルの構造的特徴と意味的特徴を活用し,全体の実体リンク性能を向上させる。

Entity linking is an important step towards constructing knowledge graphs that facilitate advanced question answering over scientific documents, including the retrieval of relevant information included in tables within these documents. This paper introduces a general-purpose system for linking entities to items in the Wikidata knowledge base. It describes how we adapt this system for linking domain-specific entities, especially for those entities embedded within tables drawn from COVID-19-related scientific literature. We describe the setup of an efficient offline instance of the system that enables our entity-linking approach to be more feasible in practice. As part of a broader approach to infer the semantic meaning of scientific tables, we leverage the structural and semantic characteristics of the tables to improve overall entity linking performance.
翻訳日:2023-06-26 01:37:06 公開日:2023-06-12
# 現代印刷への貢献のためのコントラスト注意ネットワーク

Contrastive Attention Networks for Attribution of Early Modern Print ( http://arxiv.org/abs/2306.07998v1 )

ライセンス: Link先を確認
Nikolai Vogler, Kartik Goyal, Kishore PV Reddy, Elizaveta Pertseva, Samuel V. Lemley, Christopher N. Warren, Max G'Sell, Taylor Berg-Kirkpatrick(参考訳) 本稿では,初期(1500年~1800年)における未知の印刷物を特定する機械学習技術を開発した。 具体的には、匿名印刷の文字タイプインプリントと、既知のプリンタと連携して、その起源の証拠を提供することに焦点を当てる。 これまで、この研究は分析文献学者による手作業による調査に限られていた。 本稿では,文字画像ペア間で類似した損傷を識別するための比較注意に基づくメトリックラーニング手法を提案する。 教師付きデータの少ない量を克服するために,初期印刷プロセスによって生じる曲げ,骨折,およびインキの変動をシミュレートすることを目的としたランダムデータ合成手法を設計する。 本手法は,本時代における印刷物間の下流損傷型インプリントマッチングの改善に成功し,ドメイン内の専門家による検証を行った。 近代初期の2つの重要な哲学作品に対するアプローチの結果から、これらの本の起源と内容に関する現存する歴史研究が拡大する可能性が示唆された。

In this paper, we develop machine learning techniques to identify unknown printers in early modern (c.~1500--1800) English printed books. Specifically, we focus on matching uniquely damaged character type-imprints in anonymously printed books to works with known printers in order to provide evidence of their origins. Until now, this work has been limited to manual investigations by analytical bibliographers. We present a Contrastive Attention-based Metric Learning approach to identify similar damage across character image pairs, which is sensitive to very subtle differences in glyph shapes, yet robust to various confounding sources of noise associated with digitized historical books. To overcome the scarce amount of supervised data, we design a random data synthesis procedure that aims to simulate bends, fractures, and inking variations induced by the early printing process. Our method successfully improves downstream damaged type-imprint matching among printed works from this period, as validated by in-domain human experts. The results of our approach on two important philosophical works from the Early Modern period demonstrate potential to extend the extant historical research about the origins and content of these books.
翻訳日:2023-06-16 23:42:33 公開日:2023-06-12
# インターネットファイアウォールログファイルのマルチクラス分類に関する機械学習アプローチ

Machine Learning Approach on Multiclass Classification of Internet Firewall Log Files ( http://arxiv.org/abs/2306.07997v1 )

ライセンス: Link先を確認
Md Habibur Rahman, Taminul Islam, Md Masum Rana, Rehnuma Tasnim, Tanzina Rahman Mona, Md. Mamun Sakib(参考訳) ファイアウォールは、すべての入ってくる(そして時々出る)データパケットをスクリーニングすることで、通信ネットワークを確保する上で重要なコンポーネントである。 フィルタリングは、入ってくるデータパケットと悪意のあるコードがネットワークに入るのを防ぐために設計された一連のルールを比較して行われる。 ネットワークを入出するデータパケットの流れを制御するため、インターネットファイアウォールは、すべてのアクティビティのトラックを保持する。 ログファイルの主な機能はトラブルシューティングと診断を支援することだが、それらに含まれる情報はシステム監査や法医学にも非常に関係している。 ファイアウォールの主な機能は、悪意のあるデータパケットの送信を防ぐことである。 サイバー攻撃に対する防御を強化し、いつ、どのように悪意ある行動がインターネットに影響を与えるかを理解するためには、ログファイルを調べる必要がある。 その結果、ファイアウォールは、入出パケットを「許容」、「デニー」、「ドロップ」、または「リセットする」かを判定する。 本研究では,ファイアウォール装置が記録したデータを理解するために,様々な分類アルゴリズムを適用する。 ランダムフォレスト手法における99%の精度スコアを有するハーモニック平均f1スコア、リコール、感度測定データを用いて、分類器の性能を比較する。 提案手法は,他の手法で生成された高い精度で,ファイアウォール分類率の向上に大きく寄与した。

Firewalls are critical components in securing communication networks by screening all incoming (and occasionally exiting) data packets. Filtering is carried out by comparing incoming data packets to a set of rules designed to prevent malicious code from entering the network. To regulate the flow of data packets entering and leaving a network, an Internet firewall keeps a track of all activity. While the primary function of log files is to aid in troubleshooting and diagnostics, the information they contain is also very relevant to system audits and forensics. Firewalls primary function is to prevent malicious data packets from being sent. In order to better defend against cyberattacks and understand when and how malicious actions are influencing the internet, it is necessary to examine log files. As a result, the firewall decides whether to 'allow,' 'deny,' 'drop,' or 'reset-both' the incoming and outgoing packets. In this research, we apply various categorization algorithms to make sense of data logged by a firewall device. Harmonic mean F1 score, recall, and sensitivity measurement data with a 99% accuracy score in the random forest technique are used to compare the classifier's performance. To be sure, the proposed characteristics did significantly contribute to enhancing the firewall classification rate, as seen by the high accuracy rates generated by the other methods.
翻訳日:2023-06-16 23:42:16 公開日:2023-06-12
# 天文望遠鏡のための点拡散関数モデリング--弱い重力レンズ研究を中心に

Point spread function modelling for astronomical telescopes: a review focused on weak gravitational lensing studies ( http://arxiv.org/abs/2306.07996v1 )

ライセンス: Link先を確認
Tobias Liaudat and Jean-Luc Starck and Martin Kilbinger and Pierre-Antoine Frugier(参考訳) ポイントスプレッド関数(PSF)の正確なモデリングは、望遠鏡や大気による歪みやぼやけの補正を可能にするため、天文学的な観測において最も重要である。 PSFモデリングは天体の性質を正確に測定するために重要である。 この数十年で、望遠鏡や機器のパワーと複雑さが着実に向上しました。 ユークリッドやLSSTのような今後の銀河探査では、前例のない量のデータと質が観測される。 これらの新しい施設と調査のためにPSFをモデル化するには、常に厳格なエラー要求に対応する新しいモデリング技術が必要である。 このレビューの目的は3つある。 まず,より物理的に動機づけられたpsfモデリングに必要な光学的背景を紹介するとともに,今後の展開のために再利用可能な観測モデルを提案する。 第2に,視・検出器レベルの貢献者と雰囲気を含むpsfのさまざまな物理的貢献者の概要について述べる。 概観は、モデル化された効果をよりよく理解するのに役立つと期待している。 第3に、地上及び宇宙望遠鏡のパラメトリックおよび非パラメトリックファミリーとpsfモデリングの異なる方法について、その利点と限界について論じる。 その後、PSFモデルの検証手法に対処し、弱レンズ化研究に関連するいくつかの指標を詳細に論じる。 最後に,天文望遠鏡のpsfモデリングにおける課題と今後の方向性について考察する。

The accurate modelling of the Point Spread Function (PSF) is of paramount importance in astronomical observations, as it allows for the correction of distortions and blurring caused by the telescope and atmosphere. PSF modelling is crucial for accurately measuring celestial objects' properties. The last decades brought us a steady increase in the power and complexity of astronomical telescopes and instruments. Upcoming galaxy surveys like Euclid and LSST will observe an unprecedented amount and quality of data. Modelling the PSF for these new facilities and surveys requires novel modelling techniques that can cope with the ever-tightening error requirements. The purpose of this review is three-fold. First, we introduce the optical background required for a more physically-motivated PSF modelling and propose an observational model that can be reused for future developments. Second, we provide an overview of the different physical contributors of the PSF, including the optic- and detector-level contributors and the atmosphere. We expect that the overview will help better understand the modelled effects. Third, we discuss the different methods for PSF modelling from the parametric and non-parametric families for ground- and space-based telescopes, with their advantages and limitations. Validation methods for PSF models are then addressed, with several metrics related to weak lensing studies discussed in detail. Finally, we explore current challenges and future directions in PSF modelling for astronomical telescopes.
翻訳日:2023-06-16 23:41:55 公開日:2023-06-12
# 意味に基づくニューラルネットワークの修復

Semantic-Based Neural Network Repair ( http://arxiv.org/abs/2306.07995v1 )

ライセンス: Link先を確認
Richard Schumi, Jun Sun(参考訳) 近年、ニューラルネットワークは多くの安全クリティカルシステムを含む多くの分野に普及している。 ニューラルネットワークはTensorFlowやPyTorchといったフレームワークでプログラミングすることで構築(およびトレーニング)される。 開発者は、ニューラルネットワークを手動でプログラムしたり、自動生成する(AutoMLなど)ために、定義済みの豊富なレイヤを適用する。 異なるレイヤを持つニューラルネットワークを構成することは、これらのレイヤを使用するために満たさなければならない非自明な制約のためにエラーを起こしやすい。 本研究では,誤ったニューラルネットワークを自動的に修復する手法を提案する。 課題は、ネットワークが有効になるように最小限の変更を特定することである。 層の変更は、その後の層にカスケード効果をもたらす可能性があるので、我々のアプローチは「グローバルに」最小限の修正を特定するために再帰的に探索する必要がある。 提案手法は,ディープラーニングレイヤの実行可能なセマンティクスに基づいており,実際に一般的な4種類のエラーに焦点を当てている。 我々は,2つの利用シナリオ,すなわち,自動生成されたニューラルネットワークと,一般的なモデルバグに苦しむ手作業によるニューラルネットワークの修復について評価した。 その結果、ランダムに生成されたニューラルネットワーク群(既存のaiフレームワークテストアプローチで生成された)の100%を効果的かつ効率的に(平均修理時間は21.08秒)、93.75%の実際のニューラルネットワークバグ群(平均3min 40秒)の修復が可能となった。

Recently, neural networks have spread into numerous fields including many safety-critical systems. Neural networks are built (and trained) by programming in frameworks such as TensorFlow and PyTorch. Developers apply a rich set of pre-defined layers to manually program neural networks or to automatically generate them (e.g., through AutoML). Composing neural networks with different layers is error-prone due to the non-trivial constraints that must be satisfied in order to use those layers. In this work, we propose an approach to automatically repair erroneous neural networks. The challenge is in identifying a minimal modification to the network so that it becomes valid. Modifying a layer might have cascading effects on subsequent layers and thus our approach must search recursively to identify a "globally" minimal modification. Our approach is based on an executable semantics of deep learning layers and focuses on four kinds of errors which are common in practice. We evaluate our approach for two usage scenarios, i.e., repairing automatically generated neural networks and manually written ones suffering from common model bugs. The results show that we are able to repair 100% of a set of randomly generated neural networks (which are produced with an existing AI framework testing approach) effectively and efficiently (with an average repair time of 21.08s) and 93.75% of a collection of real neural network bugs (with an average time of 3min 40s).
翻訳日:2023-06-16 23:41:33 公開日:2023-06-12
# MSSRNet:教師なしテキストスタイル転送のためのシーケンススタイル表現を操作する

MSSRNet: Manipulating Sequential Style Representation for Unsupervised Text Style Transfer ( http://arxiv.org/abs/2306.07994v1 )

ライセンス: Link先を確認
Yazheng Yang, Zhou Zhao, Qi Liu(参考訳) 教師なしのテキストスタイル転送タスクは、メインコンテンツを保持しながらテキストをターゲットスタイルに書き換えることを目的としている。 従来の方法では、固定サイズのベクトルを使ってテキストスタイルを規制するが、個々のトークンのスタイル強度を正確に伝達することは困難である。 実際、テキストの各トークンは異なるスタイルの強度を持ち、全体的なスタイルに異なる貢献をする。 提案手法では,個々のスタイルベクトルをテキスト内の各トークンに割り当てることで,スタイル強度の微粒度制御と操作を可能にした。 さらに,教師学習と統合された対人学習フレームワークを導入し,学習安定性を高め,高次元最適化の複雑さを低減する。 提案手法の有効性を,2種類の転送条件と複数種類の転送条件において明らかに改善されたスタイル転送精度とコンテンツ保存の観点から検証した。

Unsupervised text style transfer task aims to rewrite a text into target style while preserving its main content. Traditional methods rely on the use of a fixed-sized vector to regulate text style, which is difficult to accurately convey the style strength for each individual token. In fact, each token of a text contains different style intensity and makes different contribution to the overall style. Our proposed method addresses this issue by assigning individual style vector to each token in a text, allowing for fine-grained control and manipulation of the style strength. Additionally, an adversarial training framework integrated with teacher-student learning is introduced to enhance training stability and reduce the complexity of high-dimensional optimization. The results of our experiments demonstrate the efficacy of our method in terms of clearly improved style transfer accuracy and content preservation in both two-style transfer and multi-style transfer settings.
翻訳日:2023-06-16 23:41:10 公開日:2023-06-12
# スマートグリッドにおけるサイバー攻撃の積極的な検出とリスク説明のための信頼できる人工知能フレームワーク

Trustworthy Artificial Intelligence Framework for Proactive Detection and Risk Explanation of Cyber Attacks in Smart Grid ( http://arxiv.org/abs/2306.07993v1 )

ライセンス: Link先を確認
Md. Shirajum Munir, Sachin Shetty, and Danda B. Rawat(参考訳) スマートグリッドインフラにおける再生可能エネルギー源、発電機、消費者、およびプロシューマーなどの分散型エネルギー資源(DER)の急速な成長は、グリッドコントローラに重大なサイバーセキュリティと信頼の課題をもたらす。 したがって、敵の戦術を特定し、攻撃者のderの強さを測定することが重要である。 信頼性の高いスマートグリッドコントローラを実現するために,DERの制御・統計メッセージによって引き起こされるサイバーリスクを積極的に識別し,説明するための,信頼できる人工知能(AI)機構を検討する。 このようにして、Wardの最小分散式に基づいて攻撃のリスクを動的に定量化しながら、潜在的なサイバー脅威を検出し、Shapley値解釈に基づいて根本原因を分析するAIアルゴリズムのデプロイを容易にする、信頼できるAIフレームワークを提案し、開発する。 最先端データセットによる実験は、信頼性、公正性、説明可能性、透明性、再現性、説明責任の能力を満たすことによって、提案されたフレームワークを信頼できるAIとして確立する。

The rapid growth of distributed energy resources (DERs), such as renewable energy sources, generators, consumers, and prosumers in the smart grid infrastructure, poses significant cybersecurity and trust challenges to the grid controller. Consequently, it is crucial to identify adversarial tactics and measure the strength of the attacker's DER. To enable a trustworthy smart grid controller, this work investigates a trustworthy artificial intelligence (AI) mechanism for proactive identification and explanation of the cyber risk caused by the control/status message of DERs. Thus, proposing and developing a trustworthy AI framework to facilitate the deployment of any AI algorithms for detecting potential cyber threats and analyzing root causes based on Shapley value interpretation while dynamically quantifying the risk of an attack based on Ward's minimum variance formula. The experiment with a state-of-the-art dataset establishes the proposed framework as a trustworthy AI by fulfilling the capabilities of reliability, fairness, explainability, transparency, reproducibility, and accountability.
翻訳日:2023-06-16 23:40:55 公開日:2023-06-12
# 不確かさはいつ重要か? ML支援意思決定における予測不確かさの影響の理解

When Does Uncertainty Matter?: Understanding the Impact of Predictive Uncertainty in ML Assisted Decision Making ( http://arxiv.org/abs/2011.06167v3 )

ライセンス: Link先を確認
Sean McGrath, Parth Mehta, Alexandra Zytek, Isaac Lage, Himabindu Lakkaraju(参考訳) 機械学習(ML)モデルは、人間の意思決定者を支援するためにますます採用されているため、モデル予測を意思決定に組み込むかどうか、どのように組み込むかを決めるのに役立つ、関連するインプットを提供することが重要になる。 例えば、モデル予測に関連する不確実性を伝えることは、この点において役立つ可能性がある。 本研究では, 住宅賃貸価格予測のためのml支援意思決定の文脈において, 異なるレベルの専門知識を有する人々が, 異なるタイプの予測不確実性(すなわち, 異なる形状とばらつきを持つ後方予測分布)にどう反応するかを体系的に評価するために, ユーザ調査 (190人から1,330 回答) を実施する。 その結果、後発予測分布を示すことは、我々が検討した後発予測分布の形状やばらつきに関係なく、mlモデルの予測に不一致を生じさせ、これらの影響は、mlとドメインの両方の専門知識に敏感であることがわかった。 これは、後方予測分布は、注意して使用し、分布の種類と人間の専門知識を考慮に入れるべき有用な意思決定支援として役立つ可能性があることを示唆している。

As machine learning (ML) models are increasingly being employed to assist human decision makers, it becomes critical to provide these decision makers with relevant inputs which can help them decide if and how to incorporate model predictions into their decision making. For instance, communicating the uncertainty associated with model predictions could potentially be helpful in this regard. In this work, we carry out user studies (1,330 responses from 190 participants) to systematically assess how people with differing levels of expertise respond to different types of predictive uncertainty (i.e., posterior predictive distributions with different shapes and variances) in the context of ML assisted decision making for predicting apartment rental prices. We found that showing posterior predictive distributions led to smaller disagreements with the ML model's predictions, regardless of the shapes and variances of the posterior predictive distributions we considered, and that these effects may be sensitive to expertise in both ML and the domain. This suggests that posterior predictive distributions can potentially serve as useful decision aids which should be used with caution and take into account the type of distribution and the expertise of the human.
翻訳日:2023-06-14 19:12:59 公開日:2023-06-12
# 縮退2次元フラストレーションフリースピン系のサブ指数時間での解法

Solving degenerate 2D frustration-free spin systems in sub-exponential time ( http://arxiv.org/abs/2004.02850v2 )

ライセンス: Link先を確認
Nilin Abrahamsen(参考訳) 本研究では, 近似接地空間プロジェクタ(agsps)の改良解析を行い, 縮退接地空間の設定において, 鋭い誤差低減率を求める。 改良されたツールにより、最近証明された2次元領域法則は、基底空間に直接拡張され、基底状態を計算するための準指数時間古典的アルゴリズムが生成される。 この時間複雑性は2次元の古典的未フラストレーションシステムの特別な場合であっても、亜指数を超えて改善することはできない。

We give an improved analysis of approximate ground space projectors (AGSPs) to obtain a sharp error reduction bound in the setting a degenerate ground space. The improved tools imply that the recently proven 2D area law directly extends to sub-exponentially degenerate ground spaces and also yields a sub-exponential-time classical algorithm to compute the ground states. This time complexity cannot be improved beyond sub-exponential, even for the special case of classical unfrustrated systems in 2D.
翻訳日:2023-06-14 19:11:44 公開日:2023-06-12
# 動的エンティティ関連性ランキングのためのトリオニューラルモデル

A Trio Neural Model for Dynamic Entity Relatedness Ranking ( http://arxiv.org/abs/1808.08316v4 )

ライセンス: Link先を確認
Tu Nguyen, Tuan Tran and Wolfgang Nejdl(参考訳) エンティティ関連性の測定は多くの自然言語処理および情報検索アプリケーションの基本課題である。 以前の研究はしばしば静的な設定と教師なしの方法でエンティティ関連性を研究する。 しかし、現実世界の実体はしばしば多くの異なる関係に関係しており、したがって実体関係は時間とともに非常にダイナミックである。 本研究では,集合的注意を監督として活用し,動的実体関連性に対するニューラルネットワークに基づくアプローチを提案する。 我々のモデルは、ジョイントフレームワークでリッチで異なるエンティティ表現を学習することができる。 大規模データセットの広範な実験を通じて,本手法は競争基準よりも優れた結果が得られることを示す。

Measuring entity relatedness is a fundamental task for many natural language processing and information retrieval applications. Prior work often studies entity relatedness in static settings and an unsupervised manner. However, entities in real-world are often involved in many different relationships, consequently entity-relations are very dynamic over time. In this work, we propose a neural networkbased approach for dynamic entity relatedness, leveraging the collective attention as supervision. Our model is capable of learning rich and different entity representations in a joint framework. Through extensive experiments on large-scale datasets, we demonstrate that our method achieves better results than competitive baselines.
翻訳日:2023-06-14 19:11:24 公開日:2023-06-12
# 実体の時間的側面を推薦する複数のモデル

Multiple Models for Recommending Temporal Aspects of Entities ( http://arxiv.org/abs/1803.07890v3 )

ライセンス: Link先を確認
Tu Nguyen, Nattiya Kanhabua, Wolfgang Nejdl(参考訳) エンティティ・アスペクト・レコメンデーション(Entity aspect recommendation)は、セマンティック・サーチにおける新たなタスクであり、ユーザがエンティティに関するセレンディピティーで顕著な情報を見つけるのに役立つ。 しかし、エンティティの側面は一時的な動的であり、しばしば時間とともに起こるイベントによって駆動される。 このような場合、サリエンス機能のみに基づくアスペクト提案は、2つの理由から不満足な結果をもたらす可能性がある。 第一に、敬礼はしばしば長期間にわたって蓄積され、納期は考慮されない。 第二に、イベントエンティティに関連する多くの側面は時間に依存します。 本稿では,検索体験を改善するために,最も関連性の高い側面を推薦し,時間を考慮することを目的とした,あるエンティティに対する時間的側面推薦のタスクについて検討する。 本稿では,複数時間およびタイプ依存モデルから学習し,サリエンスとリレーシ特性を動的に交換するイベント中心アンサンブルランキング手法を提案する。 実世界の問合せログに関する広範な実験を通じて,本手法が堅牢であり,競合するベースラインよりも有効であることを示す。

Entity aspect recommendation is an emerging task in semantic search that helps users discover serendipitous and prominent information with respect to an entity, of which salience (e.g., popularity) is the most important factor in previous work. However, entity aspects are temporally dynamic and often driven by events happening over time. For such cases, aspect suggestion based solely on salience features can give unsatisfactory results, for two reasons. First, salience is often accumulated over a long time period and does not account for recency. Second, many aspects related to an event entity are strongly time-dependent. In this paper, we study the task of temporal aspect recommendation for a given entity, which aims at recommending the most relevant aspects and takes into account time in order to improve search experience. We propose a novel event-centric ensemble ranking method that learns from multiple time and type-dependent models and dynamically trades off salience and recency characteristics. Through extensive experiments on real-world query logs, we demonstrate that our method is robust and achieves better effectiveness than competitive baselines.
翻訳日:2023-06-14 19:11:15 公開日:2023-06-12
# samanantar: 11のindic言語で利用可能な最大の並列コーパスコレクション

Samanantar: The Largest Publicly Available Parallel Corpora Collection for 11 Indic Languages ( http://arxiv.org/abs/2104.05596v4 )

ライセンス: Link先を確認
Gowtham Ramesh, Sumanth Doddapaneni, Aravinth Bheemaraj, Mayank Jobanputra, Raghavan AK, Ajitesh Sharma, Sujit Sahoo, Harshita Diddee, Mahalakshmi J, Divyanshu Kakwani, Navneet Kumar, Aswin Pradeep, Srihari Nagaraj, Kumar Deepak, Vivek Raghavan, Anoop Kunchukuttan, Pratyush Kumar, Mitesh Shantadevi Khapra(参考訳) 我々は,indic 言語で利用可能な最大規模の並列コーパスコレクションである samanantar を提案する。 このコレクションには英語と11の言語(2つの言語族から)の間で合計4970万の文対が含まれている。 具体的には、既存のパラレルコーパスから1240万の文対をコンパイルし、さらにWebから3740万の文対をマイニングし、4倍に増加した。 多くのコーパス、ツール、メソッドを組み合わせることで、webから並列文をマイニングします。 (a) web-crawled monolingual corpora b)スキャンした文書から文章を抽出する文書OCR (c)文の整列のための多言語表現モデル、及び (d)大文の検索における近距離探索 新たに採掘したコーパスから採取したサンプルのヒトによる評価は,11言語にわたる並列文の高品質を検証した。 さらに、ピボット言語として英語を用いて、英語中心の並列コーパスから55個の言語対の8340万文対を抽出する。 Samanantarは既存のモデルとFLORESなどの公開ベンチマークのベースラインを上回り、Samanantarの有用性を確立します。 私たちのデータとモデルはhttps://ai4bharat.iitm.ac.in/samanantarで公開されています。

We present Samanantar, the largest publicly available parallel corpora collection for Indic languages. The collection contains a total of 49.7 million sentence pairs between English and 11 Indic languages (from two language families). Specifically, we compile 12.4 million sentence pairs from existing, publicly-available parallel corpora, and additionally mine 37.4 million sentence pairs from the web, resulting in a 4x increase. We mine the parallel sentences from the web by combining many corpora, tools, and methods: (a) web-crawled monolingual corpora, (b) document OCR for extracting sentences from scanned documents, (c) multilingual representation models for aligning sentences, and (d) approximate nearest neighbor search for searching in a large collection of sentences. Human evaluation of samples from the newly mined corpora validate the high quality of the parallel sentences across 11 languages. Further, we extract 83.4 million sentence pairs between all 55 Indic language pairs from the English-centric parallel corpus using English as the pivot language. We trained multilingual NMT models spanning all these languages on Samanantar, which outperform existing models and baselines on publicly available benchmarks, such as FLORES, establishing the utility of Samanantar. Our data and models are available publicly at https://ai4bharat.iitm.ac.in/samanantar and we hope they will help advance research in NMT and multilingual NLP for Indic languages.
翻訳日:2023-06-14 19:01:42 公開日:2023-06-12
# 因子増強木のアンサンブル

Factor-augmented tree ensembles ( http://arxiv.org/abs/2111.14000v6 )

ライセンス: Link先を確認
Filippo Pellegrino(参考訳) 本論文は, 時系列回帰木の情報集合を, 状態空間法で抽出した潜在定常因子を用いて拡張することを提案する。 このアプローチでは、2次元の時系列回帰木を一般化する。 まず、測定誤差、非定常傾向、季節性、観察不足などの不規則性を示す予測器を処理できる。 第二に、ドメイン固有理論を使って時系列回帰木を知らせる透明な方法を与える。 経験的に、これらの因子拡大木のアンサンブルは、マクロファイナンス問題に対する信頼できるアプローチを提供する。 この記事では、株式のボラティリティと米国のビジネスサイクルの間のリードラグ効果に焦点を当てます。

This manuscript proposes to extend the information set of time-series regression trees with latent stationary factors extracted via state-space methods. In doing so, this approach generalises time-series regression trees on two dimensions. First, it allows to handle predictors that exhibit measurement error, non-stationary trends, seasonality and/or irregularities such as missing observations. Second, it gives a transparent way for using domain-specific theory to inform time-series regression trees. Empirically, ensembles of these factor-augmented trees provide a reliable approach for macro-finance problems. This article highlights it focussing on the lead-lag effect between equity volatility and the business cycle in the United States.
翻訳日:2023-06-14 18:52:02 公開日:2023-06-12
# 純三部体の絡み合いのモノガミー不等式

Monogamy inequality of entanglement of pure tripartite qudit states ( http://arxiv.org/abs/2204.13649v2 )

ライセンス: Link先を確認
Sumit Nandi, A. S. Majumdar(参考訳) 我々は、Coffman-Kundu-Woottersの不等式に類似した不等式を解析的に確立し、$\mathbb{C}^d\otimes \mathbb{C}^d\otimes \mathbb{C}^d$ 次元純状態における絡み合いのモノガミーを簡潔に記述する。 この不等式の導出は、絡み合いの g-共起 \cite{gour2} 測度に基づいている。 純三成分qudit状態のサブシステムの共有の絡み合いは、常に一夫一婦制の制約を満たすことが示されている。

We analytically establish an inequality analogous to the Coffman-Kundu-Wootters inequality, which succinctly describes monogamy of entanglement in $\mathbb{C}^d\otimes \mathbb{C}^d\otimes \mathbb{C}^d$ dimensional pure states. The derivation of this inequality is based on the G-concurrence \cite{gour2} measure of entanglement. It is shown that the shared entanglement of the subsystems of a pure tripartite qudit state always satisfy a monogamy constraint.
翻訳日:2023-06-14 18:42:38 公開日:2023-06-12
# 隠れた共同設立者によるドーズ応答の部分的同定

Partial Identification of Dose Responses with Hidden Confounders ( http://arxiv.org/abs/2204.11206v3 )

ライセンス: Link先を確認
Myrl G. Marmarelis, Elizabeth Haddad, Andrew Jesson, Neda Jahanshad, Aram Galstyan, Greg Ver Steeg(参考訳) 継続的に評価される治療の因果効果を観察データから推測することは、政策や意思決定者により良い情報提供を約束する重要な課題である。 これらの効果を識別するのに必要となる重要な仮定は、全ての相反する変数(治療と結果の両方の因果親)が共変数として含まれていることである。 残念ながら、観測データだけでは、この基準が満足していることは確実ではない。 感度分析は、共起変数が隠れているときに因果推定に境界を与える原則的な方法を提供する。 離散値処理の感度分析に多くの注意が向けられているが、連続値処理にはそれほど注意が払われていない。 本研究では,隠れた見分けができない場合,平均値と条件値の平均値と連続値の両処理効果の推定値とを結びつける新しい手法を提案する。 複数のデータセットに対する半合成ベンチマークは,最近提案されている連続感度モデルとベースラインよりも,真の線量-応答曲線をより詳細にカバーできることを示す。 最後に,本手法を実世界の観察ケーススタディに適用し,線量依存的因果効果を同定する価値を示す。

Inferring causal effects of continuous-valued treatments from observational data is a crucial task promising to better inform policy- and decision-makers. A critical assumption needed to identify these effects is that all confounding variables -- causal parents of both the treatment and the outcome -- are included as covariates. Unfortunately, given observational data alone, we cannot know with certainty that this criterion is satisfied. Sensitivity analyses provide principled ways to give bounds on causal estimates when confounding variables are hidden. While much attention is focused on sensitivity analyses for discrete-valued treatments, much less is paid to continuous-valued treatments. We present novel methodology to bound both average and conditional average continuous-valued treatment-effect estimates when they cannot be point identified due to hidden confounding. A semi-synthetic benchmark on multiple datasets shows our method giving tighter coverage of the true dose-response curve than a recently proposed continuous sensitivity model and baselines. Finally, we apply our method to a real-world observational case study to demonstrate the value of identifying dose-dependent causal effects.
翻訳日:2023-06-14 18:42:22 公開日:2023-06-12
# 共役自然選択

Conjugate Natural Selection ( http://arxiv.org/abs/2208.13898v4 )

ライセンス: Link先を確認
Reilly Raab, Luca de Alfaro, Yang Liu(参考訳) フィッシャー・ラオ自然勾配降下 (fr-ngd) は連続時間レプリケータ方程式(進化力学の基本モデル)を最適に近似し、この対応を「共役自然選択」と呼ぶ。 この対応は、連続的あるいは高次元の仮説空間上の進化的計算に対する代替のアプローチを約束する。 FR-NGDは特別な場合として、仮説が実際の観測予測に基づいて競合するときの連続ベイズ推定の最適近似も提供する。 この場合、このメソッドは、事前の確率を計算する必要性を避ける。 本稿では,非凸最適化問題と時間的パラメータを持つ確率過程に対するシステム同定タスクについて述べる。

We prove that Fisher-Rao natural gradient descent (FR-NGD) optimally approximates the continuous time replicator equation (an essential model of evolutionary dynamics), and term this correspondence "conjugate natural selection". This correspondence promises alternative approaches for evolutionary computation over continuous or high-dimensional hypothesis spaces. As a special case, FR-NGD also provides the optimal approximation of continuous Bayesian inference when hypotheses compete on the basis of predicting actual observations. In this case, the method avoids the need to compute prior probabilities. We demonstrate our findings on a non-convex optimization problem and a system identification task for a stochastic process with time-varying parameters.
翻訳日:2023-06-14 18:33:41 公開日:2023-06-12
# HELP ME THINK: モデルでカスタマイズされたコンテンツを作成する非専門家のための簡単なプロンプト戦略

HELP ME THINK: A Simple Prompting Strategy for Non-experts to Create Customized Content with Models ( http://arxiv.org/abs/2208.08232v2 )

ライセンス: Link先を確認
Swaroop Mishra and Elnaz Nouri(参考訳) 言語モデルによって生成されたテキストの制御とコンテンツのカスタマイズは長年の課題だった。 コントロールを提供するために提案された既存のプロンプトテクニックはタスク固有であり、汎用性が欠如している。 例や説明,指示など,これらのテクニックに関連する労力は,非専門家ユーザへの採用をさらに制限している。 本稿では,GPT3が関連する質問のセットを質問し,そのタスクの実行にユーザ回答を活用することで,専門家以外のユーザを支援するための簡単なプロンプト戦略HELP ME THINKを提案する。 この手法の有効性を実証することは、様々なタスクについて考えるのに役立ちます。 具体的には、平均的な人間には難しい作業に焦点を合わせ、実行にはかなりの思考が必要である。 私たちの仕事が,大規模な言語モデルのパワーを活用する非慣習的な方法の開発を奨励してくれることを願っています。

Controlling the text generated by language models and customizing the content has been a long-standing challenge. Existing prompting techniques proposed in pursuit of providing control are task-specific and lack generality; this provides overwhelming choices for non-expert users to find a suitable method for their task. The effort associated with those techniques, such as in writing examples, explanations, instructions, etc. further limits their adoption among non-expert users. In this paper, we propose a simple prompting strategy HELP ME THINK where we encourage GPT3 to help non-expert users by asking a set of relevant questions and leveraging user answers to execute the task. We demonstrate the efficacy of our technique HELP ME THINK on a variety of tasks. Specifically, we focus on tasks that are hard for average humans and require significant thinking to perform. We hope our work will encourage the development of unconventional ways to harness the power of large language models.
翻訳日:2023-06-14 18:33:29 公開日:2023-06-12
# フェルミオン量子シミュレーションのためのマッチゲートシャドウ

Matchgate Shadows for Fermionic Quantum Simulation ( http://arxiv.org/abs/2207.13723v2 )

ライセンス: Link先を確認
Kianna Wan, William J. Huggins, Joonho Lee, Ryan Babbush(参考訳) 古典的影」は未知の量子状態の推定子であり、その状態のコピー(nature physics 16 1050-1057)上で適切に分布したランダムな測定から構築される。 本稿では,フェルミオンガウスユニタリに対応するランダムマッチゲート回路を用いて得られた古典影の解析を行う。 我々は、マッチゲート回路の連続群上のハール分布の最初の3つのモーメントが、同様にクリフォードユニタリであるマッチゲート回路のみ上の離散均一分布のモーメントと等しいことを証明し、後者は「マッチゲート3設計」を形成する。 これは、2つのアンサンブルから生じる古典的な影が機能的に等価であることを意味する。 これらの整合影を用いて任意の量子状態とフェルミオンガウス状態の間の内部積を効率的に推定し、局所フェルミオン作用素や他の様々な量の期待値を計算し、事前の作業能力を上回ることを示す。 具体的な応用として,量子古典的補助場量子モンテカルロアルゴリズム(QC-AFQMC) [Nature 603, 416-420] におけるフェルミオン符号問題を制御する波動関数制約を適用することができる。

"Classical shadows" are estimators of an unknown quantum state, constructed from suitably distributed random measurements on copies of that state [Nature Physics 16, 1050-1057]. Here, we analyze classical shadows obtained using random matchgate circuits, which correspond to fermionic Gaussian unitaries. We prove that the first three moments of the Haar distribution over the continuous group of matchgate circuits are equal to those of the discrete uniform distribution over only the matchgate circuits that are also Clifford unitaries; thus, the latter forms a "matchgate 3-design." This implies that the classical shadows resulting from the two ensembles are functionally equivalent. We show how one can use these matchgate shadows to efficiently estimate inner products between an arbitrary quantum state and fermionic Gaussian states, as well as the expectation values of local fermionic operators and various other quantities, thus surpassing the capabilities of prior work. As a concrete application, this enables us to apply wavefunction constraints that control the fermion sign problem in the quantum-classical auxiliary-field quantum Monte Carlo algorithm (QC-AFQMC) [Nature 603, 416-420], without the exponential post-processing cost incurred by the original approach.
翻訳日:2023-06-14 18:32:31 公開日:2023-06-12
# 連邦災害支援政策の簡易宣言モデル -透明性のモデル化と測定-

A simple declarative model of the Federal Disaster Assistance Policy -- modelling and measuring transparency ( http://arxiv.org/abs/2207.07392v3 )

ライセンス: Link先を確認
Mark Dukes(参考訳) 本稿では,3つの異なる利害関係者の視点から,連邦災害支援政策の簡易モデルに関する定量的分析を行う。 この定量的手法は新しいもので、ビジネスや医療といった他の分野にも応用できる。 ステークホルダーはプロセスの透明性に興味を持っているが、それぞれが透明性を構成するものについて、正確に異なる意見を持っている。 我々はまた、連邦災害支援政策の3つの変更を検討し、株主の観点から、株主の満足度がプロセスからプロセスにどのように変化するかを分析する。 この分析は、すべての集合的利害関係者の選好に関する4つのポリシーの好適性をランク付けするために使用される。

In this paper we will provide a quantitative analysis of a simple model of the Federal Disaster Assistance policy from the viewpoint of three different stakeholders. This quantitative methodology is new and has applications to other areas such as business and healthcare processes. The stakeholders are interested in process transparency but each has a different opinion on precisely what constitutes transparency. We will also consider three modifications to the Federal Disaster Assistance policy and analyse, from a stakeholder viewpoint, how stakeholder satisfaction changes from process to process. This analysis is used to rank the favourability of four policies with respect to all collective stakeholder preferences.
翻訳日:2023-06-14 18:31:51 公開日:2023-06-12
# コミュニティ検出のためのハイパーグラフ人工ベンチマーク(h-ABCD)

Hypergraph Artificial Benchmark for Community Detection (h-ABCD) ( http://arxiv.org/abs/2210.15009v3 )

ライセンス: Link先を確認
Bogumi{\l} Kami\'nski, Pawe{\l} Pra{\l}at, Fran\c{c}ois Th\'eberge(参考訳) コミュニティ検出のための人工ベンチマーク(abcd)グラフは、最近導入されたランダムグラフモデルで、次数とコミュニティサイズの両方のコミュニティ構造とパワーロー分布を持つ。 モデルは、よく知られたLFRモデルと類似した特性を持つグラフを生成し、その主パラメータは、LFRモデル、混合パラメータに類似するように調整することができる。 本稿では,ABCDモデルであるh-ABCDのハイパーグラフについて紹介する。 オリジナルのABCDと同様に、新しいモデルh-ABCDは様々なレベルのノイズを持つハイパーグラフを生成することができる。 さらに重要なのは、モデルが柔軟で、1つのコミュニティに該当するハイパーエッジの任意の均一性のレベルを模倣することができることだ。 その結果,ハイパーグラフコミュニティ検出アルゴリズムの解析とチューニングに適した合成遊び場として利用することができる。

The Artificial Benchmark for Community Detection (ABCD) graph is a recently introduced random graph model with community structure and power-law distribution for both degrees and community sizes. The model generates graphs with similar properties as the well-known LFR one, and its main parameter can be tuned to mimic its counterpart in the LFR model, the mixing parameter. In this paper, we introduce hypergraph counterpart of the ABCD model, h-ABCD, which produces random hypergraph with distributions of ground-truth community sizes and degrees following power-law. As in the original ABCD, the new model h-ABCD can produce hypergraphs with various levels of noise. More importantly, the model is flexible and can mimic any desired level of homogeneity of hyperedges that fall into one community. As a result, it can be used as a suitable, synthetic playground for analyzing and tuning hypergraph community detection algorithms.
翻訳日:2023-06-14 18:24:35 公開日:2023-06-12
# 単一キュービットのデコヒーレンス時間スケールのオンライン適応推定

Online adaptive estimation of decoherence timescales for a single qubit ( http://arxiv.org/abs/2210.06103v3 )

ライセンス: Link先を確認
Muhammad Junaid Arshad, Christiaan Bekker, Ben Haylock, Krzysztof Skrzypczak, Daniel White, Benjamin Griffiths, Joe Gore, Gavin W. Morley, Patrick Salter, Jason Smith, Inbar Zohar, Amit Finkler, Yoann Altmann, Erik M. Gauger and Cristian Bonato(参考訳) 量子コヒーレンスが存続する時間を特徴付けることは、量子ビット、メモリ、センサーの実装に不可欠である。 量子システムのデコヒーレンス率を決定する一般的な方法は、このパラメータの期待範囲全体を探索し、後処理で得られる推定値を抽出する一連の実験である。 本稿では,単純な解析的更新則に基づく適応的マルチパラメータベイズ法を用いて,先行実験で得られた情報を用いて,量子システムの鍵非一貫性時間スケール(t$_1$,t$_2^*$,t$_2$)と対応する減衰指数をリアルタイムに推定する。 このアプローチは、曲線フィッティングの標準プロトコルと比較して、特定の実験に応じて、与えられた不確実性に到達するのに要する時間を最大で1桁削減する。 因子 $\sim 2$ のさらなる高速化は、分散に対して感度に関して最適化を行うことによって実現できる。 オンライン適応手法の有効性を実験的に実証するために, ダイヤモンド中の窒素空孔 (nv) 中心に関連する単一電子スピン量子ビットに適用し, 50ドル以下の実時間マイクロコントローラ上でベイズ推定を行い, 同様の条件下では従来よりも1桁短く, 測定時間に対して無視できる。 我々のプロトコルは様々な種類の量子システムに容易に適用できる。

Characterising the time over which quantum coherence survives is critical for any implementation of quantum bits, memories and sensors. The usual method for determining a quantum system's decoherence rate involves a suite of experiments probing the entire expected range of this parameter, and extracting the resulting estimation in post-processing. Here we present an adaptive multi-parameter Bayesian approach, based on a simple analytical update rule, to estimate the key decoherence timescales (T$_1$, T$_2^*$ and T$_2$) and the corresponding decay exponent of a quantum system in real time, using information gained in preceding experiments. This approach reduces the time required to reach a given uncertainty by a factor up to an order of magnitude, depending on the specific experiment, compared to the standard protocol of curve fitting. A further speed-up of a factor $\sim 2$ can be realised by performing our optimisation with respect to sensitivity as opposed to variance. To experimentally demonstrate the effectiveness of our online adaptive approach, we apply it to a single electronic spin qubit associated with a nitrogen-vacancy (NV) centre in diamond, implementing Bayesian inference on a real-time microcontroller in less than 50 $\mu$s, a time more than an order of magnitude shorter than previous implementations under similar conditions and negligible compared to the duration of each measurement. Our protocol can be readily applied to different types of quantum systems.
翻訳日:2023-06-14 18:23:18 公開日:2023-06-12
# 説明表現に対するコントラストコーパスの寄与

Contrastive Corpus Attribution for Explaining Representations ( http://arxiv.org/abs/2210.00107v2 )

ライセンス: Link先を確認
Chris Lin, Hugh Chen, Chanwoo Kim, Su-In Lee(参考訳) 教師なしモデルが広く使われているにもかかわらず、それらを説明するために設計された手法はほとんどない。 ほとんどの説明方法はスカラーモデルの出力を説明する。 しかし、教師なしモデルは表現ベクトルを出力し、それら要素は意味的な意味が欠けているため、説明に適さない。 このギャップを埋めるために、最近の研究はスカラーの説明出力を定義した: 説明対象のサンプルに対する表現空間におけるドット積ベースの類似性(つまり、説明)。 これは教師なしモデルの説明を可能にするが、エクスリカンドの表現と類似性は人間には意味がないため、このアプローチの解釈はいまだ不透明である。 そこで本研究では,コントラストコーパスの類似性,参照コーパスとコントラストフォイル集合に基づく,新しく意味的に意味のあるスカラー説明出力を提案する。 コントラスト的なコーパス類似性は、コーパスに重要な特徴が同定されるかどうかを定量的に検証し、Contrastive COrpus Attributions(COCOA)を生成するために、多くのポストホック特徴属性と互換性があることを実証する。 我々はCOCOAの有用性を2つの方法で紹介する。 一 対照的な学習環境(SimCLR)において同じ画像の増補を説明することにより洞察を導き、 (ii)共同学習テキスト表現(clip)と画像表現の類似性を説明することにより,ゼロショットオブジェクトのローカライズを行う。

Despite the widespread use of unsupervised models, very few methods are designed to explain them. Most explanation methods explain a scalar model output. However, unsupervised models output representation vectors, the elements of which are not good candidates to explain because they lack semantic meaning. To bridge this gap, recent works defined a scalar explanation output: a dot product-based similarity in the representation space to the sample being explained (i.e., an explicand). Although this enabled explanations of unsupervised models, the interpretation of this approach can still be opaque because similarity to the explicand's representation may not be meaningful to humans. To address this, we propose contrastive corpus similarity, a novel and semantically meaningful scalar explanation output based on a reference corpus and a contrasting foil set of samples. We demonstrate that contrastive corpus similarity is compatible with many post-hoc feature attribution methods to generate COntrastive COrpus Attributions (COCOA) and quantitatively verify that features important to the corpus are identified. We showcase the utility of COCOA in two ways: (i) we draw insights by explaining augmentations of the same image in a contrastive learning setting (SimCLR); and (ii) we perform zero-shot object localization by explaining the similarity of image representations to jointly learned text representations (CLIP).
翻訳日:2023-06-14 18:22:33 公開日:2023-06-12
# 効果的な文脈内学習のための相補的説明

Complementary Explanations for Effective In-Context Learning ( http://arxiv.org/abs/2211.13892v2 )

ライセンス: Link先を確認
Xi Ye, Srinivasan Iyer, Asli Celikyilmaz, Ves Stoyanov, Greg Durrett, Ramakanth Pasunuru(参考訳) 大規模言語モデル(llm)は,説明文から説明文を学習する上で有意義な能力を示すが,説明文がどのように機能するか,なぜ効果があるのかの理解は限られている。 この研究は、文脈内学習に説明が使用されるメカニズムをよりよく理解することを目的としている。 まず,プロンプトの性能に及ぼす2つの要因の影響について,計算トレース(解の分解方法)とプロンプトを表現する自然言語について検討した。 3つの制御されたタスクの説明を摂動させることにより,両要因が説明の有効性に寄与することを示した。 さらに、与えられたテストクエリを解決するために、最大限に効果的な説明セットを作る方法について研究する。 LLMは説明セットの相補性から恩恵を受けられることが分かり、異なる例によって示される多種多様な推論スキルは、より良いパフォーマンスをもたらす。 そこで本研究では,複数のllm上で3つの実世界のタスクにまたがるインコンテクスト学習性能の向上に成功し,コンパニオンと相補的なexemplar集合を構築するための極大辺縁関係に基づくexemplar選択手法を提案する。

Large language models (LLMs) have exhibited remarkable capabilities in learning from explanations in prompts, but there has been limited understanding of exactly how these explanations function or why they are effective. This work aims to better understand the mechanisms by which explanations are used for in-context learning. We first study the impact of two different factors on the performance of prompts with explanations: the computation trace (the way the solution is decomposed) and the natural language used to express the prompt. By perturbing explanations on three controlled tasks, we show that both factors contribute to the effectiveness of explanations. We further study how to form maximally effective sets of explanations for solving a given test query. We find that LLMs can benefit from the complementarity of the explanation set: diverse reasoning skills shown by different exemplars can lead to better performance. Therefore, we propose a maximal marginal relevance-based exemplar selection approach for constructing exemplar sets that are both relevant as well as complementary, which successfully improves the in-context learning performance across three real-world tasks on multiple LLMs.
翻訳日:2023-06-14 18:14:58 公開日:2023-06-12
# powderworld:リッチなタスク分散による一般化を理解するプラットフォーム

Powderworld: A Platform for Understanding Generalization via Rich Task Distributions ( http://arxiv.org/abs/2211.13051v2 )

ライセンス: Link先を確認
Kevin Frans, Phillip Isola(参考訳) 強化学習の大きな課題の1つは、新しいタスクに一般化する能力である。 しかし、一般的なエージェントは訓練するために豊富な多様なタスクを必要とする。 そのようなタスクのための'基礎環境'を設計するのは難しい -- 理想的な環境は、様々な創発的な現象、表現力のあるタスク空間、高速なランタイムをサポートするだろう。 この研究ボトルネックに対処するために、この研究は、GPU上で直接実行される軽量で表現力のあるシミュレーション環境であるPowderworldを提示する。 powderworldでは、世界モデリングのためのものと強化学習のためのものという、2つのモチベーションのある課題が提示されている。 それぞれが一般化を調べるための手動で設計されたテストタスクを含んでいる。 実験により、環境の複雑さを増大させることで、世界モデルや特定の強化学習エージェントの一般化が向上するが、高分散環境における学習を阻害する可能性が示唆された。 Powderworldは、同じコアルールから生じる多様なタスクのソースを提供することで、一般化の研究を支援することを目指している。

One of the grand challenges of reinforcement learning is the ability to generalize to new tasks. However, general agents require a set of rich, diverse tasks to train on. Designing a `foundation environment' for such tasks is tricky -- the ideal environment would support a range of emergent phenomena, an expressive task space, and fast runtime. To take a step towards addressing this research bottleneck, this work presents Powderworld, a lightweight yet expressive simulation environment running directly on the GPU. Within Powderworld, two motivating challenges distributions are presented, one for world-modelling and one for reinforcement learning. Each contains hand-designed test tasks to examine generalization. Experiments indicate that increasing the environment's complexity improves generalization for world models and certain reinforcement learning agents, yet may inhibit learning in high-variance environments. Powderworld aims to support the study of generalization by providing a source of diverse tasks arising from the same core rules.
翻訳日:2023-06-14 18:14:38 公開日:2023-06-12
# LENS: テキスト単純化のための学習可能な評価基準

LENS: A Learnable Evaluation Metric for Text Simplification ( http://arxiv.org/abs/2212.09739v3 )

ライセンス: Link先を確認
Mounica Maddela, Yao Dou, David Heineman, Wei Xu(参考訳) 近年,機械翻訳の自動評価手法として,現代言語モデルを用いた学習可能なメトリクスのトレーニングが注目されている。 しかしながら、既存のテキスト簡易化のための人間評価データセットには、ユニタリモデルや時代遅れモデルに基づいた限定的なアノテーションがあるため、このアプローチには適さない。 これらの問題に対処するために、SimpEval_pastは24のシステムの2.4Kの簡易化に対して12Kの人間格付けを含むSimpEvalコーパスと、GPT-3.5生成したテキストを含む1K以上の人間格付けからなる挑戦的な単純化ベンチマークSimpEval_2022を紹介する。 テキスト簡易化のための学習可能な評価指標であるLENSを提案する。 大規模な実証実験の結果、LENSは既存の指標よりも人間の判断と相関し、テキスト単純化の評価における今後の進歩の道を開いた。 また,対話型インタフェースを用いて,複数のモデルからの単純化をリスト形式で評価する評価フレームワークであるrank and rateを導入することで,評価プロセスにおける一貫性と精度の両立を保証し,シムペバルデータセットの作成に利用する。

Training learnable metrics using modern language models has recently emerged as a promising method for the automatic evaluation of machine translation. However, existing human evaluation datasets for text simplification have limited annotations that are based on unitary or outdated models, making them unsuitable for this approach. To address these issues, we introduce the SimpEval corpus that contains: SimpEval_past, comprising 12K human ratings on 2.4K simplifications of 24 past systems, and SimpEval_2022, a challenging simplification benchmark consisting of over 1K human ratings of 360 simplifications including GPT-3.5 generated text. Training on SimpEval, we present LENS, a Learnable Evaluation Metric for Text Simplification. Extensive empirical results show that LENS correlates much better with human judgment than existing metrics, paving the way for future progress in the evaluation of text simplification. We also introduce Rank and Rate, a human evaluation framework that rates simplifications from several models in a list-wise manner using an interactive interface, which ensures both consistency and accuracy in the evaluation process and is used to create the SimpEval datasets.
翻訳日:2023-06-14 18:05:47 公開日:2023-06-12
# ulip: 3d理解のための言語,イメージ,ポイントクラウドの統一表現の学習

ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding ( http://arxiv.org/abs/2212.05171v4 )

ライセンス: Link先を確認
Le Xue, Mingfei Gao, Chen Xing, Roberto Mart\'in-Mart\'in, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese(参考訳) 現在の最先端の3dモデルの認識能力は、少数の注釈付きデータと予め定義されたカテゴリのデータセットによって制限されている。 最近の2Dの進歩は、言語などの他のモダリティからの知識を利用することで、同様の問題を著しく軽減できることを示している。 このことから、3Dモダリティにマルチモーダル情報を活用することで、制限されたデータ体制下での3D理解を改善することが期待できるが、この研究は十分に研究されていない。 そこで,3つのモードからオブジェクト三重項を事前学習することで,画像,テキスト,3次元点雲の統一表現を学習するためにULIPを導入する。 トレーニングトリプレットの不足を克服するために、ulipは、大量の画像テキストペアでトレーニングすることで、すでに共通の視覚空間とテキスト空間を学習した、事前訓練されたビジョン言語モデルを活用する。 そして、ULIPは、少数の自動合成三重項を用いて、共通画像テキスト空間と整合した3次元表現空間を学習する。 ULIPは3Dバックボーンネットワークとは無関係であり、どんな3Dアーキテクチャにも容易に統合できる。 実験により,本フレームワークを用いたShapeNet55の事前学習により,ModelNet40およびScanObjectNNの標準3D分類とゼロショット3D分類の両面での最先端性能を実現することにより,最近の複数の3Dバックボーンの性能を効果的に向上することが示された。 ULIPはまた、ScanObjectNNの3D分類ではポイントMLPを約3%改善し、ModelNet40のゼロショット3D分類ではトップ1の精度でポイントCLIPを28.8%上回っている。 私たちのコードと事前トレーニングされたモデルはhttps://github.com/salesforce/ULIP.comでリリースされています。

The recognition capabilities of current state-of-the-art 3D models are limited by datasets with a small number of annotated data and a pre-defined set of categories. In its 2D counterpart, recent advances have shown that similar problems can be significantly alleviated by employing knowledge from other modalities, such as language. Inspired by this, leveraging multimodal information for 3D modality could be promising to improve 3D understanding under the restricted data regime, but this line of research is not well studied. Therefore, we introduce ULIP to learn a unified representation of images, texts, and 3D point clouds by pre-training with object triplets from the three modalities. To overcome the shortage of training triplets, ULIP leverages a pre-trained vision-language model that has already learned a common visual and textual space by training with massive image-text pairs. Then, ULIP learns a 3D representation space aligned with the common image-text space, using a small number of automatically synthesized triplets. ULIP is agnostic to 3D backbone networks and can easily be integrated into any 3D architecture. Experiments show that ULIP effectively improves the performance of multiple recent 3D backbones by simply pre-training them on ShapeNet55 using our framework, achieving state-of-the-art performance in both standard 3D classification and zero-shot 3D classification on ModelNet40 and ScanObjectNN. ULIP also improves the performance of PointMLP by around 3% in 3D classification on ScanObjectNN, and outperforms PointCLIP by 28.8% on top-1 accuracy for zero-shot 3D classification on ModelNet40. Our code and pre-trained models are released at https://github.com/salesforce/ULIP.
翻訳日:2023-06-14 18:04:59 公開日:2023-06-12
# コンファウンディング時のオフライン政策評価と最適化

Offline Policy Evaluation and Optimization under Confounding ( http://arxiv.org/abs/2211.16583v3 )

ライセンス: Link先を確認
Chinmaya Kausik, Yangyi Lu, Kevin Tan, Yixin Wang, Ambuj Tewari(参考訳) 監視されていない共同創設者の存在下でのポリシーの評価と最適化は、オフライン強化学習への関心が高まっている。 従来のオフラインRLの手法をコンバウンディングの存在下で使用すると、不適切な判断や政策が悪化するだけでなく、医療や教育といった重要な応用において破滅的な影響を及ぼす可能性がある。 構築されたMDPのオフライン政策評価の展望を図示し、その時間進化とデータ収集ポリシーへの影響に基づいて、コンバウンディングの仮定を区別する。 一貫性のある値推定が達成できないかどうかを判断し、それらの場合の保証とともに下位境界を推定するアルゴリズムを提供し、議論する。 一貫した見積もりが達成可能であれば、サンプル複雑性保証を提供する。 また,オフラインポリシー改善のための新しいアルゴリズムを提案し,局所収束保証を証明する。 最後に,gridworldのアルゴリズムを実験的に評価し,敗血症患者の管理をシミュレートした。 グリッドワールドでは,モデルに基づく手法が既存手法よりも厳密な境界を提供し,セプシスシミュレータでは,提案手法が共同設立・公開ベンチマークを著しく上回っていることに留意する。

Evaluating and optimizing policies in the presence of unobserved confounders is a problem of growing interest in offline reinforcement learning. Using conventional methods for offline RL in the presence of confounding can not only lead to poor decisions and poor policies, but can also have disastrous effects in critical applications such as healthcare and education. We map out the landscape of offline policy evaluation for confounded MDPs, distinguishing assumptions on confounding based on their time-evolution and effect on the data-collection policies. We determine when consistent value estimates are not achievable, providing and discussing algorithms to estimate lower bounds with guarantees in those cases. When consistent estimates are achievable, we provide sample complexity guarantees. We also present new algorithms for offline policy improvement and prove local convergence guarantees. Finally, we experimentally evaluate our algorithms on gridworld and a simulated healthcare setting of managing sepsis patients. We note that in gridworld, our model-based method provides tighter lower bounds than existing methods, while in the sepsis simulator, our methods significantly outperform confounder-oblivious benchmarks.
翻訳日:2023-06-14 18:03:46 公開日:2023-06-12
# fewsome: siamese networksによる1クラス少数のショット異常検出

FewSOME: One-Class Few Shot Anomaly Detection with Siamese Networks ( http://arxiv.org/abs/2301.06957v4 )

ライセンス: Link先を確認
Niamh Belton, Misgina Tsighe Hagos, Aonghus Lawlor, Kathleen M. Curran(参考訳) 最近の異常検出技術はこの分野をかなり進歩させたが、ますます複雑な訓練パイプラインのコストが高まった。 このような技術は大量のトレーニングデータを必要とするため、計算コストのかかるアルゴリズムは、少数の正規サンプルしか使用できない設定には適さない。 そこで本研究では,通常の授業の「2つの」例で訓練した異常を正確に検出できる深層一級異常検出アルゴリズム「FewSOME(Few Shot anOMaly Detection)」を提案する。 FewSOMEは、データ要件が低く、トレーニング時間が短いため、複雑さが低いと説明します。 fewsomeは、シャムネットワークに基づくアーキテクチャで事前訓練された重み付けによって支援される。 アブレーション研究により,提案する損失,すなわち「損失を止める」が,少数のロバスト性を改善することを示す。 実験の結果,FewSOMEはベンチマークデータセットMNIST, CIFAR-10, F-MNIST, MVTec ADで, 通常の30のサンプルでのみトレーニングを行い, 既存の手法でトレーニングしたデータの1分の1しか処理できないことがわかった。 さらに, 汚染されたデータセットに対するロバスト性を示す実験を行った。 また,今後比較すべき手法のベンチマークとして,AUCに加えてF1スコアとバランスの取れた精度を報告する。 コードはhttps://github.com/niamhbelton/FewSOME。

Recent Anomaly Detection techniques have progressed the field considerably but at the cost of increasingly complex training pipelines. Such techniques require large amounts of training data, resulting in computationally expensive algorithms that are unsuitable for settings where only a small amount of normal samples are available for training. We propose 'Few Shot anOMaly detection' (FewSOME), a deep One-Class Anomaly Detection algorithm with the ability to accurately detect anomalies having trained on 'few' examples of the normal class and no examples of the anomalous class. We describe FewSOME to be of low complexity given its low data requirement and short training time. FewSOME is aided by pretrained weights with an architecture based on Siamese Networks. By means of an ablation study, we demonstrate how our proposed loss, 'Stop Loss', improves the robustness of FewSOME. Our experiments demonstrate that FewSOME performs at state-of-the-art level on benchmark datasets MNIST, CIFAR-10, F-MNIST and MVTec AD while training on only 30 normal samples, a minute fraction of the data that existing methods are trained on. Moreover, our experiments show FewSOME to be robust to contaminated datasets. We also report F1 score and balanced accuracy in addition to AUC as a benchmark for future techniques to be compared against. Code available; https://github.com/niamhbelton/FewSOME.
翻訳日:2023-06-14 17:53:30 公開日:2023-06-12
# 外乱を用いたコミュニティ検出のための人工ベンチマーク(ABCD+o)

Artificial Benchmark for Community Detection with Outliers (ABCD+o) ( http://arxiv.org/abs/2301.05749v2 )

ライセンス: Link先を確認
Bogumi{\l} Kami\'nski, Pawe{\l} Pra{\l}at, Fran\c{c}ois Th\'eberge(参考訳) ABCD(Artificial Benchmark for Community Detection graph)は、コミュニティ構造とコミュニティサイズの両方のパワー-ロー分布を持つランダムグラフモデルである。 このモデルは、よく知られたLFRモデルと類似した性質を持つグラフを生成し、主要なパラメータ $\xi$ は LFRモデルで対応するパラメータ $\mu$ を模倣するように調整することができる。 本稿では、ABCDモデルを拡張し、潜在的な外れ値を含む。 我々はABCD+oモデルと実世界のネットワークの両方で探索実験を行い、外れ値が所望の特性を持つことを示す。

The Artificial Benchmark for Community Detection graph (ABCD) is a random graph model with community structure and power-law distribution for both degrees and community sizes. The model generates graphs with similar properties as the well-known LFR one, and its main parameter $\xi$ can be tuned to mimic its counterpart in the LFR model, the mixing parameter $\mu$. In this paper, we extend the ABCD model to include potential outliers. We perform some exploratory experiments on both the new ABCD+o model as well as a real-world network to show that outliers possess some desired, distinguishable properties.
翻訳日:2023-06-14 17:52:54 公開日:2023-06-12
# eP-ALM: 言語モデルの効率的な知覚増強

eP-ALM: Efficient Perceptual Augmentation of Language Models ( http://arxiv.org/abs/2303.11403v2 )

ライセンス: Link先を確認
Mustafa Shukor, Corentin Dancette, Matthieu Cord(参考訳) 大規模言語モデル(LLM)は、これまでになく大規模なモデルで現れる前例のない機能で、世界に印象を与えてきました。 視覚面では、トランスフォーマーモデル(すなわちViT)は同じ傾向を辿り、挑戦的なベンチマークで最高のパフォーマンスを達成する。 このようなユニモーダルモデルが豊富に存在すると、自然な疑問が生まれ、マルチモーダルなタスクに取り組むためにこの傾向に従う必要があるのだろうか? 本研究では,既存のモデルの効率的な適応のために,むしろ直接的な努力をすることを提案し,知覚を伴う言語モデルの拡張を提案する。 視覚言語タスクに事前学習されたモデルを適用する既存のアプローチは、その効率を妨げるいくつかの重要なコンポーネントに依存している。 特に、多くのパラメータをトレーニングし、大きなマルチモーダルプリトレーニングに依存し、巨大な画像テキストデータセットでトレーニングされたエンコーダ(クリップなど)を使用し、大きな推論オーバーヘッドを追加する。 加えて、これらのアプローチのほとんどはゼロショットとコンテキスト学習に重点を置いており、直接の微調整にはほとんど努力していない。 マルチモーダルタスクに単調モデルを適用するのに必要な最小限の計算労力について検討し、単調事前学習モデルに効率よく適応する異なるアプローチとともに、新しい挑戦的なセットアップを提案する。 我々は,全パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを前倒しにすることで,提案した設定に従って,VQAとCaptioningの他のベースラインを著しく上回ることを示す。 コードはここで入手できる。 https://github.com/mshukor/ep-alm。

Large Language Models (LLMs) have so far impressed the world, with unprecedented capabilities that emerge in models at large scales. On the vision side, transformer models (i.e., ViT) are following the same trend, achieving the best performance on challenging benchmarks. With the abundance of such unimodal models, a natural question arises; do we need also to follow this trend to tackle multimodal tasks? In this work, we propose to rather direct effort to efficient adaptations of existing models, and propose to augment Language Models with perception. Existing approaches for adapting pretrained models for vision-language tasks still rely on several key components that hinder their efficiency. In particular, they still train a large number of parameters, rely on large multimodal pretraining, use encoders (e.g., CLIP) trained on huge image-text datasets, and add significant inference overhead. In addition, most of these approaches have focused on Zero-Shot and In Context Learning, with little to no effort on direct finetuning. We investigate the minimal computational effort needed to adapt unimodal models for multimodal tasks and propose a new challenging setup, alongside different approaches, that efficiently adapts unimodal pretrained models. We show that by freezing more than 99\% of total parameters, training only one linear projection layer, and prepending only one trainable token, our approach (dubbed eP-ALM) significantly outperforms other baselines on VQA and Captioning across Image, Video, and Audio modalities, following the proposed setup. The code will be available here: https://github.com/mshukor/eP-ALM.
翻訳日:2023-06-14 17:35:59 公開日:2023-06-12
# Align and Attend: Dual Contrastive Lossesを用いたマルチモーダル要約

Align and Attend: Multimodal Summarization with Dual Contrastive Losses ( http://arxiv.org/abs/2303.07284v3 )

ライセンス: Link先を確認
Bo He, Jun Wang, Jielin Qiu, Trung Bui, Abhinav Shrivastava, Zhaowen Wang(参考訳) マルチモーダル要約の目標は、異なるモダリティから最も重要な情報を抽出して出力要約を形成することである。 単項要約とは異なり、マルチモーダル要約タスクはクロスモーダル情報を明示的に活用し、より信頼性が高く高品質な要約を生成する。 しかし、既存の手法では、異なるモダリティ間の時間的対応を活用できず、異なるサンプル間の固有の相関を無視する。 そこで本研究では,マルチモーダル入力を効果的に調整し,対応できる統一マルチモーダルトランスフォーマーモデルであるa2summ(aldin and attend multimodal summarization)を提案する。 さらに,試料間相関と試料内相関の両方をモデル化する2つの新しいコントラスト損失を提案する。 2つの標準ビデオ要約データセット(TVSumとSumMe)と2つのマルチモーダル要約データセット(Daily MailとCNN)に対する大規模な実験は、A2Summの優位性を示し、すべてのデータセットで最先端のパフォーマンスを達成する。 さらに,ライブストリームビデオと注釈付き要約文を含む大規模マルチモーダル要約データセットBLiSSを収集した。 私たちのコードとデータセットは、~\url{https://boheumd.github.io/A2Summ/}で公開されています。

The goal of multimodal summarization is to extract the most important information from different modalities to form output summaries. Unlike the unimodal summarization, the multimodal summarization task explicitly leverages cross-modal information to help generate more reliable and high-quality summaries. However, existing methods fail to leverage the temporal correspondence between different modalities and ignore the intrinsic correlation between different samples. To address this issue, we introduce Align and Attend Multimodal Summarization (A2Summ), a unified multimodal transformer-based model which can effectively align and attend the multimodal input. In addition, we propose two novel contrastive losses to model both inter-sample and intra-sample correlations. Extensive experiments on two standard video summarization datasets (TVSum and SumMe) and two multimodal summarization datasets (Daily Mail and CNN) demonstrate the superiority of A2Summ, achieving state-of-the-art performances on all datasets. Moreover, we collected a large-scale multimodal summarization dataset BLiSS, which contains livestream videos and transcribed texts with annotated summaries. Our code and dataset are publicly available at ~\url{https://boheumd.github.io/A2Summ/}.
翻訳日:2023-06-14 17:34:52 公開日:2023-06-12
# 非対称性と超越:推論効率向上のためのシーケンスモデルに対するシーケンスの構造的プルーニング

To Asymmetry and Beyond: Structured Pruning of Sequence to Sequence Models for Improved Inference Efficiency ( http://arxiv.org/abs/2304.02721v3 )

ライセンス: Link先を確認
Daniel Campos, ChengXiang Zhai(参考訳) sequence-to-sequence言語モデルは、一貫性があり、関連性があり、簡潔な抽象的な要約を生成するのに使うことができる。 それでも、モデルサイズはレイテンシに敏感な、あるいはWebスケールの実装を難しくする可能性がある。 本稿では,広く使用されている要約データセットにおけるモデルサイズ,構造化プルーニング,推論効率,要約精度の関係について検討する。 モデル精度はエンコーダサイズに結びついており、推論効率はデコーダに接続されていることを示す。 非対称プルーニングを使用することで、ルージュ-2では1ポイントの損失で推論遅延が約3倍改善される可能性がある。 さらに、モデルのサイズやデータセットのバリエーションによって、平均劣化と非対称性の役割が一致していることが分かる。

Sequence-to-sequence language models can be used to produce abstractive summaries which are coherent, relevant, and concise. Still, model sizes can make deployment in latency-sensitive or web-scale implementations difficult. This paper studies the relationship between model size, structured pruning, inference efficiency, and summarization accuracy on widely used summarization datasets. We show that model accuracy is tied to the encoder size while inference efficiency is connected to the decoder. Using asymmetric pruning can lead to nearly 3x improvement in inference latency with ~1 point loss in Rouge-2. Moreover, we find both the average degradation and the role of asymmetry to be consistent across model sizes and variations in datasets.
翻訳日:2023-06-14 17:26:26 公開日:2023-06-12
# 信頼できる人工知能でDotを接続する:AI原則、倫理、そして責任あるAIシステムと規制への重要な要件から

Connecting the Dots in Trustworthy Artificial Intelligence: From AI Principles, Ethics, and Key Requirements to Responsible AI Systems and Regulation ( http://arxiv.org/abs/2305.02231v2 )

ライセンス: Link先を確認
Natalia D\'iaz-Rodr\'iguez, Javier Del Ser, Mark Coeckelbergh, Marcos L\'opez de Prado, Enrique Herrera-Viedma, Francisco Herrera(参考訳) 信頼できる人工知能(AI)は、(1)法的、(2)倫理的、(3)堅牢でなければならない、技術的、社会的な観点から、システムのライフサイクル全体を通して満たすべき3つの主要な柱に持続する7つの技術的要件に基づいている。 しかし、真に信頼できるAIを達成することは、システムのライフサイクルの一部であるすべてのプロセスとアクターの信頼性を含むより広いビジョンを懸念し、異なるレンズから以前の側面を考察する。 AIベースのシステムの倫理的利用と開発のためのグローバルな原則、AI倫理に対する哲学的な見解、AI規制に対するリスクベースのアプローチ、そして前述の柱と要件である。 7つの要件(人間機関と監督、堅牢性と安全性、プライバシとデータガバナンス、透明性、多様性、非差別性と公正性、社会的および環境の健全性、説明責任)は、3つの視点から分析される。 一方、信頼できるAIシステムを実装するための実践的なアプローチは、所定の監査プロセスを通じて、法に直面するAIベースのシステムの責任の概念を定義することを可能にする。 したがって、責任あるAIシステムは、我々が本研究で導入した概念であり、規制サンドボックスの使用によって引き起こされる課題に対して、監査プロセスを通じて実現可能な最も必要な概念である。 信頼できるAIに関する私たちの学際的なビジョンは、最近発表されたAIの未来に関するさまざまな見解に関する議論で頂点に達した。 当社のリフレクションでは、規制はこれらの見解の合意に達するための鍵であり、信頼に値する責任あるaiシステムは我々の社会の現在と未来にとって不可欠である、と結論づけています。

Trustworthy Artificial Intelligence (AI) is based on seven technical requirements sustained over three main pillars that should be met throughout the system's entire life cycle: it should be (1) lawful, (2) ethical, and (3) robust, both from a technical and a social perspective. However, attaining truly trustworthy AI concerns a wider vision that comprises the trustworthiness of all processes and actors that are part of the system's life cycle, and considers previous aspects from different lenses. A more holistic vision contemplates four essential axes: the global principles for ethical use and development of AI-based systems, a philosophical take on AI ethics, a risk-based approach to AI regulation, and the mentioned pillars and requirements. The seven requirements (human agency and oversight; robustness and safety; privacy and data governance; transparency; diversity, non-discrimination and fairness; societal and environmental wellbeing; and accountability) are analyzed from a triple perspective: What each requirement for trustworthy AI is, Why it is needed, and How each requirement can be implemented in practice. On the other hand, a practical approach to implement trustworthy AI systems allows defining the concept of responsibility of AI-based systems facing the law, through a given auditing process. Therefore, a responsible AI system is the resulting notion we introduce in this work, and a concept of utmost necessity that can be realized through auditing processes, subject to the challenges posed by the use of regulatory sandboxes. Our multidisciplinary vision of trustworthy AI culminates in a debate on the diverging views published lately about the future of AI. Our reflections in this matter conclude that regulation is a key for reaching a consensus among these views, and that trustworthy and responsible AI systems will be crucial for the present and future of our society.
翻訳日:2023-06-14 17:15:41 公開日:2023-06-12
# 構成シーン再構成のためのゼロショットプランナのエネルギーモデル

Energy-based Models are Zero-Shot Planners for Compositional Scene Rearrangement ( http://arxiv.org/abs/2304.14391v3 )

ライセンス: Link先を確認
Nikolaos Gkanatsios, Ayush Jain, Zhou Xian, Yunchu Zhang, Christopher Atkeson, Katerina Fragkiadaki(参考訳) 言語は構成的であり、命令はロボットが再配置を行うシーンにおいて、オブジェクト間で保持する複数の関係制約を表現することができる。 本研究の焦点は、より長い指示や訓練時に見たことのない空間概念の構成を一般化する、インストラクタブルなシーン再構成フレームワークである。 本稿では,相対的な物体配置よりもエネルギー関数で言語に指示された空間概念を表現することを提案する。 言語パーサは命令を対応するエネルギー関数にマッピングし、オープンボキャブラリな視覚言語モデルはシーン内の関連するオブジェクトに対する議論を基礎としている。 我々は,各言語が指示を述語するエネルギー関数の和の勾配勾配によるゴールシーン構成を生成する。 ローカルビジョンベースのポリシーでは、オブジェクトを推論されたゴールロケーションに再配置する。 我々は、確立された命令誘導操作ベンチマークと、導入した構成命令のベンチマークを用いて、モデルをテストする。 我々は,シミュレーションや実世界において,高い合成命令をゼロショットで実行可能であることを示す。 言語から反応する反応ポリシーと大規模言語モデルプランナーを大きなマージンで上回り、特に複数の空間概念の合成を含む長い命令に対して優れている。 シミュレーションと実世界のロボット実行ビデオ、および私たちのコードとデータセットは、当社のウェブサイトで公開されています。

Language is compositional; an instruction can express multiple relation constraints to hold among objects in a scene that a robot is tasked to rearrange. Our focus in this work is an instructable scene-rearranging framework that generalizes to longer instructions and to spatial concept compositions never seen at training time. We propose to represent language-instructed spatial concepts with energy functions over relative object arrangements. A language parser maps instructions to corresponding energy functions and an open-vocabulary visual-language model grounds their arguments to relevant objects in the scene. We generate goal scene configurations by gradient descent on the sum of energy functions, one per language predicate in the instruction. Local vision-based policies then re-locate objects to the inferred goal locations. We test our model on established instruction-guided manipulation benchmarks, as well as benchmarks of compositional instructions we introduce. We show our model can execute highly compositional instructions zero-shot in simulation and in the real world. It outperforms language-to-action reactive policies and Large Language Model planners by a large margin, especially for long instructions that involve compositions of multiple spatial concepts. Simulation and real-world robot execution videos, as well as our code and datasets are publicly available on our website: https://ebmplanner.github.io.
翻訳日:2023-06-14 17:15:10 公開日:2023-06-12
# 深部物理ニューラルネットワークのバックプロパゲーションフリートレーニング

Backpropagation-free Training of Deep Physical Neural Networks ( http://arxiv.org/abs/2304.11042v3 )

ライセンス: Link先を確認
Ali Momeni, Babak Rahmani, Matthieu Mallejac, Philipp Del Hougne, and Romain Fleury(参考訳) 近年では、視覚や自然言語処理など、様々な分野におけるディープラーニングの成功が目覚ましい。 この成功は、急激な増加が予想されるディープラーニングモデルの大規模化に大きく影響している。 ディープラーニングモデルのこの成長は、トレーニングと推論のフェーズとスケーラビリティの両方において、かなりのエネルギー消費に関連する問題を伴う。 推論フェーズにおけるエネルギー効率の問題に対処する非伝統的な物理システムに基づく多くの研究が提案されているが、ディープラーニングモデルの効率的な訓練はいまだに未適応である。 これまでのところ、デジタルディープラーニングモデルのトレーニングは主にバックプロパゲーションに依存しており、ニューラルネットワークのいわゆるフォワードパスで実行される計算の完全な知識を必要とするため、物理実装には適さない。 ここでは、生物学的に妥当な学習アルゴリズムによって強化された単純なディープニューラルネットワークアーキテクチャを「モデルフリー前方トレーニング」と呼ぶことで、この問題に対処する。 提案アーキテクチャは,非線形な物理層の性質について詳細な知識を必要とせずに,物理非線形系の層からなる深層物理ニューラルネットワークのトレーニングを可能にする。 本手法は, 学習速度の向上, ディジタル計算の削減, 物理システムにおける消費電力の低減により, 最先端のハードウェア・アウェア・トレーニング手法に勝ることを示す。 動的あるいは予測不能な外部摂動にさらされたシステムにおいても,提案手法の適応性を示す。 提案手法の普遍性を示すために,基礎となる波動現象や使用する非線形性の種類によって異なる多様な波動に基づく物理ニューラルネットワークを訓練し,母音および画像分類タスクを実験的に行う。

Recent years have witnessed the outstanding success of deep learning in various fields such as vision and natural language processing. This success is largely indebted to the massive size of deep learning models that is expected to increase unceasingly. This growth of the deep learning models is accompanied by issues related to their considerable energy consumption, both during the training and inference phases, as well as their scalability. Although a number of work based on unconventional physical systems have been proposed which addresses the issue of energy efficiency in the inference phase, efficient training of deep learning models has remained unaddressed. So far, training of digital deep learning models mainly relies on backpropagation, which is not suitable for physical implementation as it requires perfect knowledge of the computation performed in the so-called forward pass of the neural network. Here, we tackle this issue by proposing a simple deep neural network architecture augmented by a biologically plausible learning algorithm, referred to as "model-free forward-forward training". The proposed architecture enables training deep physical neural networks consisting of layers of physical nonlinear systems, without requiring detailed knowledge of the nonlinear physical layers' properties. We show that our method outperforms state-of-the-art hardware-aware training methods by improving training speed, decreasing digital computations, and reducing power consumption in physical systems. We demonstrate the adaptability of the proposed method, even in systems exposed to dynamic or unpredictable external perturbations. To showcase the universality of our approach, we train diverse wave-based physical neural networks that vary in the underlying wave phenomenon and the type of non-linearity they use, to perform vowel and image classification tasks experimentally.
翻訳日:2023-06-14 17:14:32 公開日:2023-06-12
# DIVA: 変分オートエンコーダによるディリクレプロセスに基づくインクリメンタルディープクラスタリングアルゴリズム

DIVA: A Dirichlet Process Based Incremental Deep Clustering Algorithm via Variational Auto-Encoder ( http://arxiv.org/abs/2305.14067v2 )

ライセンス: Link先を確認
Zhenshan Bing, Yuan Meng, Yuqi Yun, Hang Su, Xiaojie Su, Kai Huang, Alois Knoll(参考訳) 生成モデルベースのディープクラスタリングフレームワークは、複雑なデータの分類に優れているが、クラスタ数の事前知識を必要とするため、動的で複雑な機能を扱うには制限がある。 本稿では,ガウスの無限混合を先行として利用する非パラメトリックディープクラスタリングフレームワークを提案する。 我々のフレームワークは,クラスタの「生成」と「マージ」を可能とし,特徴量の事前知識を必要とせず,動的適応的な方法でデータをクラスタ化することができる,メモ化されたオンライン変分推論手法を使用している。 このフレームワークをDirichlet ProcessベースのインクリメンタルディープクラスタリングフレームワークであるDIVAと名付けます。 我々のフレームワークは、最先端のベースラインよりも優れており、特にインクリメンタル機能の場合、動的に変化する特徴を持つ複雑なデータの分類において優れた性能を示す。 ソースコードの実装は、https://github.com/Ghiara/divaでリリースしました。

Generative model-based deep clustering frameworks excel in classifying complex data, but are limited in handling dynamic and complex features because they require prior knowledge of the number of clusters. In this paper, we propose a nonparametric deep clustering framework that employs an infinite mixture of Gaussians as a prior. Our framework utilizes a memoized online variational inference method that enables the "birth" and "merge" moves of clusters, allowing our framework to cluster data in a "dynamic-adaptive" manner, without requiring prior knowledge of the number of features. We name the framework as DIVA, a Dirichlet Process-based Incremental deep clustering framework via Variational Auto-Encoder. Our framework, which outperforms state-of-the-art baselines, exhibits superior performance in classifying complex data with dynamically changing features, particularly in the case of incremental features. We released our source code implementation at: https://github.com/Ghiara/diva
翻訳日:2023-06-14 17:08:13 公開日:2023-06-12
# 強化学習による最適量子誤り訂正符号の発見

Discovery of Optimal Quantum Error Correcting Codes via Reinforcement Learning ( http://arxiv.org/abs/2305.06378v2 )

ライセンス: Link先を確認
Vincent Paul Su, ChunJun Cao, Hong-Ye Hu, Yariv Yanay, Charles Tahan, Brian Swingle(参考訳) 最近導入されたQuantum Legoフレームワークは、単純なものから複雑な量子エラー訂正コード(QECC)を生成する強力な方法を提供する。 我々はこのプロセスをゲーミフィケーションし、強化学習(RL)を用いたコード設計と発見のための新たな道を開く。 RL の利点の1つは、最適化されるコードの \textit{arbitrary} プロパティを指定できることです。 我々は、コード距離を最大化し、偏りのあるパウリ雑音の下で論理誤差の確率を最小化する2つの特性を訓練する。 まず、訓練されたエージェントが13キュービットのcssコードに対する線形プログラミングバウンドを飽和させることで、ナイーブな結合を超えたコード距離を増加させる方法を示す。 バイアス付きPauliノイズ下での論理的エラー確率を最小限に抑えるために、このタスクで最もよく知られているCSSコードは$\lesssim 20$ qubitsである。 Surface、XZZX、および2D Colorなどの他の(ローカルに変形した)CSSコードと比較すると、[[[17,1,3]]$コード構築は実際には \textit{lower} の逆距離を持ち、論理情報をよりよく保護し、QECC desiderataの重要性を強調します。 最後に、このRLフレームワークを物理量子デバイスと組み合わせて、ノイズモデルの明示的な特徴を伴わずにコードを調整する方法についてコメントする。

The recently introduced Quantum Lego framework provides a powerful method for generating complex quantum error correcting codes (QECCs) out of simple ones. We gamify this process and unlock a new avenue for code design and discovery using reinforcement learning (RL). One benefit of RL is that we can specify \textit{arbitrary} properties of the code to be optimized. We train on two such properties, maximizing the code distance, and minimizing the probability of logical error under biased Pauli noise. For the first, we show that the trained agent identifies ways to increase code distance beyond naive concatenation, saturating the linear programming bound for CSS codes on 13 qubits. With a learning objective to minimize the logical error probability under biased Pauli noise, we find the best known CSS code at this task for $\lesssim 20$ qubits. Compared to other (locally deformed) CSS codes, including Surface, XZZX, and 2D Color codes, our $[[17,1,3]]$ code construction actually has \textit{lower} adversarial distance, yet better protects the logical information, highlighting the importance of QECC desiderata. Lastly, we comment on how this RL framework can be used in conjunction with physical quantum devices to tailor a code without explicit characterization of the noise model.
翻訳日:2023-06-14 17:05:34 公開日:2023-06-12
# RLU to the Rescue: ポジティブなアドバンテージでオンデマンドアクター批判を改善する

ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages ( http://arxiv.org/abs/2306.01460v2 )

ライセンス: Link先を確認
Andrew Jesson and Chris Lu and Gunshi Gupta and Angelos Filos and Jakob Nicolaus Foerster and Yarin Gal(参考訳) 本稿では,オンライン深層強化学習(drl)アルゴリズムの有効性を高める新しい手法を提案する。 1) ReLU 関数による処理の利点推定、(2) スペクトル正規化、(3) ドロップアウトの3つの驚くほど単純な修正は、有効性を向上するだけでなく、「注意深い」 DRL アルゴリズムをもたらす。 ppo (proximal policy optimization) やa3c (asynchronous advantage actor-critic) といったオンポリシーアルゴリズムが環境との慎重な相互作用を明示的に考慮していない場合,(1)値関数と定数の上限を最大化することにより,<textit{conservative value estimation} を促進させ,(2)トンプソンサンプリングを統合して注意深い探索を行う。 また,アルゴリズムが下位境界を最大化することを証明するために,マルチエージェント強化学習のための離散的行動法であるRegret Matching Policy Gradients (RMPG) を基礎とした。 様々なベンチマークにおける厳密な経験的評価は、既存のオンポリシーアルゴリズムに対する我々のアプローチの性能向上を示している。 この研究は、複雑な実世界の問題に対してアプリケーションをアンロックするために必要な効率的かつ慎重なdrlアルゴリズムへの大きな一歩である。

This paper introduces a novel method for enhancing the effectiveness of on-policy Deep Reinforcement Learning (DRL) algorithms. Three surprisingly simple modifications to the A3C algorithm: (1) processing advantage estimates through a ReLU function, (2) spectral normalization, and (3) dropout, serve to not only improve efficacy but also yield a ``cautious'' DRL algorithm. Where on-policy algorithms such as Proximal Policy Optimization (PPO) and Asynchronous Advantage Actor-Critic (A3C) do not explicitly account for cautious interaction with the environment, our method integrates caution in two critical ways: (1) by maximizing a lower bound on the value function plus a constant, thereby promoting a \textit{conservative value estimation}, and (2) by incorporating Thompson sampling for cautious exploration. In proving that our algorithm maximizes the lower bound, we also ground Regret Matching Policy Gradients (RMPG), a discrete-action on-policy method for multi-agent reinforcement learning. Our rigorous empirical evaluations across various benchmarks demonstrate our approach's improved performance against existing on-policy algorithms. This research represents a substantial step towards efficacious and cautious DRL algorithms, which are needed to unlock applications to complex, real-world problems.
翻訳日:2023-06-14 16:58:12 公開日:2023-06-12
# neuralangelo: 高忠実な神経表面再構成

Neuralangelo: High-Fidelity Neural Surface Reconstruction ( http://arxiv.org/abs/2306.03092v2 )

ライセンス: Link先を確認
Zhaoshuo Li, Thomas M\"uller, Alex Evans, Russell H. Taylor, Mathias Unberath, Ming-Yu Liu, Chen-Hsuan Lin(参考訳) 神経表面の再構成は、画像ベースのニューラルネットワークによる高密度な3d表面の復元に有効であることが示されている。 しかし、現在の手法は現実世界のシーンの詳細な構造を復元するのに苦労している。 そこで本研究では,マルチレゾリューション3次元ハッシュグリッドの表現力とニューラルネットワーク表面レンダリングを組み合わせたneuralangeloを提案する。 1)高次微分をスムーズな演算として計算するための数値勾配と,2)詳細の異なるレベルを制御するハッシュグリッド上での粗大な最適化である。 深度などの補助的な入力がなくても、ニューラルランジェロは従来の手法をはるかに上回り、多視点画像から高密度な3次元表面構造を効果的に復元することができる。

Neural surface reconstruction has been shown to be powerful for recovering dense 3D surfaces via image-based neural rendering. However, current methods struggle to recover detailed structures of real-world scenes. To address the issue, we present Neuralangelo, which combines the representation power of multi-resolution 3D hash grids with neural surface rendering. Two key ingredients enable our approach: (1) numerical gradients for computing higher-order derivatives as a smoothing operation and (2) coarse-to-fine optimization on the hash grids controlling different levels of details. Even without auxiliary inputs such as depth, Neuralangelo can effectively recover dense 3D surface structures from multi-view images with fidelity significantly surpassing previous methods, enabling detailed large-scale scene reconstruction from RGB video captures.
翻訳日:2023-06-14 16:47:31 公開日:2023-06-12
# ディラック予想に対する反例の量子化

Quantization of counterexamples to Dirac's conjecture ( http://arxiv.org/abs/2306.03080v2 )

ライセンス: Link先を確認
Mauricio Valenzuela(参考訳) 二次第一級の制約が物理系の状態を変えない変換を生成するというディラックの予想は、様々な反例を持つ。 一致するゲージ条件を課すことができないため、ディラックブラケットは定義できず、まず位相空間を制限し、次に量子化は矛盾する手続きである。 後者の観測は、ディラックの予想が一般に有効であると仮定される一方で、この種のシステムの研究をより深く妨げている。 しかし、二次第一級制約はポアソンのブラケット修正を含まない初期条件であり、波動関数の初期状態に対してこれらの制約を課すことで量子化を成功させるものであることを指摘した。 この方法は、コーリーの象徴的システムを含む2つのディラック予想の反例に適用する。

Dirac's conjecture, that secondary first-class constraints generate transformations that do not change the physical system's state, has various counterexamples. Since no matching gauge conditions can be imposed, the Dirac bracket cannot be defined, and restricting the phase space first and then quantizing is an inconsistent procedure. The latter observation has discouraged the study of systems of this kind more profoundly, while Dirac's conjecture is assumed generally valid. We point out, however, that secondary first-class constraints are just initial conditions that do not imply Poisson's bracket modification, and we carry out the quantization successfully by imposing these constraints on the initial state of the wave function. We apply the method to two Dirac's conjecture counterexamples, including Cawley's iconical system.
翻訳日:2023-06-14 16:47:13 公開日:2023-06-12
# ループノベルティ世代における人間

Human in the Loop Novelty Generation ( http://arxiv.org/abs/2306.04813v2 )

ライセンス: Link先を確認
Mark Bercasio, Allison Wong, Dustin Dannenhauer(参考訳) 新たな予期せぬ状況を克服するための人工知能アプローチの開発は、難しい未解決の問題である。 斬新な宿泊施設における最先端技術への挑戦の1つは、新しい状況に対するパフォーマンスを評価するためのテストフレームワークが利用可能であることである。 近年のScience BirdsやMonopolyのようなドメインにおける新規性生成アプローチは、検索中に人間のドメインの専門知識を活用して新しい新規性を発見する。 このようなアプローチは、ノベルティ生成が起こる前に人間の指導を導入し、シミュレーション環境に直接ロードできるノベルティを生み出す。 本稿では,ドメイン依存型人間指導を必要としない環境(シミュレーション領域を含む)の抽象モデルを用いた新規性生成手法を提案する。 鍵となる結果は、生成可能なノベルティのより大きな無限の空間であり、トレードオフは、生成後のノベルティの選択とフィルタリングに人間のガイダンスを必要とする要件である。 当社のオープンソースノベルティジェネレーションライブラリを使用して,モノポリーとvisdoomという2つのドメインのベースラインエージェントをテストしています。 提案手法は,モノポリードメインとビズドゥームドメインの両方において,新規性を4時間以内に開発,実装,テスト,修正できることを示す。

Developing artificial intelligence approaches to overcome novel, unexpected circumstances is a difficult, unsolved problem. One challenge to advancing the state of the art in novelty accommodation is the availability of testing frameworks for evaluating performance against novel situations. Recent novelty generation approaches in domains such as Science Birds and Monopoly leverage human domain expertise during the search to discover new novelties. Such approaches introduce human guidance before novelty generation occurs and yield novelties that can be directly loaded into a simulated environment. We introduce a new approach to novelty generation that uses abstract models of environments (including simulation domains) that do not require domain-dependent human guidance to generate novelties. A key result is a larger, often infinite space of novelties capable of being generated, with the trade-off being a requirement to involve human guidance to select and filter novelties post generation. We describe our Human-in-the-Loop novelty generation process using our open-source novelty generation library to test baseline agents in two domains: Monopoly and VizDoom. Our results shows the Human-in-the-Loop method enables users to develop, implement, test, and revise novelties within 4 hours for both Monopoly and VizDoom domains.
翻訳日:2023-06-14 16:35:04 公開日:2023-06-12
# クラスアソシエーション埋め込みと巡回敵生成による医用画像のアクティブグローバル説明学習

Active Globally Explainable Learning for Medical Images via Class Association Embedding and Cyclic Adversarial Generation ( http://arxiv.org/abs/2306.07306v1 )

ライセンス: Link先を確認
Ruitao Xie, Jingbang Chen, Limai Jiang, Rui Xiao, Yi Pan, Yunpeng Cai(参考訳) 説明可能性(Explainability)は、人工知能(AI)技術にとって大きな課題となる。 説明可能なAI(XAI)に関する最近の研究は、学習課題に関するグローバルな知識を抽出する効率を欠いているため、不正確さ、文脈認識の欠如、曖昧な意味などの欠陥を被っている。 本稿では,これらの問題に対処するクラスアソシエーション埋め込み(CAE)アプローチを提案する。 サンプル機能をエンコーダ-デコーダアーキテクチャで組み込んで,それらをクラスや個々のスタイルベクトルに同時に分離する。 あるサンプルの個々のスタイルコードと他のサンプルのクラススタイルコードを再結合すると、循環的対角学習戦略に従って、保存された個々の文字を持つ合成サンプルとなる。 クラスアソシエーションは、すべてのインスタンスのグローバルクラス関連の機能を、クラスをうまく分離した統一ドメインに蒸留する。 異なるクラス間の遷移ルールを抽出し、個々のインスタンスにさらに適用することができる。 そこで我々は,あるサンプルのクラス型ベクトルを対向クラスへ誘導する経路に沿って操作するアクティブXAIフレームワークを提案する。 これらのカウンターファクトのサンプルを元のサンプルと比較すると、分類タスクの性質をグローバルで直感的に説明できる。 医用画像分類タスクの枠組みを導入し,既存の手法と比較して,強力な文脈対応表現を備えた高精度なサリエンシマップを実現できることを示す。 さらに、病状はクラススタイルの空間の経路を横断することで直接可視化することができる。

Explainability poses a major challenge to artificial intelligence (AI) techniques. Current studies on explainable AI (XAI) lack the efficiency of extracting global knowledge about the learning task, thus suffer deficiencies such as imprecise saliency, context-aware absence and vague meaning. In this paper, we propose the class association embedding (CAE) approach to address these issues. We employ an encoder-decoder architecture to embed sample features and separate them into class-related and individual-related style vectors simultaneously. Recombining the individual-style code of a given sample with the class-style code of another leads to a synthetic sample with preserved individual characters but changed class assignment, following a cyclic adversarial learning strategy. Class association embedding distills the global class-related features of all instances into a unified domain with well separation between classes. The transition rules between different classes can be then extracted and further employed to individual instances. We then propose an active XAI framework which manipulates the class-style vector of a certain sample along guided paths towards the counter-classes, resulting in a series of counter-example synthetic samples with identical individual characters. Comparing these counterfactual samples with the original ones provides a global, intuitive illustration to the nature of the classification tasks. We adopt the framework on medical image classification tasks, which show that more precise saliency maps with powerful context-aware representation can be achieved compared with existing methods. Moreover, the disease pathology can be directly visualized via traversing the paths in the class-style space.
翻訳日:2023-06-14 16:29:56 公開日:2023-06-12
# 自己学習の予測と適応 --パイロット予測ラック

Making forecasting self-learning and adaptive -- Pilot forecasting rack ( http://arxiv.org/abs/2306.07305v1 )

ライセンス: Link先を確認
Shaun D'Souza, Dheeraj Shah, Amareshwar Allati, Parikshit Soni(参考訳) 小売売上高と価格予測は典型的には時系列予測に基づいている。 いくつかの製品カテゴリーでは、需要予測の精度は低く、在庫、輸送、補充計画に悪影響を及ぼす。 本稿では,このような商品カテゴリーの予測精度向上を支援するための,積極的なパイロット・エクササイズに基づく調査を行った。 サンプル製品カテゴリであるニットウェアに基づいて,予測精度を向上させるアルゴリズム介入の機会を評価した。 ニットウェア製品カテゴリは、60%の範囲で非aiモデルから現在の需要予測精度を有する。 ラックアプローチによる予測精度の向上方法について検討した。 予測を生成するために,決定モデルは与えられた状態と状況の性能に基づいてアルゴリズムラックから最適なアルゴリズムを動的に選択する。 高度な機能工学を用いて構築したai/ml予測モデルの結果,ニットウェア製品カテゴリの需要予測精度が20%向上し,全体の精度が80%に向上した。 私たちのラックは、さまざまな顧客データセットに対応するアルゴリズムで構成されているので、予測モデルは、特定の顧客コンテキストに合わせて簡単にカスタマイズできます。

Retail sales and price projections are typically based on time series forecasting. For some product categories, the accuracy of demand forecasts achieved is low, negatively impacting inventory, transport, and replenishment planning. This paper presents our findings based on a proactive pilot exercise to explore ways to help retailers to improve forecast accuracy for such product categories. We evaluated opportunities for algorithmic interventions to improve forecast accuracy based on a sample product category, Knitwear. The Knitwear product category has a current demand forecast accuracy from non-AI models in the range of 60%. We explored how to improve the forecast accuracy using a rack approach. To generate forecasts, our decision model dynamically selects the best algorithm from an algorithm rack based on performance for a given state and context. Outcomes from our AI/ML forecasting model built using advanced feature engineering show an increase in the accuracy of demand forecast for Knitwear product category by 20%, taking the overall accuracy to 80%. Because our rack comprises algorithms that cater to a range of customer data sets, the forecasting model can be easily tailored for specific customer contexts.
翻訳日:2023-06-14 16:29:28 公開日:2023-06-12
# 破壊データを用いた3次元物体検出のためのロバストセンサ融合

Towards a Robust Sensor Fusion Step for 3D Object Detection on Corrupted Data ( http://arxiv.org/abs/2306.07344v1 )

ライセンス: Link先を確認
Maciej K. Wozniak, Viktor Karefjards, Marko Thiel, Patric Jensfelt(参考訳) 3次元物体検出のためのマルチモーダルセンサ融合法は、自動運転研究分野に革命をもたらした。 しかしながら、これらの手法のほとんどは、密集したLiDARデータと正確な校正されたセンサーに大きく依存している。 LiDARとカメラのデータはしばしば、センサーの誤校正、校正、あるいは異なる周波数のために不一致となる。 加えて、LiDARデータの一部が閉鎖され、ハードウェアの故障や気象条件のためにデータの一部が失われる可能性がある。 この研究は、データの破損に対処し、3Dオブジェクト検出のためのセンサ融合をより堅牢にする新しい融合ステップを示す。 広範にわたる実験により,本手法は通常のデータに対する最先端手法と同等に動作し,不整合データに対して性能を向上することを示した。

Multimodal sensor fusion methods for 3D object detection have been revolutionizing the autonomous driving research field. Nevertheless, most of these methods heavily rely on dense LiDAR data and accurately calibrated sensors which is often not the case in real-world scenarios. Data from LiDAR and cameras often come misaligned due to the miscalibration, decalibration, or different frequencies of the sensors. Additionally, some parts of the LiDAR data may be occluded and parts of the data may be missing due to hardware malfunction or weather conditions. This work presents a novel fusion step that addresses data corruptions and makes sensor fusion for 3D object detection more robust. Through extensive experiments, we demonstrate that our method performs on par with state-of-the-art approaches on normal data and outperforms them on misaligned data.
翻訳日:2023-06-14 16:18:43 公開日:2023-06-12
# Virtual Quantum Device (VQD): 量子コンピュータの詳細なエミュレーションのためのツール

The Virtual Quantum Device (VQD): A tool for detailed emulation of quantum computers ( http://arxiv.org/abs/2306.07342v1 )

ライセンス: Link先を確認
Cica Gustiani, Tyson Jones, Simon C. Benjamin(参考訳) 我々はQuEST量子エミュレータに基づくシステムであるVirtual Quantum Device (VQD) プラットフォームを提案する。 vqdを使用することで、非専門家のユーザーは特定の量子コンピュータに詳細なエラーモデル、個性ゲートセット、コネクティビティをエミュレートすることができる。 プラットフォームには直感的なインターフェース、強力な視覚化、複雑な量子アルゴリズムやさまざまな量子コンピューティングハードウェアにおけるアイデアの効率的なテストと最適化のための高性能な計算との互換性がある。 我々は、閉じ込められたイオン、窒素空孔中心、中性原子配列、シリコン量子ドットスピン、超伝導デバイスに対応する5種類のVQDを作成し、探索する。 それぞれが、調整されたパラメータセットを通じて、高度に設定可能である。 各仮想デバイスの重要な特徴を実演し,ツールの有用性の実例を示し,各デバイス固有の属性を強調する。 多様な量子ハードウェアのユーザフレンドリなカプセル化された記述を提供することで、VQDプラットフォームは研究者に、現実的な環境でアルゴリズムやプロトコルを迅速に探索する機能を提供する。

We present the Virtual Quantum Device (VQD) platform, a system based on the QuEST quantum emulator. Through the use of VQDs, non-expert users can emulate specific quantum computers with detailed error models, bespoke gate sets and connectivities. The platform boasts an intuitive interface, powerful visualisation, and compatibility with high-performance computation for effective testing and optimisation of complex quantum algorithms or ideas across a range of quantum computing hardware. We create and explore five families of VQDs corresponding to trapped ions, nitrogen-vacancy-centres, neutral atom arrays, silicon quantum dot spins, and superconducting devices. Each is highly configurable through a set of tailored parameters. We showcase the key characteristics of each virtual device, providing practical examples of the tool's usefulness and highlighting each device's specific attributes. By offering user-friendly encapsulated descriptions of diverse quantum hardware, the VQD platform offers researchers the ability to rapidly explore algorithms and protocols in a realisitic setting; meanwhile hardware experts can create their own VQDs to compare with their experiments.
翻訳日:2023-06-14 16:18:29 公開日:2023-06-12
# 翻訳対称データ学習のための量子畳み込みニューラルネットワークの分割と並列化

Splitting and Parallelizing of Quantum Convolutional Neural Networks for Learning Translationally Symmetric Data ( http://arxiv.org/abs/2306.07331v1 )

ライセンス: Link先を確認
Koki Chinzei, Quoc Hoan Tran, Kazunori Maruyama, Hirotaka Oshima, Shintaro Sato(参考訳) 量子畳み込みニューラルネットワーク(quantum convolutional Neural Network, QCNN)は、古典的に難解な問題において量子アドバンテージを達成するための有望な量子機械学習(QML)モデルである。 しかし、qcnnは大規模な問題に対する実用的応用を制限し、データ学習に大量の測定を必要とする。 この要求を解消するために,より効率的な回路設計のための量子データの事前知識を活用した分割並列化QCNN(sp-QCNN)というアーキテクチャを提案する。 このアーキテクチャは幾何学的量子機械学習からインスピレーションを得ており、凝縮物質物理学でよく見られる翻訳対称量子データをターゲットにしている。 量子回路を翻訳対称性に基づいて分割することにより、sp-QCNNはキュービット数を増やすことなく従来のQCNNを実質的に並列化し、キュービット数の順序で測定効率を向上する。 量子位相認識タスクにsp-QCNNを適用し,従来のQCNNと同等の性能を示すとともに,必要な測定資源を大幅に削減できることを示す。 高測定効率のため、sp-QCNNは損失関数の勾配を推定する際の統計的誤差を軽減し、学習過程を加速することができる。 これらの結果は、データの事前知識をQMLモデルの効率的な設計に組み込む新たな可能性を開き、実用的な量子的優位性をもたらす。

A quantum convolutional neural network (QCNN) is a promising quantum machine learning (QML) model to achieve quantum advantages in classically intractable problems. However, QCNN requires a large number of measurements for data learning, limiting its practical applications for large-scale problems. To relieve this requirement, we propose a novel architecture called split-parallelizing QCNN (sp-QCNN), which exploits the prior knowledge of quantum data for designing efficient circuits. This architecture draws inspiration from geometric quantum machine learning and targets translationally symmetric quantum data commonly encountered in condensed matter physics. By splitting the quantum circuit based on translational symmetry, sp-QCNN substantially parallelizes conventional QCNN without increasing the number of qubits and further improves the measurement efficiency by an order of the number of qubits. To demonstrate its effectiveness, we apply sp-QCNN to a quantum phase recognition task and show that it can achieve similar performance to conventional QCNN while considerably reducing the measurement resources required. Due to its high measurement efficiency, sp-QCNN can mitigate statistical errors in estimating the gradient of the loss function, thereby accelerating the learning process. These results open up new possibilities for incorporating the prior knowledge of data into the efficient design of QML models, leading to practical quantum advantages.
翻訳日:2023-06-14 16:18:12 公開日:2023-06-12
# 境界時間結晶の量子熱力学

Quantum thermodynamics of boundary time-crystals ( http://arxiv.org/abs/2306.07330v1 )

ライセンス: Link先を確認
Federico Carollo, Igor Lesanovsky, Mauro Antezza, Gabriele De Chiara(参考訳) 時間変換対称性の破れはマルコフ開量子系における非定常多体相、いわゆる時間結晶の出現のメカニズムである。 時間結晶の力学的な側面は近年広く研究されている。 しかし、これらの相の固有の非平衡性のため、熱力学的性質についてはあまり知られていない。 本稿では,有限温度環境下でのパラダイム境界時間結晶系を考察し,任意の温度における時間結晶相の持続性を示す。 さらに,熱流,電力交換,非可逆エントロピー生成に関するモデルの熱力学的な側面についても解析した。 我々の研究は、非平衡時間結晶相を維持するための熱力学的コストに光を当て、例えば量子センシングのリソースとして時間結晶を特徴付けるための枠組みを提供する。 この結果は、例えば閉じ込められたイオンや超伝導回路において、熱力学量と平均値、集団(磁化)作用素の共分散を接続する実験で検証できる。

Time-translation symmetry breaking is a mechanism for the emergence of non-stationary many-body phases, so-called time-crystals, in Markovian open quantum systems. Dynamical aspects of time-crystals have been extensively explored over the recent years. However, much less is known about their thermodynamic properties, also due to the intrinsic nonequilibrium nature of these phases. Here, we consider the paradigmatic boundary time-crystal system, in a finite-temperature environment, and demonstrate the persistence of the time-crystalline phase at any temperature. Furthermore, we analyze thermodynamic aspects of the model investigating, in particular, heat currents, power exchange and irreversible entropy production. Our work sheds light on the thermodynamic cost of sustaining nonequilibrium time-crystalline phases and provides a framework for characterizing time-crystals as possible resources for, e.g., quantum sensing. Our results may be verified in experiments, for example with trapped ions or superconducting circuits, since we connect thermodynamic quantities with mean value and covariance of collective (magnetization) operators.
翻訳日:2023-06-14 16:17:48 公開日:2023-06-12
# 局所的に制御された逮捕熱化

Locally controlled arrested thermalization ( http://arxiv.org/abs/2306.07319v1 )

ライセンス: Link先を確認
Ken K. W. Ma and Hitesh J. Changlani(参考訳) 量子系の長時間のダイナミクスは、典型的には、常にではなく、熱定常状態をもたらす。 この運命を導いたり回避したりする微視的なプロセスは、日常的な経験から、システムのすべての空間的領域が均一に加熱される、あるいは冷却されるわけではないことが分かるため、興味深い。 これは、どの条件で熱化を遅くしたり、局所的に完全に停止させることができるのか? 局所領域が他の領域から効果的に絶縁されている、あるいは2つ以上の領域間の障壁のように振る舞うような現実的なハミルトンと初期状態を構築することは可能か。 我々は、エネルギーの流れとサブシステム間のエントロピーを支配する条件を概説することで、肯定的に答える。 これらのアイデアを用いることで、相互作用する領域間の ``thermal switch' をいかに単純な少数体状態で設計できるかを示す代表例を提供する。

The long-time dynamics of quantum systems, typically, but not always, results in a thermal steady state. The microscopic processes that lead to or circumvent this fate are of interest, since everyday experience tells us that not all spatial regions of a system heat up or cool down uniformly. This motivates the question: under what conditions can one slow down or completely arrest thermalization locally? Is it possible to construct realistic Hamiltonians and initial states such that a local region is effectively insulated from the rest, or acts like a barrier between two or more regions? We answer this in the affirmative by outlining the conditions that govern the flow of energy and entropy between subsystems. Using these ideas we provide a representative example for how simple few-body states can be used to engineer a ``thermal switch" between interacting regions.
翻訳日:2023-06-14 16:17:31 公開日:2023-06-12
# 強相関電子光子系

Strongly-Correlated Electron-Photon Systems ( http://arxiv.org/abs/2306.07313v1 )

ライセンス: Link先を確認
Jacqueline Bloch, Andrea Cavalleri, Victor Galitski, Mohammad Hafezi, and Angel Rubio(参考訳) 現代の凝縮物質物理学の重要な目標は、新しい創発的性質と望ましい機能を持つ物質の状態の探索である。 材料設計のツールはまだ比較的限られているが、ヘテロ界面での相互作用、低次元材料の正確なアライメント、極端な圧力の使用を制御し、近年顕著な進歩を遂げている。 ここでは,強い相関を持つ量子物質を操作・合成する新しい方法を提供する光・物質相互作用の制御に基づく新しいパラダイムを強調する。 電子-電子相互作用と電子-光子相互作用の両方が強く、様々な新しい現象を引き起こす場合を考える。 光子媒介超伝導、キャビティフラクテーション量子ホール物理、および低次元の光駆動位相現象は、この視点で議論されるフロンティアの1つであり、我々がここで「強相関電子光子科学」と呼ぶ新しい分野にスポットライトを当てている。

An important goal of modern condensed matter physics involves the search for states of matter with new emergent properties and desirable functionalities. Although the tools for material design remain relatively limited, notable advances have been recently achieved by controlling interactions at hetero-interfaces, precise alignment of low-dimensional materials and the use of extreme pressures . Here, we highlight a new paradigm, based on controlling light-matter interactions, which provides a new way to manipulate and synthesize strongly correlated quantum matter. We consider the case in which both electron-electron and electron-photon interactions are strong and give rise to a variety of novel phenomena. Photon-mediated superconductivity, cavity-fractional quantum Hall physics and optically driven topological phenomena in low dimensions are amongst the frontiers discussed in this perspective, which puts a spotlight on a new field that we term here "strongly-correlated electron-photon science."
翻訳日:2023-06-14 16:17:15 公開日:2023-06-12
# 高等教育における音楽知識基盤の充実のためのクラウドソーシング

Employing Crowdsourcing for Enriching a Music Knowledge Base in Higher Education ( http://arxiv.org/abs/2306.07310v1 )

ライセンス: Link先を確認
Vassilis Lyberatos, Spyridon Kantarelis, Eirini Kaldeli, Spyros Bekiaris, Panagiotis Tzortzis, Orfeas Menis - Mastromichalakis and Giorgos Stamou(参考訳) 本稿では,コンピュータサイエンスの高等教育生を対象とした宿題課題の一環として,クラウドソーシング技術を用いた手法と教訓について述べる。 文化遺産におけるクラウドソーシングを支援するプラットフォームを利用することで、学生は音楽トラックの選択に伴うメタデータを充実させようとした。 このキャンペーンの成果はさらに分析され、学生がセマンティックウェブ技術を用いて活用した。 このキャンペーンには98人の学生が参加し、854トラックに関する6400以上の注釈を提出した。 このプロセスは、また、音楽タグ付けのための機械学習モデルに有用な、公開可能な注釈付きデータセットの作成にも繋がった。 このキャンペーンの結果とオンライン調査を通じて集めたコメントは、コンピュータサイエンスのカリキュラムにクラウドソーシングを統合することのメリットと課題、そしてこれが学習プロセスへの学生の関与をいかに高めるかに関する有益な洞察を導きだすことができる。

This paper describes the methodology followed and the lessons learned from employing crowdsourcing techniques as part of a homework assignment involving higher education students of computer science. Making use of a platform that supports crowdsourcing in the cultural heritage domain students were solicited to enrich the metadata associated with a selection of music tracks. The results of the campaign were further analyzed and exploited by students through the use of semantic web technologies. In total, 98 students participated in the campaign, contributing more than 6400 annotations concerning 854 tracks. The process also led to the creation of an openly available annotated dataset, which can be useful for machine learning models for music tagging. The campaign's results and the comments gathered through an online survey enable us to draw some useful insights about the benefits and challenges of integrating crowdsourcing into computer science curricula and how this can enhance students' engagement in the learning process.
翻訳日:2023-06-14 16:16:57 公開日:2023-06-12
# ガウス混合還元への応用を含む新しい確率的距離計量

A New Probabilistic Distance Metric With Application In Gaussian Mixture Reduction ( http://arxiv.org/abs/2306.07309v1 )

ライセンス: Link先を確認
Ahmad Sajedi, Yuri A. Lawryshyn, and Konstantinos N. Plataniotis(参考訳) 本稿では, 2つの連続確率密度関数を比較するための新しい距離メトリックを提案する。 この計量の主な利点は、他の統計測度とは異なり、すべての計量特性を満足しながら、ガウス分布の混合に対して解析的で閉形式表現を提供できることである。 これらの特性は高速で安定で効率的な計算を可能にし、現実世界の信号処理アプリケーションで非常に望ましい。 応用としてガウス混合還元法(GMR)があり、密度推定、再帰的追跡、信念伝播に広く用いられている。 そこで我々は,高次ガウス混合と低次混合を近似するための基準として,最適化に基づくgreedy gmr (oggmr) と呼ばれる新しいアルゴリズムを開発した。 実験の結果, oggmrアルゴリズムは従来のgmrアルゴリズムよりも高速で効率が良く, 元の混合物の幾何学的形状を保っていることがわかった。

This paper presents a new distance metric to compare two continuous probability density functions. The main advantage of this metric is that, unlike other statistical measurements, it can provide an analytic, closed-form expression for a mixture of Gaussian distributions while satisfying all metric properties. These characteristics enable fast, stable, and efficient calculations, which are highly desirable in real-world signal processing applications. The application in mind is Gaussian Mixture Reduction (GMR), which is widely used in density estimation, recursive tracking, and belief propagation. To address this problem, we developed a novel algorithm dubbed the Optimization-based Greedy GMR (OGGMR), which employs our metric as a criterion to approximate a high-order Gaussian mixture with a lower order. Experimental results show that the OGGMR algorithm is significantly faster and more efficient than state-of-the-art GMR algorithms while retaining the geometric shape of the original mixture.
翻訳日:2023-06-14 16:16:41 公開日:2023-06-12
# 最適化に触発されたディープニューラルネットワークを用いた自己教師付きハイパースペクトルインパインティング

Self-Supervised Hyperspectral Inpainting with the Optimisation inspired Deep Neural Network Prior ( http://arxiv.org/abs/2306.07308v1 )

ライセンス: Link先を確認
Shuo Li and Mehrdad Yaghoobi(参考訳) ハイパースペクトル画像(HSI)は、数百から数千の狭いスペクトル帯域をカバーし、多くの空間およびスペクトル情報を伝達する。 しかし、インストゥルメンタルエラーや大気の変化により、実際に得られたhsiはしばしばノイズやデッドピクセル(ライン)によって汚染され、結果として、その後の応用を著しく損なう可能性のある情報が欠落する。 本稿では,新しいHSI欠落画素予測アルゴリズム,Low Rank and Sparsity Constraint Plug-and-Play (LRS-PnP)を紹介する。 LRS-PnPは、画像の全てのスペクトル帯域が欠落している場合でも、欠落した画素や帯域を予測することができる。 LRS-PnPアルゴリズムは、LSS-PnPとDeep Image Prior (DIP)を組み合わせた自己教師型モデルにさらに拡張される。 実データを用いた一連の実験において、LSS-PnP-DIPは、他の学習ベース手法と比較して最先端の塗装性能を達成するか、性能を上回ることを示した。

Hyperspectral Image (HSI)s cover hundreds or thousands of narrow spectral bands, conveying a wealth of spatial and spectral information. However, due to the instrumental errors and the atmospheric changes, the HSI obtained in practice are often contaminated by noise and dead pixels(lines), resulting in missing information that may severely compromise the subsequent applications. We introduce here a novel HSI missing pixel prediction algorithm, called Low Rank and Sparsity Constraint Plug-and-Play (LRS-PnP). It is shown that LRS-PnP is able to predict missing pixels and bands even when all spectral bands of the image are missing. The proposed LRS-PnP algorithm is further extended to a self-supervised model by combining the LRS-PnP with the Deep Image Prior (DIP), called LRS-PnP-DIP. In a series of experiments with real data, It is shown that the LRS-PnP-DIP either achieves state-of-the-art inpainting performance compared to other learning-based methods, or outperforms them.
翻訳日:2023-06-14 16:16:25 公開日:2023-06-12
# ファウショット政策伝達のためのオンラインプロトタイプアライメント

Online Prototype Alignment for Few-shot Policy Transfer ( http://arxiv.org/abs/2306.07307v1 )

ライセンス: Link先を確認
Qi Yi, Rui Zhang, Shaohui Peng, Jiaming Guo, Yunkai Gao, Kaizhao Yuan, Ruizhi Chen, Siming Lan, Xing Hu, Zidong Du, Xishan Zhang, Qi Guo, and Yunji Chen(参考訳) 強化学習(RL)におけるドメイン適応は主に、政策を新しい環境に移す際の観察の変化を扱う。 RLにおけるドメイン適応の伝統的なアプローチは、ソースとターゲットドメインの間のマッピング関数を明示的あるいは暗黙的に学習する。 しかし、通常、ターゲットドメインから豊富なデータにアクセスする必要があります。 さらに、マッピング関数の学習には視覚的なヒントを頼りにし、ソースドメインがターゲットドメインと全く異なるように見えると失敗することがある。 これらの問題に対処するために,要素の機能的類似性に基づいてマッピング関数を学習し,数回のエピソードで最小限のポリシー転送を実現するための,新しいフレームワークであるオンラインプロトタイプアライメント(opa)を提案する。 OPAのキーとなる洞察は、ターゲットドメインの見えない要素を効率的かつ目的的に操作できる探索メカニズムを導入し、その機能(視覚的な手がかりではなく)に応じてソースドメイン内の要素と接続することである。 実験の結果、ターゲットドメインがソースドメインと視覚的に異なる場合、OPAは、ターゲットドメインからのサンプルがはるかに少ない場合でも、より優れた転送性能を達成でき、先行手法よりも優れることが示された。

Domain adaptation in reinforcement learning (RL) mainly deals with the changes of observation when transferring the policy to a new environment. Many traditional approaches of domain adaptation in RL manage to learn a mapping function between the source and target domain in explicit or implicit ways. However, they typically require access to abundant data from the target domain. Besides, they often rely on visual clues to learn the mapping function and may fail when the source domain looks quite different from the target domain. To address these problems, we propose a novel framework Online Prototype Alignment (OPA) to learn the mapping function based on the functional similarity of elements and is able to achieve the few-shot policy transfer within only several episodes. The key insight of OPA is to introduce an exploration mechanism that can interact with the unseen elements of the target domain in an efficient and purposeful manner, and then connect them with the seen elements in the source domain according to their functionalities (instead of visual clues). Experimental results show that when the target domain looks visually different from the source domain, OPA can achieve better transfer performance even with much fewer samples from the target domain, outperforming prior methods.
翻訳日:2023-06-14 16:15:58 公開日:2023-06-12
# EriBERTa: 臨床自然言語処理のためのバイリンガル事前学習言語モデル

EriBERTa: A Bilingual Pre-Trained Language Model for Clinical Natural Language Processing ( http://arxiv.org/abs/2306.07373v1 )

ライセンス: Link先を確認
Iker de la Iglesia and Aitziber Atutxa and Koldo Gojenola and Ander Barrena(参考訳) 医療研究や治療モニタリングを含む各種二次的目的のための臨床報告書の活用は,患者ケアの充実に不可欠である。 自然言語処理(NLP)ツールはこれらのレポートから関連情報を抽出・処理するための貴重な資産として登場した。 しかし、スペイン語における臨床ドメインのための専門言語モデルの可用性は限られている。 本稿では,広汎な医療・臨床コーパスに基づくバイリンガルドメイン特化言語モデルであるEriBERTaを紹介する。 EriBERTaは、臨床領域における以前のスペイン語モデルよりも優れており、医用テキストの理解や意味のある情報抽出における優れた能力を示している。 さらに、EriBERTaは有望な伝達学習能力を示し、ある言語から別の言語への知識伝達を可能にする。 スペインの臨床データが少ないことから、この側面は特に有益である。

The utilization of clinical reports for various secondary purposes, including health research and treatment monitoring, is crucial for enhancing patient care. Natural Language Processing (NLP) tools have emerged as valuable assets for extracting and processing relevant information from these reports. However, the availability of specialized language models for the clinical domain in Spanish has been limited. In this paper, we introduce EriBERTa, a bilingual domain-specific language model pre-trained on extensive medical and clinical corpora. We demonstrate that EriBERTa outperforms previous Spanish language models in the clinical domain, showcasing its superior capabilities in understanding medical texts and extracting meaningful information. Moreover, EriBERTa exhibits promising transfer learning abilities, allowing for knowledge transfer from one language to another. This aspect is particularly beneficial given the scarcity of Spanish clinical data.
翻訳日:2023-06-14 16:09:31 公開日:2023-06-12
# 効率的で堅牢な政策選択テストの作成

Composing Efficient, Robust Tests for Policy Selection ( http://arxiv.org/abs/2306.07372v1 )

ライセンス: Link先を確認
Dustin Morrill, Thomas J. Walsh, Daniel Hernandez, Peter R. Wurman, Peter Stone(参考訳) 現代の強化学習システムは、学習プロセス全体で多くの高品質な政策を生み出している。 しかし、現実の世界に実際に展開する政策を選択するには、それらは多くの環境条件下でテストされなければならない。 本研究では,比較的少数のサンプル評価に基づいて,より大きなプールから少数のテストケースを選択するアルゴリズムであるrposstを紹介する。 rposstはテストケース選択問題を2人プレイのゲームとして扱い、証明可能な$k$-of-$n$ロバスト性でソリューションを最適化し、プール内のすべてのテストケースを使用したテストに対してエラーをバインドする。 実験の結果,RPOSSTは,おもちゃのワンショットゲーム,ポーカーデータセット,高忠実度レーシングシミュレータにおいて,高品質なポリシーを識別する少数のテストケースが見つかった。

Modern reinforcement learning systems produce many high-quality policies throughout the learning process. However, to choose which policy to actually deploy in the real world, they must be tested under an intractable number of environmental conditions. We introduce RPOSST, an algorithm to select a small set of test cases from a larger pool based on a relatively small number of sample evaluations. RPOSST treats the test case selection problem as a two-player game and optimizes a solution with provable $k$-of-$N$ robustness, bounding the error relative to a test that used all the test cases in the pool. Empirical results demonstrate that RPOSST finds a small set of test cases that identify high quality policies in a toy one-shot game, poker datasets, and a high-fidelity racing simulator.
翻訳日:2023-06-14 16:09:19 公開日:2023-06-12
# マシンビジョンを高速化するインテリジェントマルチチャネルメタイメージ

Intelligent Multi-channel Meta-imagers for Accelerating Machine Vision ( http://arxiv.org/abs/2306.07365v1 )

ライセンス: Link先を確認
Hanyu Zheng, Quan Liu, Ivan I. Kravchenko, Xiaomeng Zhang, Yuankai Huo, and Jason G. Valentine(参考訳) 機械ビジョンの急速な発展は、医療画像分析から自律システムまで、様々な産業の進歩につながっている。 しかし、これらの成果は一般的に、高エネルギー消費によって制限され、計算資源にアクセスできない場合のリアルタイムな意思決定を阻害する重い計算要求を持つデジタルニューラルネットワークを必要とする。 本稿では,計算コストの高い畳み込み操作を高速・低消費電力の光学系に組み込むための,ディジタルバックエンドと連携して動作するインテリジェントなメタイメージ器を示す。 このアーキテクチャでは、メタサーフェスによって角度と偏波の多重化が可能となり、単一のショットで正の値と負の値を持つ畳み込み操作を行う複数の情報チャネルを作成できる。 メタイメージングはオブジェクト分類に使用され、手書き文字の正確な分類は98.6%、ファッション画像の分類は88.8%である。 小型化、高速化、低消費電力化により、このアプローチは人工知能や機械ビジョンの応用に幅広い応用を見出すことができる。

Rapid developments in machine vision have led to advances in a variety of industries, from medical image analysis to autonomous systems. These achievements, however, typically necessitate digital neural networks with heavy computational requirements, which are limited by high energy consumption and further hinder real-time decision-making when computation resources are not accessible. Here, we demonstrate an intelligent meta-imager that is designed to work in concert with a digital back-end to off-load computationally expensive convolution operations into high-speed and low-power optics. In this architecture, metasurfaces enable both angle and polarization multiplexing to create multiple information channels that perform positive and negatively valued convolution operations in a single shot. The meta-imager is employed for object classification, experimentally achieving 98.6% accurate classification of handwritten digits and 88.8% accuracy in classifying fashion images. With compactness, high speed, and low power consumption, this approach could find a wide range of applications in artificial intelligence and machine vision applications.
翻訳日:2023-06-14 16:09:07 公開日:2023-06-12
# ランダムポストセレクションによるDIQKDに対するコヒーレント攻撃は集団攻撃よりも強い

Coherent attacks are stronger than collective attacks on DIQKD with random postselection ( http://arxiv.org/abs/2306.07364v1 )

ライセンス: Link先を確認
Martin Sandfuchs, Ramona Wolf(参考訳) 筆者らは最近の論文(Phys. Lett. 129, 050502 (2022))で、ランダムなポストセレクションを持つデバイス非依存QKDプロトコルの実装について報告している。 どちらの作業も集団攻撃に対するセキュリティ証明のみを提供しており、プロトコルがコヒーレントな攻撃に対して安全かどうかという疑問を投げかけている。 本稿では,このプロトコルに対する攻撃について報告し,コヒーレント攻撃が集団攻撃よりも強いことを示す。

In a recent paper [Phys. Rev. Lett. 129, 050502 (2022)], the authors report on the implementation of a device-independent QKD protocol with random postselection, which was originally proposed in [Phys. Rev. Lett. 128, 110506 (2022)]. Both works only provide a security proof against collective attacks, leaving open the question whether the protocol is secure against coherent attacks. In this note, we report on an attack on this protocol that demonstrates that coherent attacks are, in fact, stronger than collective attacks.
翻訳日:2023-06-14 16:08:51 公開日:2023-06-12
# H-SLAM:ハイブリッド直接間接視覚SLAM

H-SLAM: Hybrid Direct-Indirect Visual SLAM ( http://arxiv.org/abs/2306.07363v1 )

ライセンス: Link先を確認
Georges Younes, Douaa Khalil, John Zelek, Daniel Asmar(参考訳) 近年のモノクロオドメトリーにおけるハイブリッド手法の成功は、ハイブリッドモノクロスラムの性能向上を一般化しようとする多くの試みにつながった。 しかし、ほとんどの試みはいくつかの点で不足しており、最も顕著な問題は、2つの異なる地図表現(ローカルマップとグローバルマップ)の必要性であり、それぞれが異なる、計算コストが高く、しばしば冗長なプロセスを必要とする。 さらに、これらの地図は互いにドリフトする傾向があり、ポーズやシーンの推定と矛盾する結果となり、壊滅的な失敗に繋がる。 本稿では,1つの逆深度シーン表現を生成するために記述子共有を利用する新しい手法を提案する。 この表現は局所的に使用することができ、ループクロージャを実行するためにグローバルにクエリされ、冗長なポイントがローカルマップから疎外された後に、以前に観測されたマップポイントを再活性化する機能を持ち、分離された冗長なマップ保守プロセスは不要である。 提案手法で生成したマップは互いにドリフトを示さず,他の単分子SLAMシステムに必要な計算コストとメモリフットプリントのごく一部で計算できる。 リソース要件の削減にもかかわらず、提案手法はその堅牢性と正確性を維持し、EuRoC、KITTI、TUM VIといった有名なデータセットからのほとんどのシーケンスに対して、最先端のSLAMメソッド(LDSO、ORB-SLAM3)に匹敵するパフォーマンスを提供する。 ソースコードは、https://github.com/AUBVRL/fslam_ros_docker.comで入手できる。

The recent success of hybrid methods in monocular odometry has led to many attempts to generalize the performance gains to hybrid monocular SLAM. However, most attempts fall short in several respects, with the most prominent issue being the need for two different map representations (local and global maps), with each requiring different, computationally expensive, and often redundant processes to maintain. Moreover, these maps tend to drift with respect to each other, resulting in contradicting pose and scene estimates, and leading to catastrophic failure. In this paper, we propose a novel approach that makes use of descriptor sharing to generate a single inverse depth scene representation. This representation can be used locally, queried globally to perform loop closure, and has the ability to re-activate previously observed map points after redundant points are marginalized from the local map, eliminating the need for separate and redundant map maintenance processes. The maps generated by our method exhibit no drift between each other, and can be computed at a fraction of the computational cost and memory footprint required by other monocular SLAM systems. Despite the reduced resource requirements, the proposed approach maintains its robustness and accuracy, delivering performance comparable to state-of-the-art SLAM methods (e.g., LDSO, ORB-SLAM3) on the majority of sequences from well-known datasets like EuRoC, KITTI, and TUM VI. The source code is available at: https://github.com/AUBVRL/fslam_ros_docker.
翻訳日:2023-06-14 16:08:37 公開日:2023-06-12
# 量子状態の識別と熱力学

Thermodynamic bound on quantum state discrimination ( http://arxiv.org/abs/2306.07356v1 )

ライセンス: Link先を確認
Jos\'e Polo-G\'omez(参考訳) 熱力学の第二の法則は、量子状態の区別がいかに優れているかを制限していることを示す。 アッシャー・ペレスの提案に基づいてサイクルを経る量子内部自由度を持つ理想気体を調べることにより、量子状態識別の到達可能な精度に関する非自明な上限を確立する。 この熱力学的境界は、量子力学の線形性とワーク抽出の制約のみに依存するが、ホールボのバウンドはアクセス可能な情報に一致するが、ホールボ・ヘルストロムのバウンドよりもゆるい。 この結果は、熱力学的エントロピーとフォン・ノイマンエントロピーの不一致に関するさらなる証拠を与え、量子力学以外の提案に潜在的な限界を与える。

We show that the second law of thermodynamics poses a restriction on how well we can discriminate between quantum states. By examining an ideal gas with a quantum internal degree of freedom undergoing a cycle based on a proposal by Asher Peres, we establish a non-trivial upper bound on the attainable accuracy of quantum state discrimination. This thermodynamic bound, which relies solely on the linearity of quantum mechanics and the constraint of no work extraction, matches Holevo's bound on accessible information, but is looser than the Holevo-Helstrom bound. The result gives more evidence on the disagreement between thermodynamic entropy and von Neumann entropy, and places potential limitations on proposals beyond quantum mechanics.
翻訳日:2023-06-14 16:08:08 公開日:2023-06-12
# HDDL 2.1: 形式主義の定義と時間的HTN計画のセマンティクスを目指して

HDDL 2.1: Towards Defining a Formalism and a Semantics for Temporal HTN Planning ( http://arxiv.org/abs/2306.07353v1 )

ライセンス: Link先を確認
Damien Pellier, Alexandre Albore, Humbert Fiorino, Rafael Bailon-Ruiz(参考訳) 産業やロボット工学のような現実世界の応用には、リッチで多様な自動計画問題をモデル化する必要がある。 彼らの解決は通常、協調的かつ同時実行を必要とする。 いくつかのケースでは、これらの問題は階層的に分解され、階層的タスクネットワーク(htn)形式によって表現される。 PDDL 2.1とは異なり、計画ドメイン定義言語(PDDL)の階層的な拡張であるHDDLでは、数値的および時間的制約による計画上の問題を表現できない。 本稿では,HDDLとこれらの運用ニーズのギャップを埋めるとともに,数値的・時間的表現を表現するためにPDDL 2.1からインスピレーションを得てHDDLを拡張することを提案する。 本稿では,今後のHDDL 2.1拡張に必要なセマンティクスと構文について論じる。

Real world applications as in industry and robotics need modelling rich and diverse automated planning problems. Their resolution usually requires coordinated and concurrent action execution. In several cases, these problems are naturally decomposed in a hierarchical way and expressed by a Hierarchical Task Network (HTN) formalism. HDDL, a hierarchical extension of the Planning Domain Definition Language (PDDL), unlike PDDL 2.1 does not allow to represent planning problems with numerical and temporal constraints, which are essential for real world applications. We propose to fill the gap between HDDL and these operational needs and to extend HDDL by taking inspiration from PDDL 2.1 in order to express numerical and temporal expressions. This paper opens discussions on the semantics and the syntax needed for a future HDDL 2.1 extension.
翻訳日:2023-06-14 16:07:54 公開日:2023-06-12
# 非IC入札による広告市場におけるマルチプラットフォーム予算管理

Multi-Platform Budget Management in Ad Markets with Non-IC Auctions ( http://arxiv.org/abs/2306.07352v1 )

ライセンス: Link先を確認
Fransisca Susan, Negin Golrezaei, Okke Schrijvers(参考訳) オンライン広告市場では、予算に縛られた広告主が様々なプラットフォーム上で競売を繰り返し入札することで広告の配置を取得する。 提案手法は,予算制約が存在する場合において,インセンティブに適合する可能性のあるオークションの組において,最適に入札する戦略を示す。 当社の戦略は、広告主が期待する予算制約を満たしつつ、オークション全体で期待される全ユーティリティを最大化する。 さらに,他の入札者の入札について時間をかけて学習しながら,プラットフォーム間で入札を行うオンライン環境についても検討する。 我々のアルゴリズムは全情報設定で$O(T^{3/4})$後悔している。 最後に,本アルゴリズムは,既存の適応的ペーシングアルゴリズムと比較して,広告配置オークションの合成データセットと実世界のデータセットの両方に対して優れた累積的後悔を持っていることを実証する。

In online advertising markets, budget-constrained advertisers acquire ad placements through repeated bidding in auctions on various platforms. We present a strategy for bidding optimally in a set of auctions that may or may not be incentive-compatible under the presence of budget constraints. Our strategy maximizes the expected total utility across auctions while satisfying the advertiser's budget constraints in expectation. Additionally, we investigate the online setting where the advertiser must submit bids across platforms while learning about other bidders' bids over time. Our algorithm has $O(T^{3/4})$ regret under the full-information setting. Finally, we demonstrate that our algorithms have superior cumulative regret on both synthetic and real-world datasets of ad placement auctions, compared to existing adaptive pacing algorithms.
翻訳日:2023-06-14 16:07:41 公開日:2023-06-12
# G-不変拡散写像

G-invariant diffusion maps ( http://arxiv.org/abs/2306.07350v1 )

ライセンス: Link先を確認
Eitan Rosen and Xiuyuan Cheng and Yoel Shkolnisky(参考訳) 多様体上に横たわるデータの拡散マップは、次元の減少やクラスタリング、データの可視化といったタスクに成功している。 本研究では、連続行列群の作用の下で閉じた多様体からサンプリングされた埋め込みデータセットについて考察する。 そのようなデータセットの例は、平面回転が任意である画像である。 著者の以前の研究で導入されたG-不変グラフ Laplacian は、群の既約ユニタリ表現の元とある種の行列の固有ベクトルの間のテンソル積の形の固有函数を認める。 これらの固有関数を用いて、データ上の群作用を本質的に考慮した拡散写像を導出する。 特に,データポイントのクラスタリングやアライメントに自然に使用できる同変埋め込みと不変埋め込みの両方を構築している。 シミュレーションデータによる構築の有効性を実証する。

The diffusion maps embedding of data lying on a manifold have shown success in tasks ranging from dimensionality reduction and clustering, to data visualization. In this work, we consider embedding data sets which were sampled from a manifold which is closed under the action of a continuous matrix group. An example of such a data set are images who's planar rotations are arbitrary. The G-invariant graph Laplacian, introduced in a previous work of the authors, admits eigenfunctions in the form of tensor products between the elements of the irreducible unitary representations of the group and eigenvectors of certain matrices. We employ these eigenfunctions to derive diffusion maps that intrinsically account for the group action on the data. In particular, we construct both equivariant and invariant embeddings which can be used naturally to cluster and align the data points. We demonstrate the effectiveness of our construction with simulated data.
翻訳日:2023-06-14 16:07:29 公開日:2023-06-12
# 視覚トランスフォーマーの事前学習におけるマスクと透視トークンの学習

Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training ( http://arxiv.org/abs/2306.07346v1 )

ライセンス: Link先を確認
Lorenzo Baraldi, Roberto Amoroso, Marcella Cornia, Lorenzo Baraldi, Andrea Pilzer, Rita Cucchiara(参考訳) 自己指導型事前学習の使用は、画像分類などの視覚的タスクの性能を高めるための有望なアプローチとして現れてきた。 この文脈では、最近のアプローチでは、ランダムにマスクされた画像パッチに関連する視覚トークンを再構築することでバックボーンを事前学習するマスク画像モデリングパラダイムが採用されている。 しかし、このマスキングアプローチは、事前トレーニング中の入力データにノイズをもたらし、微調整フェーズにおけるパフォーマンスを損なう可能性のある不一致を引き起こす。 さらに、入力マスキングは、破損したパッチ間の依存関係を無視し、下流の微調整タスクで見られる矛盾を増加させる。 これらの問題を解決するために,自動回帰および置換予測を用いてパッチ内依存関係をキャプチャするMasked and Permuted Vision Transformer (MaPeT) という,自己教師付き事前学習手法を提案する。 さらに、MaPeTは、事前訓練と微調整の相の相違を低減するために補助的な位置情報を使用する。 実験では、信頼性が高く有意義な比較と複数の視覚トークンに関する調査を行うために、公平な設定を採用しました。 以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。 ソースコードとトレーニングされたモデルは、https://github.com/aimagelab/MaPeT.comで公開されている。

The use of self-supervised pre-training has emerged as a promising approach to enhance the performance of visual tasks such as image classification. In this context, recent approaches have employed the Masked Image Modeling paradigm, which pre-trains a backbone by reconstructing visual tokens associated with randomly masked image patches. This masking approach, however, introduces noise into the input data during pre-training, leading to discrepancies that can impair performance during the fine-tuning phase. Furthermore, input masking neglects the dependencies between corrupted patches, increasing the inconsistencies observed in downstream fine-tuning tasks. To overcome these issues, we propose a new self-supervised pre-training approach, named Masked and Permuted Vision Transformer (MaPeT), that employs autoregressive and permuted predictions to capture intra-patch dependencies. In addition, MaPeT employs auxiliary positional information to reduce the disparity between the pre-training and fine-tuning phases. In our experiments, we employ a fair setting to ensure reliable and meaningful comparisons and conduct investigations on multiple visual tokenizers, including our proposed $k$-CLIP which directly employs discretized CLIP features. Our results demonstrate that MaPeT achieves competitive performance on ImageNet, compared to baselines and competitors under the same model setting. Source code and trained models are publicly available at: https://github.com/aimagelab/MaPeT.
翻訳日:2023-06-14 16:07:14 公開日:2023-06-12
# Compositor: ロバスト部分とオブジェクトセグメンテーションのためのボトムアップクラスタリングとコンポジション

Compositor: Bottom-up Clustering and Compositing for Robust Part and Object Segmentation ( http://arxiv.org/abs/2306.07404v1 )

ライセンス: Link先を確認
Ju He, Jieneng Chen, Ming-Xian Lin, Qihang Yu, Alan Yuille(参考訳) 本稿では,ジョイント部分とオブジェクトセグメンテーションに対するロバストなアプローチを提案する。 具体的には,オブジェクトと部分のセグメンテーションを最適化問題として再構成し,画素,部分,オブジェクトレベルの埋め込みを含む階層的特徴表現を構築し,ボトムアップクラスタリングによって解決する。 ピクセルは複数のクラスタにグループ化され、部分レベルの埋め込みがクラスタセンターとして機能する。 その後、部品提案を合成してオブジェクトマスクを得る。 このボトムアップ相互作用は、より低いセマンティックレベルからより高いセマンティックレベルへの情報の統合に有効であることが示されている。 これに基づいて,提案手法は,マスク品質を向上しつつ,部品とオブジェクトのセグメンテーションマスクを同時に生成する。 コンストラクタは、PartImageNetとPascal-Partの最先端性能を、PartImageNetで約0.9%、PartImageNetで約1.3%、Pascal-Partで約0.4%、オブジェクトmIoUで約1.7%向上し、オクルージョンに対してそれぞれ約4.4%、オブジェクトで約7.1%向上している。 コードはhttps://github.com/TACJu/Compositor.comから入手できる。

In this work, we present a robust approach for joint part and object segmentation. Specifically, we reformulate object and part segmentation as an optimization problem and build a hierarchical feature representation including pixel, part, and object-level embeddings to solve it in a bottom-up clustering manner. Pixels are grouped into several clusters where the part-level embeddings serve as cluster centers. Afterwards, object masks are obtained by compositing the part proposals. This bottom-up interaction is shown to be effective in integrating information from lower semantic levels to higher semantic levels. Based on that, our novel approach Compositor produces part and object segmentation masks simultaneously while improving the mask quality. Compositor achieves state-of-the-art performance on PartImageNet and Pascal-Part by outperforming previous methods by around 0.9% and 1.3% on PartImageNet, 0.4% and 1.7% on Pascal-Part in terms of part and object mIoU and demonstrates better robustness against occlusion by around 4.4% and 7.1% on part and object respectively. Code will be available at https://github.com/TACJu/Compositor.
翻訳日:2023-06-14 15:59:18 公開日:2023-06-12
# エントロピー規則付きレコメンダシステムにおけるトピック抽出の強化

Enhancing Topic Extraction in Recommender Systems with Entropy Regularization ( http://arxiv.org/abs/2306.07403v1 )

ライセンス: Link先を確認
Xuefei Jiang, Dairui Liu, Ruihai Dong(参考訳) 近年、多くのレコメンダシステムがトピック抽出にテキストデータを利用して解釈性を高めている。 しかし,本研究の結果から,話題内のキーワードのコヒーレンスに顕著な欠陥がみられ,その説明可能性も低かった。 本稿では,この問題に対処するエントロピー正則化(entropy regularization)と呼ばれる新しい手法を導入する。 この戦略の有効性は、テキストデータを用いて項目埋め込みを抽出する確率行列分解モデルのバリエーションに関する実験を通じて検証される。 実験の結果,単語埋め込みにおけるコサイン類似度によって定量化されるトピックコヒーレンスが著しく改善した。

In recent years, many recommender systems have utilized textual data for topic extraction to enhance interpretability. However, our findings reveal a noticeable deficiency in the coherence of keywords within topics, resulting in low explainability of the model. This paper introduces a novel approach called entropy regularization to address the issue, leading to more interpretable topics extracted from recommender systems, while ensuring that the performance of the primary task stays competitively strong. The effectiveness of the strategy is validated through experiments on a variation of the probabilistic matrix factorization model that utilizes textual data to extract item embeddings. The experiment results show a significant improvement in topic coherence, which is quantified by cosine similarity on word embeddings.
翻訳日:2023-06-14 15:58:54 公開日:2023-06-12
# 4dhumanoutfit: 大きな変位を示す様々な服装の人間の動き系列のマルチサブジェクト4dデータセット

4DHumanOutfit: a multi-subject 4D dataset of human motion sequences in varying outfits exhibiting large displacements ( http://arxiv.org/abs/2306.07399v1 )

ライセンス: Link先を確認
Matthieu Armando, Laurence Boissieux, Edmond Boyer, Jean-Sebastien Franco, Martin Humenberger, Christophe Legras, Vincent Leroy, Mathieu Marsot, Julien Pansiot, Sergi Pujades, Rim Rekik, Gregory Rogez, Anilkumar Swamy, Stefanie Wuhrer(参考訳) この4DHumanOutfitは、さまざまなアクター、衣装、動きの、高密度にサンプリングされた時空間の4D人間の動きデータだ。 データセットは、異なる服装の異なるアクターを含むように設計されている。 このようにして、データセットは、アイデンティティ、衣装、動きを持つ3軸に沿って4次元の動きシーケンスを含むデータのキューブと見なすことができる。 このリッチデータセットは、拡張現実、アバターの作成、仮想試行など、デジタル人間の処理と作成に多くの潜在的な応用がある。 4dhumanoutfitは研究目的でhttps://kinovis.inria.fr/4dhumanoutfit/でリリースされている。 画像データと4D再構成に加えて、データセットは各軸に対する参照ソリューションを含む。 評価課題に対する基準解の価値を示すために,各軸に沿って独立したベースラインを示す。

This work presents 4DHumanOutfit, a new dataset of densely sampled spatio-temporal 4D human motion data of different actors, outfits and motions. The dataset is designed to contain different actors wearing different outfits while performing different motions in each outfit. In this way, the dataset can be seen as a cube of data containing 4D motion sequences along 3 axes with identity, outfit and motion. This rich dataset has numerous potential applications for the processing and creation of digital humans, e.g. augmented reality, avatar creation and virtual try on. 4DHumanOutfit is released for research purposes at https://kinovis.inria.fr/4dhumanoutfit/. In addition to image data and 4D reconstructions, the dataset includes reference solutions for each axis. We present independent baselines along each axis that demonstrate the value of these reference solutions for evaluation tasks.
翻訳日:2023-06-14 15:58:26 公開日:2023-06-12
# ニューロン活性化最大化の解釈に対する敵対的攻撃

Adversarial Attacks on the Interpretation of Neuron Activation Maximization ( http://arxiv.org/abs/2306.07397v1 )

ライセンス: Link先を確認
Geraldin Nanfack, Alexander Fulleringer, Jonathan Marty, Michael Eickenberg, Eugene Belilovsky(参考訳) 訓練されたディープニューラルネットワークの内部機能行動は、解釈が難しいことで悪名高い。 アクティベーション最大化アプローチは、トレーニングされたディープラーニングモデルの解釈と解析に使用される一連のテクニックである。 これらは、与えられたニューロンまたは特徴マップを最大に活性化する入力を見つけることからなる。 これらの入力はデータセットから選択したり、最適化によって得られる。 しかし、解釈可能性の方法が騙されることがある。 本研究では,解釈を欺く目的でモデルを操作する敵の概念を考える。 この操作を行うための最適化フレームワークを提案し、CNNに付随するアクティベーション-最大化解釈手法を操作して解釈を変更できることを実証し、これらの手法の信頼性に光を当てる。

The internal functional behavior of trained Deep Neural Networks is notoriously difficult to interpret. Activation-maximization approaches are one set of techniques used to interpret and analyze trained deep-learning models. These consist in finding inputs that maximally activate a given neuron or feature map. These inputs can be selected from a data set or obtained by optimization. However, interpretability methods may be subject to being deceived. In this work, we consider the concept of an adversary manipulating a model for the purpose of deceiving the interpretation. We propose an optimization framework for performing this manipulation and demonstrate a number of ways that popular activation-maximization interpretation techniques associated with CNNs can be manipulated to change the interpretations, shedding light on the reliability of these methods.
翻訳日:2023-06-14 15:58:13 公開日:2023-06-12
# ニューラルサーフェスレンダリングによるごちゃごちゃした場面におけるロボット把持6次元学習

Learning Any-View 6DoF Robotic Grasping in Cluttered Scenes via Neural Surface Rendering ( http://arxiv.org/abs/2306.07392v1 )

ライセンス: Link先を確認
Snehal Jauhri, Ishikaa Lunawat, Georgia Chalvatzaki(参考訳) ロボット操作は、インテリジェントなアシストなど、さまざまなアプリケーションドメインにロボットエージェントを認める上で重要である。 主な課題は、余分なシーン探索を必要とせず、あらゆる視点から乱雑な環境のオブジェクトを効果的に把握することである。 ニューラルボリューム表現と表面レンダリングの最近の進歩を活用した,6dof把握のための新しい手法である$\textit{neugraspnet}$を導入する。 提案手法は,グローバル(シーンレベル)とローカル(グレープレベル)のニューラルサーフェス表現の両方を学習し,シーンの未確認部分においても,効果的で完全に暗黙的な6DoFによる品質予測を可能にする。 さらに,把持を局所的な神経表面レンダリング問題として再解釈し,ロボットの終末効果と物体表面形状との相互作用をモデル化する。 NeuGraspNetは単一の視点で動作し、閉ざされたシーンの把握候補をサンプリングし、文学における既存の暗黙的および半単純的ベースライン法よりも優れた性能を発揮する。 我々は,移動マニピュレータロボットを用いたNeuGraspNetの現実的適用性を実演し,シーンをレンダリングし,異なる物体の把握可能な領域を推論し,環境と衝突することなく達成する可能性のある把握を選択することにより,空間を乱雑に把握する。 プロジェクトのwebサイト: https://sites.google.com/view/neugraspnet

Robotic manipulation is critical for admitting robotic agents to various application domains, like intelligent assistance. A major challenge therein is the effective 6DoF grasping of objects in cluttered environments from any viewpoint without requiring additional scene exploration. We introduce $\textit{NeuGraspNet}$, a novel method for 6DoF grasp detection that leverages recent advances in neural volumetric representations and surface rendering. Our approach learns both global (scene-level) and local (grasp-level) neural surface representations, enabling effective and fully implicit 6DoF grasp quality prediction, even in unseen parts of the scene. Further, we reinterpret grasping as a local neural surface rendering problem, allowing the model to encode the interaction between the robot's end-effector and the object's surface geometry. NeuGraspNet operates on single viewpoints and can sample grasp candidates in occluded scenes, outperforming existing implicit and semi-implicit baseline methods in the literature. We demonstrate the real-world applicability of NeuGraspNet with a mobile manipulator robot, grasping in open spaces with clutter by rendering the scene, reasoning about graspable areas of different objects, and selecting grasps likely to succeed without colliding with the environment. Visit our project website: https://sites.google.com/view/neugraspnet
翻訳日:2023-06-14 15:58:02 公開日:2023-06-12
# 大規模言語モデルにおける量化子理解の探索

Probing Quantifier Comprehension in Large Language Models ( http://arxiv.org/abs/2306.07384v1 )

ライセンス: Link先を確認
Akshat Gupta(参考訳) 大きな言語モデル(LLM)は、そのサイズが大きくなるにつれて、言語理解タスクがますます得意になってきています。 しかし、特定の下流タスクで高いパフォーマンスを発揮しても、llmはネゲーションや量子化子理解のための単純な言語テストに失敗する。 従来、LLMの検証能力に関する研究は、モデルのサイズが大きくなるにつれて、ほとんどのタイプの量化器を理解するのがより良くなるが、ほとんど型の量化器を理解するのがますます悪くなり、逆スケーリング法則が現れることを示唆していた。 本稿では,LLMにおける少数型量化器理解の逆スケーリングの主張に疑問を呈し,それが不適切な試験手法の結果であることを示す。 また, LLMにおける量化器の理解度を測定するための代替手法を提案し, モデルのサイズが大きくなるにつれて, これらの挙動が従来の研究と異なることを示す。 LLMは、少数型の量化器の意味と最多型の量化器の意味の違いを一貫して理解することができるが、量化器がフレーズに追加されると、LLMは必ずしも量化器の意味を考慮に入れない。 実際、人間の心理言語実験や以前の研究とは反対の、モデルのサイズが大きくなるにつれて、モデルが最多型量子化器を理解することが悪化する、最多型量子化器の逆スケーリング則がある。 この評価は125M-175Bパラメータのモデルにおいて行われており、LLMは量化器では期待通りには機能せず、単語の統計的共起が単語の意味よりも優先されていることを示唆している。

With their increasing size, Large language models (LLMs) are becoming increasingly good at language understanding tasks. But even with high performance on specific downstream task, LLMs fail at simple linguistic tests for negation or quantifier understanding. Previous work on testing capability of LLMs on understanding quantifiers suggest that as the size of the models increase, they get better at understanding most-type quantifiers but get increasingly worse at understanding few-type quantifiers, thus presenting a case of an inverse-scaling law. In this paper, we question the claims of inverse scaling of few-type quantifier understanding in LLMs and show that it is a result of inappropriate testing methodology. We also present alternate methods to measure quantifier comprehension in LLMs and show that as the size of the models increase, these behaviours are different from what is shown in previous research. LLMs are consistently able to understand the difference between the meaning of few-type and most-type quantifiers, but when a quantifier is added to phrase, LLMs do not always take into account the meaning of the quantifier. We in fact see an inverse scaling law for most-type quantifiers, which is contrary to human psycho-linguistic experiments and previous work, where the model's understanding of most-type quantifier gets worse as the model size increases. We do this evaluation on models ranging from 125M-175B parameters, which suggests that LLMs do not do as well as expected with quantifiers and statistical co-occurrence of words still takes precedence over word meaning.
翻訳日:2023-06-14 15:57:35 公開日:2023-06-12
# フーリエ畳み込みによるコンテンツ認識画像再ターゲティングのための教師付き深層学習

Supervised Deep Learning for Content-Aware Image Retargeting with Fourier Convolutions ( http://arxiv.org/abs/2306.07383v1 )

ライセンス: Link先を確認
MohammadHossein Givkashi, MohammadReza Naderi, Nader Karimi, Shahram Shirani, Shadrokh Samavi(参考訳) 画像再ターゲティングは、コンテンツに注意を向けて画像のサイズを変更することを目的としている。 画像再ターゲティングのためのディープラーニングモデルのトレーニングにおける大きな障害のひとつは、巨大なラベル付きデータセットの必要性である。 ラベル付きデータセットは、イメージリターゲティングタスクでディープラーニングモデルのトレーニングには使用できない。 その結果,ディープラーニングモデルをトレーニングするための新しい教師ありアプローチを提案する。 原画像は基礎的真理として使用し,原画像のサイズ変更と切り抜きによってモデルの入力を生成する。 第2の課題は、推論時間で異なる画像サイズを生成することだ。 しかし、通常の畳み込みニューラルネットワークは入力画像とは異なる大きさの画像を生成できない。 そこで本研究では,教師あり学習のための新しい手法を提案する。 提案手法では,対象の所望のサイズと位置を示すマスクが生成される。 そして、マスクと入力画像がネットワークに供給される。 画像再ターゲティング手法と提案手法を比較し,高品質な再ターゲティング画像を作成する能力を示す。 その後、異なる手法に基づいて、各出力画像の画質評価スコアを算出し、提案手法の有効性を示す。

Image retargeting aims to alter the size of the image with attention to the contents. One of the main obstacles to training deep learning models for image retargeting is the need for a vast labeled dataset. Labeled datasets are unavailable for training deep learning models in the image retargeting tasks. As a result, we present a new supervised approach for training deep learning models. We use the original images as ground truth and create inputs for the model by resizing and cropping the original images. A second challenge is generating different image sizes in inference time. However, regular convolutional neural networks cannot generate images of different sizes than the input image. To address this issue, we introduced a new method for supervised learning. In our approach, a mask is generated to show the desired size and location of the object. Then the mask and the input image are fed to the network. Comparing image retargeting methods and our proposed method demonstrates the model's ability to produce high-quality retargeted images. Afterward, we compute the image quality assessment score for each output image based on different techniques and illustrate the effectiveness of our approach.
翻訳日:2023-06-14 15:57:07 公開日:2023-06-12
# 個別のrenyiフィルタを用いた「個人予測が反撃!」

"Private Prediction Strikes Back!'' Private Kernelized Nearest Neighbors with Individual Renyi Filter ( http://arxiv.org/abs/2306.07381v1 )

ライセンス: Link先を確認
Yuqing Zhu, Xuandong Zhao, Chuan Guo, Yu-Xiang Wang(参考訳) 微分プライベート(DP)機械学習の既存のアプローチは、プライベートトレーニングに重点を置いている。 その多くの利点にもかかわらず、プライベートトレーニングは、GDPRの忘れられる権利を行使する削除要求のようなトレーニングデータセットへの漸進的な変更に適応する柔軟性に欠ける。 我々は,プライベート予測 (private prediction) と呼ばれる長大な代替案を再検討し, 個別カーネル化近接近傍 (ind-knn) と呼ばれる新しいアルゴリズムを提案する。 Ind-KNNはデータセットの変更に対して容易に更新可能であり、個々のユーザレベルでR\'{e}nyi DPの正確なコントロールを可能にする。 以上の結果から,Ind-KNNは4つの視覚および言語タスクにおいて,既存のプライベート予測手法よりも常に精度を向上することを示す。 Ind-KNNがNoisySGDのプライベートトレーニングよりも望ましい事例もいくつか紹介する。

Most existing approaches of differentially private (DP) machine learning focus on private training. Despite its many advantages, private training lacks the flexibility in adapting to incremental changes to the training dataset such as deletion requests from exercising GDPR's right to be forgotten. We revisit a long-forgotten alternative, known as private prediction, and propose a new algorithm named Individual Kernelized Nearest Neighbor (Ind-KNN). Ind-KNN is easily updatable over dataset changes and it allows precise control of the R\'{e}nyi DP at an individual user level -- a user's privacy loss is measured by the exact amount of her contribution to predictions; and a user is removed if her prescribed privacy budget runs out. Our results show that Ind-KNN consistently improves the accuracy over existing private prediction methods for a wide range of $\epsilon$ on four vision and language tasks. We also illustrate several cases under which Ind-KNN is preferable over private training with NoisySGD.
翻訳日:2023-06-14 15:56:53 公開日:2023-06-12
# lost in translation:非英語コンテンツ分析における大規模言語モデル

Lost in Translation: Large Language Models in Non-English Content Analysis ( http://arxiv.org/abs/2306.07377v1 )

ライセンス: Link先を確認
Gabriel Nicholas and Aliya Bhatia(参考訳) 近年では、大規模な言語モデル(Open AIのGPT-4、MetaのLLaMa、GoogleのPaLMなど)が、オンライン言語の分析と生成を行うAIシステムを構築する上で、主要なアプローチとなっている。 しかし、チャットボット、コンテンツモデレーションシステム、検索エンジンなど、オンラインのインタラクションをますます仲介する自動化システムは、主に世界中の7,000言語よりも、英語でより効果的に動作するように設計されている。 近年、研究者やテクノロジー企業は、多言語言語モデルと呼ばれるものを構築して、英語以外の言語への大規模言語モデルの能力拡張を試みている。 本稿では,これらの多言語モデルがどのように機能するかを説明し,その能力と限界について考察する。 パートiでは、大規模な言語モデルがどのように機能するか、英語と他の言語の間に利用可能なデータにギャップがある理由、そして、そのギャップを橋渡ししようとする多言語モデルについて、簡単な技術的説明を提供している。 パートIIは、特に多言語言語モデルにおいて、大きな言語モデルでコンテンツ分析を行う際の課題について説明している。 パートIIIは、大規模かつ多言語言語モデルの研究、開発、展開を検討する際に、企業、研究者、政策立案者に留意するよう推奨する。

In recent years, large language models (e.g., Open AI's GPT-4, Meta's LLaMa, Google's PaLM) have become the dominant approach for building AI systems to analyze and generate language online. However, the automated systems that increasingly mediate our interactions online -- such as chatbots, content moderation systems, and search engines -- are primarily designed for and work far more effectively in English than in the world's other 7,000 languages. Recently, researchers and technology companies have attempted to extend the capabilities of large language models into languages other than English by building what are called multilingual language models. In this paper, we explain how these multilingual language models work and explore their capabilities and limits. Part I provides a simple technical explanation of how large language models work, why there is a gap in available data between English and other languages, and how multilingual language models attempt to bridge that gap. Part II accounts for the challenges of doing content analysis with large language models in general and multilingual language models in particular. Part III offers recommendations for companies, researchers, and policymakers to keep in mind when considering researching, developing and deploying large and multilingual language models.
翻訳日:2023-06-14 15:56:38 公開日:2023-06-12
# 非単位フローケット横場イジングモデルのダイナミクスと位相

Dynamics and Phases of Nonunitary Floquet Transverse-Field Ising Model ( http://arxiv.org/abs/2306.07428v1 )

ライセンス: Link先を確認
Lei Su, Aashish Clerk, Ivar Martin(参考訳) 計測誘起量子相転移に関する最近の研究に触発されて,複素最寄り-neighbor結合と複素横磁場を持つ非ユニタリフロッケ横場イジングモデルの解析を行った。 ユニタリ相とは異なり、モデルはいくつかの定常相を示し、可積分性破壊摂動に安定である。 いくつかの位相は、強靭なエッジモードと/または時空間の長距離順序を持つ。 相間の遷移は広い絡み合いエントロピーを持ち、系の大きさのスケーリングは遷移のスペクトルにおける実際の準粒子モードの数に依存する。 特に、ボリューム法のスケーリングは、疑似ハーミティリティによって保護されたいくつかのクリティカルラインに現れる。 定常状態における絡み合いエントロピーのスケーリングとクエンチ後の進化は、カラブレスとカルディの準粒子像の非エルミート一般ザトンと互換性がある。

Inspired by current research on measurement-induced quantum phase transitions, we analyze the nonunitary Floquet transverse-field Ising model with complex nearest-neighbor couplings and complex transverse fields. Unlike its unitary counterpart, the model shows a number of stationary phases, stable to integrability breaking perturbations. Some phases have robust edge modes and/or spatiotemporal long-range orders in the bulk. The transitions between the phases have extensive entanglement entropy, whose scaling with the system size depends on the number of the real quasiparticle modes in the spectrum at the transition. In particular, the volume law scaling appears on some critical lines, protected by pseudo-Hermiticity. Both the scaling of entanglement entropy in steady states and the evolution after a quench are compatible with the non-Hermitian generalizaton of quasiparticle picture of Calabrese and Cardy.
翻訳日:2023-06-14 15:50:34 公開日:2023-06-12
# 人間中心型AIアプローチによる公正かつ説明可能なAIを目指して

Towards Fair and Explainable AI using a Human-Centered AI Approach ( http://arxiv.org/abs/2306.07427v1 )

ライセンス: Link先を確認
Bhavya Ghai(参考訳) 機械学習(ML)の台頭には、公正性、説明責任、説明可能性、MLシステムの信頼の必要性を強調したいくつかの著名なケースが伴っている。 既存の文献は、パフォーマンスメトリクスを最適化しようとする、完全に自動化されたMLアプローチに重点を置いている。 しかしながら、公正さ、信頼、説明可能性などの人間中心の尺度は、本質的には、文脈依存であり、従来のパフォーマンス指標と相関しないかもしれない。 これらの課題に対処するために、より透明性と人的コントロールを提供することで、人々を力づける人間中心のaiアプローチを探求する。 本稿では,分類システムと単語埋め込みにおける説明可能性と公平性の向上を目的とした5つの研究プロジェクトを提案する。 最初のプロジェクトは、ローカルモデル説明を機械教師(クローブワーカー)のインターフェイスとして導入するユーティリティ/ダウンサイドを探求する。 そこで本研究では,MLモデルの信頼性校正を支援する説明を加えることで,リッチな教示フィードバックを実現することを試みた。 第2のプロジェクトは、因果関係に基づくヒューマン・イン・ザ・ループ・ビジュアルツールであるD-BIASを提示する。 公平性とは別に、私たちのツールは信頼性と説明責任も向上します。 第三のプロジェクトはWordBiasというビジュアルインタラクティブなツールで、女性のようなグループや、黒人ムスリムの女性のようなサブグループに対する偏見に対する、事前訓練された静的な単語埋め込みの監査を支援する。 第4のプロジェクトはDramatVis Personaeというビジュアル分析ツールで、クリエイティブな執筆における社会的偏見を識別する。 最後に、MLパイプラインの様々な段階における複数のフェアネス・エンハンシング介入が、フェアネス、ユーティリティ、および異なる人口集団に対する累積的影響を理解することを目的とした実証的研究を示す。 今後の方向性を議論することで締めくくります。

The rise of machine learning (ML) is accompanied by several high-profile cases that have stressed the need for fairness, accountability, explainability and trust in ML systems. The existing literature has largely focused on fully automated ML approaches that try to optimize for some performance metric. However, human-centric measures like fairness, trust, explainability, etc. are subjective in nature, context-dependent, and might not correlate with conventional performance metrics. To deal with these challenges, we explore a human-centered AI approach that empowers people by providing more transparency and human control. In this dissertation, we present 5 research projects that aim to enhance explainability and fairness in classification systems and word embeddings. The first project explores the utility/downsides of introducing local model explanations as interfaces for machine teachers (crowd workers). Our study found that adding explanations supports trust calibration for the resulting ML model and enables rich forms of teaching feedback. The second project presents D-BIAS, a causality-based human-in-the-loop visual tool for identifying and mitigating social biases in tabular datasets. Apart from fairness, we found that our tool also enhances trust and accountability. The third project presents WordBias, a visual interactive tool that helps audit pre-trained static word embeddings for biases against groups, such as females, or subgroups, such as Black Muslim females. The fourth project presents DramatVis Personae, a visual analytics tool that helps identify social biases in creative writing. Finally, the last project presents an empirical study aimed at understanding the cumulative impact of multiple fairness-enhancing interventions at different stages of the ML pipeline on fairness, utility and different population groups. We conclude by discussing some of the future directions.
翻訳日:2023-06-14 15:50:20 公開日:2023-06-12
# izindaba-tindzaba: isizuluとsiswatiのための長文と短文の機械学習ニュース分類

Izindaba-Tindzaba: Machine learning news categorisation for Long and Short Text for isiZulu and Siswati ( http://arxiv.org/abs/2306.07426v1 )

ライセンス: Link先を確認
Andani Madodonga, Vukosi Marivate, Matthew Adendorff(参考訳) 南アフリカの言語は低資源言語に分類される。 そのため、自然言語処理の分野の進歩を享受できるように、これらの言語のためのリソースを構築することが不可欠である。 本研究の目的は,ニューストピック分類タスクに基づいて,isizuluとsiswatiのネイティブ言語のための注釈付きニュースデータセットを作成し,これらのベースライン分類モデルから得られた知見を紹介することである。 これらの南アフリカ原産言語のデータ不足のため、データセットは拡張され、データサイズを増やし、クラス分類の不均衡を克服するためにオーバーサンプリングされた。 総合的に,ロジスティック回帰,ナイーブベイズ,XGBoost,LSTMの4つの異なる分類モデルを用いた。 これらのモデルは、bag-of-words、tfidf、word2vecという3つの異なる単語埋め込みで訓練された。 本研究の結果,word2vecからトレーニングしたxgboost,logistic regression,lstmは,他の組み合わせよりも優れた成績を示した。

Local/Native South African languages are classified as low-resource languages. As such, it is essential to build the resources for these languages so that they can benefit from advances in the field of natural language processing. In this work, the focus was to create annotated news datasets for the isiZulu and Siswati native languages based on news topic classification tasks and present the findings from these baseline classification models. Due to the shortage of data for these native South African languages, the datasets that were created were augmented and oversampled to increase data size and overcome class classification imbalance. In total, four different classification models were used namely Logistic regression, Naive bayes, XGBoost and LSTM. These models were trained on three different word embeddings namely Bag-Of-Words, TFIDF and Word2vec. The results of this study showed that XGBoost, Logistic Regression and LSTM, trained from Word2vec performed better than the other combinations.
翻訳日:2023-06-14 15:49:53 公開日:2023-06-12
# deeptransition: 学習前四足歩行スキルにおける歩行遷移の出現

DeepTransition: Viability Leads to the Emergence of Gait Transitions in Learning Anticipatory Quadrupedal Locomotion Skills ( http://arxiv.org/abs/2306.07419v1 )

ライセンス: Link先を確認
Milad Shafiee, Guillaume Bellegarda, and Auke Ijspeert(参考訳) 四足動物は移動速度を変えると、歩き方をシームレスに移行します。 歩行遷移に関する最も広く受け入れられている説明はエネルギー効率であるが、決定要因や地形特性の潜在的な影響については明確な合意がない。 本稿では,転倒の回避という生存可能性が歩行遷移の重要な基準であることを示す。 深部強化学習とロボティクスツールを活用して, 上脊髄駆動(脳), 脊髄の中枢パターン生成器, 身体, 外受容感覚の相互作用による歩行遷移の出現について検討した。 四足歩行の動物データと一致して,四足歩行ロボットの歩行遷移は,歩行能力とエネルギー効率の両立性が向上することを示した。 さらに,個々の地形(すなわち連続した隙間を交差する)が歩行遷移に与える影響を調査し,非生存状態を避けるためにトロト-プロンク遷移の出現を見いだす。 最大力やエネルギー効率などの他の潜在的な基準と比較すると、可視性は平地と分断地の両方での歩行遷移後の唯一の改善要因であり、可視性は歩行遷移の第一、普遍的な目的であり、他の基準は二次的な目的であり、かつ/または生存性の結果である。 さらに、我々は、学習したコントローラをシミュレート・トゥ・リアルなハードウェア実験で展開し、挑戦的なシナリオで最先端の4倍の俊敏性を示す。

Quadruped animals seamlessly transition between gaits as they change locomotion speeds. While the most widely accepted explanation for gait transitions is energy efficiency, there is no clear consensus on the determining factor, nor on the potential effects from terrain properties. In this article, we propose that viability, i.e. the avoidance of falls, represents an important criterion for gait transitions. We investigate the emergence of gait transitions through the interaction between supraspinal drive (brain), the central pattern generator in the spinal cord, the body, and exteroceptive sensing by leveraging deep reinforcement learning and robotics tools. Consistent with quadruped animal data, we show that the walk-trot gait transition for quadruped robots on flat terrain improves both viability and energy efficiency. Furthermore, we investigate the effects of discrete terrain (i.e. crossing successive gaps) on imposing gait transitions, and find the emergence of trot-pronk transitions to avoid non-viable states. Compared with other potential criteria such as peak forces and energy efficiency, viability is the only improved factor after gait transitions on both flat and discrete gap terrains, suggesting that viability could be a primary and universal objective of gait transitions, while other criteria are secondary objectives and/or a consequence of viability. Moreover, we deploy our learned controller in sim-to-real hardware experiments and demonstrate state-of-the-art quadruped agility in challenging scenarios, where the Unitree A1 quadruped autonomously transitions gaits between trot and pronk to cross consecutive gaps of up to 30 cm (83.3 % of the body-length) at over 1.3 m/s.
翻訳日:2023-06-14 15:49:34 公開日:2023-06-12
# 量子機器における確率誤差

Stochastic errors in quantum instruments ( http://arxiv.org/abs/2306.07418v1 )

ライセンス: Link先を確認
Darian McLaren, Matthew A. Graydon, Joel J. Wallman(参考訳) フォールトトレラント量子計算は古典的なフィードフォワードを用いた非破壊量子計測を必要とする。 多くの実験グループがこのような機能の実装に積極的に取り組んでおり、それらを正確に評価する必要がある。 ユニタリチャネルと同様に、量子楽器の任意の不完全な実装は分析が難しい。 本稿では,確率的誤差に対応し,標準解析法に適合する量子楽器のクラスを定義する。 2つの量子機器間のダイヤモンド距離で計算可能な上界と下界を効率よく導出する。 さらに、一様確率計の場合、ダイヤモンド距離と量子計へのプロセス不忠実性の自然な一般化は一致し、測定中に発生する誤差の確率に等しいことを示す。

Fault-tolerant quantum computation requires non-destructive quantum measurements with classical feed-forward. Many experimental groups are actively working towards implementing such capabilities and so they need to be accurately evaluated. As with unitary channels, an arbitrary imperfect implementation of a quantum instrument is difficult to analyze. In this paper, we define a class of quantum instruments that correspond to stochastic errors and thus are amenable to standard analysis methods. We derive efficiently computable upper- and lower-bounds on the diamond distance between two quantum instruments. Furthermore, we show that, for the special case of uniform stochastic instruments, the diamond distance and the natural generalization of the process infidelity to quantum instruments coincide and are equal to a well-defined probability of an error occurring during the measurement.
翻訳日:2023-06-14 15:48:48 公開日:2023-06-12
# ニューロモルフィックシステムにおける電力削減のためのシナプススケーリングと最適バイアス調整

Synaptic Scaling and Optimal Bias Adjustments for Power Reduction in Neuromorphic Systems ( http://arxiv.org/abs/2306.07416v1 )

ライセンス: Link先を確認
Cory Merkel(参考訳) 近年の動物実験では、食物不足時に生物学的な脳が低電力モードに入ることが示されている。 本稿では,エネルギー消費がシナプス重みの大きさに大きく依存する幅広い神経形態システムに対して,同様のメカニズムを適用する可能性について検討する。 特に,数理モデルとシミュレーションを用いて,シナプス重みの注意的なスケーリングは,精度に比較的小さな影響を伴いながら,消費電力(試験例では80%以上)を大幅に削減できることを示した。 これらの結果は、エネルギー可用性と性能要求に基づいて消費電力を動的に調整できるエッジAIアプリケーションのためのニューロモルフィックシステムを設計するエキサイティングな機会を明らかにする。

Recent animal studies have shown that biological brains can enter a low power mode in times of food scarcity. This paper explores the possibility of applying similar mechanisms to a broad class of neuromorphic systems where power consumption is strongly dependent on the magnitude of synaptic weights. In particular, we show through mathematical models and simulations that careful scaling of synaptic weights can significantly reduce power consumption (by over 80\% in some of the cases tested) while having a relatively small impact on accuracy. These results uncover an exciting opportunity to design neuromorphic systems for edge AI applications, where power consumption can be dynamically adjusted based on energy availability and performance requirements.
翻訳日:2023-06-14 15:48:38 公開日:2023-06-12
# 拡張によるジェンダー包摂的文法的誤り訂正

Gender-Inclusive Grammatical Error Correction through Augmentation ( http://arxiv.org/abs/2306.07415v1 )

ライセンス: Link先を確認
Gunnar Lund, Kostiantyn Omelianchuk, Igor Samokhin(参考訳) 本稿では,gecシステムが男性・女性用語と性中立特異点「それら」の使用に関連するジェンダーバイアスを示すことを示す。 男性および女性用語と特異な「それら」を持つテキストの並列データセットを開発し、3つの競合gecシステムにおけるジェンダーバイアスの定量化に使用する。 本稿では,その分布に関する言語学的知見を活用する特異な「それら」に対して,新たなデータ拡張手法を提案する。 また,このデータ拡張技術と,男性および女性用語における同様の拡張技術の洗練は,gecシステムにおいて,特に特異な「それら」に対して,同じレベルの品質を維持しながらバイアスを低減させるトレーニングデータを生成することができることを実証した。

In this paper we show that GEC systems display gender bias related to the use of masculine and feminine terms and the gender-neutral singular "they". We develop parallel datasets of texts with masculine and feminine terms and singular "they" and use them to quantify gender bias in three competitive GEC systems. We contribute a novel data augmentation technique for singular "they" leveraging linguistic insights about its distribution relative to plural "they". We demonstrate that both this data augmentation technique and a refinement of a similar augmentation technique for masculine and feminine terms can generate training data that reduces bias in GEC systems, especially with respect to singular "they" while maintaining the same level of quality.
翻訳日:2023-06-14 15:48:23 公開日:2023-06-12
# 低資源機械翻訳に応用したテキスト拡張技術:スワヒリの事例

Textual Augmentation Techniques Applied to Low Resource Machine Translation: Case of Swahili ( http://arxiv.org/abs/2306.07414v1 )

ライセンス: Link先を確認
Catherine Gitau and VUkosi Marivate(参考訳) 本研究では,低リソース機械翻訳におけるテキストデータ拡張タスクの適用効果について検討する。 資源が限られている言語のための学習システムのアプローチに対する調査に近年関心が集まっており、一般的なアプローチはデータ拡張技術の利用である。 データ拡張は、システムのトレーニングに利用可能なデータの量を増やすことを目的としている。 機械翻訳では、世界中の言語ペアのほとんどが、並列データが少ないためリソースが少ないと考えられており、ニューラルネットワーク翻訳(nmt)システムの品質は、相当な並列コーパスの可用性に大きく依存している。 テキスト分類タスクで広く用いられている3つの単純なデータ拡張手法であるシノニム置換,ランダム挿入,文脈データ拡張について検討し,その性能をイングリッシュ・スワヒリ(en-sw)データセットのベースラインニューラルマシン翻訳と比較した。 また,bleu,chrf,meteorスコアについても報告する。 全体として、コンテキストデータ拡張技術は、$EN \rightarrow SW$と$SW \rightarrow EN$方向の両方で改善されている。 多様なデータセットでより広範な実験を行う場合には、これらの手法をニューラルネットワーク翻訳に使用する可能性がある。

In this work we investigate the impact of applying textual data augmentation tasks to low resource machine translation. There has been recent interest in investigating approaches for training systems for languages with limited resources and one popular approach is the use of data augmentation techniques. Data augmentation aims to increase the quantity of data that is available to train the system. In machine translation, majority of the language pairs around the world are considered low resource because they have little parallel data available and the quality of neural machine translation (NMT) systems depend a lot on the availability of sizable parallel corpora. We study and apply three simple data augmentation techniques popularly used in text classification tasks; synonym replacement, random insertion and contextual data augmentation and compare their performance with baseline neural machine translation for English-Swahili (En-Sw) datasets. We also present results in BLEU, ChrF and Meteor scores. Overall, the contextual data augmentation technique shows some improvements both in the $EN \rightarrow SW$ and $SW \rightarrow EN$ directions. We see that there is potential to use these methods in neural machine translation when more extensive experiments are done with diverse datasets.
翻訳日:2023-06-14 15:48:10 公開日:2023-06-12
# 効率的な対人ヘルディングによるロバスト強化学習

Robust Reinforcement Learning through Efficient Adversarial Herding ( http://arxiv.org/abs/2306.07408v1 )

ライセンス: Link先を確認
Juncheng Dong, Hao-Lun Hsu, Qitong Gao, Vahid Tarokh, Miroslav Pajic(参考訳) 強化学習(RL)は政策設計のゴールドスタンダードとされているが、様々なシナリオにおいて堅牢なソリューションを提供するとは限らない。 これにより、環境が潜在的な乱れにさらされると、深刻な性能劣化が起こる。 RLエージェントのロバスト性向上に有効な2プレーヤ最大ミンゲームを用いた対戦訓練が実証されている。 本研究では,敵集団を含む敵集団を用いて,内的最適化問題の難易度($\textit{i}$)と,ありそうにないシナリオを含む候補敵集合の選択による悲観的な可能性($\textit{ii}$)に対処することで,二者ゲームを拡張する。 まず, 敵群が内部最適化問題を効率的に近似できることを示す。 次に,内部最適化における最悪の場合のパフォーマンスを,最低$k$の敵に対して平均的なパフォーマンスに置き換えることで,第2の問題に対処します。 提案手法を複数の MuJoCo 環境上で評価する。 実験の結果、我々のアプローチは一貫してより堅牢なポリシーを生成することが示された。

Although reinforcement learning (RL) is considered the gold standard for policy design, it may not always provide a robust solution in various scenarios. This can result in severe performance degradation when the environment is exposed to potential disturbances. Adversarial training using a two-player max-min game has been proven effective in enhancing the robustness of RL agents. In this work, we extend the two-player game by introducing an adversarial herd, which involves a group of adversaries, in order to address ($\textit{i}$) the difficulty of the inner optimization problem, and ($\textit{ii}$) the potential over pessimism caused by the selection of a candidate adversary set that may include unlikely scenarios. We first prove that adversarial herds can efficiently approximate the inner optimization problem. Then we address the second issue by replacing the worst-case performance in the inner optimization with the average performance over the worst-$k$ adversaries. We evaluate the proposed method on multiple MuJoCo environments. Experimental results demonstrate that our approach consistently generates more robust policies.
翻訳日:2023-06-14 15:47:49 公開日:2023-06-12
# 選択不完全双対基底による非定常長期ダイナミクスの保存

Preserve Non-Stationary Long-Term Dynamics via Selected Incomplete Dual Bases ( http://arxiv.org/abs/2306.07407v1 )

ライセンス: Link先を確認
Hsiao-Han Chuang and Jonathan Rawlinson and Dmitry Shalashilin(参考訳) 著者らは、SU(2)コヒーレント状態の使用にガウスコヒーレント状態の軌跡誘導集合を用いる量子伝搬法を以前に開発した。 最近の実験に動機づけられ、この手法を結合した量子ビットの連鎖における量子力学のシミュレーションに適用した。 この短い時間により、結合SU(2)コヒーレント状態の選択された小さな基底集合でダイナミクスを再現することができる。 実験伝搬で観測される長時間のダイナミクスを小さな局所的に回収し、最適化された静的に投影する。

The author adopts previously developed methods of quantum propagation which use trajectory-guided sets of Gaussian Coherent States for the use with SU(2) Coherent States. Motivated by recent experiments, the author applies the technique to the simulation of quantum dynamics in a chain of coupled qubits. Because of the short time dynamics can be reproduced on a selected small basis set of Coupled SU(2) Coherent States. To recover long-time dynamics observed in the experiment propagation on a small localised basis is combined with projection on an optimised static basis.
翻訳日:2023-06-14 15:47:31 公開日:2023-06-12
# 除去に基づく特徴属性のロバスト性について

On the Robustness of Removal-Based Feature Attributions ( http://arxiv.org/abs/2306.07462v1 )

ライセンス: Link先を確認
Chris Lin, Ian Covert, Su-In Lee(参考訳) 入力に基づいて複雑なモデルを説明するために,重要なスコアを入力特徴に割り当てる特徴属性法が開発されている。 しかし、最近の研究は、これらの手法が入力やモデルの摂動に敏感であることを示すことによって、特徴属性の堅牢性に挑戦し、一方で、ロバストな帰属法やモデル修正を提案することで、この堅牢性の問題に対処している。 それにもかかわらず、アトリビューションのロバスト性に関する以前の研究は、主に勾配に基づく機能アトリビューションに焦点を当ててきた。 対照的に,除去に基づく帰属法のロバスト性は包括的によく理解されていない。 このギャップを埋めるため、理論上、削除に基づく特徴属性のロバスト性を特徴付ける。 具体的には,これらの手法の統一的な解析を行い,入力とモデルの両方の摂動の設定下で,無傷と摂動の差の上限を証明した。 人工的および実世界のデータに関する実証実験は、我々の理論結果を検証し、その実用的意味を実証する。

To explain complex models based on their inputs, many feature attribution methods have been developed that assign importance scores to input features. However, some recent work challenges the robustness of feature attributions by showing that these methods are sensitive to input and model perturbations, while other work addresses this robustness issue by proposing robust attribution methods and model modifications. Nevertheless, previous work on attribution robustness has focused primarily on gradient-based feature attributions. In contrast, the robustness properties of removal-based attribution methods are not comprehensively well understood. To bridge this gap, we theoretically characterize the robustness of removal-based feature attributions. Specifically, we provide a unified analysis of such methods and prove upper bounds for the difference between intact and perturbed attributions, under settings of both input and model perturbations. Our empirical experiments on synthetic and real-world data validate our theoretical results and demonstrate their practical implications.
翻訳日:2023-06-14 15:40:09 公開日:2023-06-12
# AIによる意思決定における精度と時間の両方に対する適応的介入

Adaptive interventions for both accuracy and time in AI-assisted human decision making ( http://arxiv.org/abs/2306.07458v1 )

ライセンス: Link先を確認
Siddharth Swaroop, Zana Bu\c{c}inca, Finale Doshi-Velez(参考訳) 緊急治療室で働く医師など、ユーザが時間的にプレッシャーをかけ、高い精度を必要とする環境では、精度を高め、時間を短縮するaiアシスタントを提供したいと思っています。 しかし、異なるタイプのAIアシストには、異なる利点がある。 ですから私たちは,2つの目標を最大限にトレードオフするために,さまざまな特性(質問やユーザの)に依存したAI支援に適応したいと考えています。 我々は、ユーザーがエイリアンに薬を処方しなければならない研究を紹介し、それを使ってAI支援に適応する可能性を探る。 私たちは、質問に応じてAI支援を適用することが有益であるという証拠を見つけ、時間と正確性の間に良いトレードオフをもたらす。 今後の研究では、機械学習アルゴリズム(強化学習など)が自動的に適応することを考慮します。

In settings where users are both time-pressured and need high accuracy, such as doctors working in Emergency Rooms, we want to provide AI assistance that both increases accuracy and reduces time. However, different types of AI assistance have different benefits: some reduce time taken while increasing overreliance on AI, while others do the opposite. We therefore want to adapt what AI assistance we show depending on various properties (of the question and of the user) in order to best tradeoff our two objectives. We introduce a study where users have to prescribe medicines to aliens, and use it to explore the potential for adapting AI assistance. We find evidence that it is beneficial to adapt our AI assistance depending on the question, leading to good tradeoffs between time taken and accuracy. Future work would consider machine-learning algorithms (such as reinforcement learning) to automatically adapt quickly.
翻訳日:2023-06-14 15:39:53 公開日:2023-06-12
# web検索ログによるワクチン接種の正確な対策とワクチンホールドアウトの懸念

Accurate Measures of Vaccination and Concerns of Vaccine Holdouts from Web Search Logs ( http://arxiv.org/abs/2306.07457v1 )

ライセンス: Link先を確認
Serina Chang, Adam Fourney, Eric Horvitz(参考訳) 効果的なワクチン政策を設計するために、政策立案者は誰がワクチンを接種されたか、誰が保留なのか、その理由に関する詳細なデータを必要としている。 報告された予防接種率はしばしば遅延または欠如しており、ワクチンの難易度に関する調査は高いレベルの質問と自己報告バイアスによって制限されている。 本稿では,これらのギャップを埋めるために,大規模検索エンジンログと機械学習をどのように活用できるかを示し,ワクチンの意図や行動に関する新たな洞察を提供する。 まず、ユーザが検索で新型コロナウイルスワクチンを求めていることを正確に検出できるワクチン意図分類器を開発する。 我々の分類器はCDC予防接種率と強く一致しており、その相関関係は0.86以上であり、ワクチン意図率をリアルタイムでZIPコードレベルに推定することで、地域、人口統計、時間にわたってワクチンのより詳細な傾向を見極めることができる。 本研究の目的は,ワクチンの早期導入とワクチン接種という2つのグループを分類することである。 私たちは、covariatesにマッチするアーリーアダプターと比べて、信頼できないニュースサイトをクリックする確率が69%高いことを発見した。 さらに,25,000のワクチン関連URLをワクチンに関する階層的オントロジーに整理し,ワクチンの要件,ワクチン開発と承認,ワクチン神話,さらにはホールドアウトにおいても,人口集団間で懸念が著しく異なることが判明した。 最後に、ワクチンの関心事とワクチン探索の時間的ダイナミクスを探求し、個人がワクチンの受け入れの準備から手を差し伸べるときに重要な指標が現れることを確認する。

To design effective vaccine policies, policymakers need detailed data about who has been vaccinated, who is holding out, and why. However, existing data in the US are insufficient: reported vaccination rates are often delayed or missing, and surveys of vaccine hesitancy are limited by high-level questions and self-report biases. Here, we show how large-scale search engine logs and machine learning can be leveraged to fill these gaps and provide novel insights about vaccine intentions and behaviors. First, we develop a vaccine intent classifier that can accurately detect when a user is seeking the COVID-19 vaccine on search. Our classifier demonstrates strong agreement with CDC vaccination rates, with correlations above 0.86, and estimates vaccine intent rates to the level of ZIP codes in real time, allowing us to pinpoint more granular trends in vaccine seeking across regions, demographics, and time. To investigate vaccine hesitancy, we use our classifier to identify two groups, vaccine early adopters and vaccine holdouts. We find that holdouts, compared to early adopters matched on covariates, are 69% more likely to click on untrusted news sites. Furthermore, we organize 25,000 vaccine-related URLs into a hierarchical ontology of vaccine concerns, and we find that holdouts are far more concerned about vaccine requirements, vaccine development and approval, and vaccine myths, and even within holdouts, concerns vary significantly across demographic groups. Finally, we explore the temporal dynamics of vaccine concerns and vaccine seeking, and find that key indicators emerge when individuals convert from holding out to preparing to accept the vaccine.
翻訳日:2023-06-14 15:39:39 公開日:2023-06-12
# 視線追跡から最も多くを得る: ユーザインタラクションに基づく読み出し領域推定データセットとモデル

Getting the Most from Eye-Tracking: User-Interaction Based Reading Region Estimation Dataset and Models ( http://arxiv.org/abs/2306.07455v1 )

ライセンス: Link先を確認
Ruoyan Kong, Ruixuan Sun, Charles Chuankai Zhang, Chen Chen, Sneha Patri, Gayathri Gajjela, and Joseph A. Konstan(参考訳) 単一のデジタルニュースレターは通常、多くのメッセージ(リージョン)を含む。 ユーザの興味を理解し、コンテンツをパーソナライズし、レコメンデーションを行うプラットフォームにとって、各メッセージの読み込み時間と読み出し時間(スキップ/スキム/詳細)が重要である。 正確で高価なeyetracker記録データに基づいて,javascriptブラウザのトラッキングデータに基づいて,地域毎の読み込み時間を予測するモデルを構築した。 視線追跡では、ブラウザでニュースを読む参加者に200万の地上データポイントを収集しました。 そして、マウスの位置、スクロール、クリックといったユーザインタラクションに基づいて、メッセージレベルの読み込み時間を予測するために、機械学習とディープラーニングモデルをトレーニングしました。 ユーザのインタラクションのみに基づく2層ニューラルネットワークによる読解時間推定では,視線追跡の事実データに対して27-%の誤差が得られたが,ヒューリスティックベースラインの誤差は約46-%であった。 また、セッション毎のモデルをタイムスタンプ毎のモデルに置き換え、ユーザパターン機能を追加するメリットも見つけました。 最後に,利用可能なデータに基づくメッセージレベルの読書推定手法の開発について提案する。

A single digital newsletter usually contains many messages (regions). Users' reading time spent on, and read level (skip/skim/read-in-detail) of each message is important for platforms to understand their users' interests, personalize their contents, and make recommendations. Based on accurate but expensive-to-collect eyetracker-recorded data, we built models that predict per-region reading time based on easy-to-collect Javascript browser tracking data. With eye-tracking, we collected 200k ground-truth datapoints on participants reading news on browsers. Then we trained machine learning and deep learning models to predict message-level reading time based on user interactions like mouse position, scrolling, and clicking. We reached 27\% percentage error in reading time estimation with a two-tower neural network based on user interactions only, against the eye-tracking ground truth data, while the heuristic baselines have around 46\% percentage error. We also discovered the benefits of replacing per-session models with per-timestamp models, and adding user pattern features. We concluded with suggestions on developing message-level reading estimation techniques based on available data.
翻訳日:2023-06-14 15:39:08 公開日:2023-06-12
# 高スピンドナーquditの電場と磁場による16次元ヒルベルト空間の移動

Navigating the 16-dimensional Hilbert space of a high-spin donor qudit with electric and magnetic fields ( http://arxiv.org/abs/2306.07453v1 )

ライセンス: Link先を確認
Irene Fern\'andez de Fuentes, Tim Botzem, Arjen Vaartjes, Serwan Asaad, Vincent Mourik, Fay E. Hudson, Kohei M. Itoh, Brett C. Johnson, Alexander M. Jakob, Jeffrey C. McCallum, David N. Jamieson, Andrew S. Dzurak, Andrea Morello(参考訳) 効率的なスケーリングと柔軟な制御は、有用な量子コンピューティングハードウェアの重要な側面である。 半導体のスピンは、量子情報処理と電子、ホール、核、電気または磁場の制御、交換または双極子相互作用によるスケーラブルな結合を結合する。 しかし、大きなヒルベルト空間へのアクセスは、相互作用の短距離性のため、依然として困難である。 ここでは16次元ヒルベルト空間をシリコン中の1つのアンチモンドナーの電子核状態によって構築する原子ベースの半導体プラットフォームを提案する。 我々は、この大きなヒルベルト空間を電場と磁場の両方を使ってナビゲートでき、ゲート忠実度が99.8%を超えることを実証し、ハミルトニアン系とその制御および雑音場に対する感受性の詳細を明らかにした。 これらの結果は、高スピンドナーを実用的な量子情報のための豊かなプラットフォームとして確立し、量子基礎を探求する。

Efficient scaling and flexible control are key aspects of useful quantum computing hardware. Spins in semiconductors combine quantum information processing with electrons, holes or nuclei, control with electric or magnetic fields, and scalable coupling via exchange or dipole interaction. However, accessing large Hilbert space dimensions has remained challenging, due to the short-distance nature of the interactions. Here, we present an atom-based semiconductor platform where a 16-dimensional Hilbert space is built by the combined electron-nuclear states of a single antimony donor in silicon. We demonstrate the ability to navigate this large Hilbert space using both electric and magnetic fields, with gate fidelity exceeding 99.8% on the nuclear spin, and unveil fine details of the system Hamiltonian and its susceptibility to control and noise fields. These results establish high-spin donors as a rich platform for practical quantum information and to explore quantum foundations.
翻訳日:2023-06-14 15:38:48 公開日:2023-06-12
# 説明責任基盤:人口健康を守るためのプラットフォーム最適化の限界を実現する方法

Accountability Infrastructure: How to implement limits on platform optimization to protect population health ( http://arxiv.org/abs/2306.07443v1 )

ライセンス: Link先を確認
Nathaniel Lubin, Thomas Krendl Gilbert(参考訳) 注意資本主義は、他のすべての考慮事項よりもプラットフォームの成長を優先する設計プロセスと製品開発の決定を生み出しました。 これらのインセンティブに限度があるため、介入は主にコンテンツモデレーションの形式を取っている。 モデレーションは私たちが「acute harms」と呼ぶものにとって重要であるが、メンタルヘルスや社会的信頼に対する悪影響のような社会規模の被害には、責任インフラという用語の下でグループ化される、新しい形の制度的透明性と科学的調査が必要である。 これは新しい問題ではない。 実際、公衆衛生の歴史の中で説明責任インフラに関する多くの概念的教訓と実装アプローチが存在する。 これらの知見をレビューした後、公衆衛生を参考に、技術プラットフォームが生み出す社会的損害を再解釈する。 そこで我々は,新しいメカニズム設計フレームワークと,そのフレームワークの実用的な測定方法を提案する。 提案手法は反復的かつ製品設計プロセスに組み込まれ、内的動機づけ(企業による自己統制)と、精神的健康を含む様々な社会問題に対する外的動機付け(政府規制)の介入の両方に適用できる。 我々は、幅広いコンセンサスと確固たる支持基盤がある問題領域に関するメカニズム設計のための原則の研究アジェンダの形成を支援することを目的とする。 本稿では,これらのトピックに関連する実装手法の具体例と検討,およびオンラインコンテンツへの露出の潜在的な影響を示す新しいデータ図面について紹介する。

Attention capitalism has generated design processes and product development decisions that prioritize platform growth over all other considerations. To the extent limits have been placed on these incentives, interventions have primarily taken the form of content moderation. While moderation is important for what we call "acute harms," societal-scale harms -- such as negative effects on mental health and social trust -- require new forms of institutional transparency and scientific investigation, which we group under the term accountability infrastructure. This is not a new problem. In fact, there are many conceptual lessons and implementation approaches for accountability infrastructure within the history of public health. After reviewing these insights, we reinterpret the societal harms generated by technology platforms through reference to public health. To that end, we present a novel mechanism design framework and practical measurement methods for that framework. The proposed approach is iterative and built into the product design process, and is applicable for both internally-motivated (i.e. self regulation by companies) and externally-motivated (i.e. government regulation) interventions for a range of societal problems, including mental health. We aim to help shape a research agenda of principles for the design of mechanisms around problem areas on which there is broad consensus and a firm base of support. We offer constructive examples and discussion of potential implementation methods related to these topics, as well as several new data illustrations for potential effects of exposure to online content.
翻訳日:2023-06-14 15:38:32 公開日:2023-06-12
# 拡散確率モデルを用いた深部超音波Denoising

Deep Ultrasound Denoising Using Diffusion Probabilistic Models ( http://arxiv.org/abs/2306.07440v1 )

ライセンス: Link先を確認
Hojat Asgariandehkordi, Sobhan Goudarzi, Adrian Basarab, Hassan Rivaz(参考訳) 超音波画像は, 筋骨格, 心臓, 産科的画像診断において, 取得法の有効性と非侵襲性から広く用いられている。 しかし、取得した画像は音響的(残響や乱れなど)とノイズの電子的源によって劣化する。 画像のピーク信号とノイズ比(psnr)を改善するため、従来、ノイズ除去法はスペックルを除去することが多かった。 本稿では,近年のDenoising Diffusion Probabilistic Models (DDPM) に基づく手法を提案する。 スペックルテクスチャを保ちながらノイズを除去し、画像品質を反復的に向上させる。 提案手法は完全に教師なしの方法で訓練されており,注釈付きデータは不要である点に注意が必要である。 実験によるブラインドテストの結果,本手法は,スペックルを保ちながら,PSNRおよびGCNR(Generalized Contrast to Noise Ratio)の観点から,従来の非局所的手法よりも優れていた。

Ultrasound images are widespread in medical diagnosis for musculoskeletal, cardiac, and obstetrical imaging due to the efficiency and non-invasiveness of the acquisition methodology. However, the acquired images are degraded by acoustic (e.g. reverberation and clutter) and electronic sources of noise. To improve the Peak Signal to Noise Ratio (PSNR) of the images, previous denoising methods often remove the speckles, which could be informative for radiologists and also for quantitative ultrasound. Herein, a method based on the recent Denoising Diffusion Probabilistic Models (DDPM) is proposed. It iteratively enhances the image quality by eliminating the noise while preserving the speckle texture. It is worth noting that the proposed method is trained in a completely unsupervised manner, and no annotated data is required. The experimental blind test results show that our method outperforms the previous nonlocal means denoising methods in terms of PSNR and Generalized Contrast to Noise Ratio (GCNR) while preserving speckles.
翻訳日:2023-06-14 15:38:09 公開日:2023-06-12
# 学習可能な登録による瞬時マルチビューヘッドキャプチャ

Instant Multi-View Head Capture through Learnable Registration ( http://arxiv.org/abs/2306.07437v1 )

ライセンス: Link先を確認
Timo Bolkart and Tianye Li and Michael J. Black(参考訳) 既存の3dヘッドのデータセットを密接なセマンティック対応でキャプチャする手法は遅く、マルチビューステレオ(mvs)の再構築と非リジッド登録という2つのステップで問題に対処するのが一般的である。 この処理を簡略化するために,キャリブレーションされたマルチビュー画像から3次元頭部を直接推定するTEMPEH(Towards Estimation of 3D Meshs from Performances of Expressive Heads)を導入する。 3dスキャンのデータセットを登録するには、通常、手動のパラメータチューニングが必要で、スキャン表面を正確に適合させ、ノイズや異常値のスキャンにロバストなバランスをとる必要がある。 代わりに、TEMPEHのトレーニング中に3Dヘッドデータセットを共同登録することを提案する。 具体的には、トレーニング中に表面登録によく使用される幾何学的損失を最小限に抑え、TEMPEHをレギュレータとして有効活用する。 我々のマルチビューヘッド推論は、カメラキャリブレーション情報を用いて各ビューから特徴をサンプリングし、融合するボリューム特徴表現に基づいている。 頭の動きを可能にする部分的咬合量と大きな捕獲容積を考慮し,視標と表面認識特徴融合と空間トランスフォーマティブを用いた頭部定位モジュールを用いた。 私たちは訓練中に生のmvsスキャンを監督として使用するが、一度訓練するとtempehはスキャンを必要とせず、密接な対応で直接3dヘッドを予測する。 1つの頭部の予測には0.3秒かかり、中央値の復元誤差は0.26mmで、現在の最先端よりも64%低い。 これにより、複数の人と多様な顔の動きを含む大規模なデータセットの効率的なキャプチャが可能になる。 コード、モデル、データはhttps://tempeh.is.tue.mpg.deで公開されている。

Existing methods for capturing datasets of 3D heads in dense semantic correspondence are slow, and commonly address the problem in two separate steps; multi-view stereo (MVS) reconstruction followed by non-rigid registration. To simplify this process, we introduce TEMPEH (Towards Estimation of 3D Meshes from Performances of Expressive Heads) to directly infer 3D heads in dense correspondence from calibrated multi-view images. Registering datasets of 3D scans typically requires manual parameter tuning to find the right balance between accurately fitting the scans surfaces and being robust to scanning noise and outliers. Instead, we propose to jointly register a 3D head dataset while training TEMPEH. Specifically, during training we minimize a geometric loss commonly used for surface registration, effectively leveraging TEMPEH as a regularizer. Our multi-view head inference builds on a volumetric feature representation that samples and fuses features from each view using camera calibration information. To account for partial occlusions and a large capture volume that enables head movements, we use view- and surface-aware feature fusion, and a spatial transformer-based head localization module, respectively. We use raw MVS scans as supervision during training, but, once trained, TEMPEH directly predicts 3D heads in dense correspondence without requiring scans. Predicting one head takes about 0.3 seconds with a median reconstruction error of 0.26 mm, 64% lower than the current state-of-the-art. This enables the efficient capture of large datasets containing multiple people and diverse facial motions. Code, model, and data are publicly available at https://tempeh.is.tue.mpg.de.
翻訳日:2023-06-14 15:37:51 公開日:2023-06-12
# FIRE: 高速解釈可能なルール抽出のための最適化手法

FIRE: An Optimization Approach for Fast Interpretable Rule Extraction ( http://arxiv.org/abs/2306.07432v1 )

ライセンス: Link先を確認
Brian Liu and Rahul Mazumder(参考訳) 木アンサンブルから小さいが有用な決定ルールの集合を抽出する最適化ベースのフレームワークであるFIRE, Fast Interpretable Rule extractを提案する。 FIREは、実践者が容易に検証できる木のアンサンブルから、ルールのスパース代表サブセットを選択する。 抽出されたモデルの解釈可能性をさらに高めるため、FIREは選択中の拡散規則を奨励し、選択された決定規則の多くは共通の先行詞を共有する。 この最適化フレームワークは、融合正規化ペナルティを利用してこれを達成し、非凸空間誘導ペナルティを積極的にルールを選択する。 FIREの最適化問題は、問題スケールと罰則の非凸性により、棚外の解法に挑戦する。 この問題に対処するため,ブロック座標導出原理に基づく特殊解法を開発し,既存の解法よりも最大40倍高速に解法を行う。 我々の実験では、FIREはスパースルールセットを構築する際に最先端のルールアンサンブルアルゴリズムより優れており、既存の手法よりも解釈可能なモデルを提供できることを示した。

We present FIRE, Fast Interpretable Rule Extraction, an optimization-based framework to extract a small but useful collection of decision rules from tree ensembles. FIRE selects sparse representative subsets of rules from tree ensembles, that are easy for a practitioner to examine. To further enhance the interpretability of the extracted model, FIRE encourages fusing rules during selection, so that many of the selected decision rules share common antecedents. The optimization framework utilizes a fusion regularization penalty to accomplish this, along with a non-convex sparsity-inducing penalty to aggressively select rules. Optimization problems in FIRE pose a challenge to off-the-shelf solvers due to problem scale and the non-convexity of the penalties. To address this, making use of problem-structure, we develop a specialized solver based on block coordinate descent principles; our solver performs up to 40x faster than existing solvers. We show in our experiments that FIRE outperforms state-of-the-art rule ensemble algorithms at building sparse rule sets, and can deliver more interpretable models compared to existing methods.
翻訳日:2023-06-14 15:37:21 公開日:2023-06-12
# コクレーティブドローイングとインタラクションによるCLIPの解説

Explaining CLIP through Co-Creative Drawings and Interaction ( http://arxiv.org/abs/2306.07429v1 )

ライセンス: Link先を確認
Varvara Guljajeva and Mar Canet Sol\`a and Isaac Joseph Clarke(参考訳) 本稿では,CLIPdraw Deep Learning(DL)モデルを用いたシステムに観客が夢を語り、その夢をイメージに解釈し変換する,インタラクティブなロボットアートインスタレーションによる図面の視覚的アーカイブを解析する。 その結果,概念表現精度に基づいて,プロンプトイメージペアのアーカイブを調べ,クラスタリングした。 分析の結果,CLIP生成結果の明確な概念,画像としてのテキスト・トゥ・テキスト,不確定性と混乱,翻訳における損失の4つのグルーピングが提案された。 この記事では、人工知能(AI)が解釈し、仲介し、与えられた形のドリームの集合を垣間見るとともに、しばしば予期せぬ、視覚的に説得力のある、あるいは実際は、システムの夢のような出力を示し、言語、手話システム、インストールの様々なモジュール間の翻訳のプロセスと結果に重点を置いている。 論文は最終的に、提案されたクラスタがニューラルネットワークモデルの理解を深めていると論じている。

This paper analyses a visual archive of drawings produced by an interactive robotic art installation where audience members narrated their dreams into a system powered by CLIPdraw deep learning (DL) model that interpreted and transformed their dreams into images. The resulting archive of prompt-image pairs were examined and clustered based on concept representation accuracy. As a result of the analysis, the paper proposes four groupings for describing and explaining CLIP-generated results: clear concept, text-to-text as image, indeterminacy and confusion, and lost in translation. This article offers a glimpse into a collection of dreams interpreted, mediated and given form by Artificial Intelligence (AI), showcasing oftentimes unexpected, visually compelling or, indeed, the dream-like output of the system, with the emphasis on processes and results of translations between languages, sign-systems and various modules of the installation. In the end, the paper argues that proposed clusters support better understanding of the neural model.
翻訳日:2023-06-14 15:37:01 公開日:2023-06-12
# 非定常マルチエージェント強化学習のためのブラックボックスアプローチ

A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2306.07465v1 )

ライセンス: Link先を確認
Haozhe Jiang, Qiwen Cui, Zhihan Xiong, Maryam Fazel, Simon S. Du(参考訳) 本研究では,非定常マルチエージェントシステムの平衡学習について検討し,マルチエージェント学習と単一エージェント学習を区別する課題に対処する。 具体的には,テスト対象のギャップが小さい場合でも平衡テストがかなりの後悔を招きかねない,定常ゲームにおける複数最適解(平衡)の存在がさらなる課題となる,帯域幅フィードバックを持つゲームに焦点をあてる。 これらの障害を克服するために,定常環境に適切な学習とテストのオーラクルを備えた場合,汎用ゲームや潜在的ゲーム,マルコフゲームなど,幅広い問題に適用可能な汎用ブラックボックスアプローチを提案する。 我々のアルゴリズムは、合計変動値$\delta$で測定される非定常性の程度が知られているとき、$\widetilde{o}\left(\delta^{1/4}t^{3/4}\right)$後悔することができ、$\delta$がラウンド数である場合、$\widetilde{o}\left(\delta^{1/5}t^{4/5}\right)$後悔することができる。 一方,本アルゴリズムは,oracle のエージェント数に対する好意的な依存を継承する。 利害関係とは無関係な副作用として,nash平衡,相関平衡,粗相関平衡を含む単一エージェント学習へのブラックボックス還元による各種平衡のテスト方法を示す。

We investigate learning the equilibria in non-stationary multi-agent systems and address the challenges that differentiate multi-agent learning from single-agent learning. Specifically, we focus on games with bandit feedback, where testing an equilibrium can result in substantial regret even when the gap to be tested is small, and the existence of multiple optimal solutions (equilibria) in stationary games poses extra challenges. To overcome these obstacles, we propose a versatile black-box approach applicable to a broad spectrum of problems, such as general-sum games, potential games, and Markov games, when equipped with appropriate learning and testing oracles for stationary environments. Our algorithms can achieve $\widetilde{O}\left(\Delta^{1/4}T^{3/4}\right)$ regret when the degree of nonstationarity, as measured by total variation $\Delta$, is known, and $\widetilde{O}\left(\Delta^{1/5}T^{4/5}\right)$ regret when $\Delta$ is unknown, where $T$ is the number of rounds. Meanwhile, our algorithm inherits the favorable dependence on number of agents from the oracles. As a side contribution that may be independent of interest, we show how to test for various types of equilibria by a black-box reduction to single-agent learning, which includes Nash equilibria, correlated equilibria, and coarse correlated equilibria.
翻訳日:2023-06-14 15:28:23 公開日:2023-06-12
# 売上成長を解き放つ - 説明可能なAIによるアカウント優先順位付けエンジン

Unlocking Sales Growth: Account Prioritization Engine with Explainable AI ( http://arxiv.org/abs/2306.07464v1 )

ライセンス: Link先を確認
Suvendu Jena, Jilei Yang, Fangfang Tan(参考訳) B2Bの売上は、顧客成長の効果的な予測、増産可能性の同定、そして混乱リスクの緩和を必要とする。 LinkedInの営業担当者は従来、顧客のパフォーマンスを評価するために直感と断片化されたデータ信号に頼っていた。 これにより、データ理解と戦略の定式化、積極的販売への投資にかなりの時間を費やした。 この課題を克服するため,我々は,インテリジェントなセールスアカウント優先順位付けエンジンである account priorityr というデータ製品を開発した。 機械学習レコメンデーションモデルと、セールスCRM内のアカウントレベルの説明アルゴリズムを統合して、セールスブックの優先順位付けのマニュアルプロセスを自動化する。 A/Bテストの成功により、Account PrioritizerはLinkedIn Businessの更新予約を大幅に+8.08%増加させた。

B2B sales requires effective prediction of customer growth, identification of upsell potential, and mitigation of churn risks. LinkedIn sales representatives traditionally relied on intuition and fragmented data signals to assess customer performance. This resulted in significant time investment in data understanding as well as strategy formulation and under-investment in active selling. To overcome this challenge, we developed a data product called Account Prioritizer, an intelligent sales account prioritization engine. It uses machine learning recommendation models and integrated account-level explanation algorithms within the sales CRM to automate the manual process of sales book prioritization. A successful A/B test demonstrated that the Account Prioritizer generated a substantial +8.08% increase in renewal bookings for the LinkedIn Business.
翻訳日:2023-06-14 15:27:54 公開日:2023-06-12
# 概念階層のセマンティックインデックス作成方法,一様表現,関係データベースシステムの利用,汎用的およびケースベース推論

Method for the semantic indexing of concept hierarchies, uniform representation, use of relational database systems and generic and case-based reasoning ( http://arxiv.org/abs/1910.01539v2 )

ライセンス: Link先を確認
Uwe Petersohn, Sandra Zimmer, Jens Lehmann(参考訳) 本稿では,セマンティックインデクシングの手法を提案し,その知識表現分野への応用について述べる。 セマンティックインデクシングの出発点は、概念階層によって表される知識である。 目標は、階層的に順序付けされ、構文的に、セマンティックに正しいノード(概念)にキーを割り当てることである。 インデクシングアルゴリズムでは、キーが計算され、概念はより具体的な概念で部分的に不可能になり、意味的に正しい概念だけを追加することが許される。 キーは用語学的関係を表す。 基礎となるインデックスアルゴリズムの正確性と完全性が証明されている。 インスタンスのストレージに古典的なリレーショナルデータベースを使うことについて説明する。 一様表現のため、推論はケースベース推論とジェネリック問題解決手法を使って行うことができる。

This paper presents a method for semantic indexing and describes its application in the field of knowledge representation. Starting point of the semantic indexing is the knowledge represented by concept hierarchies. The goal is to assign keys to nodes (concepts) that are hierarchically ordered and syntactically and semantically correct. With the indexing algorithm, keys are computed such that concepts are partially unifiable with all more specific concepts and only semantically correct concepts are allowed to be added. The keys represent terminological relationships. Correctness and completeness of the underlying indexing algorithm are proven. The use of classical relational databases for the storage of instances is described. Because of the uniform representation, inference can be done using case-based reasoning and generic problem solving methods.
翻訳日:2023-06-14 03:42:24 公開日:2023-06-12
# 量子ウォークは有限グラフ上でランダムウォークを任意に表現できる

Quantum Walks can Unitarily Represent Random Walks on Finite Graphs ( http://arxiv.org/abs/2103.06463v2 )

ライセンス: Link先を確認
Matheus G. Andrade, Franklin de Lima Marquezino, Daniel R. Figueiredo(参考訳) 時間依存のランダムウォークは、その頂点分布が常に、その瞬間が有限グラフ上の任意の離散時間コイン化された量子ウォークの頂点分布と同一であるように構成することができる。 この同値性は、古典的ランダムウォークの量子アナログとして単に量子ウォークを考えるよりもはるかに強い2つのプロセス間の深い接続を確立する。 ユニタリ時間依存量子ウォークは、その頂点分布が常に有限グラフ上の任意のランダムウォークの頂点分布と一致するように構成することができる。 ここで示される構成は、すべての時間ステップで測定なしでランダムなウォークと一致する量子ウォークを記述している(それ以外は自明なステートメント)。 測定は、与えられた時間まで一元的に進化した量子ウォークで行われ、その頂点分布は、時間$t$のランダムウォークと同一である。 構成手順は一般に、均質と非均質のランダムウォークの両方をカバーする。 均質なランダムウォークに対して、ユニタリ進化は量子ウォークの時間依存性を暗示する。なぜならば、均質な量子ウォークは任意の初期条件下で収束しないからである。 したがって、量子ウォークのデビュー時に示される収束の欠如は、ユニタリティのみではなく、時間均一性とユニタリティの両方から生じており、我々の結果は量子ウォークのパワーに光を当て、任意の確率分布のサンプルを生成する。 最後に、提案した構造は、周期とトーラスのランダムウォークに一致した量子ウォークをシミュレートするために使用される。

Quantum and random walks have been shown to be equivalent in the following sense: a time-dependent random walk can be constructed such that its vertex distribution at all time instants is identical to the vertex distribution of any discrete-time coined quantum walk on a finite graph. This equivalence establishes a deep connection between the two processes, far stronger than simply considering quantum walks as quantum analogues of classical random walks. The present work strengthens this connection by providing a construction that establishes this equivalence in the reverse direction: a unitary time-dependent quantum walk can be constructed such that its vertex distribution is identical to the vertex distribution of any random walk on a finite graph at all time instants. The construction shown here describes a quantum walk that matches a random walk without measurements at all time steps (an otherwise trivial statement): measurement is performed in a quantum walk that evolved unitarily until a given time $t$ such that its vertex distribution is identical to the random walk at time $t$. The construction procedure is general, covering both homogeneous and non-homogeneous random walks. For homogeneous random walks, unitary evolution implies time dependency for the quantum walk, since homogeneous quantum walks do not converge under arbitrary initial conditions, while a broad class of random walks does. Thus, the absence of convergence demonstrated for quantum walks in its debut comes from both time-homogeneity and unitarity, rather than unitarity alone, and our results shed light on the power of quantum walks to generate samples for arbitrary probability distributions. Finally, the construction here proposed is used to simulate quantum walks that match uniform random walks on the cycle and the torus.
翻訳日:2023-06-14 03:39:26 公開日:2023-06-12
# カラー画像認識のための重み付き一般化2次元4次主成分分析

Generalized Two-Dimensional Quaternion Principal Component Analysis with Weighting for Color Image Recognition ( http://arxiv.org/abs/2010.01477v2 )

ライセンス: Link先を確認
Zhi-Gang Jia, Zi-Jin Qiu, Qian-Yu Wang, Mei-Xiang Zhao, and Dan-Dan Zhu(参考訳) カラー画像認識の最も強力な方法の1つは、2次元原理成分分析(英語版)(2dqpca)アプローチである。 しかし、2DQPCAの現在のバージョンは、実用的なデータ解析要件に従って色画像の異なる幾何学的性質を抽出することができず、強い雑音に弱い。 本稿では、重み付けによる一般化された2DQPCA手法について、制約関数と目的関数の両方に$L_{p}$ノルムを課す。 ユニット2DQPCAフレームワークとして、この新バージョンでは、実際の用途に応じて適応正規化と制約を選択でき、色画像の幾何学的性質と色情報の両方を抽出できる。 減圧スキームによって生成される投影ベクトルは互いに直交する必要がある。 重み付け行列は主特徴の効果を拡大するために定義される。 これは、主成分数の増加に伴って認識率が減少する従来の2DQPCAの欠点を克服する。 実顔データベースに基づく数値計算の結果,提案手法は雑音に対して頑健であり,最先端の2DQPCAアルゴリズムと4つの顕著な深層学習法よりも優れた性能を示した。

One of the most powerful methods of color image recognition is the two-dimensional principle component analysis (2DQPCA) approach, which is based on quaternion representation and preserves color information very well. However, the current versions of 2DQPCA are still not feasible to extract different geometric properties of color images according to practical data analysis requirements and they are vulnerable to strong noise. In this paper, a generalized 2DQPCA approach with weighting is presented with imposing $L_{p}$ norms on both constraint and objective functions. As a unit 2DQPCA framework, this new version makes it possible to choose adaptive regularizations and constraints according to actual applications and can extract both geometric properties and color information of color images. The projection vectors generated by the deflating scheme are required to be orthogonal to each other. A weighting matrix is defined to magnify the effect of main features. This overcomes the shortcomings of traditional 2DQPCA that the recognition rate decreases as the number of principal components increases. The numerical results based on the real face databases validate that the newly proposed method is robust to noise and performs better than the state-of-the-art 2DQPCA-based algorithms and four prominent deep learning methods.
翻訳日:2023-06-14 03:37:39 公開日:2023-06-12
# 高モジュール化されたrlライブラリにおける分散アーキテクチャの統合

Integrating Distributed Architectures in Highly Modular RL Libraries ( http://arxiv.org/abs/2007.02622v3 )

ライセンス: Link先を確認
Albert Bou, Sebastian Dittert and Gianni De Fabritiis(参考訳) 強化学習(RL)の推進には、急激な実験的なターンアラウンド時間を避けながら、新しい手法を簡単にプロトタイプできる柔軟性のあるツールが必要である。 最初の要件を満たすため、最も人気のあるRLライブラリは、実験と開発を容易にする高度にモジュール化されたエージェント構成性を主張している。 適切な時間枠内での困難な環境を解決するため、大規模なサンプリングと計算資源へのRLのスケーリングが成功した。 しかし、この機能とモジュラリティを組み合わせるのは、これまでは困難でした。 本研究では,ローカルおよび分散実行レベルでエージェントのコンポーザビリティを実現するための設計選択について検討する。 本稿では、RLエージェントを独立した再利用可能なコンポーネントによって異なるスケールで定義できる汎用的アプローチを提案する。 我々は,従来のベンチマークを再現し,複数の分散アーキテクチャを探索し,新規で複雑な環境を解決し,エージェント定義とトレーニングスキーム定義においてユーザをフルコントロールできることを実験的に実証した。 この研究は、次世代のRLライブラリに有用な洞察を与えることができると考えています。

Advancing reinforcement learning (RL) requires tools that are flexible enough to easily prototype new methods while avoiding impractically slow experimental turnaround times. To match the first requirement, the most popular RL libraries advocate for highly modular agent composability, which facilitates experimentation and development. To solve challenging environments within reasonable time frames, scaling RL to large sampling and computing resources has proved a successful strategy. However, this capability has been so far difficult to combine with modularity. In this work, we explore design choices to allow agent composability both at a local and distributed level of execution. We propose a versatile approach that allows the definition of RL agents at different scales through independent reusable components. We demonstrate experimentally that our design choices allow us to reproduce classical benchmarks, explore multiple distributed architectures, and solve novel and complex environments while giving full control to the user in the agent definition and training scheme definition. We believe this work can provide useful insights to the next generation of RL libraries.
翻訳日:2023-06-14 03:37:19 公開日:2023-06-12
# ポリシー勾配アルゴリズムを用いた多目的ニューラルアーキテクチャ探索フレームワーク

Efficient Multi-objective Neural Architecture Search Framework via Policy Gradient Algorithm ( http://arxiv.org/abs/2111.03892v3 )

ライセンス: Link先を確認
Bo Lyu, Shiping Wen(参考訳) 差別化可能なアーキテクチャ検索は、初期のnas(eaベース、rlベース)法に比べて高い効率性で、ニューラルネットワーク検索(nas)の分野で徐々に主流となっている。 最近の差別化可能なNASは、検索性能の向上とGPUメモリ消費の削減も目指している。 しかし、これらの手法は、例えばエネルギー、資源制約された効率、その他のメトリクスなど、自然に微分不可能な目的に対処することができない。 多目的nasフィールドの研究は、これをターゲットとしているが、各候補アーキテクチャの唯一の最適化のために、膨大な計算リソースを必要とする。 この違いを踏まえて,多目的nasにおける微分可能nasフレームワークの高効率性と非微分可能メトリック間の互換性のメリットであるtnd-nasを提案する。 微分可能なnasフレームワークの下では、探索空間の連続的な緩和により、tnd-nasはアーキテクチャパラメータが離散空間で最適化されながら、アーキテクチャパラメータによって縮小されるプログレッシブ探索空間に頼る。 例えば、cifar10 (1.09m/3.3%, 2.4m/2.95%, 9.57m/2.54%) と cifar100 (2.46m/18.3%, 5.46/16.73%, 12.88/15.20%) のデータセット上で、高性能なコンパクトアーキテクチャを実現する。 他のマルチオブジェクトNAS法と比較して、TND-NASは時間(NVIDIA 1080Tiでは1.3GPU日、NSGA-Netでは1/6GPU日)が少なく、実世界のNASシナリオ(リソース制約、プラットフォーム特化)に便利に適応できる。

Differentiable architecture search has gradually become the mainstream research topic in the field of Neural Architecture Search (NAS) for its high efficiency compared with the early NAS (EA-based, RL-based) methods. Recent differentiable NAS also aims at further improving the search performance and reducing the GPU-memory consumption. However, these methods are no longer naturally capable of tackling the non-differentiable objectives, e.g., energy, resource-constrained efficiency, and other metrics, let alone the multi-objective search demands. Researches in the multi-objective NAS field target this but requires vast computational resources cause of the sole optimization of each candidate architecture. In light of this discrepancy, we propose the TND-NAS, which is with the merits of the high efficiency in differentiable NAS framework and the compatibility among non-differentiable metrics in Multi-objective NAS. Under the differentiable NAS framework, with the continuous relaxation of the search space, TND-NAS has the architecture parameters been optimized in discrete space, while resorting to the progressive search space shrinking by architecture parameters. Our representative experiment takes two objectives (Parameters, Accuracy) as an example, we achieve a series of high-performance compact architectures on CIFAR10 (1.09M/3.3%, 2.4M/2.95%, 9.57M/2.54%) and CIFAR100 (2.46M/18.3%, 5.46/16.73%, 12.88/15.20%) datasets. Favorably, compared with other multi-objective NAS methods, TND-NAS is less time-consuming (1.3 GPU-days on NVIDIA 1080Ti, 1/6 of that in NSGA-Net), and can be conveniently adapted to real-world NAS scenarios (resource-constrained, platform-specialized).
翻訳日:2023-06-14 03:28:21 公開日:2023-06-12
# 有限和結合合成確率最適化:理論と応用

Finite-Sum Coupled Compositional Stochastic Optimization: Theory and Applications ( http://arxiv.org/abs/2202.12396v7 )

ライセンス: Link先を確認
Bokun Wang and Tianbao Yang(参考訳) 本稿では,合成関数の和に対する確率的最適化について検討する。 この問題を有限サム結合合成最適化(FCCO)と呼ぶ。 機械学習において、平均精度(AP)、pノルムプッシュ、リストワイドランキングの損失、周辺成分分析(NCA)、深層生存分析、深層潜伏変動モデルなど、より詳細な分析に値する非凸または凸構成測度/対象を最適化するための幅広い応用がある。 しかし、既存のアルゴリズムと分析は1つ以上の面で制限されている。 本稿では,非凸目的と凸目的の両方に対する単純な確率的アルゴリズムの包括的収束解析を行う。 我々の主要な成果は、移動平均ベース推定器とミニバッチを用いた並列高速化によるオラクルの複雑さの改善である。 また,本理論解析では,外層と内層で等サイズのバッチをサンプリングすることにより,実用的な実装を改善するための新たな知見を示す。 AP最大化、NAA、p-ノルムプッシュに関する数値実験は、理論のいくつかの側面を腐食させる。

This paper studies stochastic optimization for a sum of compositional functions, where the inner-level function of each summand is coupled with the corresponding summation index. We refer to this family of problems as finite-sum coupled compositional optimization (FCCO). It has broad applications in machine learning for optimizing non-convex or convex compositional measures/objectives such as average precision (AP), p-norm push, listwise ranking losses, neighborhood component analysis (NCA), deep survival analysis, deep latent variable models, etc., which deserves finer analysis. Yet, existing algorithms and analyses are restricted in one or other aspects. The contribution of this paper is to provide a comprehensive convergence analysis of a simple stochastic algorithm for both non-convex and convex objectives. Our key result is the improved oracle complexity with the parallel speed-up by using the moving-average based estimator with mini-batching. Our theoretical analysis also exhibits new insights for improving the practical implementation by sampling the batches of equal size for the outer and inner levels. Numerical experiments on AP maximization, NCA, and p-norm push corroborate some aspects of the theory.
翻訳日:2023-06-14 03:19:16 公開日:2023-06-12
# 正則化マルコフ決定過程の高速化

Accelerating Primal-dual Methods for Regularized Markov Decision Processes ( http://arxiv.org/abs/2202.10506v2 )

ライセンス: Link先を確認
Haoya Li, Hsiang-fu Yu, Lexing Ying, and Inderjit Dhillon(参考訳) エントロピー規則化マルコフ決定過程は強化学習に広く用いられている。 本稿では,エントロピー正規化問題の原始双対定式化について述べる。 標準的な一階法は厳密な凸性や凹凸性の欠如により収束が遅い。 この問題に対処するために、まず、新しい二次凸凸化された原始双対公式を導入する。 新しい定式化の自然な勾配上昇は、大域収束保証と指数収束率を享受する。 また,収束をさらに加速する新たな補間計量を提案する。 提案手法の性能を複数の条件下で実証するために, 数値実験を行った。

Entropy regularized Markov decision processes have been widely used in reinforcement learning. This paper is concerned with the primal-dual formulation of the entropy regularized problems. Standard first-order methods suffer from slow convergence due to the lack of strict convexity and concavity. To address this issue, we first introduce a new quadratically convexified primal-dual formulation. The natural gradient ascent descent of the new formulation enjoys global convergence guarantee and exponential convergence rate. We also propose a new interpolating metric that further accelerates the convergence significantly. Numerical results are provided to demonstrate the performance of the proposed methods under multiple settings.
翻訳日:2023-06-14 03:18:42 公開日:2023-06-12
# GoSafeOpt: 動的システムのグローバル最適化のためのスケーラブルな安全な探索

GoSafeOpt: Scalable Safe Exploration for Global Optimization of Dynamical Systems ( http://arxiv.org/abs/2201.09562v5 )

ライセンス: Link先を確認
Bhavya Sukhija, Matteo Turchetta, David Lindner, Andreas Krause, Sebastian Trimpe, Dominik Baumann(参考訳) 物理システム上で最適な制御ポリシーを学習することは、単一障害でさえ高価なハードウェア損傷を引き起こす可能性があるため、難しい。 既存のモデルフリー学習手法の多くは、安全性、すなわち、探索中の失敗を保証しない。 注目すべき例外は、GoSafeアルゴリズムであり、残念ながら高次元のシステムを扱えないため、ほとんどの実世界の力学系には適用できない。 この研究は、安全と最適性を保証するとともに、高次元システムに対するグローバルな最適ポリシーを安全に発見できる最初のアルゴリズムとして、GoSafeOptを提案する。 GoSafeOptは、GoSafeの禁止となるロボットアーム上で、モデルフリーの安全な学習方法よりも優れていることを示す。

Learning optimal control policies directly on physical systems is challenging since even a single failure can lead to costly hardware damage. Most existing model-free learning methods that guarantee safety, i.e., no failures, during exploration are limited to local optima. A notable exception is the GoSafe algorithm, which, unfortunately, cannot handle high-dimensional systems and hence cannot be applied to most real-world dynamical systems. This work proposes GoSafeOpt as the first algorithm that can safely discover globally optimal policies for high-dimensional systems while giving safety and optimality guarantees. We demonstrate the superiority of GoSafeOpt over competing model-free safe learning methods on a robot arm that would be prohibitive for GoSafe.
翻訳日:2023-06-14 03:17:41 公開日:2023-06-12
# AI安全における臨界の概念

The Concept of Criticality in AI Safety ( http://arxiv.org/abs/2201.04632v2 )

ライセンス: Link先を確認
Yitzhak Spielberg, Amos Azaria(参考訳) AIエージェントが行動と人間の価値観を一致させなければ、深刻な害を引き起こす可能性がある。 価値アライメント問題を解決する一つの方法は、エージェントのすべてのアクションを監視する人間のオペレータを含むことである。 このソリューションが最大限の安全性を保証しているにもかかわらず、人間オペレーターがエージェントにすべての注意を捧げる必要があるため、非常に非効率である。 本稿では,オペレータが監視タスクを無視することなく,他の活動に携わることができる,より効率的なソリューションを提案する。 我々のアプローチでは、AIエージェントは、クリティカルアクション、すなわち潜在的に有害なアクションに対してのみ、オペレータから許可を要求する。 本稿では,AIの安全性に関する批判行動の概念を紹介し,行動臨界度を測定するモデルの構築方法について論じる。 また,操作者のフィードバックを使ってエージェントをより賢くする方法についても論じる。

When AI agents don't align their actions with human values they may cause serious harm. One way to solve the value alignment problem is by including a human operator who monitors all of the agent's actions. Despite the fact, that this solution guarantees maximal safety, it is very inefficient, since it requires the human operator to dedicate all of his attention to the agent. In this paper, we propose a much more efficient solution that allows an operator to be engaged in other activities without neglecting his monitoring task. In our approach the AI agent requests permission from the operator only for critical actions, that is, potentially harmful actions. We introduce the concept of critical actions with respect to AI safety and discuss how to build a model that measures action criticality. We also discuss how the operator's feedback could be used to make the agent smarter.
翻訳日:2023-06-14 03:17:29 公開日:2023-06-12
# 時間変動状態と制御制約を考慮したモデルベース安全強化学習:知的車両への適用

Model-Based Safe Reinforcement Learning with Time-Varying State and Control Constraints: An Application to Intelligent Vehicles ( http://arxiv.org/abs/2112.11217v2 )

ライセンス: Link先を確認
Xinglong Zhang, Yaoqian Peng, Biao Luo, Wei Pan, Xin Xu, and Haibin Xie(参考訳) 近年,連続制御タスクのためのアクター批判構造を用いた安全強化学習(RL)が注目されている。 安全と収束の保証を備えた準最適制御政策を学ぶことは依然として困難である。 また、安全性に制約のある安全RLアルゴリズムの設計に対処する研究はほとんどない。 本稿では,時変状態と制御制約を伴う非線形システムの最適制御のための安全なrlアルゴリズムを提案する。 提案手法では,制御安全を確保するために,新たなバリアフォースベースの制御ポリシー構造を構築する。 政策の安全上の制約下での安全リスクを予測し、政策を安全に更新するための多段階政策評価機構を提案する。 安定性と堅牢性に関する理論的結果が証明されている。 また,アクタ・クリティカルな実装の収束性も分析する。 提案アルゴリズムの性能は,安全体育館シミュレーション環境において,最先端のrlアルゴリズムを上回っている。 さらに,実世界の2台の知的車両の経路追従・衝突回避問題にもアプローチを適用した。 ディファレンシャルドライブ車両とアッカーマンドライブ車両は、それぞれオフラインデプロイメントとオンライン学習性能を検証するために使用される。 提案手法は,この実験において印象的なsim-to-real転送機能と良好なオンライン制御性能を示す。

Recently, safe reinforcement learning (RL) with the actor-critic structure for continuous control tasks has received increasing attention. It is still challenging to learn a near-optimal control policy with safety and convergence guarantees. Also, few works have addressed the safe RL algorithm design under time-varying safety constraints. This paper proposes a safe RL algorithm for optimal control of nonlinear systems with time-varying state and control constraints. In the proposed approach, we construct a novel barrier force-based control policy structure to guarantee control safety. A multi-step policy evaluation mechanism is proposed to predict the policy's safety risk under time-varying safety constraints and guide the policy to update safely. Theoretical results on stability and robustness are proven. Also, the convergence of the actor-critic implementation is analyzed. The performance of the proposed algorithm outperforms several state-of-the-art RL algorithms in the simulated Safety Gym environment. Furthermore, the approach is applied to the integrated path following and collision avoidance problem for two real-world intelligent vehicles. A differential-drive vehicle and an Ackermann-drive one are used to verify offline deployment and online learning performance, respectively. Our approach shows an impressive sim-to-real transfer capability and a satisfactory online control performance in the experiment.
翻訳日:2023-06-14 03:17:15 公開日:2023-06-12
# 無線ネットワークにおける意味情報回復

Semantic Information Recovery in Wireless Networks ( http://arxiv.org/abs/2204.13366v4 )

ライセンス: Link先を確認
Edgar Beck, Carsten Bockelmann and Armin Dekorsy(参考訳) 無線通信における機械学習(ML)ツールの成功により、1949年のWeaverによる意味コミュニケーションのアイデアが注目されている。 シャノンの古典的なデザインパラダイムは、メッセージの意味、すなわち意味論を正確にバージョンではなく伝達することを目的としており、情報レートの節約を可能にしている。 本稿では,セマンティクスをモデル化するためのbasuらの基本アプローチを,完全なコミュニケーションマルコフ連鎖へと拡張する。 そこで,隠れランダム変数を用いてセマンティクスをモデル化し,セマンティクスが最良に保存されるように,セマンティクスを通信チャネル上でのデータ再生および信頼性の高いメッセージ送信として定義する。 我々は、このタスクをエンドツーエンドのInformation Bottleneck問題とみなし、関連する情報を最も多く保存しながら圧縮を可能にする。 解決策として、MLベースの意味コミュニケーションシステムであるSINFONYを提案し、分散マルチポイントシナリオに使用する: SINFONYは、異なる送信者で観測される複数のメッセージの背後にある意味を、セマンティックリカバリのために単一のレシーバに伝達する。 我々はSINFONYを画像処理で分析する。 数値計算の結果,従来の通信システムと比較して,最大20dBの速度正規化SNRシフトが見られた。

Motivated by the recent success of Machine Learning (ML) tools in wireless communications, the idea of semantic communication by Weaver from 1949 has gained attention. It breaks with Shannon's classic design paradigm by aiming to transmit the meaning of a message, i.e., semantics, rather than its exact version and thus allows for savings in information rate. In this work, we extend the fundamental approach from Basu et al. for modeling semantics to the complete communications Markov chain. Thus, we model semantics by means of hidden random variables and define the semantic communication task as the data-reduced and reliable transmission of messages over a communication channel such that semantics is best preserved. We cast this task as an end-to-end Information Bottleneck problem, allowing for compression while preserving relevant information most. As a solution approach, we propose the ML-based semantic communication system SINFONY and use it for a distributed multipoint scenario: SINFONY communicates the meaning behind multiple messages that are observed at different senders to a single receiver for semantic recovery. We analyze SINFONY by processing images as message examples. Numerical results reveal a tremendous rate-normalized SNR shift up to 20 dB compared to classically designed communication systems.
翻訳日:2023-06-14 03:09:12 公開日:2023-06-12
# 凸非負行列因子化を伴うリスク予算ポートフォリオ

Risk budget portfolios with convex Non-negative Matrix Factorization ( http://arxiv.org/abs/2204.02757v2 )

ライセンス: Link先を確認
Bruno Spilak and Wolfgang Karl H\"ardle(参考訳) 凸非負行列因子化(NMF)を用いたリスクファクタの予算化に基づくポートフォリオ割り当て手法を提案する。 古典的因子分析、PCA、ICAとは異なり、NMFは、解釈可能な長期限定のポートフォリオを得るために正の因子負荷を保証する。 NMF因子は、異なるリスク源を表すため、準対角相関行列を持ち、多様化されたポートフォリオ割り当てを促進する。 我々は、暗号通貨と伝統的資産の2つの長期的グローバルポートフォリオを対象とするボラティリティの文脈で、我々の手法を評価する。 本手法は,階層的リスクパリティ(HRP)よりも優れたリスクプロファイルを示す。 モンテカルロシミュレーションを用いて本研究のロバスト性を評価する。

We propose a portfolio allocation method based on risk factor budgeting using convex Nonnegative Matrix Factorization (NMF). Unlike classical factor analysis, PCA, or ICA, NMF ensures positive factor loadings to obtain interpretable long-only portfolios. As the NMF factors represent separate sources of risk, they have a quasi-diagonal correlation matrix, promoting diversified portfolio allocations. We evaluate our method in the context of volatility targeting on two long-only global portfolios of cryptocurrencies and traditional assets. Our method outperforms classical portfolio allocations regarding diversification and presents a better risk profile than hierarchical risk parity (HRP). We assess the robustness of our findings using Monte Carlo simulation.
翻訳日:2023-06-14 03:08:30 公開日:2023-06-12
# 圧縮不確かさを伴うライブ腹腔鏡下ビデオ検索

Live Laparoscopic Video Retrieval with Compressed Uncertainty ( http://arxiv.org/abs/2203.04301v2 )

ライセンス: Link先を確認
Tong Yu, Pietro Mascagni, Juan Verde, Jacques Marescaux, Didier Mutter, Nicolas Padoy(参考訳) 関連情報を検索するために大量の医療データを検索することは、臨床医療にとって難しいが重要な課題である。 しかし、キーワードの形式でテキストを検索する原始的かつ最も一般的なアプローチは、複雑なメディアフォーマットを扱う場合に非常に制限される。 コンテンツベースの検索は、リッチメディアをクエリ自身として使用することで、この制限を克服する方法を提供する。 特に外科的ビデオ・ビデオ検索は,特にリアルタイム・ビデオ・ハッシュを用いて手術室内で直接検索を行うという,臨床的価値の高い新たな未発見な研究課題である。 実際、ハッシュ処理は大規模なデータエントリをコンパクトなバイナリ配列やハッシュに変換し、大規模な検索操作を非常に高速に行えるようにする。 しかし、ビデオ中のゆらぎにより、与えられたハッシュのすべてのビットが等しく信頼できるわけではない。 本研究では,光計算フットプリントを維持しながら,この不確実性を緩和する手法を提案する。 そこで本研究では, 胆嚢摘出術期, バイパス期, まったく新しいデータセットから得られた6種類の手術タイプにまたがるクリティカルイベントを用いて, 手術用マルチタスク評価プロトコルにおいて, 優れた検索結果(3~4%トップ10平均精度)を示す。 このマルチタスクベンチマークの成功は,本手法の外科的ビデオ検索における汎用性を示している。

Searching through large volumes of medical data to retrieve relevant information is a challenging yet crucial task for clinical care. However the primitive and most common approach to retrieval, involving text in the form of keywords, is severely limited when dealing with complex media formats. Content-based retrieval offers a way to overcome this limitation, by using rich media as the query itself. Surgical video-to-video retrieval in particular is a new and largely unexplored research problem with high clinical value, especially in the real-time case: using real-time video hashing, search can be achieved directly inside of the operating room. Indeed, the process of hashing converts large data entries into compact binary arrays or hashes, enabling large-scale search operations at a very fast rate. However, due to fluctuations over the course of a video, not all bits in a given hash are equally reliable. In this work, we propose a method capable of mitigating this uncertainty while maintaining a light computational footprint. We present superior retrieval results (3-4 % top 10 mean average precision) on a multi-task evaluation protocol for surgery, using cholecystectomy phases, bypass phases, and coming from an entirely new dataset introduced here, critical events across six different surgery types. Success on this multi-task benchmark shows the generalizability of our approach for surgical video retrieval.
翻訳日:2023-06-14 03:07:47 公開日:2023-06-12
# ニューラルテキスト生成の最近の進歩:タスク非依存調査

Recent Advances in Neural Text Generation: A Task-Agnostic Survey ( http://arxiv.org/abs/2203.03047v3 )

ライセンス: Link先を確認
Chen Tang, Frank Guerin and Chenghua Lin(参考訳) 近年,自然言語生成(nlg)の分野でのニューラルモデルの応用に関する研究が盛んに行われている。 主な目的は、言語的に自然かつ人間的なテキストを生成すると同時に、生成プロセスの制御を行うことである。 本稿では,ニューラルテキスト生成の最近の進歩を包括的かつタスク依存的に調査する。 これらの進歩は、データ構築、ニューラルフレームワーク、トレーニングと推論戦略、評価指標の4つの重要な領域に分類する、数多くの開発を通じて促進されてきた。 これらの異なる側面を調べた結果、この分野における進歩の全体像を概観することを目指している。 さらに,ニューラル・パイプラインの活用と背景知識の導入を含む,ニューラル・テキスト・ジェネレーションの発展に向けた今後の方向性について検討する。 これらの経路は、NLGシステムの能力をさらに強化する有望な機会を提供する。 全体として、この調査は、ニューラルテキスト生成における技術の現状の統合に役立ち、このダイナミックな分野における将来の研究と開発への道のりを強調している。

In recent years, considerable research has been dedicated to the application of neural models in the field of natural language generation (NLG). The primary objective is to generate text that is both linguistically natural and human-like, while also exerting control over the generation process. This paper offers a comprehensive and task-agnostic survey of the recent advancements in neural text generation. These advancements have been facilitated through a multitude of developments, which we categorize into four key areas: data construction, neural frameworks, training and inference strategies, and evaluation metrics. By examining these different aspects, we aim to provide a holistic overview of the progress made in the field. Furthermore, we explore the future directions for the advancement of neural text generation, which encompass the utilization of neural pipelines and the incorporation of background knowledge. These avenues present promising opportunities to further enhance the capabilities of NLG systems. Overall, this survey serves to consolidate the current state of the art in neural text generation and highlights potential avenues for future research and development in this dynamic field.
翻訳日:2023-06-14 03:07:23 公開日:2023-06-12
# DDL-MVS:MVSネットワークにおける深度不連続学習

DDL-MVS: Depth Discontinuity Learning for MVS Networks ( http://arxiv.org/abs/2203.01391v3 )

ライセンス: Link先を確認
Nail Ibrahimli, Hugo Ledoux, Julian Kooij, Liangliang Nan(参考訳) 従来のMVS手法は精度は良いが完全性に苦慮するが、近年開発された学習ベースマルチビューステレオ(MVS)技術は精度を損なわずに完全性を改善している。 本研究では,mvs法における奥行き不連続学習を提案し,復元の完全性を維持しつつ精度をさらに向上させる。 我々の考えは、境界写像を明示的に用いた深度マップと境界マップを共同で推定し、深度マップをさらに洗練することである。 提案手法の有効性を検証し,高品質の深度マップ推定に依存する既存の学習ベースMVSパイプラインに,我々の戦略が容易に統合できることを実証する。 各種データセットに対する大規模な実験により,本手法はベースラインに比べて再現性の向上を図っている。 提案したモデルと戦略が優れた一般化能力を持つことを示す実験もある。 ソースコードは近く公開される予定だ。

Traditional MVS methods have good accuracy but struggle with completeness, while recently developed learning-based multi-view stereo (MVS) techniques have improved completeness except accuracy being compromised. We propose depth discontinuity learning for MVS methods, which further improves accuracy while retaining the completeness of the reconstruction. Our idea is to jointly estimate the depth and boundary maps where the boundary maps are explicitly used for further refinement of the depth maps. We validate our idea and demonstrate that our strategies can be easily integrated into the existing learning-based MVS pipeline where the reconstruction depends on high-quality depth map estimation. Extensive experiments on various datasets show that our method improves reconstruction quality compared to baseline. Experiments also demonstrate that the presented model and strategies have good generalization capabilities. The source code will be available soon.
翻訳日:2023-06-14 03:06:42 公開日:2023-06-12
# 対話的意思決定のための漸近的インスタンス最適アルゴリズム

Asymptotic Instance-Optimal Algorithms for Interactive Decision Making ( http://arxiv.org/abs/2206.02326v2 )

ライセンス: Link先を確認
Kefan Dong, Tengyu Ma(参考訳) インタラクティブな意思決定問題(バンド、強化学習など)に関する過去の研究は、アルゴリズムの最も困難なインスタンスにおけるパフォーマンスを測定するミニマックス後悔に焦点を当てていた。 しかし、理想的なアルゴリズムは、特定の問題インスタンスの複雑さに適応し、最悪の場合よりも簡単なインスタンスに対する後悔を少なくするべきである。 本稿では,軽度条件下での有限数の判定問題に対する一般対話型意思決定のための,最初の漸近的インスタンス最適化アルゴリズムを設計する。 すべてのインスタンス$f$において、我々のアルゴリズムは一貫性のあるアルゴリズム(すべてのインスタンスで非自明な後悔を達成している)よりも優れており、漸近的な後悔$\mathcal{c}(f) \ln n$、ただし$\mathcal{c}(f)$は$f$の複雑さの正確な特徴づけである。 アルゴリズムの重要なステップは、アクティブなデータ収集を伴う仮説テストである。 これは、推定されたインスタンスが実際に正しいかどうかをテストするために、アルゴリズムが観測を収集する最も経済的決定を計算し、したがって複雑さ$\mathcal{C}(f)$は、他のインスタンスに対してインスタンスをテストするための最小コストである。 本研究は,具体的問題に対するインスタンス化を行い,マルチアーム付きバンディット [lai and robbins, 1985] と線形バンディット [lattimore and szepesvari, 2017] の古典的ギャップ依存境界を回復し,強化学習のための最善のインスタンス依存上界 [xu et al., 2021] を改善した。

Past research on interactive decision making problems (bandits, reinforcement learning, etc.) mostly focuses on the minimax regret that measures the algorithm's performance on the hardest instance. However, an ideal algorithm should adapt to the complexity of a particular problem instance and incur smaller regrets on easy instances than worst-case instances. In this paper, we design the first asymptotic instance-optimal algorithm for general interactive decision making problems with finite number of decisions under mild conditions. On every instance $f$, our algorithm outperforms all consistent algorithms (those achieving non-trivial regrets on all instances), and has asymptotic regret $\mathcal{C}(f) \ln n$, where $\mathcal{C}(f)$ is an exact characterization of the complexity of $f$. The key step of the algorithm involves hypothesis testing with active data collection. It computes the most economical decisions with which the algorithm collects observations to test whether an estimated instance is indeed correct; thus, the complexity $\mathcal{C}(f)$ is the minimum cost to test the instance $f$ against other instances. Our results, instantiated on concrete problems, recover the classical gap-dependent bounds for multi-armed bandits [Lai and Robbins, 1985] and prior works on linear bandits [Lattimore and Szepesvari, 2017], and improve upon the previous best instance-dependent upper bound [Xu et al., 2021] for reinforcement learning.
翻訳日:2023-06-14 03:01:14 公開日:2023-06-12
# クロスビュー言語モデリング : 統合クロスリンガル・クロスモーダル事前学習に向けて

Cross-View Language Modeling: Towards Unified Cross-Lingual Cross-Modal Pre-training ( http://arxiv.org/abs/2206.00621v2 )

ライセンス: Link先を確認
Yan Zeng, Wangchunshu Zhou, Ao Luo, Ziming Cheng, Xinsong Zhang(参考訳) 本稿では,共通のアーキテクチャと目的を持つ言語間および言語間事前学習を統合する,シンプルで効果的な事前学習フレームワークであるcross-view language modelingを提案する。 クロスリンガルとクロスモーダルプレトレーニングは、同じオブジェクトの2つの異なるビューを共通の意味空間に合わせるという、同じ目標を共有しています。 この目的のために、クロスビュー言語モデリングフレームワークは、マルチモーダルデータ(イメージキャプチャペア)とマルチリンガルデータ(並列文ペア)の両方を、同じオブジェクトの2つの異なるビューとして考慮し、それらの間の相互情報を条件付きマスク言語モデリングとコントラスト学習で最大化することにより、モデルを訓練する。 我々は、クロスプラットフォーム言語モデルであるCCLMを、クロスビュー言語モデリングフレームワークで事前訓練する。 マルチリンガルマルチモーダルベンチマークであるiglueと2つのマルチリンガル画像テキスト検索データセットの実験結果によると、cclmは概念的には単純であるが、以前の最先端技術よりも10%以上大きく改善されている。 さらに、cclmは、ゼロショットクロスリンガルトランスファーにより、英語の代表的な視覚言語モデルの翻訳テスト性能を上回った、最初の多言語マルチモーダル事前学習モデルである。

In this paper, we introduce Cross-View Language Modeling, a simple and effective pre-training framework that unifies cross-lingual and cross-modal pre-training with shared architectures and objectives. Our approach is motivated by a key observation that cross-lingual and cross-modal pre-training share the same goal of aligning two different views of the same object into a common semantic space. To this end, the cross-view language modeling framework considers both multi-modal data (i.e., image-caption pairs) and multi-lingual data (i.e., parallel sentence pairs) as two different views of the same object, and trains the model to align the two views by maximizing the mutual information between them with conditional masked language modeling and contrastive learning. We pre-train CCLM, a Cross-lingual Cross-modal Language Model, with the cross-view language modeling framework. Empirical results on IGLUE, a multi-lingual multi-modal benchmark, and two multi-lingual image-text retrieval datasets show that while conceptually simpler, CCLM significantly outperforms the prior state-of-the-art with an average absolute improvement of over 10%. Moreover, CCLM is the first multi-lingual multi-modal pre-trained model that surpasses the translate-test performance of representative English vision-language models by zero-shot cross-lingual transfer.
翻訳日:2023-06-14 03:00:40 公開日:2023-06-12
# ドット製品カーネル回帰のための高精度学習曲線と高階スケーリング限界

Precise Learning Curves and Higher-Order Scaling Limits for Dot Product Kernel Regression ( http://arxiv.org/abs/2205.14846v3 )

ライセンス: Link先を確認
Lechao Xiao, Hong Hu, Theodor Misiakiewicz, Yue M. Lu, Jeffrey Pennington(参考訳) 現代の機械学習モデルが計算フロンティアを推し進めるにつれ、異なるモデルとデータスケーリング体制の下で期待されるパフォーマンス改善の正確な見積もりを開発することがますます重要になっている。 現在、予測誤差がサンプル数に依存することを特徴付ける学習曲線の理論的な理解は、大きなサンプル漸近(m\to\infty$)または特定の単純なデータ分布に対して、サンプル数が次元(m\propto d$)と線形にスケールする高次元漸近(high-dimensional asymptotics)に制限されている。 本論文の主題である高階スケーリング関係$m\propto d^r$を含む,この2つの状態の間には広い溝がある。 我々は,ドット製品カーネルのカーネルリッジ回帰の問題に注目し,r$th-order asymptotic scaling regime $m\to\infty$ with $m/d^r$ held constant において,等方性確率ラベルを持つ球面から一様に引き出されたデータに対するテスト誤差,バイアス,分散の平均の正確な公式を与える。 学習曲線のピークは、$m \approx d^r/r! 任意の整数$r$に対して$は、複数のサンプルワイド降下と複数のスケールでの非自明な振る舞いをもたらす。

As modern machine learning models continue to advance the computational frontier, it has become increasingly important to develop precise estimates for expected performance improvements under different model and data scaling regimes. Currently, theoretical understanding of the learning curves that characterize how the prediction error depends on the number of samples is restricted to either large-sample asymptotics ($m\to\infty$) or, for certain simple data distributions, to the high-dimensional asymptotics in which the number of samples scales linearly with the dimension ($m\propto d$). There is a wide gulf between these two regimes, including all higher-order scaling relations $m\propto d^r$, which are the subject of the present paper. We focus on the problem of kernel ridge regression for dot-product kernels and present precise formulas for the mean of the test error, bias, and variance, for data drawn uniformly from the sphere with isotropic random labels in the $r$th-order asymptotic scaling regime $m\to\infty$ with $m/d^r$ held constant. We observe a peak in the learning curve whenever $m \approx d^r/r!$ for any integer $r$, leading to multiple sample-wise descent and nontrivial behavior at multiple scales.
翻訳日:2023-06-14 02:59:39 公開日:2023-06-12
# se-moe - スケーラブルで効率的な分散トレーニングと推論システム

SE-MoE: A Scalable and Efficient Mixture-of-Experts Distributed Training and Inference System ( http://arxiv.org/abs/2205.10034v2 )

ライセンス: Link先を確認
Liang Shen, Zhihua Wu, WeiBao Gong, Hongxiang Hao, Yangfan Bai, HuaChao Wu, Xinxuan Wu, Jiang Bian, Haoyi Xiong, Dianhai Yu, Yanjun Ma(参考訳) 近年,ML インフラストラクチャの多様性が増しているため,多種多様なコンピューティングシステムによる分散トレーニングが望まれている。 Mixture-of-Experts(MoE)モデルは、ゲーティングと並列化によってモデル/データの全体サイズに応じたトレーニングコストを低減するために提案されている。 DeepSpeedは、異種インフラストラクチャ上で大規模なMoEトレーニングを実施する努力を続けているが、トレーニングと推論の効率は、ロードバランシング、通信/計算効率、メモリフットプリント制限など、いくつかのシステム側面からさらに改善される可能性がある。 本研究では,階層型ストレージ上での2次元プリフェッチとフュージョン通信による弾力的MoEトレーニングを提案するSE-MoEを提案する。 単一ノードでのスケーラブルな推論、特にモデルサイズがgpuメモリより大きい場合、se-moeはcpu-gpuメモリを複数のセクションに結合してロードし、効率的な推論のためにメモリセクションをまたいで計算タスクを実行する。 se-moeの評価実験を行い、48 a100 gpuカード上で8日で12bのパラメータのばらばらなミックスド・オブ・エキスパートズモデルを用いた統一機能最適化(ufo)モデルのトレーニングに成功した。 最先端と比較すると、SE-MoEはDeepSpeedより33%高いスループット(秒間トークン)、一般の推論では13%高いスループットでパフォーマンスが向上した。 特に、不均衡なMoEタスク、例えばUFOでは、SE-MoEは64%高いスループットを実現し、18%低いメモリフットプリントを実現した。 フレームワークのコードは、https://github.com/PaddlePaddle/Paddle.comでリリースされる。

With the increasing diversity of ML infrastructures nowadays, distributed training over heterogeneous computing systems is desired to facilitate the production of big models. Mixture-of-Experts (MoE) models have been proposed to lower the cost of training subject to the overall size of models/data through gating and parallelism in a divide-and-conquer fashion. While DeepSpeed has made efforts in carrying out large-scale MoE training over heterogeneous infrastructures, the efficiency of training and inference could be further improved from several system aspects, including load balancing, communication/computation efficiency, and memory footprint limits. In this work, we present SE-MoE that proposes Elastic MoE training with 2D prefetch and Fusion communication over Hierarchical storage, so as to enjoy efficient parallelisms in various types. For scalable inference in a single node, especially when the model size is larger than GPU memory, SE-MoE forms the CPU-GPU memory jointly into a ring of sections to load the model, and executes the computation tasks across the memory sections in a round-robin manner for efficient inference. We carried out extensive experiments to evaluate SE-MoE, where SE-MoE successfully trains a Unified Feature Optimization (UFO) model with a Sparsely-Gated Mixture-of-Experts model of 12B parameters in 8 days on 48 A100 GPU cards. The comparison against the state-of-the-art shows that SE-MoE outperformed DeepSpeed with 33% higher throughput (tokens per second) in training and 13% higher throughput in inference in general. Particularly, under unbalanced MoE Tasks, e.g., UFO, SE-MoE achieved 64% higher throughput with 18% lower memory footprints. The code of the framework will be released on: https://github.com/PaddlePaddle/Paddle.
翻訳日:2023-06-14 02:58:11 公開日:2023-06-12
# 一貫性のグラディエントに基づく説明の強化による視覚的接地の改善

Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations ( http://arxiv.org/abs/2206.15462v3 )

ライセンス: Link先を確認
Ziyan Yang, Kushal Kafle, Franck Dernoncourt, Vicente Ordonez(参考訳) 地域レベルのアノテーションと整合した勾配に基づく説明を促す視覚言語モデルの事前学習のためのマージンベース損失を提案する。 我々は、この目的を注意マスク一貫性(AMC)と呼び、より高速なR-CNNのようなオブジェクト検出器を明示的に訓練する領域レベルのアノテーションに依存するモデルと比較して、優れた視覚的グラウンドディング性能が得られることを示した。 AMCは、注意点を注視する勾配に基づく説明マスクを奨励し、主にアノテーションを含む画像の注釈付き領域内で機能する。 特に、標準視覚言語モデリングの目的の上にamcで訓練されたモデルは、flickr30kの視覚接地ベンチマークにおいて、最先端の精度が86.59%、最高の先行モデルと比較して絶対的な改善が5.48%である。 提案手法は表現理解のための確立されたベンチマークでも非常によく評価され、人間のアノテーションに合致するグラデーションに基づく説明の設計により、さらなる利点が得られている。

We propose a margin-based loss for vision-language model pretraining that encourages gradient-based explanations that are consistent with region-level annotations. We refer to this objective as Attention Mask Consistency (AMC) and demonstrate that it produces superior visual grounding performance compared to models that rely instead on region-level annotations for explicitly training an object detector such as Faster R-CNN. AMC works by encouraging gradient-based explanation masks that focus their attention scores mostly within annotated regions of interest for images that contain such annotations. Particularly, a model trained with AMC on top of standard vision-language modeling objectives obtains a state-of-the-art accuracy of 86.59% in the Flickr30k visual grounding benchmark, an absolute improvement of 5.48% when compared to the best previous model. Our approach also performs exceedingly well on established benchmarks for referring expression comprehension and offers the added benefit by design of gradient-based explanations that better align with human annotations.
翻訳日:2023-06-14 02:49:41 公開日:2023-06-12
# サッカーCPD:時空間追跡データを用いたサッカーマッチの生成と役割変化点検出

SoccerCPD: Formation and Role Change-Point Detection in Soccer Matches Using Spatiotemporal Tracking Data ( http://arxiv.org/abs/2206.10926v2 )

ライセンス: Link先を確認
Hyunsung Kim, Bit Kim, Dongwook Chung, Jinsung Yoon, Sang-Ki Ko(参考訳) サッカーやバスケットボールのような流動的なチームスポーツでは、チーム形成の分析は、ドメイン参加者の視点から戦術を理解する最も直感的な方法の1つです。 しかし、既存のアプローチでは、チーム構成がマッチ全体を通して一貫していると仮定するか、フレーム単位で構成を割り当てる。 そこで本研究では,サッカーの一時的な変化から戦術的に意図された形成と役割変化を区別する,サッカーcpdと呼ばれる変化点検出フレームワークを提案する。 まず,プレーヤのフレーム単位にロールを割り当て,(1)ロールアジャクシー行列のシーケンスに基づくフォーメーションチェンジポイント検出,(2)ロール順列に基づくロールチェンジポイント検出という2段階のチェンジポイント検出を行う。 ドメインエキスパートがアノテートした基底的真理を用いたサッカーcpdの評価により,本手法は戦術的変化点を正確に検出し,セグメント毎の形成と役割割り当てを推定する。 最後に、ドメイン参加者が容易に解釈し利用できる実用的なユースケースを紹介します。

In fluid team sports such as soccer and basketball, analyzing team formation is one of the most intuitive ways to understand tactics from domain participants' point of view. However, existing approaches either assume that team formation is consistent throughout a match or assign formations frame-by-frame, which disagree with real situations. To tackle this issue, we propose a change-point detection framework named SoccerCPD that distinguishes tactically intended formation and role changes from temporary changes in soccer matches. We first assign roles to players frame-by-frame and perform two-step change-point detections: (1) formation change-point detection based on the sequence of role-adjacency matrices and (2) role change-point detection based on the sequence of role permutations. The evaluation of SoccerCPD using the ground truth annotated by domain experts shows that our method accurately detects the points of tactical changes and estimates the formation and role assignment per segment. Lastly, we introduce practical use-cases that domain participants can easily interpret and utilize.
翻訳日:2023-06-14 02:49:19 公開日:2023-06-12
# ブラックボックス最適化のための生成前訓練

Generative Pretraining for Black-Box Optimization ( http://arxiv.org/abs/2206.10786v3 )

ライセンス: Link先を確認
Siddarth Krishnamoorthy, Satvik Mehul Mashkaria, Aditya Grover(参考訳) 科学や工学における多くの問題は、高次元空間上の高価なブラックボックス関数の最適化を伴う。 このようなブラックボックス最適化(BBO)問題に対して、オンライン機能評価の予算は小さく、事前トレーニングのための固定されたオフラインデータセットへのアクセスも少なくない。 以前のアプローチでは、オフラインデータを使用して関数やその逆を近似するが、データ分布からは程遠い精度では不十分である。 オフラインデータセットを用いた新しいブラックボックスオプティマイザを事前学習するための生成フレームワークBONETを提案する。 BONETでは、オフラインデータセットから派生した固定長軌道上で自己回帰モデルを訓練する。 低忠実度から高忠実度へのモノトニック遷移を展開する単純なヒューリスティックを用いて,オフラインデータから軌道を合成するサンプリング戦略を設計する。 実証的には、BONETを因果マスク付きトランスフォーマーを用いてインスタンス化し、Design-Benchで評価する。

Many problems in science and engineering involve optimizing an expensive black-box function over a high-dimensional space. For such black-box optimization (BBO) problems, we typically assume a small budget for online function evaluations, but also often have access to a fixed, offline dataset for pretraining. Prior approaches seek to utilize the offline data to approximate the function or its inverse but are not sufficiently accurate far from the data distribution. We propose BONET, a generative framework for pretraining a novel black-box optimizer using offline datasets. In BONET, we train an autoregressive model on fixed-length trajectories derived from an offline dataset. We design a sampling strategy to synthesize trajectories from offline data using a simple heuristic of rolling out monotonic transitions from low-fidelity to high-fidelity samples. Empirically, we instantiate BONET using a causally masked Transformer and evaluate it on Design-Bench, where we rank the best on average, outperforming state-of-the-art baselines.
翻訳日:2023-06-14 02:48:59 公開日:2023-06-12
# 微分可能かつ伝達可能な構造学習

Differentiable and Transportable Structure Learning ( http://arxiv.org/abs/2206.06354v4 )

ライセンス: Link先を確認
Jeroen Berrevoets, Nabeel Seedat, Fergus Imrie, Mihaela van der Schaar(参考訳) 直接非巡回グラフ(DAG)は、その構造内の特定の分布に関する多くの情報を符号化する。 しかしながら、これらの構造を推測するために必要な計算は通常変数の数において超指数的である、なぜなら推論は組合せ的に大きなポテンシャル構造の空間を網羅する必要があるからである。 つまり、最近の進歩により、この空間を微分可能な計量を用いて探索できるようになり、検索時間を大幅に削減した。 この手法は notears と名付けられ、dag-discovery の独創的な作品と見なされているが、微分可能性(英語版)(transportability)を支持する重要な特性である。 転送可能であるためには、あるデータセットで発見された構造は同じドメインから別のデータセットに適用する必要がある。 我々は, 完全微分可能でありながら, 新たなアーキテクチャと損失関数により, 検出された構造物の輸送性を回復するd-structを導入する。 D-Struct は依然として微分可能であるため,従来の NOTEARS と同様,既存の微分可能アーキテクチャにも容易に適用できる。 実験では,様々な環境下でのエッジ精度と構造ハミング距離に関して,D構造を実証的に検証した。

Directed acyclic graphs (DAGs) encode a lot of information about a particular distribution in their structure. However, compute required to infer these structures is typically super-exponential in the number of variables, as inference requires a sweep of a combinatorially large space of potential structures. That is, until recent advances made it possible to search this space using a differentiable metric, drastically reducing search time. While this technique -- named NOTEARS -- is widely considered a seminal work in DAG-discovery, it concedes an important property in favour of differentiability: transportability. To be transportable, the structures discovered on one dataset must apply to another dataset from the same domain. We introduce D-Struct which recovers transportability in the discovered structures through a novel architecture and loss function while remaining fully differentiable. Because D-Struct remains differentiable, our method can be easily adopted in existing differentiable architectures, as was previously done with NOTEARS. In our experiments, we empirically validate D-Struct with respect to edge accuracy and structural Hamming distance in a variety of settings.
翻訳日:2023-06-14 02:48:27 公開日:2023-06-12
# 模倣ゲームを超えて:言語モデルの能力の定量化と外挿

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models ( http://arxiv.org/abs/2206.04615v3 )

ライセンス: Link先を確認
Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R. Brown, Adam Santoro, Aditya Gupta, Adri\`a Garriga-Alonso, Agnieszka Kluska, Aitor Lewkowycz, Akshat Agarwal, Alethea Power, Alex Ray, Alex Warstadt, Alexander W. Kocurek, Ali Safaya, Ali Tazarv, Alice Xiang, Alicia Parrish, Allen Nie, Aman Hussain, Amanda Askell, Amanda Dsouza, Ambrose Slone, Ameet Rahane, Anantharaman S. Iyer, Anders Andreassen, Andrea Madotto, Andrea Santilli, Andreas Stuhlm\"uller, Andrew Dai, Andrew La, Andrew Lampinen, Andy Zou, Angela Jiang, Angelica Chen, Anh Vuong, Animesh Gupta, Anna Gottardi, Antonio Norelli, Anu Venkatesh, Arash Gholamidavoodi, Arfa Tabassum, Arul Menezes, Arun Kirubarajan, Asher Mullokandov, Ashish Sabharwal, Austin Herrick, Avia Efrat, Aykut Erdem, Ayla Karaka\c{s}, B. Ryan Roberts, Bao Sheng Loe, Barret Zoph, Bart{\l}omiej Bojanowski, Batuhan \"Ozyurt, Behnam Hedayatnia, Behnam Neyshabur, Benjamin Inden, Benno Stein, Berk Ekmekci, Bill Yuchen Lin, Blake Howald, Bryan Orinion, Cameron Diao, Cameron Dour, Catherine Stinson, Cedrick Argueta, C\'esar Ferri Ram\'irez, Chandan Singh, Charles Rathkopf, Chenlin Meng, Chitta Baral, Chiyu Wu, Chris Callison-Burch, Chris Waites, Christian Voigt, Christopher D. Manning, Christopher Potts, Cindy Ramirez, Clara E. Rivera, Clemencia Siro, Colin Raffel, Courtney Ashcraft, Cristina Garbacea, Damien Sileo, Dan Garrette, Dan Hendrycks, Dan Kilman, Dan Roth, Daniel Freeman, Daniel Khashabi, Daniel Levy, Daniel Mosegu\'i Gonz\'alez, Danielle Perszyk, Danny Hernandez, Danqi Chen, Daphne Ippolito, Dar Gilboa, David Dohan, David Drakard, David Jurgens, Debajyoti Datta, Deep Ganguli, Denis Emelin, Denis Kleyko, Deniz Yuret, Derek Chen, Derek Tam, Dieuwke Hupkes, Diganta Misra, Dilyar Buzan, Dimitri Coelho Mollo, Diyi Yang, Dong-Ho Lee, Dylan Schrader, Ekaterina Shutova, Ekin Dogus Cubuk, Elad Segal, Eleanor Hagerman, Elizabeth Barnes, Elizabeth Donoway, Ellie Pavlick, Emanuele Rodola, Emma Lam, Eric Chu, Eric Tang, Erkut Erdem, Ernie Chang, Ethan A. Chi, Ethan Dyer, Ethan Jerzak, Ethan Kim, Eunice Engefu Manyasi, Evgenii Zheltonozhskii, Fanyue Xia, Fatemeh Siar, Fernando Mart\'inez-Plumed, Francesca Happ\'e, Francois Chollet, Frieda Rong, Gaurav Mishra, Genta Indra Winata, Gerard de Melo, Germ\'an Kruszewski, Giambattista Parascandolo, Giorgio Mariani, Gloria Wang, Gonzalo Jaimovitch-L\'opez, Gregor Betz, Guy Gur-Ari, Hana Galijasevic, Hannah Kim, Hannah Rashkin, Hannaneh Hajishirzi, Harsh Mehta, Hayden Bogar, Henry Shevlin, Hinrich Sch\"utze, Hiromu Yakura, Hongming Zhang, Hugh Mee Wong, Ian Ng, Isaac Noble, Jaap Jumelet, Jack Geissinger, Jackson Kernion, Jacob Hilton, Jaehoon Lee, Jaime Fern\'andez Fisac, James B. Simon, James Koppel, James Zheng, James Zou, Jan Koco\'n, Jana Thompson, Janelle Wingfield, Jared Kaplan, Jarema Radom, Jascha Sohl-Dickstein, Jason Phang, Jason Wei, Jason Yosinski, Jekaterina Novikova, Jelle Bosscher, Jennifer Marsh, Jeremy Kim, Jeroen Taal, Jesse Engel, Jesujoba Alabi, Jiacheng Xu, Jiaming Song, Jillian Tang, Joan Waweru, John Burden, John Miller, John U. Balis, Jonathan Batchelder, Jonathan Berant, J\"org Frohberg, Jos Rozen, Jose Hernandez-Orallo, Joseph Boudeman, Joseph Guerr, Joseph Jones, Joshua B. Tenenbaum, Joshua S. Rule, Joyce Chua, Kamil Kanclerz, Karen Livescu, Karl Krauth, Karthik Gopalakrishnan, Katerina Ignatyeva, Katja Markert, Kaustubh D. Dhole, Kevin Gimpel, Kevin Omondi, Kory Mathewson, Kristen Chiafullo, Ksenia Shkaruta, Kumar Shridhar, Kyle McDonell, Kyle Richardson, Laria Reynolds, Leo Gao, Li Zhang, Liam Dugan, Lianhui Qin, Lidia Contreras-Ochando, Louis-Philippe Morency, Luca Moschella, Lucas Lam, Lucy Noble, Ludwig Schmidt, Luheng He, Luis Oliveros Col\'on, Luke Metz, L\"utfi Kerem \c{S}enel, Maarten Bosma, Maarten Sap, Maartje ter Hoeve, Maheen Farooqi, Manaal Faruqui, Mantas Mazeika, Marco Baturan, Marco Marelli, Marco Maru, Maria Jose Ram\'irez Quintana, Marie Tolkiehn, Mario Giulianelli, Martha Lewis, Martin Potthast, Matthew L. Leavitt, Matthias Hagen, M\'aty\'as Schubert, Medina Orduna Baitemirova, Melody Arnaud, Melvin McElrath, Michael A. Yee, Michael Cohen, Michael Gu, Michael Ivanitskiy, Michael Starritt, Michael Strube, Micha{\l} Sw\k{e}drowski, Michele Bevilacqua, Michihiro Yasunaga, Mihir Kale, Mike Cain, Mimee Xu, Mirac Suzgun, Mitch Walker, Mo Tiwari, Mohit Bansal, Moin Aminnaseri, Mor Geva, Mozhdeh Gheini, Mukund Varma T, Nanyun Peng, Nathan A. Chi, Nayeon Lee, Neta Gur-Ari Krakover, Nicholas Cameron, Nicholas Roberts, Nick Doiron, Nicole Martinez, Nikita Nangia, Niklas Deckers, Niklas Muennighoff, Nitish Shirish Keskar, Niveditha S. Iyer, Noah Constant, Noah Fiedel, Nuan Wen, Oliver Zhang, Omar Agha, Omar Elbaghdadi, Omer Levy, Owain Evans, Pablo Antonio Moreno Casares, Parth Doshi, Pascale Fung, Paul Pu Liang, Paul Vicol, Pegah Alipoormolabashi, Peiyuan Liao, Percy Liang, Peter Chang, Peter Eckersley, Phu Mon Htut, Pinyu Hwang, Piotr Mi{\l}kowski, Piyush Patil, Pouya Pezeshkpour, Priti Oli, Qiaozhu Mei, Qing Lyu, Qinlang Chen, Rabin Banjade, Rachel Etta Rudolph, Raefer Gabriel, Rahel Habacker, Ramon Risco, Rapha\"el Milli\`ere, Rhythm Garg, Richard Barnes, Rif A. Saurous, Riku Arakawa, Robbe Raymaekers, Robert Frank, Rohan Sikand, Roman Novak, Roman Sitelew, Ronan LeBras, Rosanne Liu, Rowan Jacobs, Rui Zhang, Ruslan Salakhutdinov, Ryan Chi, Ryan Lee, Ryan Stovall, Ryan Teehan, Rylan Yang, Sahib Singh, Saif M. Mohammad, Sajant Anand, Sam Dillavou, Sam Shleifer, Sam Wiseman, Samuel Gruetter, Samuel R. Bowman, Samuel S. Schoenholz, Sanghyun Han, Sanjeev Kwatra, Sarah A. Rous, Sarik Ghazarian, Sayan Ghosh, Sean Casey, Sebastian Bischoff, Sebastian Gehrmann, Sebastian Schuster, Sepideh Sadeghi, Shadi Hamdan, Sharon Zhou, Shashank Srivastava, Sherry Shi, Shikhar Singh, Shima Asaadi, Shixiang Shane Gu, Shubh Pachchigar, Shubham Toshniwal, Shyam Upadhyay, Shyamolima (Shammie) Debnath, Siamak Shakeri, Simon Thormeyer, Simone Melzi, Siva Reddy, Sneha Priscilla Makini, Soo-Hwan Lee, Spencer Torene, Sriharsha Hatwar, Stanislas Dehaene, Stefan Divic, Stefano Ermon, Stella Biderman, Stephanie Lin, Stephen Prasad, Steven T. Piantadosi, Stuart M. Shieber, Summer Misherghi, Svetlana Kiritchenko, Swaroop Mishra, Tal Linzen, Tal Schuster, Tao Li, Tao Yu, Tariq Ali, Tatsu Hashimoto, Te-Lin Wu, Th\'eo Desbordes, Theodore Rothschild, Thomas Phan, Tianle Wang, Tiberius Nkinyili, Timo Schick, Timofei Kornev, Titus Tunduny, Tobias Gerstenberg, Trenton Chang, Trishala Neeraj, Tushar Khot, Tyler Shultz, Uri Shaham, Vedant Misra, Vera Demberg, Victoria Nyamai, Vikas Raunak, Vinay Ramasesh, Vinay Uday Prabhu, Vishakh Padmakumar, Vivek Srikumar, William Fedus, William Saunders, William Zhang, Wout Vossen, Xiang Ren, Xiaoyu Tong, Xinran Zhao, Xinyi Wu, Xudong Shen, Yadollah Yaghoobzadeh, Yair Lakretz, Yangqiu Song, Yasaman Bahri, Yejin Choi, Yichi Yang, Yiding Hao, Yifu Chen, Yonatan Belinkov, Yu Hou, Yufang Hou, Yuntao Bai, Zachary Seid, Zhuoye Zhao, Zijian Wang, Zijie J. Wang, Zirui Wang, Ziyi Wu(参考訳) 言語モデルは、規模が大きくなるにつれて量的改善と新しい質的能力の両方を示す。 その可能性のある変革的影響にもかかわらず、これらの新しい機能は、まだ不十分な特徴を持っている。 将来の研究を知らせ、破壊的な新しいモデル能力を準備し、社会的に有害な効果を改善するためには、現在および近未来の言語モデルの能力と限界を理解することが不可欠である。 この課題に対処するため,Beyond the Imitation Game benchmark (BIG-bench)を導入する。 BIGベンチは現在204のタスクで構成され、132の機関で450人の著者が貢献している。 タスクのトピックは多様で、言語学、幼少期の開発、数学、常識推論、生物学、物理学、社会的偏見、ソフトウェア開発などから問題を引き出す。 BIG-benchは、現在の言語モデルの能力を超えると思われるタスクに焦点を当てている。 我々は,OpenAIのGPTモデル,Google内部の高密度トランスフォーマーアーキテクチャ,BIGベンチ上のスイッチスタイルスパーストランスの挙動を,数百万から数十億のパラメータにわたって評価した。 さらに、人間専門家のチームが、強力なベースラインを提供するために、すべてのタスクを実行しました。 Findings include: model performance and calibration both improve with scale, but are poor in absolute terms (and when compared with rater performance); performance is remarkably similar across model classes, though with benefits from sparsity; tasks that improve gradually and predictably commonly involve a large knowledge or memorization component, whereas tasks that exhibit "breakthrough" behavior at a critical scale often involve multiple steps or components, or brittle metrics; social bias typically increases with scale in settings with ambiguous context, but this can be improved with prompting.

Language models demonstrate both quantitative improvement and new qualitative capabilities with increasing scale. Despite their potentially transformative impact, these new capabilities are as yet poorly characterized. In order to inform future research, prepare for disruptive new model capabilities, and ameliorate socially harmful effects, it is vital that we understand the present and near-future capabilities and limitations of language models. To address this challenge, we introduce the Beyond the Imitation Game benchmark (BIG-bench). BIG-bench currently consists of 204 tasks, contributed by 450 authors across 132 institutions. Task topics are diverse, drawing problems from linguistics, childhood development, math, common-sense reasoning, biology, physics, social bias, software development, and beyond. BIG-bench focuses on tasks that are believed to be beyond the capabilities of current language models. We evaluate the behavior of OpenAI's GPT models, Google-internal dense transformer architectures, and Switch-style sparse transformers on BIG-bench, across model sizes spanning millions to hundreds of billions of parameters. In addition, a team of human expert raters performed all tasks in order to provide a strong baseline. Findings include: model performance and calibration both improve with scale, but are poor in absolute terms (and when compared with rater performance); performance is remarkably similar across model classes, though with benefits from sparsity; tasks that improve gradually and predictably commonly involve a large knowledge or memorization component, whereas tasks that exhibit "breakthrough" behavior at a critical scale often involve multiple steps or components, or brittle metrics; social bias typically increases with scale in settings with ambiguous context, but this can be improved with prompting.
翻訳日:2023-06-14 02:47:51 公開日:2023-06-12
# 非線形常微分方程式と偏微分方程式の線形表現による量子アルゴリズムの時間複雑性解析

Time complexity analysis of quantum algorithms via linear representations for nonlinear ordinary and partial differential equations ( http://arxiv.org/abs/2209.08478v2 )

ライセンス: Link先を確認
Shi Jin, Nana Liu, Yue Yu(参考訳) 非線形常微分方程式 (odes) と非線形ハミルトン・ヤコビ方程式 (hje) の解および/または物理的可観測性を、非線形odes/hjeと線型偏微分方程式(liouville方程式とkoopman-von neumann方程式)の線型表現または厳密なマッピングによって計算する量子アルゴリズムを構築する。 線形表現と元の非線形系の間の接続は、ディラックデルタ関数またはレベルセット機構によって確立される。 量子線形系アルゴリズムに基づく手法と異なる数値近似から生じる量子シミュレーション手法を比較し,2つの異なる線形表現の差分離散化とフーリエスペクトルの離散化を行い,量子シミュレーション手法が時間的複雑性において最も優れた性能を与えることを示した。 また、古典力学のハミルトン的定式化によるHJEのリウヴィル方程式を解くためのシュル・オーディンガーの枠組みを提案し、シュル・オーディンガー方程式のウィグナー変換の半古典的極限として再キャストすることができる。 Schr\odingerとLiouvilleフレームワークの比較も行われる。

We construct quantum algorithms to compute the solution and/or physical observables of nonlinear ordinary differential equations (ODEs) and nonlinear Hamilton-Jacobi equations (HJE) via linear representations or exact mappings between nonlinear ODEs/HJE and linear partial differential equations (the Liouville equation and the Koopman-von Neumann equation). The connection between the linear representations and the original nonlinear system is established through the Dirac delta function or the level set mechanism. We compare the quantum linear systems algorithms based methods and the quantum simulation methods arising from different numerical approximations, including the finite difference discretisations and the Fourier spectral discretisations for the two different linear representations, with the result showing that the quantum simulation methods usually give the best performance in time complexity. We also propose the Schr\"odinger framework to solve the Liouville equation for the HJE with the Hamiltonian formulation of classical mechanics, since it can be recast as the semiclassical limit of the Wigner transform of the Schr\"odinger equation. Comparsion between the Schr\"odinger and the Liouville framework will also be made.
翻訳日:2023-06-14 02:41:46 公開日:2023-06-12
# 真空中におけるマクロ体に対する量子力学からのニュートン方程式

Newton's equations from quantum mechanics for a macroscopic body in the vacuum ( http://arxiv.org/abs/2209.07318v5 )

ライセンス: Link先を確認
Kenichi Konishi(参考訳) ニュートンの力法則 $\frac{d {\bf P}}{dt} = {\bf F}$ は、孤立したマクロ体、例えば$N\sim 10^{25}, 10^{51}, \ldots$ 原子と分子の有限体温度での合成状態である Schr\"odinger 方程式から導かれる。 この文脈でまず量子力学(QM)の3つの側面を概観する。 (i)ハイゼンベルクの質量中心の不確実性関係(cm) (ii)c.m.波束の拡散、及び (iii) 身体の準安定(混合)状態を意味する有限の体温:光子放出と自己解離。 これらは、マクロな物体の古典的軌道の起源を説明する。 CMの量子ゆらぎが有効である範囲である$R_q$と、体の(線形)サイズである$L_0$と$R_q/L_0 \lesssim 1$と$R_q/L_0 \gg 1$との比は、それぞれ古典的または量子力学的に挙動するかどうかを示す。 最初のケースでは、そのCMに対するニュートンの力法則はエレンフェストの定理から従う。 弱い重力力、調和振動子ポテンシャル、宇宙空間でゆっくりと変化する一定の外部電磁場について説明する。 多体系に対する標準ハミルトン方程式の導出についても論じる。 重力潮流力のような物体の有限サイズの影響は摂動理論に現れる。 我々の研究は、古典物理学のQMにおける出現は環境誘起のデコヒーレンスに起因するというよく知られた考え方と一致しているが、ニュートンの方程式がQMから従う条件を明確にし、それらを明示的に導出することによってそれを補完し完成させる。

Newton's force law $\frac{d {\bf P}}{dt} = {\bf F}$ is derived from the Schr\"odinger equation for isolated macroscopic bodies, composite states of e.g., $N\sim 10^{25}, 10^{51}, \ldots$ atoms and molecules, at finite body temperatures. We first review three aspects of quantum mechanics (QM) in this context: (i) Heisenberg's uncertainty relations for their center of mass (CM), (ii) the diffusion of the C.M. wave packet, and (iii) a finite body-temperature which implies a metastable (mixed-) state of the body: photon emissions and self-decoherence. They explain the origin of the classical trajectory for a macroscopic body. The ratio between the range $R_q$ over which the quantum fluctuations of its CM are effective, and the body's (linear) size $L_0$, $R_q /L_0 \lesssim 1$ or $R_q/ L_0 \gg 1$, tells whether the body's CM behaves classically or quantum mechanically, respectively. In the first case, Newton's force law for its CM follows from the Ehrenfest theorem. We illustrate this for weak gravitational forces, a harmonic-oscillator potential, and for constant external electromagnetic fields slowly varying in space. The derivation of the canonical Hamilton equations for many-body systems is also discussed. Effects due to the body's finite size such as the gravitational tidal forces appear in perturbation theory. Our work is consistent with the well-known idea that the emergence of classical physics in QM is due to the environment-induced decoherence, but complements and completes it, by clarifying the conditions under which Newton's equations follow from QM, and by deriving them explicitly.
翻訳日:2023-06-14 02:41:25 公開日:2023-06-12
# 離散鍵値ボトルネック

Discrete Key-Value Bottleneck ( http://arxiv.org/abs/2207.11240v3 )

ライセンス: Link先を確認
Frederik Tr\"auble, Anirudh Goyal, Nasim Rahaman, Michael Mozer, Kenji Kawaguchi, Yoshua Bengio, Bernhard Sch\"olkopf(参考訳) ディープニューラルネットワークは、データストリームがd、ラベル付きデータが豊富である分類タスクでうまく機能する。 継続的な学習のような非定常的なトレーニングデータストリームで課題が浮かび上がる。 この課題に対処した1つの強力なアプローチは、容易に利用可能なデータのボリュームに大規模なエンコーダを事前トレーニングすること、そしてタスク固有のチューニングである。 しかし、新しいタスクが与えられた場合、多くの重みを微調整する必要があるため、エンコーダの重みの更新は困難であり、その結果、以前のタスクに関する情報を忘れてしまう。 本稿では,分離鍵と学習可能な鍵値符号のペアを含む離散的ボトルネックに基づいて,この問題に対処するモデルアーキテクチャを提案する。 私たちのパラダイムは、エンコード、離散的なボトルネックによる表現の処理、デコードです。 ここで、予め訓練されたエンコーダに入力を供給し、エンコーダの出力を使用して最寄りのキーを選択し、対応する値をデコーダに供給して現在のタスクを解決する。 モデルは推論中にこれらのキーと値のペアのスパースをフェッチし、再使用し、ローカライズおよびコンテキスト依存のモデル更新を可能にする。 分散シフト下での学習効果を最小化する離散鍵値ボトルネックの能力を理論的に検討し,それが仮説クラスの複雑性を減少させることを示す。 提案手法をクラス増分学習シナリオで実証的に検証し,提案モデルがタスク境界を含まないことで,様々な事前学習モデルにおける破滅的な忘れを減らし,関連するベースラインを上回っていることを示す。

Deep neural networks perform well on classification tasks where data streams are i.i.d. and labeled data is abundant. Challenges emerge with non-stationary training data streams such as continual learning. One powerful approach that has addressed this challenge involves pre-training of large encoders on volumes of readily available data, followed by task-specific tuning. Given a new task, however, updating the weights of these encoders is challenging as a large number of weights needs to be fine-tuned, and as a result, they forget information about the previous tasks. In the present work, we propose a model architecture to address this issue, building upon a discrete bottleneck containing pairs of separate and learnable key-value codes. Our paradigm will be to encode; process the representation via a discrete bottleneck; and decode. Here, the input is fed to the pre-trained encoder, the output of the encoder is used to select the nearest keys, and the corresponding values are fed to the decoder to solve the current task. The model can only fetch and re-use a sparse number of these key-value pairs during inference, enabling localized and context-dependent model updates. We theoretically investigate the ability of the discrete key-value bottleneck to minimize the effect of learning under distribution shifts and show that it reduces the complexity of the hypothesis class. We empirically verify the proposed method under challenging class-incremental learning scenarios and show that the proposed model - without any task boundaries - reduces catastrophic forgetting across a wide variety of pre-trained models, outperforming relevant baselines on this task.
翻訳日:2023-06-14 02:39:21 公開日:2023-06-12
# ニューラルネットワークにおける確率的勾配勾配と変動平坦性関係の異常

Stochastic Gradient Descent and Anomaly of Variance-flatness Relation in Artificial Neural Networks ( http://arxiv.org/abs/2207.04932v2 )

ライセンス: Link先を確認
Xia Xiong, Yong-Cong Chen, Chunxiao Shi and Ping Ao(参考訳) ディープラーニングニューラルネットワークにおいて広く使われているアルゴリズムである確率勾配降下(SGD)は、その成功の背後にある理論的原理に関する継続的な研究を引き寄せている。 最近の研究は、SGD(Feng & Tu, PNAS 118, 0027 (2021))の下で駆動される損失関数の空間平坦度と神経重みの分散の異常(逆)関係を報告している。 統計物理学の原理を破るように見えるこの性質を調べるために、不動点近傍のsgdの特性を動的分解法で解析する。 我々のアプローチは、普遍ボルツマン分布が持つ真の「エネルギー」関数を復元する。 これは一般的にコスト関数と異なり、異常によって引き起こされるパラドックスを解消する。 この研究は、古典的な統計力学と人工知能の新たな分野の間のギャップを橋渡しし、より優れたアルゴリズムの可能性を秘めている。

Stochastic gradient descent (SGD), a widely used algorithm in deep-learning neural networks has attracted continuing studies for the theoretical principles behind its success. A recent work reports an anomaly (inverse) relation between the variance of neural weights and the landscape flatness of the loss function driven under SGD [Feng & Tu, PNAS 118, 0027 (2021)]. To investigate this seemingly violation of statistical physics principle, the properties of SGD near fixed points are analysed via a dynamic decomposition method. Our approach recovers the true "energy" function under which the universal Boltzmann distribution holds. It differs from the cost function in general and resolves the paradox raised by the the anomaly. The study bridges the gap between the classical statistical mechanics and the emerging discipline of artificial intelligence, with potential for better algorithms to the latter.
翻訳日:2023-06-14 02:38:15 公開日:2023-06-12
# 安全ベイズ最適化のためのメタラーニング優先事項

Meta-Learning Priors for Safe Bayesian Optimization ( http://arxiv.org/abs/2210.00762v3 )

ライセンス: Link先を確認
Jonas Rothfuss, Christopher Koenig, Alisa Rupenyan, Andreas Krause(参考訳) ロボット工学において、安全制約下での制御パラメータの最適化は重要な課題である。 safe bayesian optimization(bo)は、目的と制約の不確実性を定量化し、そのような環境での探索を安全にガイドする。 しかし、適切な確率モデルの設計は困難である。 未知の安全性制約が存在する場合には、安全侵害を避けるために信頼できるモデルハイパーパラメータを選択することが不可欠である。 本稿では,オフラインデータから安全なboを事前学習することにより,この問題に対するデータ駆動アプローチを提案する。 メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。 提案手法は,実証的不確実性指標とフロンティア探索アルゴリズムを用いて,安全に適合した先行データを選択する新しいフレームワークを開発する。 ベンチマーク関数と高精度動作システムにおいて,我々のメタ学習先が安全性を維持しつつ安全なBOアプローチの収束を加速することを示す。

In robotics, optimizing controller parameters under safety constraints is an important challenge. Safe Bayesian optimization (BO) quantifies uncertainty in the objective and constraints to safely guide exploration in such settings. Hand-designing a suitable probabilistic model can be challenging, however. In the presence of unknown safety constraints, it is crucial to choose reliable model hyper-parameters to avoid safety violations. Here, we propose a data-driven approach to this problem by meta-learning priors for safe BO from offline data. We build on a meta-learning algorithm, F-PACOH, capable of providing reliable uncertainty quantification in settings of data scarcity. As core contribution, we develop a novel framework for choosing safety-compliant priors in a data-riven manner via empirical uncertainty metrics and a frontier search algorithm. On benchmark functions and a high-precision motion system, we demonstrate that our meta-learned priors accelerate the convergence of safe BO approaches while maintaining safety.
翻訳日:2023-06-14 02:29:36 公開日:2023-06-12
# ホログラフィ(V)AE:フーリエ空間におけるSO(3)-同変(可変)オートエンコーダ

Holographic-(V)AE: an end-to-end SO(3)-Equivariant (Variational) Autoencoder in Fourier Space ( http://arxiv.org/abs/2209.15567v2 )

ライセンス: Link先を確認
Gian Marco Visani, Michael N. Pun, Arman Angaji, Armita Nourmohammad(参考訳) グループ同変ニューラルネットワークは、データの関連する対称性を尊重しながら、分類と回帰タスクを解決するためのデータ効率のアプローチとして登場した。 しかし、このパラダイムを教師なしかつジェネレーティブなドメインに拡張する作業はほとんど行われていない。 本稿では,Fourier空間における完全エンドツーエンドSO(3)-同変(変分)オートエンコーダであるホログラフィック自動エンコーダ(H-(V)AE)について述べる。 h-(v)ae はデータの球面フーリエ符号化を再構築するために訓練され、データの向きを表す同変フレームと共に最大に有意な回転不変な埋め込みを持つデータ(すなわち潜空間)の低次元表現をプロセスで学習する。 多様なデータセット上でH-(V)AEの性能を広範囲に検証する。 学習した潜在空間は球面画像の分類的特徴を効率的に符号化する。 さらに、H-(V)AEの潜伏空間は、タンパク質構造マイクロ環境のためのコンパクトな埋め込みを抽出し、ランダムフォレスト回帰器と組み合わせると、タンパク質-リガンド結合親和性の最先端の予測を可能にする。

Group-equivariant neural networks have emerged as a data-efficient approach to solve classification and regression tasks, while respecting the relevant symmetries of the data. However, little work has been done to extend this paradigm to the unsupervised and generative domains. Here, we present Holographic-(Variational) Auto Encoder (H-(V)AE), a fully end-to-end SO(3)-equivariant (variational) autoencoder in Fourier space, suitable for unsupervised learning and generation of data distributed around a specified origin in 3D. H-(V)AE is trained to reconstruct the spherical Fourier encoding of data, learning in the process a low-dimensional representation of the data (i.e., a latent space) with a maximally informative rotationally invariant embedding alongside an equivariant frame describing the orientation of the data. We extensively test the performance of H-(V)AE on diverse datasets. We show that the learned latent space efficiently encodes the categorical features of spherical images. Moreover, H-(V)AE's latent space can be used to extract compact embeddings for protein structure microenvironments, and when paired with a Random Forest Regressor, it enables state-of-the-art predictions of protein-ligand binding affinity.
翻訳日:2023-06-14 02:29:22 公開日:2023-06-12
# 有限群の量子表現

Quantum representation of finite groups ( http://arxiv.org/abs/2209.15025v5 )

ライセンス: Link先を確認
Ruge Lin(参考訳) 有限群の量子表現の概念はかなり長い間量子コンピューティングの基本的な側面であり、素数量子論理ゲートから有名なショアとグローバーのアルゴリズムまであらゆる分野において重要な役割を果たしてきた。 本稿では、この概念を群論と微分幾何学の両方を用いて形式的に定義する。 本研究は、任意の有限群に対する量子表現の存在を証明し、ユニタリ行列のゲート分解と変分量子アルゴリズムを利用して群の各生成元を量子回路に変換する2つの方法を概説する。 さらに,オープンアクセスプラットフォーム上での明示的な例の数値シミュレーションを行う。 最後に、隠れた部分群問題を解くアルゴリズムのゲートレベル実装におけるその役割を示すことによって、有限群の量子表現の有用性とポテンシャルを示す。

The concept of quantum representation of finite groups has been a fundamental aspect of quantum computing for quite some time, playing a role in every corner, from elementary quantum logic gates to the famous Shor's and Grover's algorithms. In this article, we provide a formal definition of this concept using both group theory and differential geometry. Our work proves the existence of a quantum representation for any finite group and outlines two methods for translating each generator of the group into a quantum circuit, utilizing gate decomposition of unitary matrices and variational quantum algorithms. Additionally, we provide numerical simulations of an explicit example on an open-access platform. Finally, we demonstrate the usefulness and potential of the quantum representation of finite groups by showing its role in the gate-level implementation of the algorithm that solves the hidden subgroup problem.
翻訳日:2023-06-14 02:28:55 公開日:2023-06-12
# 通信における計測の不適合性と量子優位

Measurement incompatibility and quantum advantage in communication ( http://arxiv.org/abs/2209.14582v3 )

ライセンス: Link先を確認
Debashis Saha, Debarshi Das, Arun Kumar Das, Bihalan Bhattacharya, and A. S. Majumdar(参考訳) 不和合性の測定は、単一システムでは同時に実施できない量子測定の存在を規定している。 共有ランダム性を支援するd次元古典システムから得られる入力出力確率の集合は、任意の通信シナリオにおける共有ランダム性と互換性のある測定に制限されたd次元量子戦略の集合と同じであることを示す。 したがって、通信における量子アドバンテージには測定の非互換性が必要であり、通信における任意の量子アドバンテージ(共有ランダム性の有無に関わらず)は、セミデバイスに依存しない方法で受信機の終端における測定の非互換性の証人として機能する。 ランダムアクセス符号の一般バージョンである通信タスクのクラスを導入し、D次元システムに作用する任意の結果を持つ任意の数の量子計測の不整合性を目撃し、これらのタスクの成功基準に関する一般的な上限を、互換性のある測定のために提供する。 ランダムアクセスコードが目撃できる3つの非互換なランク1射影量子ビット測定の集合を全て特定する。 最後に,異なる確率分布の集合 – 古典的, 量子的, 共有的ランダム性を持つか否か, および, 共有的ランダム性を持つか否かの相補的な関係を示す。

Measurement incompatibility stipulates the existence of quantum measurements that cannot be carried out simultaneously on single systems. We show that the set of input-output probabilities obtained from d-dimensional classical systems assisted with shared randomness is the same as the set obtained from d-dimensional quantum strategies restricted to compatible measurements with shared randomness in any communication scenario. Thus, measurement incompatibility is necessary for quantum advantage in communication, and any quantum advantage (with or without shared randomness) in communication acts as a witness to the incompatibility of the measurements at the receiver's end in a semi-device-independent way. We introduce a class of communication tasks - a general version of random access codes - to witness incompatibility of an arbitrary number of quantum measurements with arbitrary outcomes acting on d-dimensional systems, and provide generic upper bounds on the success metric of these tasks for compatible measurements. We identify all sets of three incompatible rank-one projective qubit measurements that random access codes can witness. Finally, we present the generic relationship between different sets of probability distributions - classical, quantum with or without shared randomness, and quantum restricted to compatible measurements with or without shared randomness - produced in communication scenarios.
翻訳日:2023-06-14 02:28:42 公開日:2023-06-12
# 相対エントロピー規則化による経験的リスク最小化

Empirical Risk Minimization with Relative Entropy Regularization ( http://arxiv.org/abs/2211.06617v2 )

ライセンス: Link先を確認
Samir M. Perlaza, Gaetan Bisson, I\~naki Esnaola, Alain Jean-Marie, Stefano Rini(参考訳) 相対エントロピー正則化(ERM-RER)を伴う経験的リスク最小化(ERM)問題は、基準測度が {\sigma}-有限測度であり、必ずしも確率測度ではないという仮定の下で検討される。 この仮定の下では、ERM-RER問題を一般化し、事前知識を組み込む柔軟性がより高められ、多くの関連する性質が記述される。 これらの性質のうち、この問題の解が存在すれば、一意的な確率測度であることが示され、しばしば基準測度と相互に絶対連続である。 そのような解は、後者が解を持つかどうかに関わらず、ERM問題に対するおそらくほぼ正しい保証を示す。 固定されたデータセットの場合、ERM-RER問題の解からモデルがサンプリングされた場合、経験的リスクはガウス以下の確率変数であることが示される。 ERM-RER問題に対する解の一般化能力(ギブスアルゴリズム)は、そのような解から代替確率測度への偏差に対する期待された経験的リスクの感度によって研究される。 最後に、感度、一般化誤差、ラウタム情報の興味深い接続を安定化する

The empirical risk minimization (ERM) problem with relative entropy regularization (ERM-RER) is investigated under the assumption that the reference measure is a {\sigma}-finite measure, and not necessarily a probability measure. Under this assumption, which leads to a generalization of the ERM-RER problem allowing a larger degree of flexibility for incorporating prior knowledge, numerous relevant properties are stated. Among these properties, the solution to this problem, if it exists, is shown to be a unique probability measure, often mutually absolutely continuous with the reference measure. Such a solution exhibits a probably-approximately-correct guarantee for the ERM problem independently of whether the latter possesses a solution. For a fixed dataset, the empirical risk is shown to be a sub-Gaussian random variable when the models are sampled from the solution to the ERM-RER problem. The generalization capabilities of the solution to the ERM-RER problem (the Gibbs algorithm) are studied via the sensitivity of the expected empirical risk to deviations from such a solution towards alternative probability measures. Finally, an interesting connection between sensitivity, generalization error, and lautum information is stablished
翻訳日:2023-06-14 02:22:02 公開日:2023-06-12
# 拡散過程によるエントロピーニューラル最適輸送

Entropic Neural Optimal Transport via Diffusion Processes ( http://arxiv.org/abs/2211.01156v2 )

ライセンス: Link先を確認
Nikita Gushchin, Alexander Kolesov, Alexander Korotin, Dmitry Vetrov, Evgeny Burnaev(参考訳) 本稿では,サンプルからアクセス可能な連続確率分布間のエントロピー最適輸送(EOT)計画の基本的な問題に対するニューラルアルゴリズムを提案する。 提案アルゴリズムは,シュリンガーブリッジ問題(Schr\odinger Bridge problem)として知られるEOTの動的バージョンのサドル点再構成に基づく。 大規模eotの先行手法とは対照的に,本アルゴリズムはエンドツーエンドであり,単一の学習ステップから成り,高速な推論手順を持ち,応用問題において特に重要となるエントロピー正規化係数の小さい値を扱うことができる。 実験では,複数の大規模eotタスクにおけるメソッドの性能を示す。

We propose a novel neural algorithm for the fundamental problem of computing the entropic optimal transport (EOT) plan between continuous probability distributions which are accessible by samples. Our algorithm is based on the saddle point reformulation of the dynamic version of EOT which is known as the Schr\"odinger Bridge problem. In contrast to the prior methods for large-scale EOT, our algorithm is end-to-end and consists of a single learning step, has fast inference procedure, and allows handling small values of the entropy regularization coefficient which is of particular importance in some applied problems. Empirically, we show the performance of the method on several large-scale EOT tasks.
翻訳日:2023-06-14 02:21:20 公開日:2023-06-12
# 脳MRIからの早期アルツハイマー検出のための深部マルチブランチCNNアーキテクチャ

Deep Multi-Branch CNN Architecture for Early Alzheimer's Detection from Brain MRIs ( http://arxiv.org/abs/2210.12331v2 )

ライセンス: Link先を確認
Paul K. Mandal, Rakesh Mahto(参考訳) アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症を引き起こす神経変性疾患であり、特に予防的治療を受けなければ、単純なタスクを阻害する脳機能低下を引き起こす。 アメリカ人の9人に1人以上が広告誘発認知症を患っており、広告関連認知症患者に対する無給ケアは2716億ドルと評価されている。 したがって, 早期AD診断の進歩を防ぐために, 様々なアプローチが開発されている。 本稿では,まず,広告の早期検出に使用可能な他の手法について検討する。 次にアルツハイマー病の神経画像化イニシアチブ(adni)から得られたデータセットの概要を説明し、7,866,819パラメータからなる深層畳み込みニューラルネットワーク(cnn)アーキテクチャを提案する。 このモデルは3つの異なる分岐を持ち、それぞれの長さが異なる。 各ブランチは異なるカーネルサイズで構成されている。 このモデルは、非服用、軽度服用、中等度服用を99.05%の正確さで予測できる。

Alzheimer's disease (AD) is a neuro-degenerative disease that can cause dementia and result severe reduction in brain function inhibiting simple tasks especially if no preventative care is taken. Over 1 in 9 Americans suffer from AD induced dementia and unpaid care for people with AD related dementia is valued at $271.6 billion. Hence, various approaches have been developed for early AD diagnosis to prevent its further progression. In this paper, we first review other approaches that could be used for early detection of AD. We then give an overview of our dataset that was from the Alzheimer's Disease Neuroimaging Initiative (ADNI) and propose a deep Convolutional Neural Network (CNN) architecture consisting of 7,866,819 parameters. This model has three different convolutional branches with each having a different length. Each branch is comprised of different kernel sizes. This model can predict whether a patient is non-demented, mild-demented, or moderately demented with a 99.05% three class accuracy.
翻訳日:2023-06-14 02:20:03 公開日:2023-06-12
# シングルトテスト方式の比較

Comparing Singlet Testing Schemes ( http://arxiv.org/abs/2211.13750v2 )

ライセンス: Link先を確認
George Cowperthwaite, Adrian Kent(参考訳) 2ビットのシングルレット状態を共有するかどうかをテストするためのスキームを比較する。 最初の標準的なスキームテストでは、ブラウンシュタイン・ケーブズ(あるいはCHSH)の不等式が、固定有限集合から引き出された局所測定と一重項の量子予測との相関を比較する。 第2のオルタナティブなスキームは、局所的な測定値の相関をテストし、量子予測に対してブロック球面上で$\theta$-separateの値の集合からランダムに引き出す。 各スキームを仮説テストとして定式化し,一重項量子ビットを交換または置換する盗聴者を含む多くの敵対的シナリオでテストパワーを評価する。 ランダム測定'テストは、ほとんどの自然なシナリオで優れていることが分かりました。

We compare schemes for testing whether two parties share a two-qubit singlet state. The first, standard, scheme tests Braunstein-Caves (or CHSH) inequalities, comparing the correlations of local measurements drawn from a fixed finite set against the quantum predictions for a singlet. The second, alternative, scheme tests the correlations of local measurements, drawn randomly from the set of those that are $\theta$-separated on the Bloch sphere, against the quantum predictions. We formulate each scheme as a hypothesis test and then evaluate the test power in a number of adversarial scenarios involving an eavesdropper altering or replacing the singlet qubits. We find the `random measurement' test to be superior in most natural scenarios.
翻訳日:2023-06-14 02:11:45 公開日:2023-06-12
# 未知のオブジェクトインスタンスセグメンテーションのための平均シフトマスク変換器

Mean Shift Mask Transformer for Unseen Object Instance Segmentation ( http://arxiv.org/abs/2211.11679v2 )

ライセンス: Link先を確認
Yangxiao Lu, Yuqiao Chen, Nicholas Ruozzi, Yu Xiang(参考訳) 画像から見えない物体をセグメンテーションすることは、ロボットが獲得する必要がある重要な知覚スキルである。 ロボット操作では、ロボットが見えない物体をつかんで操作するのに役立つ。 平均シフトクラスタリングは画像セグメンテーションタスクに広く用いられている手法である。 しかし、従来の平均シフトクラスタリングアルゴリズムは区別できないため、エンドツーエンドのニューラルネットワークトレーニングフレームワークに統合することは困難である。 本研究では,von mises-fisher (vmf)平均シフトクラスタリングアルゴリズムをシミュレートし,特徴抽出器とクラスタリングの合同トレーニングと推論を可能にする,新しいトランスフォーマティブアーキテクチャであるmean shift mask transformer (msmformer)を提案する。 その中心的なコンポーネントは、ハイパースフィア上のオブジェクトクエリを更新するハイパースフィアのアテンションメカニズムである。 提案手法の有効性を説明するために,MSMFormerを未確認のオブジェクトインスタンスセグメンテーションに適用する。 実験の結果,MSMFormerは未確認オブジェクトのインスタンスセグメンテーションの最先端手法と比較して,競争性能が向上していることがわかった。 ビデオとコードはhttps://irvlutd.github.io/msmformerで入手できる。

Segmenting unseen objects from images is a critical perception skill that a robot needs to acquire. In robot manipulation, it can facilitate a robot to grasp and manipulate unseen objects. Mean shift clustering is a widely used method for image segmentation tasks. However, the traditional mean shift clustering algorithm is not differentiable, making it difficult to integrate it into an end-to-end neural network training framework. In this work, we propose the Mean Shift Mask Transformer (MSMFormer), a new transformer architecture that simulates the von Mises-Fisher (vMF) mean shift clustering algorithm, allowing for the joint training and inference of both the feature extractor and the clustering. Its central component is a hypersphere attention mechanism, which updates object queries on a hypersphere. To illustrate the effectiveness of our method, we apply MSMFormer to unseen object instance segmentation. Our experiments show that MSMFormer achieves competitive performance compared to state-of-the-art methods for unseen object instance segmentation. The video and code are available at https://irvlutd.github.io/MSMFormer
翻訳日:2023-06-14 02:11:34 公開日:2023-06-12
# 凍結過剰パラメータ化:ディープニューラルネットワークの転送学習における二重降下視点

Frozen Overparameterization: A Double Descent Perspective on Transfer Learning of Deep Neural Networks ( http://arxiv.org/abs/2211.11074v2 )

ライセンス: Link先を確認
Yehuda Dar, Lorenzo Luzi, Richard G. Baraniuk(参考訳) 本稿では,ディープニューラルネットワーク(DNN)の伝達学習の一般化挙動について検討する。 本稿では,訓練データの補間(約0列車誤差)と二重降下現象を特徴とする過パラメータ化の観点を採用し,一般化性能に対する伝達学習設定の微妙な影響を説明する。 本研究では,移動学習の一般化行動が,ソースとターゲットタスクのデータセットサイズ,ターゲットDNNトレーニングで凍結されている移動層数,ソースとターゲットタスクの類似性にどのように影響するかを検討する。 対象のdnnトレーニング中のテストエラー発生は,目標トレーニングデータセットが十分に大きい場合には,より大きな二重降下効果を示す。 さらに、より大きなソーストレーニングデータセットは、ターゲットのDNNトレーニングを遅くすることができる。 さらに, 凍結層の数によって, 転送学習が効果的に過度にパラメータ化されているか過度にパラメータ化されているかが決定できることを示す。 また、二重降下現象は、より関連するソースタスクからの転送よりも、関連するソースタスクからの転送をより良くする可能性があることを示す。 resnet, densenet および vision transformer (vit) アーキテクチャを用いた画像分類実験により,この結果を確立した。

We study the generalization behavior of transfer learning of deep neural networks (DNNs). We adopt the overparameterization perspective -- featuring interpolation of the training data (i.e., approximately zero train error) and the double descent phenomenon -- to explain the delicate effect of the transfer learning setting on generalization performance. We study how the generalization behavior of transfer learning is affected by the dataset size in the source and target tasks, the number of transferred layers that are kept frozen in the target DNN training, and the similarity between the source and target tasks. We show that the test error evolution during the target DNN training has a more significant double descent effect when the target training dataset is sufficiently large. In addition, a larger source training dataset can yield a slower target DNN training. Moreover, we demonstrate that the number of frozen layers can determine whether the transfer learning is effectively underparameterized or overparameterized and, in turn, this may induce a freezing-wise double descent phenomenon that determines the relative success or failure of learning. Also, we show that the double descent phenomenon may make a transfer from a less related source task better than a transfer from a more related source task. We establish our results using image classification experiments with the ResNet, DenseNet and the vision transformer (ViT) architectures.
翻訳日:2023-06-14 02:11:14 公開日:2023-06-12
# 効率的な空間概念形成のための粒子フィルタによる情報ゲインに基づくアクティブ探索

Active Exploration based on Information Gain by Particle Filter for Efficient Spatial Concept Formation ( http://arxiv.org/abs/2211.10934v2 )

ライセンス: Link先を確認
Akira Taniguchi, Yoshiki Tabuchi, Tomochika Ishikawa, Lotfi El Hafi, Yoshinobu Hagiwara, Tadahiro Taniguchi(参考訳) 自律ロボットは、環境を探索し、ユーザーと対話することで、様々な場所のカテゴリを学ぶ必要がある。 しかし,言語指導による学習データセットの作成には時間と労力が要る。 さらに, 適切な概念形成と迅速な環境被覆に有効な探査が不可欠である。 本研究では,粒子フィルタを用いた逐次ベイズ推定と情報ゲインに基づく目的地決定を確率的生成モデルで組み合わせた,空間概念形成と情報ゲインに基づく活動探索(SpCoAE)を併用した能動推論手法を提案する。 本研究は,ロボットの動作を,アクティブ推論の文脈において,ユーザに対して「これは何の場所ですか?」と問う目的地の選択として解釈する。 本研究は,ロボットによるアクティブな知覚と探索を含む,提案手法の技術的側面と,アクティブな探索を通じて移動ロボットが空間概念を学習できる方法に関する知見を提供する。 本研究では,家庭環境における空間概念学習の目的を効率的に決定する上で,SpCoAEの有効性を実証した。

Autonomous robots need to learn the categories of various places by exploring their environments and interacting with users. However, preparing training datasets with linguistic instructions from users is time-consuming and labor-intensive. Moreover, effective exploration is essential for appropriate concept formation and rapid environmental coverage. To address this issue, we propose an active inference method, referred to as spatial concept formation with information gain-based active exploration (SpCoAE) that combines sequential Bayesian inference using particle filters and information gain-based destination determination in a probabilistic generative model. This study interprets the robot's action as a selection of destinations to ask the user, `What kind of place is this?' in the context of active inference. This study provides insights into the technical aspects of the proposed method, including active perception and exploration by the robot, and how the method can enable mobile robots to learn spatial concepts through active exploration. Our experiment demonstrated the effectiveness of the SpCoAE in efficiently determining a destination for learning appropriate spatial concepts in home environments.
翻訳日:2023-06-14 02:10:52 公開日:2023-06-12
# Castling-ViT:視覚変換器推論における線形角アテンションへの切り替えによる自己注意の圧縮

Castling-ViT: Compressing Self-Attention via Switching Towards Linear-Angular Attention at Vision Transformer Inference ( http://arxiv.org/abs/2211.10526v3 )

ライセンス: Link先を確認
Haoran You, Yunyang Xiong, Xiaoliang Dai, Bichen Wu, Peizhao Zhang, Haoqi Fan, Peter Vajda, Yingyan (Celine) Lin(参考訳) 視覚変換器(ViT)は優れた性能を示しているが、畳み込みニューラルネットワーク(CNN)と比較して高い計算コストを必要とする。 既存の効率的なViTは局所的な注意(Swinなど)や線形的な注意(Performerなど)を採用しており、これはViTがグローバルまたはローカルなコンテキストをキャプチャする能力を犠牲にする。 この研究において、vitsは、推論中により効率的でありながら、グローバルコンテキストとローカルコンテキストの両方を学ぶことができるか? そこで本稿では,VT を線形角注意とマスク付きソフトマックス2次注意の両方を用いて訓練する Castling-ViT というフレームワークを提案する。 当社のcastling-vitは角カーネルを利用して,クエリとキーの類似度をスペクトル角で測定します。 And we further simplify it with two techniques: (1) a novel linear-angular attention mechanism: we decompose the angular kernels into linear terms and high-order residuals, and only keep the linear terms; and (2) we adopt two parameterized modules to approximate high-order residuals: a depthwise convolution and an auxiliary masked softmax attention to help learn both global and local information, where the masks for softmax attention are regularized to gradually become zeros and thus incur no overhead during ViT inference. 3つのタスクに関する広範な実験とアブレーションの研究は、提案するキャスティング・ヴィットの有効性を一貫して検証している。例えば、画像ネットの分類において最大1.8%の精度と40%のmacs削減を達成し、同等のフロップでcoco検出時の1.2倍のマップを、バニラソフトマックスに基づくvitsと比較した。

Vision Transformers (ViTs) have shown impressive performance but still require a high computation cost as compared to convolutional neural networks (CNNs), one reason is that ViTs' attention measures global similarities and thus has a quadratic complexity with the number of input tokens. Existing efficient ViTs adopt local attention (e.g., Swin) or linear attention (e.g., Performer), which sacrifice ViTs' capabilities of capturing either global or local context. In this work, we ask an important research question: Can ViTs learn both global and local context while being more efficient during inference? To this end, we propose a framework called Castling-ViT, which trains ViTs using both linear-angular attention and masked softmax-based quadratic attention, but then switches to having only linear angular attention during ViT inference. Our Castling-ViT leverages angular kernels to measure the similarities between queries and keys via spectral angles. And we further simplify it with two techniques: (1) a novel linear-angular attention mechanism: we decompose the angular kernels into linear terms and high-order residuals, and only keep the linear terms; and (2) we adopt two parameterized modules to approximate high-order residuals: a depthwise convolution and an auxiliary masked softmax attention to help learn both global and local information, where the masks for softmax attention are regularized to gradually become zeros and thus incur no overhead during ViT inference. Extensive experiments and ablation studies on three tasks consistently validate the effectiveness of the proposed Castling-ViT, e.g., achieving up to a 1.8% higher accuracy or 40% MACs reduction on ImageNet classification and 1.2 higher mAP on COCO detection under comparable FLOPs, as compared to ViTs with vanilla softmax-based attentions.
翻訳日:2023-06-14 02:10:35 公開日:2023-06-12
# RGB-Dモーション認識のための統合型マルチモーダルデカップリングフレームワーク

A Unified Multimodal De- and Re-coupling Framework for RGB-D Motion Recognition ( http://arxiv.org/abs/2211.09146v2 )

ライセンス: Link先を確認
Benjia Zhou, Pichao Wang, Jun Wan, Yanyan Liang and Fan Wang(参考訳) 動き認識はコンピュータビジョンにおいて有望な方向であるが、映像分類モデルの訓練は、不十分なデータとかなりのパラメータのため、画像よりもはるかに難しい。 これを回避するために、RGB-Dデータからマルチモーダルキューを探究する研究もある。 動作認識をある程度改善したものの、以下の点において準最適の状況に直面している。 (i)データ拡張、すなわち、rgb-dデータセットの規模は依然として限られており、ビデオの新しいデータ拡張戦略を探求する努力はほとんど行われていない。 (ii)最適化機構、すなわち、密接な時空絡み合いネットワーク構造は、時空間情報モデリングにより多くの課題をもたらす。 (三)クロスモーダル知識融合、すなわち、遅発核融合の不足に起因する多モーダル表現の間の高い類似性。 これらの欠点を解消するため,本論文では,rgb-dに基づくモーション認識を,データとアルゴリズムの両方の観点から改善する。 より詳しくは、まず、mixupの補足として動作するshufflemixと呼ばれる新しいビデオデータ拡張手法を導入し、モーション認識に新たな時間的正規化を提供する。 第2に、ビデオ表現学習において、UMDRと呼ばれる統一マルチモーダルデカップリングおよびマルチステージリカップリングフレームワークを提案する。 最後に,CFCer (クロスモーダル補足型キャッチャー) を, 補助核融合流として多モーダル情報に共通する可能性を探り, 後期核融合結果を改善する。 これらの新しいデザインのシームレスな組み合わせは、頑健な時空間表現を形成し、4つの公開運動データセットの最先端手法よりも優れたパフォーマンスを達成する。 具体的には、umdrはchalearn isogdデータセットで前例のない+4.5%の改善を達成している。 私たちのコードはhttps://github.com/zhoubenjia/MotionRGBD-PAMI.comで利用可能です。

Motion recognition is a promising direction in computer vision, but the training of video classification models is much harder than images due to insufficient data and considerable parameters. To get around this, some works strive to explore multimodal cues from RGB-D data. Although improving motion recognition to some extent, these methods still face sub-optimal situations in the following aspects: (i) Data augmentation, i.e., the scale of the RGB-D datasets is still limited, and few efforts have been made to explore novel data augmentation strategies for videos; (ii) Optimization mechanism, i.e., the tightly space-time-entangled network structure brings more challenges to spatiotemporal information modeling; And (iii) cross-modal knowledge fusion, i.e., the high similarity between multimodal representations caused to insufficient late fusion. To alleviate these drawbacks, we propose to improve RGB-D-based motion recognition both from data and algorithm perspectives in this paper. In more detail, firstly, we introduce a novel video data augmentation method dubbed ShuffleMix, which acts as a supplement to MixUp, to provide additional temporal regularization for motion recognition. Secondly, a Unified Multimodal De-coupling and multi-stage Re-coupling framework, termed UMDR, is proposed for video representation learning. Finally, a novel cross-modal Complement Feature Catcher (CFCer) is explored to mine potential commonalities features in multimodal information as the auxiliary fusion stream, to improve the late fusion results. The seamless combination of these novel designs forms a robust spatiotemporal representation and achieves better performance than state-of-the-art methods on four public motion datasets. Specifically, UMDR achieves unprecedented improvements of +4.5% on the Chalearn IsoGD dataset. Our code is available at https://github.com/zhoubenjia/MotionRGBD-PAMI.
翻訳日:2023-06-14 02:10:02 公開日:2023-06-12
# 非支配ソーティング遺伝的アルゴリズム(NSGA-III)の数学的実行解析

A Mathematical Runtime Analysis of the Non-dominated Sorting Genetic Algorithm III (NSGA-III) ( http://arxiv.org/abs/2211.08202v4 )

ライセンス: Link先を確認
Simon Wietheger, Benjamin Doerr(参考訳) NSGA-II (Non-Maninated Sorting Genetic Algorithm II) は、実世界の応用において最も顕著な多目的進化アルゴリズムである。 双目的最適化問題では明らかにうまく機能するが、2つ以上の目的を持つ問題に適用すると効果が低いことが実証研究で示唆されている。 最近の数学的ランタイム解析により、NGSA-IIを指数的な反復数で証明することで、単純な3つの客観的なOneMinMax問題のパレートフロントの定数因子を見逃すことが確認された。 本研究では,NSGA-IIIの数学的ランタイム解析として,NSGA-IIを改良し,2つ以上の目的をうまく扱えるようにした。 このアルゴリズムが提案するように、十分に多くの基準点を持つNSGA-IIIは、3オブジェクトのOneMinMaxベンチマークの完全なParetoフロントを、期待される数のO(n log n)反復で計算する。 この結果は、すべての人口規模(少なくともパレートフロントの大きさ)に当てはまる。 このベンチマークではNSGA-IIIのNSGA-IIに対する大きな優位性を示している。 ここで用いられる数学的議論と、NSGA-IIに関する以前の研究は、他の3つ以上の目的を持つベンチマークに対して同様の発見が考えられることを示唆している。

The Non-dominated Sorting Genetic Algorithm II (NSGA-II) is the most prominent multi-objective evolutionary algorithm for real-world applications. While it performs evidently well on bi-objective optimization problems, empirical studies suggest that it is less effective when applied to problems with more than two objectives. A recent mathematical runtime analysis confirmed this observation by proving the NGSA-II for an exponential number of iterations misses a constant factor of the Pareto front of the simple 3-objective OneMinMax problem. In this work, we provide the first mathematical runtime analysis of the NSGA-III, a refinement of the NSGA-II aimed at better handling more than two objectives. We prove that the NSGA-III with sufficiently many reference points -- a small constant factor more than the size of the Pareto front, as suggested for this algorithm -- computes the complete Pareto front of the 3-objective OneMinMax benchmark in an expected number of O(n log n) iterations. This result holds for all population sizes (that are at least the size of the Pareto front). It shows a drastic advantage of the NSGA-III over the NSGA-II on this benchmark. The mathematical arguments used here and in previous work on the NSGA-II suggest that similar findings are likely for other benchmarks with three or more objectives.
翻訳日:2023-06-14 02:09:31 公開日:2023-06-12
# 近距離隣接言語モデルへの適応アプローチ

Adaptation Approaches for Nearest Neighbor Language Models ( http://arxiv.org/abs/2211.07828v2 )

ライセンス: Link先を確認
Rishabh Bhardwaj, George Polovets, Monica Sunkara(参考訳) 半パラメトリック近接言語モデル(k$NN-LMs)は、外部メモリデータストア上の大規模近傍検索を活用することにより、純粋パラメトリックLMよりも顕著に向上した。 しかし、そのようなモデルを新しい領域に適用する研究はほとんど行われていない。 この作業はそのギャップを埋めようと試み、$k$NN-LMsを適用するための次のアプローチを提案する。 1)基盤となるlm(アダプタを使用)の適応 2)追加適応データストアによる近隣検索の拡大、及び 3) 学習したrescorerモジュールを用いて,検索した隣人の重み(スコア)を適応させる。 それぞれの適応戦略を別々に検討し,アブレーション実験による性能向上と7つの適応領域にわたる広範囲な評価を行った。 我々の組み合わせ適応アプローチは、適応データからデータストアを構成する純粋パラメトリック適応とゼロショットベースライン(k$NN-LM)を一貫して上回ります。 平均して、各ベースラインに対して17.1%と16%のパープレキシティ改善がある。

Semi-parametric Nearest Neighbor Language Models ($k$NN-LMs) have produced impressive gains over purely parametric LMs, by leveraging large-scale neighborhood retrieval over external memory datastores. However, there has been little investigation into adapting such models for new domains. This work attempts to fill that gap and suggests the following approaches for adapting $k$NN-LMs -- 1) adapting the underlying LM (using Adapters), 2) expanding neighborhood retrieval over an additional adaptation datastore, and 3) adapting the weights (scores) of retrieved neighbors using a learned Rescorer module. We study each adaptation strategy separately, as well as the combined performance improvement through ablation experiments and an extensive set of evaluations run over seven adaptation domains. Our combined adaptation approach consistently outperforms purely parametric adaptation and zero-shot ($k$NN-LM) baselines that construct datastores from the adaptation data. On average, we see perplexity improvements of 17.1% and 16% for these respective baselines, across domains.
翻訳日:2023-06-14 02:09:08 公開日:2023-06-12
# パッキングとカバー制約を伴うコンテキストバンディット:回帰によるモジュールラグランジアンアプローチ

Contextual Bandits with Packing and Covering Constraints: A Modular Lagrangian Approach via Regression ( http://arxiv.org/abs/2211.07484v4 )

ライセンス: Link先を確認
Aleksandrs Slivkins and Karthik Abinav Sankararaman and Dylan J. Foster(参考訳) 本稿では,線形制約付きコンテキスト帯域(CBwLC)について考察する。これは,アルゴリズムが全消費の線形制約を受ける複数のリソースを消費するコンテキスト帯域の変種である。 この問題はknapsacks (CBwK) を用いてコンテキスト的帯域幅を一般化し、制約のパッケージ化とカバー、および正および負のリソース消費を可能にする。 回帰オラクルに基づくCBwLC(CBwK)の最初のアルゴリズムを提案する。 このアルゴリズムは単純で計算効率が良く、後悔は消える。 CBwKの変種には統計的に最適であり、ある制約が破られたらアルゴリズムは停止しなければならない。 さらに,確率的環境を超えたCBwLC(CBwK)について,初めて消滅・回復保証を行う。 私たちは、比較するより弱い(そしておそらく公平な)ベンチマークを特定することで、以前の作業から強い不可能性(impossibility)を回避します。 我々のアルゴリズムは、CBwKのためのラグランジアンベースのテクニックであるLagrangeBwK(Immorlica et al., FOCS 2019)と、文脈的盗賊のための回帰ベースのテクニックであるSquareCB(Foster and Rakhlin, ICML 2020)に基づいて構築されている。 我々の分析は、両方の技術の本質的なモジュラリティを活用する。

We consider contextual bandits with linear constraints (CBwLC), a variant of contextual bandits in which the algorithm consumes multiple resources subject to linear constraints on total consumption. This problem generalizes contextual bandits with knapsacks (CBwK), allowing for packing and covering constraints, as well as positive and negative resource consumption. We provide the first algorithm for CBwLC (or CBwK) that is based on regression oracles. The algorithm is simple, computationally efficient, and admits vanishing regret. It is statistically optimal for the variant of CBwK in which the algorithm must stop once some constraint is violated. Further, we provide the first vanishing-regret guarantees for CBwLC (or CBwK) that extend beyond the stochastic environment. We side-step strong impossibility results from prior work by identifying a weaker (and, arguably, fairer) benchmark to compare against. Our algorithm builds on LagrangeBwK (Immorlica et al., FOCS 2019), a Lagrangian-based technique for CBwK, and SquareCB (Foster and Rakhlin, ICML 2020), a regression-based technique for contextual bandits. Our analysis leverages the inherent modularity of both techniques.
翻訳日:2023-06-14 02:08:52 公開日:2023-06-12
# デバイアスは必然的にモデルパフォーマンスを低下させるか

Does Debiasing Inevitably Degrade the Model Performance ( http://arxiv.org/abs/2211.07350v2 )

ライセンス: Link先を確認
Yiran Liu, Xiao Liu, Haotian Chen and Yang Yu(参考訳) 言語モデルのジェンダーバイアスは社会的正義を脅かすので十分な注目を集めている。 しかし、現在のデバイアス法のほとんどは、モデルの性能を他のタスクで低下させ、分解メカニズムはまだ謎のままである。 言語モデルのジェンダーバイアスの3つの候補メカニズムを説明する理論的枠組みを提案する。 我々は,現在のデバイアス手法が性能低下の原因となる理由を説明するために,理論的な枠組みを用いる。 また,デバイアスがモデル性能を劣化させない経路も発見する。 さらに,性別バイアスを正すための因果検出細調整手法を開発した。 数値実験により, 性能劣化を回避しつつ, 男女偏差を部分的に緩和する手法が, 二重配当に導かれることが示された。

Gender bias in language models has attracted sufficient attention because it threatens social justice. However, most of the current debiasing methods degraded the model's performance on other tasks while the degradation mechanism is still mysterious. We propose a theoretical framework explaining the three candidate mechanisms of the language model's gender bias. We use our theoretical framework to explain why the current debiasing methods cause performance degradation. We also discover a pathway through which debiasing will not degrade the model performance. We further develop a causality-detection fine-tuning approach to correct gender bias. The numerical experiment demonstrates that our method is able to lead to double dividends: partially mitigating gender bias while avoiding performance degradation.
翻訳日:2023-06-14 02:08:27 公開日:2023-06-12
# 説明可能なパフォーマンス: 予測パフォーマンスの駆動力の測定

Explainable Performance: Measuring the Driving Forces of Predictive Performance ( http://arxiv.org/abs/2212.05866v2 )

ライセンス: Link先を確認
Hu\'e Sullivan, Hurlin Christophe, P\'erignon Christophe and Saurin S\'ebastien(参考訳) 本稿では,モデルの予測性能に対する入力特徴の特定の寄与を測定するために,XPER(eXplainable PERformance)手法を提案する。 理論的にはShapley値に基づいており、モデル非依存およびパフォーマンスメトリック非依存の両方である。 さらに、XPERはモデルレベルでも個々のレベルでも実装できます。 我々は、XPERが機械学習(SHAP)における標準的な説明可能性法を特別なケースとして持っていることを実証する。 ローンデフォルトの予測アプリケーションでは、XPERが不均一性の問題に対処し、サンプル外のパフォーマンスを大幅に向上させる方法を示す。 そのために、各個体のXPER値に基づいてクラスタリングすることで、同種グループを構築する。 グループ固有のモデルを推定すると、単相モデルよりもはるかに高い予測精度が得られることがわかった。

We introduce the XPER (eXplainable PERformance) methodology to measure the specific contribution of the input features to the predictive performance of a model. Our methodology is theoretically grounded on Shapley values and is both model-agnostic and performance metric-agnostic. Furthermore, XPER can be implemented either at the model level or at the individual level. We demonstrate that XPER has as a special case the standard explainability method in machine learning (SHAP). In a loan default forecasting application, we show how XPER can be used to deal with heterogeneity issues and significantly boost out-of-sample performance. To do so, we build homogeneous groups of individuals by clustering them based on their individual XPER values. We find that estimating group-specific models yields a much higher predictive accuracy than with a one-fits-all model.
翻訳日:2023-06-14 02:02:16 公開日:2023-06-12
# 2相同心噴流の深層学習とモード分解による予測

Forecasting through deep learning and modal decomposition in two-phase concentric jets ( http://arxiv.org/abs/2212.12731v3 )

ライセンス: Link先を確認
Le\'on Mata, Rodrigo Abad\'ia-Heredia, Manuel Lopez-Martin, Jos\'e M. P\'erez, Soledad Le Clainche(参考訳) 本研究は, ターボファンエンジンにおける燃料室噴射器の性能向上を目的としている。 これは、燃料/空気混合物のリアルタイム予測と改善を可能にするモデルの開発を必要とする。 しかし、これまで実施されてきた研究は、実験データ(測定に要する)や完全な問題の数値解法(計算的に禁止される)を用いる。 後者は偏微分方程式系(PDE)の分解を含む。 これらの問題はリアルタイム予測ツールの開発を困難にしている。 そこで本研究では,二相流における混合過程を推定するために,連接不連続の存在下での単相流数値シミュレーションと併用した機械学習の利用を提案する。 この意味において,提案する2つのニューラルネットワーク(nn)モデルのpdeサロゲートモデルへの適用について検討する。 将来のダイナミクスはNNによって予測されるが、いくつかの予備的な情報がある。 これらのモデルが必要とする計算コストの低さを,トレーニングフェーズと推論フェーズの両方で示す。 また,高次動的モード分解(hodmd)と呼ばれるモーダル分解手法によって,フローダイナミクス内の主構造を識別し,これら主構造のみを用いて元のフローを再構築することで,データの複雑さを低減し,nnトレーニングを改善する方法を示す。 この再構成は元のフローと同じ数のサンプルと空間次元を持つが、より複雑なダイナミクスを持ち、主な特徴を保っている。 この研究の核となるアイデアは、複雑な流体力学問題におけるデータ予測へのディープラーニングモデルの適用可能性の限界をテストすることである。 4つの異なる二相流の将来ダイナミクスを予測するために、同じnnアーキテクチャを用いて、モデルの一般化能力を示す。

This work aims to improve fuel chamber injectors' performance in turbofan engines, thus implying improved performance and reduction of pollutants. This requires the development of models that allow real-time prediction and improvement of the fuel/air mixture. However, the work carried out to date involves using experimental data (complicated to measure) or the numerical resolution of the complete problem (computationally prohibitive). The latter involves the resolution of a system of partial differential equations (PDE). These problems make difficult to develop a real-time prediction tool. Therefore, in this work, we propose using machine learning in conjunction with (complementarily cheaper) single-phase flow numerical simulations in the presence of tangential discontinuities to estimate the mixing process in two-phase flows. In this meaning we study the application of two proposed neural network (NN) models as PDE surrogate models. Where the future dynamics is predicted by the NN, given some preliminary information. We show the low computational cost required by these models, both in their training and inference phases. We also show how NN training can be improved by reducing data complexity through a modal decomposition technique called higher order dynamic mode decomposition (HODMD), which identifies the main structures inside flow dynamics and reconstructs the original flow using only these main structures. This reconstruction has the same number of samples and spatial dimension as the original flow, but with a less complex dynamics and preserving its main features. The core idea of this work is to test the limits of applicability of deep learning models to data forecasting in complex fluid dynamics problems. Generalization capabilities of the models are demonstrated by using the same NN architectures to forecast the future dynamics of four different two-phase flows.
翻訳日:2023-06-14 01:52:09 公開日:2023-06-12
# メタデータによる高画質画像の一貫性学習

Metadata-guided Consistency Learning for High Content Images ( http://arxiv.org/abs/2212.11595v2 )

ライセンス: Link先を確認
Johan Fredin Haslum and Christos Matsoukas and Karl-Johan Leuchowius and Erik M\"ullers and Kevin Smith(参考訳) 高濃度イメージングアッセイは、多量の化合物治療のための豊かな表現型反応データをキャプチャし、新規薬物の特性と発見を助けることができる。 しかし,表現型の微妙なニュアンスを捉えることのできる高画質画像から代表的特徴を抽出することは依然として困難である。 高品質なラベルがないため、教師付きディープラーニングで満足な結果を得るのは難しい。 自己監督学習法は自然画像において大きな成功を収めており、顕微鏡画像にも魅力的な代替手段を提供している。 しかし, 自己教師あり学習の手法は, ハイコンテントイメージング検査の精度を低下させることがわかった。 1つの課題は、生物学的ノイズや制御不能な実験条件によって引き起こされるバッチ効果として知られるデータに存在する望ましくない領域シフトである。 この目的のために我々は,バッチ効果の存在下で学習可能な自己教師型アプローチであるクロスドメイン一貫性学習(CDCL)を導入する。 CDCLは望ましくないバッチ固有の信号を無視しながら生物学的類似性の学習を強制し、より有用で汎用的な表現をもたらす。 これらの特徴は形態的変化に従って組織化され、治療の区別や行動のメカニズムといった下流タスクに役立ちます。

High content imaging assays can capture rich phenotypic response data for large sets of compound treatments, aiding in the characterization and discovery of novel drugs. However, extracting representative features from high content images that can capture subtle nuances in phenotypes remains challenging. The lack of high-quality labels makes it difficult to achieve satisfactory results with supervised deep learning. Self-Supervised learning methods have shown great success on natural images, and offer an attractive alternative also to microscopy images. However, we find that self-supervised learning techniques underperform on high content imaging assays. One challenge is the undesirable domain shifts present in the data known as batch effects, which are caused by biological noise or uncontrolled experimental conditions. To this end, we introduce Cross-Domain Consistency Learning (CDCL), a self-supervised approach that is able to learn in the presence of batch effects. CDCL enforces the learning of biological similarities while disregarding undesirable batch-specific signals, leading to more useful and versatile representations. These features are organised according to their morphological changes and are more useful for downstream tasks -- such as distinguishing treatments and mechanism of action.
翻訳日:2023-06-14 01:51:37 公開日:2023-06-12
# BLIND:デモグラフィックなしのバイアス除去

BLIND: Bias Removal With No Demographics ( http://arxiv.org/abs/2212.10563v2 )

ライセンス: Link先を確認
Hadas Orgad, Yonatan Belinkov(参考訳) 実世界のデータに基づいてトレーニングされたモデルは、社会的バイアスを模倣し増幅する傾向がある。 バイアスを軽減する一般的な方法は、緩和されるべきバイアスの種類(例えば、性別や人種のバイアス)と各データサンプルに関連する社会的グループに関する事前情報を必要とする。 本研究では,データセットの人口統計学に関する事前知識のないバイアス除去手法であるBLINDを紹介する。 下流タスクでモデルをトレーニングしている間、BLINDは、メインモデルの成功を予測する補助モデルを使用してバイアス付きサンプルを検出し、トレーニングプロセス中にこれらのサンプルをダウンウェイトする。 感情分類と職業分類タスクにおける人種的および性別的偏見による実験は、BLINDがコストのかかる人口統計学的アノテーションプロセスに頼ることなく社会的偏見を緩和することを示した。 我々の手法は人口統計情報を必要とする他の方法と競合し、時にはそれを超えることもある。

Models trained on real-world data tend to imitate and amplify social biases. Common methods to mitigate biases require prior information on the types of biases that should be mitigated (e.g., gender or racial bias) and the social groups associated with each data sample. In this work, we introduce BLIND, a method for bias removal with no prior knowledge of the demographics in the dataset. While training a model on a downstream task, BLIND detects biased samples using an auxiliary model that predicts the main model's success, and down-weights those samples during the training process. Experiments with racial and gender biases in sentiment classification and occupation classification tasks demonstrate that BLIND mitigates social biases without relying on a costly demographic annotation process. Our method is competitive with other methods that require demographic information and sometimes even surpasses them.
翻訳日:2023-06-14 01:50:18 公開日:2023-06-12
# 神経機械翻訳のための連続的知識蒸留

Continual Knowledge Distillation for Neural Machine Translation ( http://arxiv.org/abs/2212.09097v2 )

ライセンス: Link先を確認
Yuanchi Zhang, Peng Li, Maosong Sun, Yang Liu(参考訳) データ著作権やデータプライバシ、競争上の差別化の理由から、多くの並列コーパスは一般にはアクセスできないが、オープンプラットフォームでは、トレーニングされた翻訳モデルがますます利用できるようになる。 そこで本研究では,既存の翻訳モデルを利用して1つの関心モデルを改善するための連続的知識蒸留法を提案する。 基本的な考え方は、各訓練されたモデルから蒸留されたモデルに知識を順次移すことである。 中国語とドイツ語のデータセットに対する大規模な実験により、同種モデルと異種モデルの両方で強力なベースラインよりも顕著で一貫した改善が達成され、悪意のあるモデルに対して堅牢であることが示された。

While many parallel corpora are not publicly accessible for data copyright, data privacy and competitive differentiation reasons, trained translation models are increasingly available on open platforms. In this work, we propose a method called continual knowledge distillation to take advantage of existing translation models to improve one model of interest. The basic idea is to sequentially transfer knowledge from each trained model to the distilled model. Extensive experiments on Chinese-English and German-English datasets show that our method achieves significant and consistent improvements over strong baselines under both homogeneous and heterogeneous trained model settings and is robust to malicious models.
翻訳日:2023-06-14 01:49:38 公開日:2023-06-12
# qudit dicke状態準備

Qudit Dicke state preparation ( http://arxiv.org/abs/2301.04989v2 )

ライセンス: Link先を確認
Rafael I. Nepomechie(参考訳) qudit dicke状態は(量子ビット)dicke状態として知られる非常に絡み合った量子状態の重要なクラスの高次元アナログである。 任意のクディートディッケ状態を作成する回路を決定論的に定式化する。 基本ゲートの観点からの回路の明示的な分解について述べる。

Qudit Dicke states are higher-dimensional analogues of an important class of highly-entangled quantum states known as (qubit) Dicke states. A circuit for preparing arbitrary qudit Dicke states deterministically is formulated. An explicit decomposition of the circuit in terms of elementary gates is presented.
翻訳日:2023-06-14 01:41:59 公開日:2023-06-12
# LTS-NET:長期3次元安定物体のエンドツーエンド教師なし学習

LTS-NET: End-to-end Unsupervised Learning of Long-Term 3D Stable objects ( http://arxiv.org/abs/2301.03426v3 )

ライセンス: Link先を確認
Ibrahim Hroob, Sergi Molina, Riccardo Polvara, Grzegorz Cielniak and Marc Hanheide(参考訳) 本研究では,静的なオブジェクトと動的オブジェクトを区別した,オブジェクトの長期的安定性状態を決定するエンドツーエンドのデータ駆動パイプラインを提案する。 物体の安定性を理解することは、長期安定な物体を長期の局所化のランドマークとして活用できるため、移動ロボットにとって重要である。 我々のパイプラインには、環境からの履歴データを利用してニューラルネットワークのトレーニングデータを生成するラベル付け手法が含まれている。 離散ラベルを利用するのではなく、各点の時空間安定性を示す点群連続ラベル値を用いて、lts-netと呼ばれる点群クラウド回帰ネットワークを訓練する。 NCLTデータセットの2つの駐車場から得られる点雲データを用いて評価を行い,提案手法は静的・動的オブジェクト分類のための分類モデルの直接訓練よりも優れていることを示す。

In this research, we present an end-to-end data-driven pipeline for determining the long-term stability status of objects within a given environment, specifically distinguishing between static and dynamic objects. Understanding object stability is key for mobile robots since long-term stable objects can be exploited as landmarks for long-term localisation. Our pipeline includes a labelling method that utilizes historical data from the environment to generate training data for a neural network. Rather than utilizing discrete labels, we propose the use of point-wise continuous label values, indicating the spatio-temporal stability of individual points, to train a point cloud regression network named LTS-NET. Our approach is evaluated on point cloud data from two parking lots in the NCLT dataset, and the results show that our proposed solution, outperforms direct training of a classification model for static vs dynamic object classification.
翻訳日:2023-06-14 01:41:54 公開日:2023-06-12
# トランスフォーマー型eメール機構によるマルチエージェント強化学習のためのスケーラブルな通信

Scalable Communication for Multi-Agent Reinforcement Learning via Transformer-Based Email Mechanism ( http://arxiv.org/abs/2301.01919v2 )

ライセンス: Link先を確認
Xudong Guo, Daming Shi, Wenhui Fan(参考訳) コミュニケーションは多エージェント強化学習(MARL)における協調性を著しく向上させることができる。 しかし、既存の作品は情報の冗長性につながるメッセージをブロードキャストするか、他のすべてのエージェントをターゲットとしてモデル化することでターゲットとなるコミュニケーションを学ぶかのどちらかである。 本稿では,部分的に監視されたタスクに対するmarl通信のスケーラビリティ問題に取り組むため,新しいフレームワークであるtransformer-based email mechanism (tem)を提案する。 エージェントはローカル通信を採用して、すべてのエージェントをモデル化せずに観察できるメッセージのみを送信する。 メール転送と人間の協力に触発されて,情報転送のためのメッセージチェーンを設計し,観察範囲外のエージェントと協調する。 メッセージチェーンをエンコードしてデコードして次の受信機を選択するためにTransformerを導入する。 実験的に、TEMは複数の協調MARLベンチマークのベースラインを上回っている。 エージェントの数が異なる場合、TEMはさらなるトレーニングをすることなく優れたパフォーマンスを維持する。

Communication can impressively improve cooperation in multi-agent reinforcement learning (MARL), especially for partially-observed tasks. However, existing works either broadcast the messages leading to information redundancy, or learn targeted communication by modeling all the other agents as targets, which is not scalable when the number of agents varies. In this work, to tackle the scalability problem of MARL communication for partially-observed tasks, we propose a novel framework Transformer-based Email Mechanism (TEM). The agents adopt local communication to send messages only to the ones that can be observed without modeling all the agents. Inspired by human cooperation with email forwarding, we design message chains to forward information to cooperate with the agents outside the observation range. We introduce Transformer to encode and decode the message chain to choose the next receiver selectively. Empirically, TEM outperforms the baselines on multiple cooperative MARL benchmarks. When the number of agents varies, TEM maintains superior performance without further training.
翻訳日:2023-06-14 01:41:30 公開日:2023-06-12
# 人間の視覚に基づく大規模屋外シーンの3次元クラウドセマンティックセマンティックセグメンテーション

Human Vision Based 3D Point Cloud Semantic Segmentation of Large-Scale Outdoor Scene ( http://arxiv.org/abs/2301.12972v3 )

ライセンス: Link先を確認
Sunghwan Yoo, Yeongjeong Jeong, Maryam Jameela, Gunho Sohn(参考訳) 本稿では,可読領域サイズの重要かつしばしば見過ごされるパラメータに対処する,ポイントクラウドのための新しい意味セグメンテーションネットワークであるeyenetを提案する。 人間の周辺視に触発されたEyeNetは、単純なマルチパターン入力と並列ストリーム間の接続ブロックを持つ並列処理ネットワークを導入することで、従来のネットワークの限界を克服する。 提案手法は,我々のアブレーション研究や大規模屋外データセットの最先端性能など,高密度点雲の課題に効果的に対処する。

This paper proposes EyeNet, a novel semantic segmentation network for point clouds that addresses the critical yet often overlooked parameter of coverage area size. Inspired by human peripheral vision, EyeNet overcomes the limitations of conventional networks by introducing a simple but efficient multi-contour input and a parallel processing network with connection blocks between parallel streams. The proposed approach effectively addresses the challenges of dense point clouds, as demonstrated by our ablation studies and state-of-the-art performance on Large-Scale Outdoor datasets.
翻訳日:2023-06-14 01:32:09 公開日:2023-06-12
# 不完全なタイムキーピングが量子制御に及ぼす影響

The Impact of Imperfect Timekeeping on Quantum Control ( http://arxiv.org/abs/2301.10767v2 )

ライセンス: Link先を確認
Jake Xuereb, Florian Meier, Paul Erker, Mark T. Mitchison and Marcus Huber(参考訳) 量子システムを一元的に進化させるためには、エージェントは時間に関する知識を必要とする。 本稿では,時間知識の獲得に関する制限が,異なるパラダイムにおける制御量子演算にどのように影響するかを考察する。 我々は,エージェントが回路ベースの量子計算で達成できる回路の複雑さを抑えるための時間管理の質を示す。 我々は、ランダム回路の一般クラスに対する不完全なタイムキーピングの下で達成可能な平均ゲート忠実性の上界を導出することでこれを行う。 量子制御が関連する別の領域は、量子熱力学である。 その文脈において、量子ビットの冷却は任意の品質のタイマで達成できることを示す: タイムキーピングエラーは冷却速度にのみ影響し、達成可能な温度には影響しない。 本解析は,自律的量子時計の研究と量子チャネルの理論を組み合わせることで,制御された量子ダイナミクスに対する不完全なタイムキーピングの効果を理解する。

In order to unitarily evolve a quantum system, an agent requires knowledge of time, a parameter which no physical clock can ever perfectly characterise. In this letter, we study how limitations on acquiring knowledge of time impact controlled quantum operations in different paradigms. We show that the quality of timekeeping an agent has access to limits the circuit complexity they are able to achieve within circuit-based quantum computation. We do this by deriving an upper bound on the average gate fidelity achievable under imperfect timekeeping for a general class of random circuits. Another area where quantum control is relevant is quantum thermodynamics. In that context, we show that cooling a qubit can be achieved using a timer of arbitrary quality for control: timekeeping error only impacts the rate of cooling and not the achievable temperature. Our analysis combines techniques from the study of autonomous quantum clocks and the theory of quantum channels to understand the effect of imperfect timekeeping on controlled quantum dynamics.
翻訳日:2023-06-14 01:31:23 公開日:2023-06-12
# 合成データに対する属性推論攻撃に対する線形再構成手法

A Linear Reconstruction Approach for Attribute Inference Attacks against Synthetic Data ( http://arxiv.org/abs/2301.10053v2 )

ライセンス: Link先を確認
Meenatchi Sundaram Muthu Selva Annamalai, Andrea Gadotti and Luc Rocher(参考訳) 近年の合成データ生成(SDG)の進歩は、プライバシーを保護しながら機密データを共有することの難しい問題に対する解決策として評価されている。 sdgは、センシティブなデータと構造的および統計的に類似した「人工的」データを生成するために、実データの統計特性を学習することを目的としている。 しかし、以前の研究では、合成データに対する推論攻撃はプライバシーを損なう可能性があるが、特定の外れ値の記録に限られていた。 本研究では,合成データに対する新たな属性推論攻撃を提案する。 この攻撃は、アグリゲーション統計のための線形再構成手法に基づいており、データセット内のすべてのレコードをターゲットにしている。 我々は,確率的グラフィカルモデル,ジェネレーティブ・アドバイサル・ネットワーク,最近の差分的SDG機構など,最先端のSDGアルゴリズムに対する攻撃を評価した。 フォーマルなプライバシゲームを定義することで、攻撃は任意のレコードでも極めて正確であり、これは(人口レベルの推測とは対照的に)個々の情報漏洩の結果であることを示す。 次に,プライバシ保護と統計ユーティリティ維持のトレードオフを体系的に評価する。 以上の結果から,現在のSDG法は適切な実用性を維持しつつも,推論攻撃に対する十分なプライバシー保護を提供することはできないことが示唆された。 評価された最良の方法は、差分的にプライベートなSDGメカニズムであり、推論攻撃に対する保護と合理的なユーティリティの両方を提供するが、非常に特定の設定でのみ提供される。 最後に, より多くの合成レコードをリリースすることで, 実用性を向上させることができるが, 攻撃を効果的に行うコストがはるかに高いことを示す。

Recent advances in synthetic data generation (SDG) have been hailed as a solution to the difficult problem of sharing sensitive data while protecting privacy. SDG aims to learn statistical properties of real data in order to generate "artificial" data that are structurally and statistically similar to sensitive data. However, prior research suggests that inference attacks on synthetic data can undermine privacy, but only for specific outlier records. In this work, we introduce a new attribute inference attack against synthetic data. The attack is based on linear reconstruction methods for aggregate statistics, which target all records in the dataset, not only outliers. We evaluate our attack on state-of-the-art SDG algorithms, including Probabilistic Graphical Models, Generative Adversarial Networks, and recent differentially private SDG mechanisms. By defining a formal privacy game, we show that our attack can be highly accurate even on arbitrary records, and that this is the result of individual information leakage (as opposed to population-level inference). We then systematically evaluate the tradeoff between protecting privacy and preserving statistical utility. Our findings suggest that current SDG methods cannot consistently provide sufficient privacy protection against inference attacks while retaining reasonable utility. The best method evaluated, a differentially private SDG mechanism, can provide both protection against inference attacks and reasonable utility, but only in very specific settings. Lastly, we show that releasing a larger number of synthetic records can improve utility but at the cost of making attacks far more effective.
翻訳日:2023-06-14 01:30:44 公開日:2023-06-12
# テキスト記述によるヒューマンインストラクションによるゼロショット動作認識の改善

Improving Zero-Shot Action Recognition using Human Instruction with Text Description ( http://arxiv.org/abs/2301.08874v2 )

ライセンス: Link先を確認
Nan Wu, Hiroshi Kera, Kazuhiko Kawamoto(参考訳) ゼロショットアクション認識は、トレーニングサンプルを受けずに動画のアクションを認識するもので、労働コストとトレーニング時間を節約できるため、広く注目を集めている。 それでもゼロショット学習のパフォーマンスは依然として不十分であり、実用性は制限されている。 そこで本研究では,テキスト記述による人間の指示によるゼロショット動作認識を改善する枠組みを提案する。 提案手法では,ビデオコンテンツの記述を手作業で行い,作業コストを発生させる。 各アクションに対してテキストの特徴を手作業でアノテートします。 そして、ビデオとすべてのテキスト機能とのマッチング度を計算することで、ビデオのクラスを予測することができる。 さらに、提案モデルは他のモデルと組み合わせて精度を向上させることもできる。 さらに,人間の指示を繰り返すことで精度を向上させるために,モデルを継続的に最適化することができる。 UCF101 と HMDB51 で得られた結果から,本モデルの精度が向上し,他のモデルの精度が向上した。

Zero-shot action recognition, which recognizes actions in videos without having received any training examples, is gaining wide attention considering it can save labor costs and training time. Nevertheless, the performance of zero-shot learning is still unsatisfactory, which limits its practical application. To solve this problem, this study proposes a framework to improve zero-shot action recognition using human instructions with text descriptions. The proposed framework manually describes video contents, which incurs some labor costs; in many situations, the labor costs are worth it. We manually annotate text features for each action, which can be a word, phrase, or sentence. Then by computing the matching degrees between the video and all text features, we can predict the class of the video. Furthermore, the proposed model can also be combined with other models to improve its accuracy. In addition, our model can be continuously optimized to improve the accuracy by repeating human instructions. The results with UCF101 and HMDB51 showed that our model achieved the best accuracy and improved the accuracies of other models.
翻訳日:2023-06-14 01:29:36 公開日:2023-06-12
# 強化学習のための事前学習対象中心表現の検討

An Investigation into Pre-Training Object-Centric Representations for Reinforcement Learning ( http://arxiv.org/abs/2302.04419v3 )

ライセンス: Link先を確認
Jaesik Yoon, Yi-Fu Wu, Heechul Bae, and Sungjin Ahn(参考訳) 教師なしオブジェクト指向表現(OCR)学習は近年,視覚表現の新しいパラダイムとして注目されている。 これは、サンプル効率、体系的な一般化、推論という観点から、様々な下流タスクの効果的な事前学習技術になる可能性があるためである。 画像に基づく強化学習(RL)は、こうした下流作業において最も重要かつ頻繁に言及される課題の1つであるが、RLの利点は驚くほど研究されていない。 代わりに、ほとんどの評価は、セグメンテーションの品質やオブジェクトプロパティの予測精度といった、より間接的な指標に焦点を当てている。 本稿では,OCR事前学習による画像に基づく強化学習の有効性を実証実験により検討する。 体系的な評価のために、単純なオブジェクト指向ビジュアルRLベンチマークを導入し、'Does OCR pre-training improve performance on object-centric tasks?'や'Can OCR pre-training help with out-of-distriion generalization?'といった質問に答える実験を行う。 以上の結果から,RLに対するOCR事前学習の有効性と,特定のシナリオにおけるOCR利用の潜在的な限界に関する貴重な知見が得られた。 さらに,視覚複雑な環境におけるパフォーマンスや,オブジェクト表現を集約する適切なプーリング層など,rlにocrを事前トレーニングする上での重要な側面についても検討した。

Unsupervised object-centric representation (OCR) learning has recently drawn attention as a new paradigm of visual representation. This is because of its potential of being an effective pre-training technique for various downstream tasks in terms of sample efficiency, systematic generalization, and reasoning. Although image-based reinforcement learning (RL) is one of the most important and thus frequently mentioned such downstream tasks, the benefit in RL has surprisingly not been investigated systematically thus far. Instead, most of the evaluations have focused on rather indirect metrics such as segmentation quality and object property prediction accuracy. In this paper, we investigate the effectiveness of OCR pre-training for image-based reinforcement learning via empirical experiments. For systematic evaluation, we introduce a simple object-centric visual RL benchmark and conduct experiments to answer questions such as ``Does OCR pre-training improve performance on object-centric tasks?'' and ``Can OCR pre-training help with out-of-distribution generalization?''. Our results provide empirical evidence for valuable insights into the effectiveness of OCR pre-training for RL and the potential limitations of its use in certain scenarios. Additionally, this study also examines the critical aspects of incorporating OCR pre-training in RL, including performance in a visually complex environment and the appropriate pooling layer to aggregate the object representations.
翻訳日:2023-06-14 01:24:04 公開日:2023-06-12
# オンラインリソース割り当て: 時間変動要求に対するフィードバックとアドバイスを包括する

Online Resource Allocation: Bandits feedback and Advice on Time-varying Demands ( http://arxiv.org/abs/2302.04182v2 )

ライセンス: Link先を確認
Lixing Lyu and Wang Chi Cheung(参考訳) 我々は,包帯フィードバックと時間変動要求を伴う一般的なオンラインリソース割り当てモデルを検討する。 オンラインリソース割り当ては文献でよく研究されているが、既存の作品の多くは需要の到着プロセスが静止していると強く仮定している。 しかし、オンライン広告や収益管理のような実践的なアプリケーションでは、このプロセスはインターネットトラフィックが絶えず変化するように、外生的にも非定常的かもしれない。 最近の Online Algorithms with Advice framework [Mitazenmacher と Vassilvitskii, \emph{Commun] に触発された。 ACM} 2022] オンラインアドバイスが政策設計にどのように役立つかを探る。 我々は,どのアルゴリズムも,我々の設定において何の助言も受けずに,後悔の観点からは不十分な結果を生んでいる。 対照的に,総需要量のオンライン予測を活用できるロバストなオンラインアルゴリズムを設計した。 提案アルゴリズムは,オンラインアドバイスを応用し,理論的性能と有望な数値的結果の両方を文献上の他のアルゴリズムと比較した。 また,時間変動需要シナリオに対する2つの明示的な例を示し,それに対応する理論性能保証を導出する。 最後に、ネットワーク収益管理問題にモデルを適応させ、既存のベースラインと比較してアルゴリズムが競合的に動作可能であることを数値的に示す。

We consider a general online resource allocation model with bandit feedback and time-varying demands. While online resource allocation has been well studied in the literature, most existing works make the strong assumption that the demand arrival process is stationary. In practical applications, such as online advertisement and revenue management, however, this process may be exogenous and non-stationary, like the constantly changing internet traffic. Motivated by the recent Online Algorithms with Advice framework [Mitazenmacher and Vassilvitskii, \emph{Commun. ACM} 2022], we explore how online advice can inform policy design. We establish an impossibility result that any algorithm perform poorly in terms of regret without any advice in our setting. In contrast, we design an robust online algorithm that leverages the online predictions on the total demand volumes. Empowered with online advice, our proposed algorithm is shown to have both theoretical performance and promising numerical results compared with other algorithms in literature. We also provide two explicit examples for the time-varying demand scenarios and derive corresponding theoretical performance guarantees. Finally, we adapt our model to a network revenue management problem, and numerically demonstrate that our algorithm can still performs competitively compared to existing baselines.
翻訳日:2023-06-14 01:23:25 公開日:2023-06-12
# スキューガウス過程を用いた実用優先ベイズ最適化に向けて

Towards Practical Preferential Bayesian Optimization with Skew Gaussian Processes ( http://arxiv.org/abs/2302.01513v2 )

ライセンス: Link先を確認
Shion Takeno, Masahiro Nomura, Masayuki Karasuyama(参考訳) 本稿では,信頼度が2対比較に限定される優先ベイズ最適化(BO)について検討する。 優先的ガウス過程(gp)モデルを用いて柔軟な選好構造を表現する、優先的boにおける重要な課題は、後方分布が計算に難解なスキューgpであることである。 最も広く用いられるアプローチはガウス近似(gaussian approximation)であり、真の後方の歪さを無視する。 あるいは、マルコフ連鎖モンテカルロ(MCMC)に基づく優先BOも提案されている。 本研究では,まずガウス近似の精度を検証し,この結果から,デュエルの予測確率が不正確であることを示す。 この観察は,ギブスサンプリングの実用効率を示し,低分散MC推定器を導出するスキューGPのMCMCに基づく推定を改善する動機付けとなる。 しかし、MCMCの計算時間は実際にはボトルネックとなる可能性がある。 より実用的なboの構築に向けて,高い計算効率と低いサンプル複雑性を実現する新しい手法を開発し,その効果を広範囲な数値実験により実証する。

We study preferential Bayesian optimization (BO) where reliable feedback is limited to pairwise comparison called duels. An important challenge in preferential BO, which uses the preferential Gaussian process (GP) model to represent flexible preference structure, is that the posterior distribution is a computationally intractable skew GP. The most widely used approach for preferential BO is Gaussian approximation, which ignores the skewness of the true posterior. Alternatively, Markov chain Monte Carlo (MCMC) based preferential BO is also proposed. In this work, we first verify the accuracy of Gaussian approximation, from which we reveal the critical problem that the predictive probability of duels can be inaccurate. This observation motivates us to improve the MCMC-based estimation for skew GP, for which we show the practical efficiency of Gibbs sampling and derive the low variance MC estimator. However, the computational time of MCMC can still be a bottleneck in practice. Towards building a more practical preferential BO, we develop a new method that achieves both high computational efficiency and low sample complexity, and then demonstrate its effectiveness through extensive numerical experiments.
翻訳日:2023-06-14 01:22:13 公開日:2023-06-12
# Tighter Bayesian Regret boundsを用いたランダム化ガウス過程上層信頼境界

Randomized Gaussian Process Upper Confidence Bound with Tighter Bayesian Regret Bounds ( http://arxiv.org/abs/2302.01511v2 )

ライセンス: Link先を確認
Shion Takeno, Yu Inatsu, Masayuki Karasuyama(参考訳) gaussian process upper confidence bound (gp-ucb) は理論上有望なブラックボックス最適化のアプローチであるが、信頼度パラメータ $\beta$ は定理においてかなり大きく、実際ヒューリスティックに選択される。 次に、ランダム化されたGP-UCB(RGP-UCB)は、ガンマ分布に従うランダム化された信頼パラメータを用いて、手動で$\beta$を指定する影響を軽減する。 本研究はまず,RGP-UCBの後悔解析をガンマ分布を含むより広範な分布に一般化する。 さらに,2パラメータ指数分布に基づく改良されたRGP-UCB(IRGP-UCB)を提案する。 IRGP-UCBは、後続のイテレーションでの過剰探索を避けるため、イテレーション数の観点から信頼性パラメータの増加を必要としない。 最後に,IRGP-UCBの有効性を実験的に検証した。

Gaussian process upper confidence bound (GP-UCB) is a theoretically promising approach for black-box optimization; however, the confidence parameter $\beta$ is considerably large in the theorem and chosen heuristically in practice. Then, randomized GP-UCB (RGP-UCB) uses a randomized confidence parameter, which follows the Gamma distribution, to mitigate the impact of manually specifying $\beta$. This study first generalizes the regret analysis of RGP-UCB to a wider class of distributions, including the Gamma distribution. Furthermore, we propose improved RGP-UCB (IRGP-UCB) based on a two-parameter exponential distribution, which achieves tighter Bayesian regret bounds. IRGP-UCB does not require an increase in the confidence parameter in terms of the number of iterations, which avoids over-exploration in the later iterations. Finally, we demonstrate the effectiveness of IRGP-UCB through extensive experiments.
翻訳日:2023-06-14 01:21:54 公開日:2023-06-12
# 海馬形状と厚さ解析の自動的幾何学的手法

An automated, geometry-based method for hippocampal shape and thickness analysis ( http://arxiv.org/abs/2302.00573v2 )

ライセンス: Link先を確認
Kersten Diers and Hannah Baumeister and Frank Jessen and Emrah D\"uzel and David Berron and Martin Reuter(参考訳) 海馬は、注意、学習、記憶への関与、老化、神経学的、精神疾患における萎縮などにより、最も研究された神経解剖学的構造の1つである。 しかし、海馬形状の変化は複雑であり、MRI画像から判断した海馬容積のような単一の要約指標で完全には特徴づけられない。 本研究では,海馬の厚みや曲率などの形状特徴の展開,ポイントワイド対応,局所解析のための自動幾何学的アプローチを提案する。 海馬サブフィールドの自動セグメンテーションから始まり、3次元四面体メッシュモデルと海馬本体の3次元内在座標系を作成する。 この座標系から局所曲率と厚さの推定値と海馬展開用2次元シートを導出した。 軽度認知障害とアルツハイマー病認知症の神経変性変化を定量化する一連の実験により,本アルゴリズムの性能を評価する。 海馬の厚さ推定は臨床群間の既知の差異を検知し,海馬シート上のこれらの効果の位置を推定できる。 さらに、厚み推定は、追加の予測器として追加されると、臨床グループの分類と認知障害のコントロールを改善する。 比較の結果は、異なるデータセットとセグメンテーションアルゴリズムで得られる。 そこで本研究では,海馬の容積・形状変化に関する標準的知見を再現し,海馬シート上の空間的局在を把握し,それらを拡張し,従来の尺度を超えた追加的補完的情報を提供する。 画像登録や手作業による介入を必要とせず,研究間での比較を可能にする海馬の形状解析のための,新たなセンシティブな処理および解析ツールを提供する。

The hippocampus is one of the most studied neuroanatomical structures due to its involvement in attention, learning, and memory as well as its atrophy in ageing, neurological, and psychiatric diseases. Hippocampal shape changes, however, are complex and cannot be fully characterized by a single summary metric such as hippocampal volume as determined from MR images. In this work, we propose an automated, geometry-based approach for the unfolding, point-wise correspondence, and local analysis of hippocampal shape features such as thickness and curvature. Starting from an automated segmentation of hippocampal subfields, we create a 3D tetrahedral mesh model as well as a 3D intrinsic coordinate system of the hippocampal body. From this coordinate system, we derive local curvature and thickness estimates as well as a 2D sheet for hippocampal unfolding. We evaluate the performance of our algorithm with a series of experiments to quantify neurodegenerative changes in Mild Cognitive Impairment and Alzheimer's disease dementia. We find that hippocampal thickness estimates detect known differences between clinical groups and can determine the location of these effects on the hippocampal sheet. Further, thickness estimates improve classification of clinical groups and cognitively unimpaired controls when added as an additional predictor. Comparable results are obtained with different datasets and segmentation algorithms. Taken together, we replicate canonical findings on hippocampal volume/shape changes in dementia, extend them by gaining insight into their spatial localization on the hippocampal sheet, and provide additional, complementary information beyond traditional measures. We provide a new set of sensitive processing and analysis tools for the analysis of hippocampal geometry that allows comparisons across studies without relying on image registration or requiring manual intervention.
翻訳日:2023-06-14 01:21:15 公開日:2023-06-12
# 相互作用するカオス小体量子系における普遍スペクトル相関

Universal spectral correlations in interacting chaotic few-body quantum systems ( http://arxiv.org/abs/2302.09955v2 )

ライセンス: Link先を確認
Felix Fritzsch and Maximilian F. I. Kieler(参考訳) 相互作用量子系におけるランダム行列スペクトル相関の出現は、量子カオスの定義的特徴である。 このような相関関係を,適切なランダム・マトリクス・アンサンブルでモデル化したカオス的少数・多体相互作用におけるスペクトル形状因子とそのモーメントの観点から検討した。 スペクトル形式因子は、大きなヒルベルト空間次元に対して正確に得られる。 これらの結果を有限ヒルベルト空間次元に補間すると、非相互作用から強相互作用の場合への普遍的な遷移が見つかる。 この遷移は単一のスケーリングパラメータによって制御される。 二成分の場合、スペクトル形式因子の全てのモーメントについても同様の結果が得られる。 その結果を広範囲な数値研究により確認し, 数値化された一対の蹴りローターによって与えられるより現実的なシステムにも適用できることを実証した。 最終的に、我々は小さな結合状態をカバーする摂動的アプローチで分析を補完する。

The emergence of random matrix spectral correlations in interacting quantum systems is a defining feature of quantum chaos. We study such correlations in terms of the spectral form factor and its moments in interacting chaotic few- and many-body systems, modeled by suitable random-matrix ensembles. We obtain the spectral form factor exactly for large Hilbert space dimension. Extrapolating those results to finite Hilbert space dimension we find a universal transition from the non-interacting to the strongly interacting case, which can be described as a simple combination of these two limits. This transition is governed by a single scaling parameter. In the bipartite case we derive similar results also for all moments of the spectral form factor. We confirm our results by extensive numerical studies and demonstrate that they apply to more realistic systems given by a pair of quantized kicked rotors as well. Ultimately we complement our analysis by a perturbative approach covering the small coupling regime.
翻訳日:2023-06-14 01:12:34 公開日:2023-06-12
# 刺激ブリルアン散乱によるフォトニック貯水池の計算

Photonic reservoir computing enabled by stimulated Brillouin scattering ( http://arxiv.org/abs/2302.07698v2 )

ライセンス: Link先を確認
Sendy Phang(参考訳) ai(artificial intelligence, 人工知能)は、人間の生活と働きを阻害する未来の技術を生み出し、タスクやアクティビティへのアプローチ方法を変える新しいソリューションを生み出しますが、多くのデータ処理、大量のデータ転送、そしてコンピューティングのスピードを必要とします。 これは脳のアーキテクチャ、特にフォトニック技術、高速、低消費電力、より大きな帯域幅の利点を生かした脳のアーキテクチャにインスパイアされた新しいタイプのコンピューティングプラットフォームの開発に対する研究の関心が高まっている。 本稿では,励起ブリルアン散乱の非線形波動光学ダイナミクスを利用したフォトニック貯水池計算アーキテクチャに基づく新しい計算プラットフォームについて報告する。 新しいフォトニック貯水池計算システムのカーネルは、完全にパッシブな光学系で構成されている。 さらに、リアルタイム人工知能を実現するために、高性能な光多重化技術と併用するのに適している。 ここでは,新しいフォトニック貯水池計算の動作条件を最適化する手法について述べる。 ここで説明した新しいアーキテクチャは、AIのためのフォトニクスの応用を強調する、AIハードウェアを実現する新しい方法を提供する。

Artificial Intelligence (AI) drives the creation of future technologies that disrupt the way humans live and work, creating new solutions that change the way we approach tasks and activities, but it requires a lot of data processing, large amounts of data transfer, and computing speed. It has led to a growing interest of research in developing a new type of computing platform which is inspired by the architecture of the brain specifically those that exploit the benefits offered by photonic technologies, fast, low-power, and larger bandwidth. Here, a new computing platform based on the photonic reservoir computing architecture exploiting the non-linear wave-optical dynamics of the stimulated Brillouin scattering is reported. The kernel of the new photonic reservoir computing system is constructed of an entirely passive optical system. Moreover, it is readily suited for use in conjunction with high performance optical multiplexing techniques to enable real-time artificial intelligence. Here, a methodology to optimise the operational condition of the new photonic reservoir computing is described which is found to be strongly dependent on the dynamics of the stimulated Brillouin scattering system. The new architecture described here offers a new way of realising AI-hardware which highlight the application of photonics for AI.
翻訳日:2023-06-14 01:11:07 公開日:2023-06-12
# 文脈帯域のユニバーサル学習における逆戻り

Adversarial Rewards in Universal Learning for Contextual Bandits ( http://arxiv.org/abs/2302.07186v2 )

ライセンス: Link先を確認
Moise Blanchard, Steve Hanneke and Patrick Jaillet(参考訳) 本研究では,学習者の報酬が行動や既知の文脈に依存する文脈バンディットにおける学習の基本的な限界について検討する。 我々は、関数クラス制限なしに、任意の測定可能な固定ポリシーと比較してsublinear regretを実現する、普遍的に一貫性のあるアルゴリズムに興味を持っている。 定常的文脈的バンディットの場合、基礎となる報酬機構が時間不変である場合、buckhardなど。 al (2022) は普遍的一貫性が達成可能である学習可能な文脈過程を特徴付け、さらに楽観的普遍的一貫性と呼ばれる性質が達成可能であれば普遍的一貫性を保証するアルゴリズムを与えた。 しかし、報酬機構は時間とともに進化し、おそらく逆転し、学習者の行動に依存することがよく理解されている。 We show that optimistic universal learning for contextual bandits with adversarial rewards is impossible in general, contrary to all previously studied settings in online learning -- including standard supervised learning. We also give necessary and sufficient conditions for universal learning under various adversarial reward models, and an exact characterization for online rewards. In particular, the set of learnable processes for these reward models is still extremely general -- larger than i.i.d., stationary or ergodic -- but in general strictly smaller than that for supervised learning or stationary contextual bandits, shedding light on new adversarial phenomena.

We study the fundamental limits of learning in contextual bandits, where a learner's rewards depend on their actions and a known context, which extends the canonical multi-armed bandit to the case where side-information is available. We are interested in universally consistent algorithms, which achieve sublinear regret compared to any measurable fixed policy, without any function class restriction. For stationary contextual bandits, when the underlying reward mechanism is time-invariant, Blanchard et. al (2022) characterized learnable context processes for which universal consistency is achievable; and further gave algorithms ensuring universal consistency whenever this is achievable, a property known as optimistic universal consistency. It is well understood, however, that reward mechanisms can evolve over time, possibly adversarially, and depending on the learner's actions. We show that optimistic universal learning for contextual bandits with adversarial rewards is impossible in general, contrary to all previously studied settings in online learning -- including standard supervised learning. We also give necessary and sufficient conditions for universal learning under various adversarial reward models, and an exact characterization for online rewards. In particular, the set of learnable processes for these reward models is still extremely general -- larger than i.i.d., stationary or ergodic -- but in general strictly smaller than that for supervised learning or stationary contextual bandits, shedding light on new adversarial phenomena.
翻訳日:2023-06-14 01:10:29 公開日:2023-06-12
# 双曲空間における大マルジン分類のための球面決定境界

Horospherical Decision Boundaries for Large Margin Classification in Hyperbolic Space ( http://arxiv.org/abs/2302.06807v2 )

ライセンス: Link先を確認
Xiran Fan, Chun-Hao Yang, Baba C. Vemuri(参考訳) 双曲空間は階層的に整理されたデータを表現するために近年非常に人気がある。 さらに,これらの空間におけるデータの分類アルゴリズムも提案されている。 これらのアルゴリズムは主に、非凸最適化問題に繋がる大きなマージン分類器において、決定境界に超平面または測地線を使用する。 本稿では,大域的最適解を保証するリーマン勾配降下法を用いて最適化できる測地的凸最適化問題に導かれる,球面的決定境界に基づく新しい大域的マージン分類器を提案する。 我々は,SOTAと比較して,分類器の競争性能を示す実験を行った。

Hyperbolic spaces have been quite popular in the recent past for representing hierarchically organized data. Further, several classification algorithms for data in these spaces have been proposed in the literature. These algorithms mainly use either hyperplanes or geodesics for decision boundaries in a large margin classifiers setting leading to a non-convex optimization problem. In this paper, we propose a novel large margin classifier based on horospherical decision boundaries that leads to a geodesically convex optimization problem that can be optimized using any Riemannian gradient descent technique guaranteeing a globally optimal solution. We present several experiments depicting the competitive performance of our classifier in comparison to SOTA.
翻訳日:2023-06-14 01:10:07 公開日:2023-06-12
# 自分が知らないことを 知っている確率的回路は

Probabilistic Circuits That Know What They Don't Know ( http://arxiv.org/abs/2302.06544v3 )

ライセンス: Link先を確認
Fabrizio Ventola and Steven Braun and Zhongjie Yu and Martin Mundt and Kristian Kersting(参考訳) 確率回路(probabilistic circuits, pcs)は、正確な確率的推論を可能にするモデルである。 ニューラルネットワークとは対照的に、それらはよく校正され、アウト・オブ・ディストリビューション(OOD)データに対して堅牢であると考えられている。 本稿では,PCがOODデータに対して堅牢ではないことを示す。 次に,この課題をモデル不確実性定量化によって克服する方法を示す。 そこで本研究では,モンテカルロ・ドロップアウト(mcd)の解析解を分散伝播によって導出することにより不確かさを推定する推定手法であるtdiを提案する。 複数のネットワーク評価のコストがかかるニューラルネットワークのmcdとは異なり、tdiは単一のフォワードパスでサンプリング不要の不確実性推定を提供する。 TDIは,PCの分散シフトやOODデータに対する堅牢性を改善し,実世界のデータに対する分類信頼性と不確実性評価を評価する一連の実験を通じて実証した。

Probabilistic circuits (PCs) are models that allow exact and tractable probabilistic inference. In contrast to neural networks, they are often assumed to be well-calibrated and robust to out-of-distribution (OOD) data. In this paper, we show that PCs are in fact not robust to OOD data, i.e., they don't know what they don't know. We then show how this challenge can be overcome by model uncertainty quantification. To this end, we propose tractable dropout inference (TDI), an inference procedure to estimate uncertainty by deriving an analytical solution to Monte Carlo dropout (MCD) through variance propagation. Unlike MCD in neural networks, which comes at the cost of multiple network evaluations, TDI provides tractable sampling-free uncertainty estimates in a single forward pass. TDI improves the robustness of PCs to distribution shift and OOD data, demonstrated through a series of experiments evaluating the classification confidence and uncertainty estimates on real-world data.
翻訳日:2023-06-14 01:09:57 公開日:2023-06-12
# CrossSpeech: 言語間音声合成のための話者非依存音響表現

CrossSpeech: Speaker-independent Acoustic Representation for Cross-lingual Speech Synthesis ( http://arxiv.org/abs/2302.14370v2 )

ライセンス: Link先を確認
Ji-Hoon Kim, Hong-Sun Yang, Yoon-Cheol Ju, Il-Hwan Kim, and Byeong-Yeol Kim(参考訳) 最近のTTS(text-to-speech)システムは、人間のレベル品質に顕著な一歩を踏み出したが、言語内TSよりも遅れた言語間TSラグの性能は向上した。 このギャップは主に、言語間TSにおける話者言語絡みの問題に根ざしている。 本稿では,音声特徴量レベルで話者と言語情報を効果的に分離することにより,言語間音声の質を向上させるクロスペアを提案する。 具体的には、CrossSpeechは音声生成パイプラインを話者非依存ジェネレータ(SIG)と話者依存ジェネレータ(SDG)に分解する。 SIGは、特定の話者分布に偏らない話者非依存の音響表現を生成する。 一方、SDGは話者属性を特徴付ける話者依存型音声変化をモデル化する。 各情報を別々に扱うことで、CrossSpeechは不整合話者と言語表現を得ることができる。 実験により,CrossSpeechは,特に話者の話者類似性において,言語間TSの大幅な改善を実現していることを確認した。

While recent text-to-speech (TTS) systems have made remarkable strides toward human-level quality, the performance of cross-lingual TTS lags behind that of intra-lingual TTS. This gap is mainly rooted from the speaker-language entanglement problem in cross-lingual TTS. In this paper, we propose CrossSpeech which improves the quality of cross-lingual speech by effectively disentangling speaker and language information in the level of acoustic feature space. Specifically, CrossSpeech decomposes the speech generation pipeline into the speaker-independent generator (SIG) and speaker-dependent generator (SDG). The SIG produces the speaker-independent acoustic representation which is not biased to specific speaker distributions. On the other hand, the SDG models speaker-dependent speech variation that characterizes speaker attributes. By handling each information separately, CrossSpeech can obtain disentangled speaker and language representations. From the experiments, we verify that CrossSpeech achieves significant improvements in cross-lingual TTS, especially in terms of speaker similarity to the target speaker.
翻訳日:2023-06-14 01:02:39 公開日:2023-06-12
# 変分オートエンコーダの分布学習:合成データ生成への応用

Distributional Learning of Variational AutoEncoder: Application to Synthetic Data Generation ( http://arxiv.org/abs/2302.11294v2 )

ライセンス: Link先を確認
Seunghwan An, Jong-June Jeon(参考訳) ガウス性仮定は、計算モデリングの効率性にもかかわらず、変分オートエンコーダ(VAE)の主な限界として一貫して批判されている。 本稿では,VAEフレームワークの計算的優位性を犠牲にすることなく,モデル容量(分散ファミリーの表現力)を拡大する手法を提案する。 我々のVAEモデルデコーダは、連続変数に対する一般分布適合能力を有する非対称ラプラシア分布の無限混合からなる。 我々のモデルは、一般量子関数を推定するための非パラメトリックM-推定器の特別な形式で表現され、提案モデルと量子推定との関係を理論的に確立する。 提案モデルを合成データ生成に適用し,特にデータプライバシのレベル調整が容易であることを示す。

The Gaussianity assumption has been consistently criticized as a main limitation of the Variational Autoencoder (VAE), despite its efficiency in computational modeling. In this paper, we propose a new approach that expands the model capacity (i.e., expressive power of distributional family) without sacrificing the computational advantages of the VAE framework. Our VAE model's decoder is composed of an infinite mixture of asymmetric Laplacian distribution, which possesses general distribution fitting capabilities for continuous variables. Our model is represented by a special form of a nonparametric M-estimator for estimating general quantile functions, and we theoretically establish the relevance between the proposed model and quantile estimation. We apply the proposed model to synthetic data generation, and particularly, our model demonstrates superiority in easily adjusting the level of data privacy.
翻訳日:2023-06-14 01:01:28 公開日:2023-06-12
# nerf-gan蒸留による畳み込みを伴うメモリ効率3次元アウェア生成

NeRF-GAN Distillation for Memory-Efficient 3D-Aware Generation with Convolutions ( http://arxiv.org/abs/2303.12865v2 )

ライセンス: Link先を確認
Mohamad Shahbazi, Evangelos Ntavelis, Alessio Tonioni, Edo Collins, Danda Pani Paudel, Martin Danelljan, Luc Van Gool(参考訳) ポーズ条件付き畳み込み生成モデルは、十分な3dプリミティブがないため、シングルビューデータセットから高品質な3d一貫性のある画像生成に苦しむ。 近年,ニューラルレージアンスフィールド(NeRF)とGAN(Generative Adversarial Networks)のような生成モデルの統合により,単一ビュー画像から3次元認識生成が変化している。 NeRF-GANは3次元神経表現の強い誘導バイアスと高い計算複雑性のコストで体積レンダリングを利用する。 本研究では,前訓練したNeRF-GANSから3D知識を蒸留することにより,メモリ効率のよい3D認識生成のためのポーズ条件付き2D GANを再検討することを目的とする。 提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。 提案手法は,畳み込みネットワークの優れた計算優位性を生かしながら,品質と3次元整合性の観点から,ボリュームレンダリングに匹敵する結果が得られることを示す。 コードは以下の通り。 https://github.com/mshahbazi72/NeRF-GAN-Distillation

Pose-conditioned convolutional generative models struggle with high-quality 3D-consistent image generation from single-view datasets, due to their lack of sufficient 3D priors. Recently, the integration of Neural Radiance Fields (NeRFs) and generative models, such as Generative Adversarial Networks (GANs), has transformed 3D-aware generation from single-view images. NeRF-GANs exploit the strong inductive bias of 3D neural representations and volumetric rendering at the cost of higher computational complexity. This study aims at revisiting pose-conditioned 2D GANs for memory-efficient 3D-aware generation at inference time by distilling 3D knowledge from pretrained NeRF-GANS. We propose a simple and effective method, based on re-using the well-disentangled latent space of a pre-trained NeRF-GAN in a pose-conditioned convolutional network to directly generate 3D-consistent images corresponding to the underlying 3D representations. Experiments on several datasets demonstrate that the proposed method obtains results comparable with volumetric rendering in terms of quality and 3D consistency while benefiting from the superior computational advantage of convolutional networks. The code will be available at: https://github.com/mshahbazi72/NeRF-GAN-Distillation
翻訳日:2023-06-14 00:53:50 公開日:2023-06-12
# CLADE: 異方性医用画像の高分解能化のためのサイクル損失増強

CLADE: Cycle Loss Augmented Degradation Enhancement for Unpaired Super-Resolution of Anisotropic Medical Images ( http://arxiv.org/abs/2303.11831v2 )

ライセンス: Link先を確認
Michele Pascale, Vivek Muthurangu, Javier Montalt Tordera, Heather E Fitzke, Gauraang Bhatnagar, Stuart Taylor, Jennifer Steeden(参考訳) 3次元3Dイメージングは、完全な解剖学的カバレッジを通じて診断と疾患のモニタリングを可能にするため、医用画像では非常に人気がある。 CT法やMRI法は一般的に用いられているが, 薄いスライスを有する異方性体積はスキャン時間を短縮するために取得されることが多い。 深層学習(DL)は、超分解能再構成(SRR)により、低分解能次元の高分解能特徴を回復するために用いられる。 しかし、これは多くの医療応用では利用できないペアトレーニングデータに依存することが多い。 そこで本研究では, ネイティブな異方性3次元医用画像のみを必要とする新しいアプローチについて述べる。 この方法は、3次元ボリュームから抽出された小さな2次元パッチが、向きに関係なく、類似した視覚的特徴を含むという観察に依存している。 したがって、高分解能平面からの解離パッチを利用して、低分解能平面でSRRを学ぶことができる。 提案手法では,サイクル一貫性のある勾配マッピング損失:サイクル損失拡張分解促進(clade)を備えた修正サイクルガンアーキテクチャを用いる。 異方性3D腹部MRIにおけるCLADEの有用性について検討した。 CLADEは教師付き学習や従来のCycleGANアーキテクチャよりも優れた定量的画像品質を示す。 CLADEはまた、定性的画像ランキングと定量的エッジシャープネスと信号対雑音比の観点から、異方性ボリュームよりも改善されている。 本稿では, CLADEを用いた異方性3次元画像データの超高分解能再構成の可能性について述べる。

Three-dimensional (3D) imaging is extremely popular in medical imaging as it enables diagnosis and disease monitoring through complete anatomical coverage. Computed Tomography or Magnetic Resonance Imaging (MRI) techniques are commonly used, however, anisotropic volumes with thick slices are often acquired to reduce scan times. Deep learning (DL) can be used to recover high-resolution features in the low-resolution dimension through super-resolution reconstruction (SRR). However, this often relies on paired training data which is unavailable in many medical applications. We describe a novel approach that only requires native anisotropic 3D medical images for training. This method relies on the observation that small 2D patches extracted from a 3D volume contain similar visual features, irrespective of their orientation. Therefore, it is possible to leverage disjoint patches from the high-resolution plane, to learn SRR in the low-resolution plane. Our proposed unpaired approach uses a modified CycleGAN architecture with a cycle-consistent gradient mapping loss: Cycle Loss Augmented Degradation Enhancement (CLADE). We show the feasibility of CLADE in an exemplar application; anisotropic 3D abdominal MRI data. We demonstrate superior quantitative image quality with CLADE over supervised learning and conventional CycleGAN architectures. CLADE also shows improvements over anisotopic volumes in terms of qualitative image ranking and quantitative edge sharpness and signal-to-noise ratio. This paper demonstrates the potential of using CLADE for super-resolution reconstruction of anisotropic 3D medical imaging data without the need for paired training data.
翻訳日:2023-06-14 00:53:27 公開日:2023-06-12
# ソフトウェアエンジニアリング文書の処理の停止語: 重要か?

Stop Words for Processing Software Engineering Documents: Do they Matter? ( http://arxiv.org/abs/2303.10439v2 )

ライセンス: Link先を確認
Yaohou Fan and Chetan Arora and Christoph Treude(参考訳) 非予測的と考えられる停止語は、自然言語処理タスクでしばしば排除される。 しかし、非形式語彙の定義はあいまいであり、ほとんどのアルゴリズムは停止語を取り除くために一般的な知識に基づく停止リストを使用する。 特にドメイン固有の設定において、停止語除去の有用性について、学者の間で議論が続いている。 本研究では,ソフトウェア工学における停止語除去の有用性について検討する。 そのために、関連する作業から3つのソフトウェアエンジニアリング研究ツールを複製し、実験する。 さらに,10,000のスタックオーバーフロー質問からソフトウェア工学的ドメイン関連テキストのコーパスを構築し,従来の情報理論手法を用いて200のドメイン固有ストップワードを識別する。 その結果、ドメイン固有の停止語の使用により、一般的な停止語の使用と比較して研究ツールの性能が大幅に向上し、19項目中17項目がより良い性能を示した。 オンライン付録: https://zenodo.org/record/7865748

Stop words, which are considered non-predictive, are often eliminated in natural language processing tasks. However, the definition of uninformative vocabulary is vague, so most algorithms use general knowledge-based stop lists to remove stop words. There is an ongoing debate among academics about the usefulness of stop word elimination, especially in domain-specific settings. In this work, we investigate the usefulness of stop word removal in a software engineering context. To do this, we replicate and experiment with three software engineering research tools from related work. Additionally, we construct a corpus of software engineering domain-related text from 10,000 Stack Overflow questions and identify 200 domain-specific stop words using traditional information-theoretic methods. Our results show that the use of domain-specific stop words significantly improved the performance of research tools compared to the use of a general stop list and that 17 out of 19 evaluation measures showed better performance. Online appendix: https://zenodo.org/record/7865748
翻訳日:2023-06-14 00:52:37 公開日:2023-06-12
# ロバスト多相推定のための適応型低深さ量子アルゴリズムについて

On adaptive low-depth quantum algorithms for robust multiple-phase estimation ( http://arxiv.org/abs/2303.08099v3 )

ライセンス: Link先を確認
Haoya Li, Hongkang Ni, Lexing Ying(参考訳) 本稿では,複数の固有値を持つ量子位相推定のアルゴリズムによる検討を行う。 本稿では,ハイゼンベルク制限スケーリングを用いたロバスト多相推定(rmpe)アルゴリズムを提案する。 提案アルゴリズムは,信号処理ルーチンを慎重に設計し,実行時増幅係数を適応的に決定することで,単一位相推定法から大きく改善する。 それらは、ユニタリ $u$ が整数ランタイムのみアクセス可能なブラックボックスとして与えられる "em integer-power} モデルと、$u$ が$u = \exp(-2\pi\mathrm{i} h)$ によって定義される "em real-power} モデルの両方に対応している。 これらのアルゴリズムは初期のフォールトトレラント量子コンピュータに特に適しており、(1)極小のアンシラ量子ビットを使用し、(2)かなりの残差を持つ不完全な初期状態が許容され、(3)最大ランタイムにおけるプリファクターは、残差が十分小さく、支配的固有値間のギャップが事前に知られているため、任意に小さくすることができる。 固有値ギャップが存在しない場合でも、提案したRMPEアルゴリズムは(1)と(2)を維持しながらハイゼンベルク限界を達成することができる。

This paper is an algorithmic study of quantum phase estimation with multiple eigenvalues. We present robust multiple-phase estimation (RMPE) algorithms with Heisenberg-limited scaling. The proposed algorithms improve significantly from the idea of single-phase estimation methods by combining carefully designed signal processing routines and an adaptive determination of runtime amplifying factors. They address both the {\em integer-power} model, where the unitary $U$ is given as a black box with only integer runtime accessible, and the {\em real-power} model, where $U$ is defined through a Hamiltonian $H$ by $U = \exp(-2\pi\mathrm{i} H)$ with any real runtime allowed. These algorithms are particularly suitable for early fault-tolerant quantum computers in the following senses: (1) a minimal number of ancilla qubits are used, (2) an imperfect initial state with a significant residual is allowed, (3) the prefactor in the maximum runtime can be arbitrarily small given that the residual is sufficiently small and a gap among the dominant eigenvalues is known in advance. Even if the eigenvalue gap does not exist, the proposed RMPE algorithms can achieve the Heisenberg limit while maintaining (1) and (2).
翻訳日:2023-06-14 00:51:36 公開日:2023-06-12
# テキストベクトルのロバスト性について

On the Robustness of Text Vectorizers ( http://arxiv.org/abs/2303.07203v2 )

ライセンス: Link先を確認
R\'emi Catellier, Samuel Vaiter, Damien Garreau(参考訳) 機械学習の根本的な問題は、入力の変化に関してモデルの堅牢性である。 自然言語処理では、モデルは通常第一の埋め込み層を含み、トークンの列をベクトル表現に変換する。 連続入力の変化に対するロバスト性はよく理解されているが、例えば入力文で単語を別の単語に置き換えるなど、離散的な変化を考える場合の状況は明確ではない。 我々の研究は、連結、TF-IDF、パラグラフベクトル(別名 doc2vec)のような一般的な埋め込みスキームがハミング距離に関してH\"older あるいは Lipschitz の感覚において堅牢性を示すことを正式に証明している。 これらのスキームの定量的境界を提供し,関連する定数が文書の長さによってどのように影響を受けるかを示す。 これらの発見は一連の数値例を通して例示される。

A fundamental issue in machine learning is the robustness of the model with respect to changes in the input. In natural language processing, models typically contain a first embedding layer, transforming a sequence of tokens into vector representations. While the robustness with respect to changes of continuous inputs is well-understood, the situation is less clear when considering discrete changes, for instance replacing a word by another in an input sentence. Our work formally proves that popular embedding schemes, such as concatenation, TF-IDF, and Paragraph Vector (a.k.a. doc2vec), exhibit robustness in the H\"older or Lipschitz sense with respect to the Hamming distance. We provide quantitative bounds for these schemes and demonstrate how the constants involved are affected by the length of the document. These findings are exemplified through a series of numerical examples.
翻訳日:2023-06-14 00:51:10 公開日:2023-06-12
# FlexGen: 単一GPUを用いた大規模言語モデルの高速生成推論

FlexGen: High-Throughput Generative Inference of Large Language Models with a Single GPU ( http://arxiv.org/abs/2303.06865v2 )

ライセンス: Link先を確認
Ying Sheng, Lianmin Zheng, Binhang Yuan, Zhuohan Li, Max Ryabinin, Daniel Y. Fu, Zhiqiang Xie, Beidi Chen, Clark Barrett, Joseph E. Gonzalez, Percy Liang, Christopher R\'e, Ion Stoica, Ce Zhang(参考訳) 大規模言語モデル(LLM)の高計算およびメモリ要求により、複数のハイエンドアクセラレーターでのみ実現可能である。 本稿では,バッチ処理による遅延に敏感なタスクの需要が高まっている中で,単一のコモディティGPUなどの限られたリソースを用いた高スループットLPM推論の研究を開始する。 我々は、限られたGPUメモリでLLMを実行するための高スループット生成エンジンFlexGenを紹介する。 FlexGenは、GPU、CPU、ディスクからメモリと計算を集約することで、様々なハードウェアリソース制約の下で柔軟に設定できる。 線形プログラミング問題を解くことで、テンソルの保存とアクセスのための効率的なパターンを探索する。 flexgenはさらに、重みとアテンションキャッシュを4ビットに圧縮し、精度を損なう。 これらの技術によりflexgenはバッチサイズ選択のスペースを大きくし、最大スループットを大幅に増やすことができる。 その結果、単一の16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上し、1トークン/sの生成スループットが144倍に向上した。 HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。 コードはhttps://github.com/FMInference/FlexGenで入手できる。

The high computational and memory requirements of large language model (LLM) inference make it feasible only with multiple high-end accelerators. Motivated by the emerging demand for latency-insensitive tasks with batched processing, this paper initiates the study of high-throughput LLM inference using limited resources, such as a single commodity GPU. We present FlexGen, a high-throughput generation engine for running LLMs with limited GPU memory. FlexGen can be flexibly configured under various hardware resource constraints by aggregating memory and computation from the GPU, CPU, and disk. By solving a linear programming problem, it searches for efficient patterns to store and access tensors. FlexGen further compresses the weights and the attention cache to 4 bits with negligible accuracy loss. These techniques enable FlexGen to have a larger space of batch size choices and thus significantly increase maximum throughput. As a result, when running OPT-175B on a single 16GB GPU, FlexGen achieves significantly higher throughput compared to state-of-the-art offloading systems, reaching a generation throughput of 1 token/s for the first time with an effective batch size of 144. On the HELM benchmark, FlexGen can benchmark a 30B model with a 16GB GPU on 7 representative sub-scenarios in 21 hours. The code is available at https://github.com/FMInference/FlexGen
翻訳日:2023-06-14 00:50:54 公開日:2023-06-12
# ニューラルネットワークのインクリメンタル検証

Incremental Verification of Neural Networks ( http://arxiv.org/abs/2304.01874v2 )

ライセンス: Link先を確認
Shubham Ugare, Debangshu Banerjee, Sasa Misailovic, Gagandeep Singh(参考訳) ディープニューラルネットワーク(DNN)の完全検証は、DNNが望ましい信頼に値する特性(例えば、堅牢性、公正性)を無限の入力セットで満足するかどうかを正確に決定することができる。 個々のDNN上での長年にわたる完全検証のスケーラビリティ向上には大きな進歩があるが、その推論速度や精度を改善するためにデプロイされたDNNが更新されたとき、本質的に非効率である。 その非効率性は、高価な検証器を更新されたDNNでゼロから実行する必要があるためである。 効率を向上させるために,新しい理論,データ構造,アルゴリズムの設計に基づくインクリメンタルかつ完全なdnn検証のための新しい汎用フレームワークを提案する。 我々の貢献はIVANというツールに実装され、MNISTとCIFAR10の分類に挑戦する上での全体的な幾何平均スピードアップ2.4倍、最先端のベースライン上でのACAS-XU分類器の幾何平均スピードアップ3.8倍となる。

Complete verification of deep neural networks (DNNs) can exactly determine whether the DNN satisfies a desired trustworthy property (e.g., robustness, fairness) on an infinite set of inputs or not. Despite the tremendous progress to improve the scalability of complete verifiers over the years on individual DNNs, they are inherently inefficient when a deployed DNN is updated to improve its inference speed or accuracy. The inefficiency is because the expensive verifier needs to be run from scratch on the updated DNN. To improve efficiency, we propose a new, general framework for incremental and complete DNN verification based on the design of novel theory, data structure, and algorithms. Our contributions implemented in a tool named IVAN yield an overall geometric mean speedup of 2.4x for verifying challenging MNIST and CIFAR10 classifiers and a geometric mean speedup of 3.8x for the ACAS-XU classifiers over the state-of-the-art baselines.
翻訳日:2023-06-14 00:44:55 公開日:2023-06-12
# 量子論におけるリレーショナルシズムを超えて--量子論への新しい不確定性に基づくアプローチ

Beyond relationalism in quantum theory: A new indeterminacy-based approach to quantum theory ( http://arxiv.org/abs/2304.00608v4 )

ライセンス: Link先を確認
Francisco Pipa(参考訳) 物理学の基礎と哲学における受け入れられた見解は、ある隠れ変数を持つ補足量子論(QT)を拒絶し、ユニタリQTが正しいとみなすならば、QTに対するリレーショナルなアプローチを採用するべきであるというものである。 関係論的なアプローチは、例えば世界、システム、エージェント、参照フレームに測定結果を再相対化するビューである。 それは多世界解釈、関係量子力学、QBismを含んでいる。 これらのアプローチは、それらのリレーショナルな関係性に結びつく潜在的なコストを持つ。 したがって、QT に対する非リレーショナルな非隠れ変数の普遍的アプローチが存在するなら、真剣に取り組まなければならない。 環境ベース決定性(environmental-based determinacy-based or end quantum theory,endqt)と呼ばれる、リレーショナル主義や受け取られた見解を超えたアプローチを提示する。 EnDQTは、非隠れ変数の普遍QTを維持しながらリレーショナルではない不定値と決定値、および基礎となる量子特性のアカウントを構築することでリレーショナルを回避している。 EnDQTによると、関係論者が、拡張されたウィグナーの友人シナリオのような測定結果が相対化されると仮定する場合、決定的な結果ではなく、非関係的な不決定値を持つシステムが存在する。 このアプローチでは、特定のシステムを通じてある時点の値が発生し、特定のネットワークで表現された特定の相互作用を通じてその値が持続する。 これらのネットワークに属する他のシステム、例えば拡張ウィグナーの友人のシナリオにおける友人の研究室内部から隔離された場合、非関係的な値が内部で発生する。 本稿では,EnDQTを採用する他の独立した理由として,ベル相関の局所因果説明や,これらのネットワークに代表される新しい実証的ポジトリについて論じる。

The received view in foundations and philosophy of physics holds that if we reject supplementing quantum theory (QT) with certain hidden variables and consider that unitary QT is correct and universal, we should adopt a relationalist approach to QT. Relationalist approaches are views that relativize measurement outcomes to, for example, worlds, systems, agents, or reference frames. It includes the Many-Worlds Interpretation, Relational Quantum Mechanics, and QBism. These approaches have potential costs connected with their relationalism that make them unattractive. Thus, if there exists a non-relational non-hidden variable universal approach to QT, it should be taken seriously. I will present an approach of this kind called Environmental-based Determinacy-based or EnD Quantum Theory (EnDQT), which goes beyond relationalism and the received view. EnDQT circumvents relationalism by constructing an account of indeterminate and determinate values, and underlying quantum properties, that is not relational while maintaining unitary non-hidden variable universal QT. In situations where a relationalist assumes that measurement outcomes are relativized, such as in the extended Wigner's friend scenarios, according to EnDQT there aren't determinate outcomes but systems with non-relational indeterminate values. In this approach, determinate values arose at some point in time through certain systems and persist due to them via certain interactions represented by certain networks. When there is isolation from the rest of the systems that belong to these networks, such as inside the friend's lab in the extended Wigner's friend scenarios, indeterminate values non-relationally arise inside. I will discuss other independent good reasons for adopting EnDQT, including providing a local causal explanation for Bell correlations and novel empirical posits represented by these networks.
翻訳日:2023-06-14 00:44:09 公開日:2023-06-12
# 特権情報を用いた回帰における選択バイアスと欠落応答の補正

Correcting for Selection Bias and Missing Response in Regression using Privileged Information ( http://arxiv.org/abs/2303.16800v2 )

ライセンス: Link先を確認
Philip Boeken, Noud de Kroon, Mathijs de Jong, Joris M. Mooij, Onno Zoeter(参考訳) 回帰モデルを推定する場合、ラベルが欠落しているデータや、選択メカニズムに偏っているデータがあるかもしれません。 応答または選択機構が無視可能である場合(つまり、特徴が与えられた応答変数とは独立である)、オフ・ザ・シェルフ回帰法(英語版)を用いることができる。 我々は、特権情報(訓練中にのみ利用できる情報)が無視できない選択メカニズムを生じさせる可能性があることを観察し、このシナリオをPMAR(Privlegedly Missing at Random)と呼ぶ。 本稿では,pmarに適した新しい帰納的回帰法である反復回帰法を提案する。 また,重み付き回帰法と2つの組み合わせを二重に頑健に検討した。 提案手法は,最も一般的な回帰アルゴリズムを用いて容易に実装できる。 提案手法の性能をシミュレーション実験と合成拡張実世界データセットを用いて実験的に評価した。 繰り返しの回帰はバイアスに対して適切に正し、特に応答が観測されない特徴空間の領域を外挿する場合、重み付き回帰よりもかなりの利点があると結論づける。

When estimating a regression model, we might have data where some labels are missing, or our data might be biased by a selection mechanism. When the response or selection mechanism is ignorable (i.e., independent of the response variable given the features) one can use off-the-shelf regression methods; in the nonignorable case one typically has to adjust for bias. We observe that privileged information (i.e. information that is only available during training) might render a nonignorable selection mechanism ignorable, and we refer to this scenario as Privilegedly Missing at Random (PMAR). We propose a novel imputation-based regression method, named repeated regression, that is suitable for PMAR. We also consider an importance weighted regression method, and a doubly robust combination of the two. The proposed methods are easy to implement with most popular out-of-the-box regression algorithms. We empirically assess the performance of the proposed methods with extensive simulated experiments and on a synthetically augmented real-world dataset. We conclude that repeated regression can appropriately correct for bias, and can have considerable advantage over weighted regression, especially when extrapolating to regions of the feature space where response is never observed.
翻訳日:2023-06-14 00:43:26 公開日:2023-06-12
# 気象条件下におけるドメイン・インクリメンタルセマンティクスセグメンテーションにおける忘れ方原理

Principles of Forgetting in Domain-Incremental Semantic Segmentation in Adverse Weather Conditions ( http://arxiv.org/abs/2303.14115v2 )

ライセンス: Link先を確認
Tobias Kalb, J\"urgen Beyerer(参考訳) 自動運転車のシーン認識のためのディープニューラルネットワークは、訓練されたドメインに対して優れた結果をもたらす。 しかし,実世界の状況では,操作領域とその基礎となるデータ分布は変化する。 特に悪天候条件は、トレーニング中にデータが得られない場合、モデル性能を著しく低下させ、さらに、モデルが新しいドメインに段階的に適合すると、壊滅的な忘れがちとなり、以前観測された領域でパフォーマンスが大幅に低下する。 破滅的な忘れを減らそうとする最近の進歩にもかかわらず、その原因と効果はいまだに不明である。 そこで本研究では, 気象条件下でのドメインインクリメンタル学習において, 意味セグメンテーションモデルの表現がどう影響するかについて検討する。 実験と表現分析の結果,大惨な忘れはドメイン・インクリメンタル・ラーニングにおける低レベルな特徴の変化によって主に引き起こされ,事前学習と画像拡張によるソース・ドメイン上のより一般的な特徴の学習が,その後のタスクにおける効率的な機能の再利用につながることが示唆された。 これらの知見は,効果的な連続学習アルゴリズムのための一般化機能を促進する手法の重要性を強調した。

Deep neural networks for scene perception in automated vehicles achieve excellent results for the domains they were trained on. However, in real-world conditions, the domain of operation and its underlying data distribution are subject to change. Adverse weather conditions, in particular, can significantly decrease model performance when such data are not available during training.Additionally, when a model is incrementally adapted to a new domain, it suffers from catastrophic forgetting, causing a significant drop in performance on previously observed domains. Despite recent progress in reducing catastrophic forgetting, its causes and effects remain obscure. Therefore, we study how the representations of semantic segmentation models are affected during domain-incremental learning in adverse weather conditions. Our experiments and representational analyses indicate that catastrophic forgetting is primarily caused by changes to low-level features in domain-incremental learning and that learning more general features on the source domain using pre-training and image augmentations leads to efficient feature reuse in subsequent tasks, which drastically reduces catastrophic forgetting. These findings highlight the importance of methods that facilitate generalized features for effective continual learning algorithms.
翻訳日:2023-06-14 00:42:23 公開日:2023-06-12
# swissbert: スイスにおける多言語言語モデル

SwissBERT: The Multilingual Language Model for Switzerland ( http://arxiv.org/abs/2303.13310v2 )

ライセンス: Link先を確認
Jannis Vamvas and Johannes Gra\"en and Rico Sennrich(参考訳) スイス関連テキストの処理に特化したマスク付き言語モデルであるSwissBERTを提案する。 SwissBERTは事前訓練されたモデルで、スイス(ドイツ語、フランス語、イタリア語、ロマンシュ語)の国語で書かれたニュース記事に適用しました。 我々はスイスに関連する自然言語理解タスクについてSwissBERTを評価し、特に現代ニュース処理やロマンシュ・グリシュン処理において、これらのタスクにおける過去のモデルを上回る傾向にあることを示した。 SwissBERTは言語アダプターを使用しているため、将来の作業でスイスドイツ語の方言に拡張することができる。 モデルとオープンソースコードはhttps://github.com/ZurichNLP/swissbert.comで公開されています。

We present SwissBERT, a masked language model created specifically for processing Switzerland-related text. SwissBERT is a pre-trained model that we adapted to news articles written in the national languages of Switzerland -- German, French, Italian, and Romansh. We evaluate SwissBERT on natural language understanding tasks related to Switzerland and find that it tends to outperform previous models on these tasks, especially when processing contemporary news and/or Romansh Grischun. Since SwissBERT uses language adapters, it may be extended to Swiss German dialects in future work. The model and our open-source code are publicly released at https://github.com/ZurichNLP/swissbert.
翻訳日:2023-06-14 00:42:01 公開日:2023-06-12
# ロボット脳としてのLLM : エゴセントリック記憶と制御の統合

LLM as A Robotic Brain: Unifying Egocentric Memory and Control ( http://arxiv.org/abs/2304.09349v4 )

ライセンス: Link先を確認
Jinjie Mai, Jun Chen, Bing Li, Guocheng Qian, Mohamed Elhoseiny, Bernard Ghanem(参考訳) embodied aiは、物理的または仮想の体型(つまりロボット)を持ち、環境と動的に相互作用できるインテリジェントなシステムの研究と開発に焦点を当てている。 メモリと制御は、具体化されたシステムの2つの重要な部分であり、通常、それぞれをモデル化するために別々のフレームワークが必要です。 本稿では,ロボット脳として大規模言語モデルを用いて自己中心記憶と制御を統一する,llm-brainと呼ばれる新しい汎用フレームワークを提案する。 LLM-Brainフレームワークは、ゼロショット学習アプローチを利用して、ロボットタスクのための複数のマルチモーダル言語モデルを統合する。 LLM-Brain内の全てのコンポーネントは、認識、計画、制御、記憶を含む閉ループ多ラウンド対話において自然言語を用いて通信する。 システムのコアは、エゴセントリックメモリを維持し、ロボットを制御するための具体化されたllmである。 LLM-Brainは,アクティブ探索と具体的質問応答という,下流の2つの課題を調べることで実証する。 アクティブな探索タスクでは、ロボットは限られた数のアクションで未知の環境を広範囲に探索する必要がある。 一方、具体的質問応答タスクでは、ロボットが事前探索中に得られた観察に基づいて質問に答える必要がある。

Embodied AI focuses on the study and development of intelligent systems that possess a physical or virtual embodiment (i.e. robots) and are able to dynamically interact with their environment. Memory and control are the two essential parts of an embodied system and usually require separate frameworks to model each of them. In this paper, we propose a novel and generalizable framework called LLM-Brain: using Large-scale Language Model as a robotic brain to unify egocentric memory and control. The LLM-Brain framework integrates multiple multimodal language models for robotic tasks, utilizing a zero-shot learning approach. All components within LLM-Brain communicate using natural language in closed-loop multi-round dialogues that encompass perception, planning, control, and memory. The core of the system is an embodied LLM to maintain egocentric memory and control the robot. We demonstrate LLM-Brain by examining two downstream tasks: active exploration and embodied question answering. The active exploration tasks require the robot to extensively explore an unknown environment within a limited number of actions. Meanwhile, the embodied question answering tasks necessitate that the robot answers questions based on observations acquired during prior explorations.
翻訳日:2023-06-14 00:33:52 公開日:2023-06-12
# エネルギー誘導型エントロピー神経輸送

Energy-guided Entropic Neural Optimal Transport ( http://arxiv.org/abs/2304.06094v2 )

ライセンス: Link先を確認
Petr Mokrov and Alexander Korotin and Alexander Kolesov and Nikita Gushchin and Evgeny Burnaev(参考訳) エネルギーベースモデル(EBM)は、機械学習コミュニティで数十年にわたって知られている。 エネルギポテンシャル(英語版) (unnormalized chance function) を用いて生成的モデリング問題を解決する効率的な方法が数多く現れている。 対照的に、オプティマルトランスポート(OT)と特にニューラルOTソルバの領域は、最近のいくつかの研究(ロス関数としてOTを応用し、OTマップ自体をモデル化しないWGANベースのアプローチを除く)により、明らかに研究され、制限されている。 本研究では,EBMとEntropy-regularized OTのギャップを埋める。 本稿では,前者の最近の発展と技術的改善を活かし,後者を豊かにするための新しい手法を提案する。 理論的観点から、我々のアプローチの一般化境界を証明する。 実際、おもちゃの2dシナリオや、画像から画像への標準的な変換問題に対する適用性を検証する。 簡単なこととして、我々はEnergy-guided Entropic OT 法のバックボーンとして単純な長寿命 EBM を選択し、将来の研究にもっと洗練された EBM を応用した。

Energy-Based Models (EBMs) are known in the Machine Learning community for decades. Since the seminal works devoted to EBMs dating back to the noughties there have been appearing a lot of efficient methods which solve the generative modelling problem by means of energy potentials (unnormalized likelihood functions). In contrast, the realm of Optimal Transport (OT) and, in particular, neural OT solvers is much less explored and limited by few recent works (excluding WGAN based approaches which utilize OT as a loss function and do not model OT maps themselves). In our work, we bridge the gap between EBMs and Entropy-regularized OT. We present the novel methodology which allows utilizing the recent developments and technical improvements of the former in order to enrich the latter. From the theoretical perspectives, we prove generalization bounds for our approach. In practice, we validate its applicability on toy 2D scenarios as well as standard unpaired image-to-image translation problems. For simplicity, we choose simple long-run EBMs as a backbone of our Energy-guided Entropic OT method, leaving the application of more sophisticated EBMs for future research.
翻訳日:2023-06-14 00:31:40 公開日:2023-06-12
# 暗黙的表現を用いた回転および変換不変表現学習

Rotation and Translation Invariant Representation Learning with Implicit Neural Representations ( http://arxiv.org/abs/2304.13995v2 )

ライセンス: Link先を確認
Sehyun Kwon, Joo Young Choi, Ernest K. Ryu(参考訳) 多くのコンピュータビジョンアプリケーションでは、画像は任意またはランダムな回転と変換で取得され、そのような設定では、画像の向きから切り離された意味表現を得ることが望ましい。 そのような応用例としては、半導体ウェハ欠陥検査、プランクトン顕微鏡像、単結晶電子顕微鏡(cryo-EM)マイクログラフの推測がある。 Invariant Representation Learning with Implicit Neural Representation (IRL-INR) は、暗黙的ニューラル表現(INR)とハイパーネットワークを用いて、画像の向きから切り離された意味表現を得る。 IRL-INRは,従来検討されていたものと比較して,より複雑な画像上の不整合セマンティック表現を効果的に学習できることを示し,これらのセマンティック表現がSCANとうまく相乗して,最先端の教師なしクラスタリング結果を生成することを示す。

In many computer vision applications, images are acquired with arbitrary or random rotations and translations, and in such setups, it is desirable to obtain semantic representations disentangled from the image orientation. Examples of such applications include semiconductor wafer defect inspection, plankton microscope images, and inference on single-particle cryo-electron microscopy (cryo-EM) micro-graphs. In this work, we propose Invariant Representation Learning with Implicit Neural Representation (IRL-INR), which uses an implicit neural representation (INR) with a hypernetwork to obtain semantic representations disentangled from the orientation of the image. We show that IRL-INR can effectively learn disentangled semantic representations on more complex images compared to those considered in prior works and show that these semantic representations synergize well with SCAN to produce state-of-the-art unsupervised clustering results.
翻訳日:2023-06-14 00:23:48 公開日:2023-06-12
# 授業におけるパワフルな大規模AIモデルの適用に向けて--機会と課題と展望

Towards Applying Powerful Large AI Models in Classroom Teaching: Opportunities, Challenges and Prospects ( http://arxiv.org/abs/2305.03433v2 )

ライセンス: Link先を確認
Kehui Tan, Tianqi Pang, Chenyou Fan and Song Yu(参考訳) 本稿では,対話型自動補完,知識とスタイルの伝達,AI生成コンテンツの評価など,人工知能(AI)を利用した授業内容の充実を図った対話型シナリオを提案する。 近年のLarge Language Models (LLMs) の発展を活用して,教師と学生の対話を増強・強化し,教育の質を向上させるAIの可能性を探る。 私たちのゴールは、教師と学生の間で革新的な有意義な会話を創造し、評価基準を作成し、AI教育イニシアチブの有効性を改善することです。 第3節では、既存のLCMを活用して教育タスクを効果的に完了させることの課題について論じ、多様な教育データセットに対処し、長い会話を処理し、より下流のタスクをよりよく達成するために情報を凝縮するための統一的な枠組みを提示する。 第4節では、教師-学生対話オートコンプリート、エキスパート・ラーニング・ナレッジ、スタイル・トランスファー、AIGC(AI-Generated Content)などのピボットタスクを要約し、今後の研究の道筋を明らかにする。 第5節では、人道支援と強化学習を通じて生成されたコンテンツを改善するために、外部および調整可能なLCMの使用についても検討する。 最終的に本稿は、AIが教育分野を支援し、さらなる探索を促進する可能性を明らかにすることを目的とする。

This perspective paper proposes a series of interactive scenarios that utilize Artificial Intelligence (AI) to enhance classroom teaching, such as dialogue auto-completion, knowledge and style transfer, and assessment of AI-generated content. By leveraging recent developments in Large Language Models (LLMs), we explore the potential of AI to augment and enrich teacher-student dialogues and improve the quality of teaching. Our goal is to produce innovative and meaningful conversations between teachers and students, create standards for evaluation, and improve the efficacy of AI-for-Education initiatives. In Section 3, we discuss the challenges of utilizing existing LLMs to effectively complete the educated tasks and present a unified framework for addressing diverse education dataset, processing lengthy conversations, and condensing information to better accomplish more downstream tasks. In Section 4, we summarize the pivoting tasks including Teacher-Student Dialogue Auto-Completion, Expert Teaching Knowledge and Style Transfer, and Assessment of AI-Generated Content (AIGC), providing a clear path for future research. In Section 5, we also explore the use of external and adjustable LLMs to improve the generated content through human-in-the-loop supervision and reinforcement learning. Ultimately, this paper seeks to highlight the potential for AI to aid the field of education and promote its further exploration.
翻訳日:2023-06-14 00:13:18 公開日:2023-06-12
# 言語、時間選好、消費者行動:大規模言語モデルからの証拠

Language, Time Preferences, and Consumer Behavior: Evidence from Large Language Models ( http://arxiv.org/abs/2305.02531v2 )

ライセンス: Link先を確認
Ali Goli, Amandeep Singh(参考訳) 言語は時間と報酬に対する認識に強い影響を与えます。 これは、大きな言語モデルが、異なる言語で尋ねられると、時間とともに報酬に対する異なる好みを示し、その選択が人間のものと似ているかどうかという疑問を提起する。 本研究では,複数の言語におけるプロンプトに対するgpt-3.5(以下gptと呼ぶ)の反応を分析し,より小さく,より早い報酬とより大きな後続報酬の選好について検討した。 以上の結果から, GPTはドイツ語やマンダリンなどの言語において, 英語やフランス語のような強いFTRを持つ言語と比較して, FTRが弱い言語において, より忍耐力を示すことが示された。 これらの知見は既存の文献と一致しており、GPTの選択と話者の好みの相関関係が示唆されている。 しかし、さらなる分析により、早期または後期の報酬の選好は、報酬ギャップによって体系的に変化せず、早期の支払いに対する語彙選好を示すことが明らかとなった。 GPTは言語間の興味深いバリエーションを捉えることができるが、これらのモデルによる選択は人間の意思決定者とは一致しない。

Language has a strong influence on our perceptions of time and rewards. This raises the question of whether large language models, when asked in different languages, show different preferences for rewards over time and if their choices are similar to those of humans. In this study, we analyze the responses of GPT-3.5 (hereafter referred to as GPT) to prompts in multiple languages, exploring preferences between smaller, sooner rewards and larger, later rewards. Our results show that GPT displays greater patience when prompted in languages with weak future tense references (FTR), such as German and Mandarin, compared to languages with strong FTR, like English and French. These findings are consistent with existing literature and suggest a correlation between GPT's choices and the preferences of speakers of these languages. However, further analysis reveals that the preference for earlier or later rewards does not systematically change with reward gaps, indicating a lexicographic preference for earlier payments. While GPT may capture intriguing variations across languages, our findings indicate that the choices made by these models do not correspond to those of human decision-makers.
翻訳日:2023-06-14 00:12:52 公開日:2023-06-12
# ChatGPTで生成されたコードは本当に正しいか? コード生成のための大規模言語モデルの厳密な評価

Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code Generation ( http://arxiv.org/abs/2305.01210v2 )

ライセンス: Link先を確認
Jiawei Liu and Chunqiu Steven Xia and Yuyao Wang and Lingming Zhang(参考訳) プログラム合成は、コードを生成するためにLLM(Large Language Models)の力を直接利用することに焦点を当てた最近のアプローチで長い間研究されてきた。 コード合成における様々なllmのパフォーマンスを測定するために、キュレートされた合成問題とテストケースを伴うプログラミングベンチマークが使用される。 しかし、これらのテストケースは、生成されたコードの機能的正確性を完全に評価するために、量と品質の両方で制限することができる。 LLMの時代、生成されたコードは本当に正しいのでしょうか? そこで我々は,LLM合成コードの機能的正しさを厳格に評価するコード合成ベンチマークフレームワークであるEvalPlusを提案する。 EvalPlusは、LLMと突然変異ベースの戦略を駆使した自動テスト入力ジェネレータによって新たに生成された大量のテストケースで、所定の評価データセットを拡張している。 EvalPlusは一般的なものであるが、人気のあるHUMANEVALベンチマークのテストケースを81倍拡張してHUMANEVAL+を構築する。 19の人気のあるLCM(例えば GPT-4 や ChatGPT)で広く評価した結果、HUMANEVAL+ は LLMs が生成した未検出の誤りコードを大量に取得でき、平均 13.6-15.3% のパスを削減できた。 我々の研究は、従来の一般的なコード合成評価結果が、コード合成のためのLLMの真の性能を正確に反映しているだけでなく、自動テストによってそのようなベンチマークを改善するための新たな方向性も示している。

Program synthesis has been long studied with recent approaches focused on directly using the power of Large Language Models (LLMs) to generate code. Programming benchmarks, with curated synthesis problems and test-cases, are used to measure the performance of various LLMs on code synthesis. However, these test-cases can be limited in both quantity and quality for fully assessing the functional correctness of the generated code. Such limitation in the existing benchmarks begs the following question: In the era of LLMs, is the code generated really correct? To answer this, we propose EvalPlus -- a code synthesis benchmarking framework to rigorously evaluate the functional correctness of LLM-synthesized code. EvalPlus augments a given evaluation dataset with large amounts of test-cases newly produced by an automatic test input generator, powered by both LLM- and mutation-based strategies. While EvalPlus is general, we extend the test-cases of the popular HUMANEVAL benchmark by 81x to build HUMANEVAL+. Our extensive evaluation across 19 popular LLMs (e.g., GPT-4 and ChatGPT) demonstrates that HUMANEVAL+ is able to catch significant amounts of previously undetected wrong code synthesized by LLMs, reducing the pass@k by 13.6-15.3% on average. Our work not only indicates that prior popular code synthesis evaluation results do not accurately reflect the true performance of LLMs for code synthesis, but also opens up a new direction to improve such programming benchmarks through automated testing.
翻訳日:2023-06-14 00:11:56 公開日:2023-06-12
# 生存分析のための適切なスコアリングルール

Proper Scoring Rules for Survival Analysis ( http://arxiv.org/abs/2305.00621v3 )

ライセンス: Link先を確認
Hiroki Yanagisawa(参考訳) 生存分析は、将来の事象の確率分布を推定する問題であり、不確実な定量化の問題と見なすことができる。 不確実性定量化のための厳密なスコアリングルールに関する基本的な理論は存在するが、サバイバル分析についてはほとんど知られていない。 本稿では, 生存分析のための4つの主要な厳密なスコアリングルールの拡張について検討し, 確率分布の推定の離散化から生じる一定の条件下では, これらの拡張が適切であることを証明した。 また,これら拡張スコアルールの推定性能を実データを用いて比較し,対数スコアとブライアスコアの拡張が最良であった。

Survival analysis is the problem of estimating probability distributions for future event times, which can be seen as a problem in uncertainty quantification. Although there are fundamental theories on strictly proper scoring rules for uncertainty quantification, little is known about those for survival analysis. In this paper, we investigate extensions of four major strictly proper scoring rules for survival analysis and we prove that these extensions are proper under certain conditions, which arise from the discretization of the estimation of probability distributions. We also compare the estimation performances of these extended scoring rules by using real datasets, and the extensions of the logarithmic score and the Brier score performed the best.
翻訳日:2023-06-14 00:11:26 公開日:2023-06-12
# VideoFactory:テキスト対ビデオ生成のための時空間拡散におけるスワップアテンション

VideoFactory: Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation ( http://arxiv.org/abs/2305.10874v2 )

ライセンス: Link先を確認
Wenjing Wang, Huan Yang, Zixi Tuo, Huiguo He, Junchen Zhu, Jianlong Fu, Jiaying Liu(参考訳) 我々は,高品質なオープンドメインビデオを生成するための革新的なフレームワークであるvideofactoryを提案する。 VideoFactoryは、ハイデフィニション(1376x768)、ワイドスクリーン(16:9)の動画を透かしなしで制作し、魅力的なユーザー体験を生み出している。 テキスト指示によるビデオの生成は、空間と時間の間の複雑な関係のモデル化や、大規模なテキストビデオ対データの欠如など、大きな課題を提起する。 前回のアプローチでは、ビデオ生成に時間的1次元畳み込み/アテンションモジュールを追加することで、事前学習されたテキストから画像への生成モデルを拡張する。 しかし、これらのアプローチは空間と時間の共同モデリングの重要性を軽視し、必然的に時間的歪みやテキストとビデオ間の不一致につながる。 本稿では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。 特に,空間ブロックと時間ブロック間の"クエリ"ロールを交換し,相互強化を可能にする3dウィンドウのクロスアテンション機構を利用する。 高品質のビデオ生成のためのモデル機能を完全にアンロックするために,HD-VG-130Mと呼ばれる大規模ビデオデータセットをキュレートする。 このデータセットはオープンドメインから1億3000万のテキストビデオペアで構成され、高解像度、ワイドスクリーン、透かしのない文字を保証する。 客観的指標とユーザスタディは,フレーム毎の品質,時間相関,テキスト・ビデオのアライメントにおいて,明確なマージンで,このアプローチが優れていることを示している。

We present VideoFactory, an innovative framework for generating high-quality open-domain videos. VideoFactory excels in producing high-definition (1376x768), widescreen (16:9) videos without watermarks, creating an engaging user experience. Generating videos guided by text instructions poses significant challenges, such as modeling the complex relationship between space and time, and the lack of large-scale text-video paired data. Previous approaches extend pretrained text-to-image generation models by adding temporal 1D convolution/attention modules for video generation. However, these approaches overlook the importance of jointly modeling space and time, inevitably leading to temporal distortions and misalignment between texts and videos. In this paper, we propose a novel approach that strengthens the interaction between spatial and temporal perceptions. In particular, we utilize a swapped cross-attention mechanism in 3D windows that alternates the "query" role between spatial and temporal blocks, enabling mutual reinforcement for each other. To fully unlock model capabilities for high-quality video generation, we curate a large-scale video dataset called HD-VG-130M. This dataset comprises 130 million text-video pairs from the open-domain, ensuring high-definition, widescreen and watermark-free characters. Objective metrics and user studies demonstrate the superiority of our approach in terms of per-frame quality, temporal correlation, and text-video alignment, with clear margins.
翻訳日:2023-06-14 00:05:57 公開日:2023-06-12
# 量子力学の6つの計測問題

Six Measurement Problems of Quantum Mechanics ( http://arxiv.org/abs/2305.10206v2 )

ライセンス: Link先を確認
F.A. Muller(参考訳) 悪名高い「測定問題」は、その始まりから約1世紀にわたって量子力学の周りを動き回り、それを回避しようとする量子力学の様々な「解釈」を生み出してきた。 我々は6つ以上の問題を区別する必要があると論じ、そのうちのいくつかは異なるタイプの問題を分類している。 その1つは、伝統的に「測定問題」と呼ばれるもの(以下、測定結果の現実問題)である。 そのうちの1つは測定とは無関係であるが、深遠なメタ物理問題である。 また、Maudlin (1995) の「3つの測定問題」の有名な記述と、Brown (1986) と Stein (1997) の6つの測定問題のうちの1つに対する見解の衝突を、いわゆる可溶性定理に関する批判的に分析した。 最後に, ほとんど無視されているが, 明確には認められていないような, 一つの測定問題に対する解を要約する。

The notorious `measurement problem' has been roving around quantum mechanics for nearly a century since its inception, and has given rise to a variety of `interpretations' of quantum mechanics, which are meant to evade it. We argue that no less than six problems need to be distinguished, and that several of them classify as different types of problems. One of them is what traditionally is called `the measurement problem' (here: the Reality Problem of Measurement Outcomes). Another of them has nothing to do with measurements but is a profound metaphysical problem. We also analyse critically Maudlin's (1995) well-known statement of `three measurements problems', and the clash of the views of Brown (1986) and Stein (1997) on one of the six measurement problems, concerning so-called Insolubility Theorems. Finally, we summarise a solution to one measurement problem which has been largely ignored but tacitly if not explicitly acknowledged.
翻訳日:2023-06-14 00:04:47 公開日:2023-06-12
# バイアスのエコー: 言語のスティグマティクスがAIのパフォーマンスに与える影響

Echoes of Biases: How Stigmatizing Language Affects AI Performance ( http://arxiv.org/abs/2305.10201v4 )

ライセンス: Link先を確認
Yizhi Liu, Weiguang Wang, Guodong Gordon Gao, Ritu Agarwal(参考訳) EHR(Electronic Health Record)は、医療におけるAI(AI)主導の変革に必要なデータソースとして機能する。 しかし、EHRノートに反映された臨床バイアスは、これらのバイアスを継承し増幅し、健康格差を持続させるAIモデルにつながる可能性がある。 本研究では,変圧器を用いた深層学習モデルと説明可能なAI(XAI)技術を用いた死亡予測における音声合成言語(SL)の影響について検討した。 以上の結果から,臨床医が作成したSLは,特に黒人患者に対して,AIモデル開発における人種格差の源泉として,AIのパフォーマンスに悪影響を及ぼすことが明らかとなった。 SLの効果を緩和するための運用的に効率的な方法を探るため,臨床医の協調ネットワークを通じてSLの生成パターンを調査し,AIモデルにおける人種格差に強い影響を与えると認識した。 中央臨床医によるSLの除去は,全データのSLを除去するよりも,より効率的なバイアス低減戦略であることがわかった。 本研究は,責任あるai開発に有効な洞察を提供し,臨床行動の理解と,ehr note writing in healthcareに寄与する。

Electronic health records (EHRs) serve as an essential data source for the envisioned artificial intelligence (AI)-driven transformation in healthcare. However, clinician biases reflected in EHR notes can lead to AI models inheriting and amplifying these biases, perpetuating health disparities. This study investigates the impact of stigmatizing language (SL) in EHR notes on mortality prediction using a Transformer-based deep learning model and explainable AI (XAI) techniques. Our findings demonstrate that SL written by clinicians adversely affects AI performance, particularly so for black patients, highlighting SL as a source of racial disparity in AI model development. To explore an operationally efficient way to mitigate SL's impact, we investigate patterns in the generation of SL through a clinicians' collaborative network, identifying central clinicians as having a stronger impact on racial disparity in the AI model. We find that removing SL written by central clinicians is a more efficient bias reduction strategy than eliminating all SL in the entire corpus of data. This study provides actionable insights for responsible AI development and contributes to understanding clinician behavior and EHR note writing in healthcare.
翻訳日:2023-06-14 00:04:28 公開日:2023-06-12
# NISQはどこへ向かっていますか。

Where are we heading with NISQ? ( http://arxiv.org/abs/2305.09518v3 )

ライセンス: Link先を確認
Olivier Ezratty(参考訳) 2017年、ジョン・プレスキル(John Preskill)は、NISQ(Noisy Intermediate Scale Quantum)コンピュータを大規模なエラー修正故障耐性量子コンピュータ(FTQC)への中間ステップとして定義した。 NISQレシエーションは、従来のスーパーコンピュータよりも高速な商用価値の実際の問題を解決する可能性を持つノイズの多い量子コンピュータに対応している。 5年以上経った今、状況を見直すのがよい時期だ。 量子ハードウェアとアルゴリズム、そして最近の多くの実験的なデモで急速に進歩している一方で、NISQの当初の定義に合致したユースケースの実装は成功していない。 本稿は, NISQアルゴリズムの空間, 忠実度, 時間的資源について検討し, NISQ要求と現実, 将来の量子ハードウェア機能との矛盾点を強調した。 次に、量子ビットフィデリティの改善、様々な種類の量子エラー緩和方法、アナログ/デジタルハイブリッド化、マルチモード光子のような特定の量子ビットタイプ、および量子アンネラやアナログ量子コンピュータ(量子シミュレータやプログラム可能なハミルトンシミュレータ)など、有用なアプリケーションを提供するのに近づきつつある。 これらのさまざまなソリューションのすべての制約を考えると、nisqシステムの実用的なユースケースを期待することは可能だが、さまざまなスケーリング問題が現れる前には、非常に狭いウィンドウがある。 将来的には、nisqがftqcへの道の中間的なステップであるとは限らない、というシナリオを想定できる。 その代わり、両者は異なる要求によって異なる経路に沿って発展する可能性がある。 このことは、将来の量子コンピュータ設計において、量子ビットスケールと量子ビットフィリティの間のトレードオフについて重要な疑問を提起する。

In 2017, John Preskill defined Noisy Intermediate Scale Quantum (NISQ) computers as an intermediate step on the road to large scale error corrected fault-tolerant quantum computers (FTQC). The NISQ regime corresponds to noisy qubit quantum computers with the potential to solve actual problems of some commercial value faster than conventional supercomputers, or consuming less energy. Over five years on, it is a good time to review the situation. While rapid progress is being made with quantum hardware and algorithms, and many recent experimental demonstrations, no one has yet successfully implemented a use case matching the original definition of the NISQ regime. This paper investigates the space, fidelity and time resources of various NISQ algorithms and highlights several contradictions between NISQ requirements and actual as well as future quantum hardware capabilities. It then covers various techniques which could help like qubit fidelities improvements, various breeds of quantum error mitigation methods, analog/digital hybridization, using specific qubit types like multimode photons as well as quantum annealers and analog quantum computers (aka quantum simulators or programmable Hamiltonian simulators) which seem closer to delivering useful applications although they have their own mid to longer-term scalability challenges. Given all the constraints of these various solutions, it seems possible to expect some practical use cases for NISQ systems, but with a very narrow window before various scaling issues show up. Turning to the future, a scenario can be envisioned where NISQ will not necessarily be an intermediate step on the road to FTQC. Instead, the two may develop along different paths, due to their different requirements. This leaves open a key question on the trade-offs that may be necessary to make between qubit scale and qubit fidelities in future quantum computers designs.
翻訳日:2023-06-14 00:03:51 公開日:2023-06-12
# 検証可能性の探索:AIが修正した意思決定における補足的性能の低い説明

In Search of Verifiability: Explanations Rarely Enable Complementary Performance in AI-Advised Decision Making ( http://arxiv.org/abs/2305.07722v3 )

ライセンス: Link先を確認
Raymond Fok, Daniel S. Weld(参考訳) AIが推奨する意思決定に関する現在の文献 - 人間の意思決定を助言する説明可能なAIシステムを含む - は、一連の不決定かつ不確定な結果を提示している。 そこで本研究では,ai説明の失敗頻度を,適切な信頼度と相補的な意思決定性能に反映させる単純な理論を提案する。 説明は、人間の意思決定者がAIの予測の正しさを検証できる範囲でのみ有用である、と我々は主張する。 以前の研究では、多くの意思決定コンテキストにおいて、AIの説明はそのような検証を促進するものではない。 さらに、ほとんどのタスクは、説明方法にかかわらず、基本的には簡単な検証を許さず、あらゆる種類の説明の潜在的な利益を制限する。 また、補完性能の目的と適切な依存度を比較し、後者を結果段階と戦略段階の信頼度の概念に分解する。

The current literature on AI-advised decision making -- involving explainable AI systems advising human decision makers -- presents a series of inconclusive and confounding results. To synthesize these findings, we propose a simple theory that elucidates the frequent failure of AI explanations to engender appropriate reliance and complementary decision making performance. We argue explanations are only useful to the extent that they allow a human decision maker to verify the correctness of an AI's prediction, in contrast to other desiderata, e.g., interpretability or spelling out the AI's reasoning process. Prior studies find in many decision making contexts AI explanations do not facilitate such verification. Moreover, most tasks fundamentally do not allow easy verification, regardless of explanation method, limiting the potential benefit of any type of explanation. We also compare the objective of complementary performance with that of appropriate reliance, decomposing the latter into the notions of outcome-graded and strategy-graded reliance.
翻訳日:2023-06-14 00:02:53 公開日:2023-06-12
# FSD:ニューラルアーキテクチャサーチによる完全特殊化検出器

FSD: Fully-Specialized Detector via Neural Architecture Search ( http://arxiv.org/abs/2305.16649v3 )

ライセンス: Link先を確認
Zhe Huang and Yudian Li(参考訳) ほとんどのジェネリックオブジェクト検出器は、COCOやPASCAL VOCのような標準オブジェクト検出タスクのために構築されている。 標準的なデータセットと視覚的に異なるイメージからなる他のドメインのタスクでは、うまく動作せず、効率的に動作しないかもしれない。 この目的のために、ドメイン固有の設計に制限のある汎用オブジェクト検出器の適応に多くの進歩が注がれている。 しかし、成功したタスク特異的検出器の設計には、試行錯誤による余計な手動実験とパラメータチューニングが必要となる。 本稿では,バックボーンとタスク固有頭部上の理想的なネットワーク構造を探索することにより,主に神経構造探索モデルを含む完全特殊化検出器(FSD)を設計するための完全自動パイプラインを提案し,検討する。 DeepLesionデータセットでは、FSDは2次病変検出タスクのパラメータを約40%削減しつつ3.1mAPのゲインを達成でき、既存の汎用医学的病変検出ネットワークと比較して、領域認識グラフモデリングによる多型病変検出タスクでは約10%改善した。

Most generic object detectors are mainly built for standard object detection tasks such as COCO and PASCAL VOC. They might not work well and/or efficiently on tasks of other domains consisting of images that are visually different from standard datasets. To this end, many advances have been focused on adapting a general-purposed object detector with limited domain-specific designs. However, designing a successful task-specific detector requires extraneous manual experiments and parameter tuning through trial and error. In this paper, we first propose and examine a fully-automatic pipeline to design a fully-specialized detector (FSD) which mainly incorporates a neural-architectural-searched model by exploring ideal network structures over the backbone and task-specific head. On the DeepLesion dataset, extensive results show that FSD can achieve 3.1 mAP gain while using approximately 40% fewer parameters on binary lesion detection task and improved the mAP by around 10% on multi-type lesion detection task via our region-aware graph modeling compared with existing general-purposed medical lesion detection networks.
翻訳日:2023-06-13 23:55:29 公開日:2023-06-12
# Black-Box vs. Gray-Box: スピンと衝撃によるテーブルテニス球軌道予測の学習事例

Black-Box vs. Gray-Box: A Case Study on Learning Table Tennis Ball Trajectory Prediction with Spin and Impacts ( http://arxiv.org/abs/2305.15189v2 )

ライセンス: Link先を確認
Jan Achterhold, Philip Tobuschat, Hao Ma, Dieter Buechler, Michael Muehlebach, Joerg Stueckler(参考訳) 本稿では,卓球軌道のフィルタリングと予測を行う手法を提案する。 グレーボックスのアプローチは物理モデルに基づいています。 同時に、我々はデータを使用して、ダイナミックスモデルのパラメータ、拡張カルマンフィルタ、およびボールの初期状態を予測するニューラルモデルのパラメータを学習する。 我々は,2つのブラックボックスアプローチにおいて,物理的事前知識が提供されていないアプローチよりも優れた予測性能を示す。 ニューラルネットワークを用いてボールランチャーのパラメータからスピンを初期化すると、計測されたボールの位置からスピンを推定するよりも、長時間の予測性能が劇的に向上することを示す。 ボール軌道の正確な予測は、成功するリターンには不可欠である。 そこで, 空気圧型人工筋肉ロボットによるリターン性能の評価を行い, リターン率を29/30 (97.7%) とした。

In this paper, we present a method for table tennis ball trajectory filtering and prediction. Our gray-box approach builds on a physical model. At the same time, we use data to learn parameters of the dynamics model, of an extended Kalman filter, and of a neural model that infers the ball's initial condition. We demonstrate superior prediction performance of our approach over two black-box approaches, which are not supplied with physical prior knowledge. We demonstrate that initializing the spin from parameters of the ball launcher using a neural network drastically improves long-time prediction performance over estimating the spin purely from measured ball positions. An accurate prediction of the ball trajectory is crucial for successful returns. We therefore evaluate the return performance with a pneumatic artificial muscular robot and achieve a return rate of 29/30 (97.7%).
翻訳日:2023-06-13 23:54:20 公開日:2023-06-12
# 爆発(ファジィ)テストケースによるプログラム理解

Understanding Programs by Exploiting (Fuzzing) Test Cases ( http://arxiv.org/abs/2305.13592v2 )

ライセンス: Link先を確認
Jianyu Zhao and Yuyang Rong and Yiwen Guo and Yifeng He and Hao Chen(参考訳) プログラムの意味理解はコミュニティに大きな注目を集めている。 自然言語理解における大規模言語モデル(LLM)の最近の成功に触発されて、プログラミング言語を別の自然言語として扱い、プログラムコードのコーパス上でLLMを訓練することで大きな進歩を遂げた。 しかし、プログラムは基本的にはテキストと異なり、通常は重く構造化され、構文に制約がある。 特に、プログラムとその基本ユニット(関数とサブルーチン)は、様々な動作を示し、異なる入力を与えられた出力を提供するように設計されている。 入力と出力/振る舞いの関係は関数/サブルーチンを表し、プログラム全体をプロファイルする。 そこで,このような関係を学習に取り入れ,プログラムの意味理解の深化を図ることを提案する。 コードの大部分の実行をトリガーするのに十分なインプットを得るためには、fuzzテストとfuzzチューニングを提案し、事前訓練されたllmを与えられたプログラム理解とコード表現学習のパフォーマンスを向上させる。 提案手法の有効性は,コードクローン検出とコード分類を含む2つのプログラム理解課題において検証され,現状よりも大きなマージンで評価された。 コードはhttps://github.com/rabbitjy/fuzztuningで入手できる。

Semantic understanding of programs has attracted great attention in the community. Inspired by recent successes of large language models (LLMs) in natural language understanding, tremendous progress has been made by treating programming language as another sort of natural language and training LLMs on corpora of program code. However, programs are essentially different from texts after all, in a sense that they are normally heavily structured and syntax-strict. In particular, programs and their basic units (i.e., functions and subroutines) are designed to demonstrate a variety of behaviors and/or provide possible outputs, given different inputs. The relationship between inputs and possible outputs/behaviors represents the functions/subroutines and profiles the program as a whole. Therefore, we propose to incorporate such a relationship into learning, for achieving a deeper semantic understanding of programs. To obtain inputs that are representative enough to trigger the execution of most part of the code, we resort to fuzz testing and propose fuzz tuning to boost the performance of program understanding and code representation learning, given a pre-trained LLM. The effectiveness of the proposed method is verified on two program understanding tasks including code clone detection and code classification, and it outperforms current state-of-the-arts by large margins. Code is available at https://github.com/rabbitjy/FuzzTuning.
翻訳日:2023-06-13 23:54:05 公開日:2023-06-12
# NTK近似が有効である際のタイト条件

Tight conditions for when the NTK approximation is valid ( http://arxiv.org/abs/2305.13141v2 )

ライセンス: Link先を確認
Enric Boix-Adsera, Etai Littwin(参考訳) 正方形損失を有するモデルのトレーニングにおいて,ニューラルタンジェントカーネル(NTK)近似が有効であるかどうかを検討した。 chizat et al. 2019 の遅延トレーニング設定では、ntk近似に対する$\alpha = o(t)$ suffices の係数でモデルを再スケーリングすることで、トレーニング時間が $t$ になるまで有効になることを示した。 我々の限界は、以前のChizatらによる2019年の限界よりも強く改善されており、これはより大きな再スケーリング係数である$\alpha = O(T^2)$を必要とした。

We study when the neural tangent kernel (NTK) approximation is valid for training a model with the square loss. In the lazy training setting of Chizat et al. 2019, we show that rescaling the model by a factor of $\alpha = O(T)$ suffices for the NTK approximation to be valid until training time $T$. Our bound is tight and improves on the previous bound of Chizat et al. 2019, which required a larger rescaling factor of $\alpha = O(T^2)$.
翻訳日:2023-06-13 23:53:25 公開日:2023-06-12
# 線形量子系における合成場による非相互熱流束

Nonreciprocal heat flux via synthetic fields in linear quantum systems ( http://arxiv.org/abs/2305.18066v2 )

ライセンス: Link先を確認
S.-A. Biehs and P. Rodriguez-Lopez and M. Antezza and G.S. Agarwal(参考訳) 外部駆動により共振器パラメータを変化させることによって実現したN結合型量子共振器と応用合成電場との熱伝達について検討した。 この目的のために、量子光学マスター方程式と、全ての量子発振器が独自の熱浴を持つことのできる$N$結合発振器のランゲヴィン方程式に基づく2つの一般的な方法を開発した。 合成電気及び磁場は、振動子共鳴を所定の位相で動的に変調することによって生成される。 フロッケ理論を用いて、熱流束スペクトルと伝達電力を決定できる両方の方法で力学方程式を解く。 これらの方法を適用して、4つの量子結合共振器の線形タイト結合鎖の特定の場合を研究する。 この場合、既往の研究で予測された非相反性熱流束スペクトルに加えて、この合成場が全熱流束の非相反性を誘導することにより、純熱流束整流を実現した。

We study the heat transfer between N coupled quantum resonators with applied synthetic electric and magnetic fields realized by changing the resonators parameters by external drivings. To this end we develop two general methods, based on the quantum optical master equation and on the Langevin equation for $N$ coupled oscillators where all quantum oscillators can have their own heat baths. The synthetic electric and magnetic fields are generated by a dynamical modulation of the oscillator resonance with a given phase. Using Floquet theory we solve the dynamical equations with both methods which allow us to determine the heat flux spectra and the transferred power. With apply these methods to study the specific case of a linear tight-binding chain of four quantum coupled resonators. We find that in that case, in addition to a non-reciprocal heat flux spectrum already predicted in previous investigations, the synthetic fields induce here non-reciprocity in the total heat flux hence realizing a net heat flux rectification.
翻訳日:2023-06-13 23:45:05 公開日:2023-06-12
# 1つのネットワーク、多くのマスク:よりパラメーター効率のよい転送学習を目指して

One Network, Many Masks: Towards More Parameter-Efficient Transfer Learning ( http://arxiv.org/abs/2305.17682v2 )

ライセンス: Link先を確認
Guangtao Zeng, Peiyuan Zhang, Wei Lu(参考訳) 複数のタスクのための微調整済み言語モデルは、ストレージの点で高価である傾向がある。 これを軽減するためにパラメータ効率変換学習法 (PETL) が提案されているが, 幅広いタスクに適用するには, かなりの数のパラメータと記憶が必要である。 さらに大きなストレージ削減を実現するために、propetlは、プロトタイプネットワーク(例えば、アダプタ、lora、プレフィックスチューニング)と呼ばれる1つのpetlモジュールを、レイヤとタスク間で効率的に共有できる新しい方法を提案する。 次にバイナリマスクを学び、共有プロトタイプネットワークから異なるサブネットワークを選択し、異なるレイヤにpetlモジュールとして適用します。 二分マスクはネットワークから重要な情報を決定できるが、これは前回の研究では無視されることが多い。 私たちの研究は、一見小さなpetlモジュールにも過剰パラメーターが存在することを発見したpruningメソッドの一種と見なすこともできる。 各種下流タスクにおいて, ProPETL の評価を行い, パラメータ記憶の約10%で他の PETL 手法よりも優れていることを示す。

Fine-tuning pre-trained language models for multiple tasks tends to be expensive in terms of storage. To mitigate this, parameter-efficient transfer learning (PETL) methods have been proposed to address this issue, but they still require a significant number of parameters and storage when being applied to broader ranges of tasks. To achieve even greater storage reduction, we propose PROPETL, a novel method that enables efficient sharing of a single PETL module which we call prototype network (e.g., adapter, LoRA, and prefix-tuning) across layers and tasks. We then learn binary masks to select different sub-networks from the shared prototype network and apply them as PETL modules into different layers. We find that the binary masks can determine crucial information from the network, which is often ignored in previous studies. Our work can also be seen as a type of pruning method, where we find that overparameterization also exists in the seemingly small PETL modules. We evaluate PROPETL on various downstream tasks and show that it can outperform other PETL methods with approximately 10% of the parameter storage required by the latter.
翻訳日:2023-06-13 23:44:41 公開日:2023-06-12
# 演算子のエンタングリング能力

Entangling capacity of operators ( http://arxiv.org/abs/2305.17636v2 )

ライセンス: Link先を確認
Manas K Patra(参考訳) 複合量子システムに作用するユニタリ演算子$U$を与えられた場合、絡み合う容量は$U$? この質問は幾何学的アプローチで検討される。 ユニタリ群上の計量によって定義される絡み合い容量は \emph{minimax} 問題に繋がる。 双対問題である \emph{maximin} は並列に研究され、慣れ親しんだ絡み合い測度が得られる。 一般化制御作用素と呼ばれる絡み合い作用素のクラスが定義される。 この作用素のクラスに対する絡み合うキャパシティとその他の性質について研究する。

Given a unitary operator $U$ acting on a composite quantum system what is the entangling capacity of $U$? This question is investigated using a geometric approach. The entangling capacity, defined via metrics on the unitary groups, leads to a \emph{minimax} problem. The dual, a \emph{maximin} problem, is investigated in parallel and yields some familiar entanglement measures. A class of entangling operators, called generalized control operators is defined. The entangling capacities and other properties for this class of operators is studied.
翻訳日:2023-06-13 23:44:22 公開日:2023-06-12
# シーングラフメモリを用いた動的環境のモデリング

Modeling Dynamic Environments with Scene Graph Memory ( http://arxiv.org/abs/2305.17537v4 )

ライセンス: Link先を確認
Andrey Kurenkov, Michael Lingelbach, Tanmay Agarwal, Emily Jin, Chengshu Li, Ruohan Zhang, Li Fei-Fei, Jiajun Wu, Silvio Savarese, Roberto Mart\'in-Mart\'in(参考訳) 家庭などの大規模環境でオブジェクトを検索する具体化されたaiエージェントは、部分的な情報に基づいてオブジェクトの位置を予測することによって、効率的な判断を行う必要がある。 我々はこれを新しいタイプのリンク予測問題として、部分的に観測可能な動的グラフ上のリンク予測を行う。 私たちのグラフは、部屋やオブジェクトがノードであり、それらの関係がエッジにエンコードされるシーンの表現です。 この部分的な可観測性は、既存のリンク予測アプローチに課題をもたらします。 本稿では,エージェントの蓄積した観測データをキャプチャする新たな状態表現であるシーングラフメモリ(sgm)と,sgmから情報を抽出して効率的に探索するノードエッジ予測器(nep)と呼ばれるニューラルネットワークアーキテクチャを提案する。 提案手法は,家庭で一般的に見られるセマンティックなパターンに従って,多様な動的グラフを生成する新しいベンチマークであるDynamic House Simulatorで評価され,多様な物体の動きの動態を持つ様々な環境におけるオブジェクトの位置を予測し,新たなシーン適応性と全体的な精度の両方において,ベースラインよりも優れていることを示す。 コードベース等はhttps://www.scenegraph memory.comで見ることができる。

Embodied AI agents that search for objects in large environments such as households often need to make efficient decisions by predicting object locations based on partial information. We pose this as a new type of link prediction problem: link prediction on partially observable dynamic graphs. Our graph is a representation of a scene in which rooms and objects are nodes, and their relationships are encoded in the edges; only parts of the changing graph are known to the agent at each timestep. This partial observability poses a challenge to existing link prediction approaches, which we address. We propose a novel state representation -- Scene Graph Memory (SGM) -- with captures the agent's accumulated set of observations, as well as a neural net architecture called a Node Edge Predictor (NEP) that extracts information from the SGM to search efficiently. We evaluate our method in the Dynamic House Simulator, a new benchmark that creates diverse dynamic graphs following the semantic patterns typically seen at homes, and show that NEP can be trained to predict the locations of objects in a variety of environments with diverse object movement dynamics, outperforming baselines both in terms of new scene adaptability and overall accuracy. The codebase and more can be found at https://www.scenegraphmemory.com.
翻訳日:2023-06-13 23:44:13 公開日:2023-06-12
# バックドア型ニューラルコード検索

Backdooring Neural Code Search ( http://arxiv.org/abs/2305.17506v2 )

ライセンス: Link先を確認
Weisong Sun, Yuchen Chen, Guanhong Tao, Chunrong Fang, Xiangyu Zhang, Quanjun Zhang, Bin Luo(参考訳) オンラインリポジトリから既製のコードスニペットを再利用することは、ソフトウェア開発者の生産性を大幅に向上させる一般的なプラクティスである。 望ましいコードスニペットを見つけるために、開発者は自然言語クエリを通じてコード検索エンジンに頼る。 そのため、ニューラルコード検索モデルはそのようなエンジンの背後にある。 これらのモデルはディープラーニングに基づいており、その印象的なパフォーマンスによってかなりの注目を集めています。 しかし、これらのモデルのセキュリティ面はほとんど研究されていない。 特に、敵は、セキュリティやプライバシーの問題でバグや脆弱なコードを返すニューラルコード検索モデルにバックドアを注入することができる。 これは下流のソフトウェア(株式取引システムや自動運転など)に影響を及ぼし、財政的損失や致命的な事故を引き起こす可能性がある。 本稿では,このような攻撃が実現可能であり,極めてステルス性が高いことを示す。 1つの変数/関数名を変更するだけで、攻撃者はバギー/vulnerableのコードランクをトップ11%にすることができる。 我々の攻撃BADCODEは、攻撃をより効果的かつステルス的に、特別なトリガー生成および注入手順を特徴としている。 2つのニューラルコード探索モデルを用いて評価を行い,本攻撃がベースラインを60%上回ることを示した。 ユーザ調査の結果,f1スコアに基づく攻撃はベースラインよりも2倍ステルス性が高いことがわかった。

Reusing off-the-shelf code snippets from online repositories is a common practice, which significantly enhances the productivity of software developers. To find desired code snippets, developers resort to code search engines through natural language queries. Neural code search models are hence behind many such engines. These models are based on deep learning and gain substantial attention due to their impressive performance. However, the security aspect of these models is rarely studied. Particularly, an adversary can inject a backdoor in neural code search models, which return buggy or even vulnerable code with security/privacy issues. This may impact the downstream software (e.g., stock trading systems and autonomous driving) and cause financial loss and/or life-threatening incidents. In this paper, we demonstrate such attacks are feasible and can be quite stealthy. By simply modifying one variable/function name, the attacker can make buggy/vulnerable code rank in the top 11%. Our attack BADCODE features a special trigger generation and injection procedure, making the attack more effective and stealthy. The evaluation is conducted on two neural code search models and the results show our attack outperforms baselines by 60%. Our user study demonstrates that our attack is more stealthy than the baseline by two times based on the F1 score.
翻訳日:2023-06-13 23:43:50 公開日:2023-06-12
# 信頼できるaiに関する調査: aiのメタ決定

Survey of Trustworthy AI: A Meta Decision of AI ( http://arxiv.org/abs/2306.00380v2 )

ライセンス: Link先を確認
Caesar Wu, Yuan-Fang Lib, and Pascal Bouvry(参考訳) 戦略的決定を行うとき、私たちはしばしば処理すべき圧倒的な情報に直面します。 この状況は、いくつかの証拠が互いに矛盾している、あるいは矛盾している場合にさらに複雑である。 課題は、どの情報が役に立つか、どの情報を排除すべきかを決定する方法だ。 この過程はメタ決定と呼ばれる。 同様に、戦略的意思決定に人工知能(AI)システムを使用する場合、多くのAIシステムが大量のデータを処理する不透明な「ブラックボックス」と見なされるため、AI自体への信頼がメタ決定となる。 不透明なシステムを信頼するには、信頼に値するAI(TAI)のレベルを決定する必要がある。 本稿では, 異なる信頼レベルに対して, 明瞭性, 信頼性, 基礎という3つの重要な領域を包含するtaiの新たな分類法や枠組みを導入することにより, この問題に新たなアプローチを提案する。 説明可能性/透明性、公平性/多様性、一般化可能性、プライバシ、データガバナンス、安全性/ロバスト性、説明可能性、再現性、信頼性、持続可能性。 我々は,この分類学を用いて包括的調査を行い,戦略的意思決定の観点から異なるTAIアプローチを探求することを目指している。

When making strategic decisions, we are often confronted with overwhelming information to process. The situation can be further complicated when some pieces of evidence are contradicted each other or paradoxical. The challenge then becomes how to determine which information is useful and which ones should be eliminated. This process is known as meta-decision. Likewise, when it comes to using Artificial Intelligence (AI) systems for strategic decision-making, placing trust in the AI itself becomes a meta-decision, given that many AI systems are viewed as opaque "black boxes" that process large amounts of data. Trusting an opaque system involves deciding on the level of Trustworthy AI (TAI). We propose a new approach to address this issue by introducing a novel taxonomy or framework of TAI, which encompasses three crucial domains: articulate, authentic, and basic for different levels of trust. To underpin these domains, we create ten dimensions to measure trust: explainability/transparency, fairness/diversity, generalizability, privacy, data governance, safety/robustness, accountability, reproducibility, reliability, and sustainability. We aim to use this taxonomy to conduct a comprehensive survey and explore different TAI approaches from a strategic decision-making perspective.
翻訳日:2023-06-13 23:35:30 公開日:2023-06-12
# ソースコードモデルのためのデータ拡張アプローチ:調査

Data Augmentation Approaches for Source Code Models: A Survey ( http://arxiv.org/abs/2305.19915v2 )

ライセンス: Link先を確認
Terry Yue Zhuo, Zhou Yang, Zhensu Sun, Yufei Wang, Li Li, Xiaoning Du, Zhenchang Xing, David Lo(参考訳) 多くの重要なタスクにおけるソースコードの採用が増加し、トレーニングデータを強化し、これらのモデルの様々な機能(堅牢性や一般化可能性)を改善するためのデータ拡張(DA)技術の開発が動機となっている。 一連のdaメソッドが提案され、ソースコードモデル用に調整されているが、その効果と影響を理解するための包括的な調査と調査が欠けている。 本稿では,既存の文献を体系的にコンパイル・カプセル化し,その分野の包括的概要を提供するため,ソースコードのデータ拡張に関する包括的かつ統合的な調査を行うことで,このギャップを埋める。 まず、ソースコードモデルモデルアプローチのためのDAの分類を構築し、続いて、著名な方法論的実証的アプローチについて議論する。 次に、da品質を最適化するための一般的な戦略とテクニックを紹介します。 その後、広く受け入れられたソースコードのシナリオやダウンストリームタスクで有用性を見出す手法の基盤となる。 最後に,今後の研究の課題と可能性について概説する。 本論文は, ソースコードモデルのための既存のda文献のコーパスを非神秘化し, この領域におけるさらなる探索を促進することを目的としている。 補完として、ソースコードモデルに関するDAの更新最新文書のリストをホストする、継続的に更新されたGitHubレポジトリを、 \url{https://github.com/terryyz/DataAug4Code}で公開します。

The increasingly popular adoption of source code in many critical tasks motivates the development of data augmentation (DA) techniques to enhance training data and improve various capabilities (e.g., robustness and generalizability) of these models. Although a series of DA methods have been proposed and tailored for source code models, there lacks a comprehensive survey and examination to understand their effectiveness and implications. This paper fills this gap by conducting a comprehensive and integrative survey of data augmentation for source code, wherein we systematically compile and encapsulate existing literature to provide a comprehensive overview of the field. We start by constructing a taxonomy of DA for source code models model approaches, followed by a discussion on prominent, methodologically illustrative approaches. Next, we highlight the general strategies and techniques to optimize the DA quality. Subsequently, we underscore techniques that find utility in widely-accepted source code scenarios and downstream tasks. Finally, we outline the prevailing challenges and potential opportunities for future research. In essence, this paper endeavors to demystify the corpus of existing literature on DA for source code models, and foster further exploration in this sphere. Complementing this, we present a continually updated GitHub repository that hosts a list of update-to-date papers on DA for source code models, accessible at \url{https://github.com/terryyz/DataAug4Code}.
翻訳日:2023-06-13 23:34:36 公開日:2023-06-12
# DC CoMix TTS: Mixerとのコラボレーションによる離散コード付きエンドツーエンド表現型TS

DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer ( http://arxiv.org/abs/2305.19567v3 )

ライセンス: Link先を確認
Yerin Choi, Myoung-Wan Koo(参考訳) TTSの中立性は大きな成功を収めたものの、コンテンツ収集は依然として課題だ。 本稿では,プロソディモデリングの改善を実現するための新しい入力表現と単純なアーキテクチャを提案する。 近年のttsにおける離散コードの使用の成功に触発されて,参照エンコーダの入力に離散コードを導入する。 具体的には,音響圧縮モデルのベクトル量子化器を用いて,すでにトレーニング済みの多様な音響情報を活用する。 さらに、修正MLP-Mixerを参照エンコーダに適用し、アーキテクチャをより軽量にする。 その結果、プロソディ転送TSをエンドツーエンドで訓練する。 本手法は主観的評価と客観的評価の両方を通して有効性を示す。 実験において、離散符号を入力として利用する場合、参照エンコーダは話者非依存の韻律を学習できることを実証する。 さらに,少ないパラメータを入力しても比較結果が得られる。

Despite the huge successes made in neutral TTS, content-leakage remains a challenge. In this paper, we propose a new input representation and simple architecture to achieve improved prosody modeling. Inspired by the recent success in the use of discrete code in TTS, we introduce discrete code to the input of the reference encoder. Specifically, we leverage the vector quantizer from the audio compression model to exploit the diverse acoustic information it has already been trained on. In addition, we apply the modified MLP-Mixer to the reference encoder, making the architecture lighter. As a result, we train the prosody transfer TTS in an end-to-end manner. We prove the effectiveness of our method through both subjective and objective evaluations. We demonstrate that the reference encoder learns better speaker-independent prosody when discrete code is utilized as input in the experiments. In addition, we obtain comparable results even when fewer parameters are inputted.
翻訳日:2023-06-13 23:33:53 公開日:2023-06-12
# 量子時間相関を独立に特徴付ける(semi-)デバイス

(Semi-)device independently characterizing quantum temporal correlations ( http://arxiv.org/abs/2305.19548v2 )

ライセンス: Link先を確認
Shin-Liang Chen and Jens Eisert(参考訳) 本研究では,初期量子状態が測定され,量子チャネルを介して送信され,最終的に測定される一般時間シナリオにおける量子時間相関を特徴付ける枠組みを開発する。 このフレームワークは、システムや測定について、つまりデバイスに依存しない仮定を一切行いません。 しかし、半デバイス非依存の設定にさらなる制約を加えることができるほど多用途である。 我々のフレームワークは、関連する量子デバイスが非文字化または部分的に特徴づけられた場合の時間シナリオにおける量子認証の自然なツールとして機能する。 したがって、時間内の無符号の付加的な制約を仮定した場合、関連する系の次元に上限が存在する場合、ランク制約(局所隠れ変数モデル上の真の量子分離を証明する)、あるいはさらに線形制約として、量子時間相関を特徴付けることもできる。 本稿では,時間的ベルの不等式を最大に破ること,時間的操作可能性の定量化,量子ランダム性アクセス符号のシナリオにおける最大成功確率の制限など,多くの応用例を示す。

We develop a framework for characterizing quantum temporal correlations in a general temporal scenario, in which an initial quantum state is measured, sent through a quantum channel, and finally measured again. This framework does not make any assumptions on the system nor on the measurements, namely, it is device-independent. It is versatile enough, however, to allow for the addition of further constraints in a semi-device-independent setting. Our framework serves as a natural tool for quantum certification in a temporal scenario when the quantum devices involved are uncharacterized or partially characterized. It can hence also be used for characterizing quantum temporal correlations when one assumes an additional constraint of no-signalling in time, there are upper bounds on the involved systems' dimensions, rank constraints - for which we prove genuine quantum separations over local hidden variable models - or further linear constraints. We present a number of applications, including bounding the maximal violation of temporal Bell inequalities, quantifying temporal steerability, bounding the maximum successful probability in a scenario of quantum randomness access codes.
翻訳日:2023-06-13 23:33:41 公開日:2023-06-12
# 拡散型言語モデルを用いた微細テキストスタイル変換

Fine-grained Text Style Transfer with Diffusion-Based Language Models ( http://arxiv.org/abs/2305.19512v2 )

ライセンス: Link先を確認
Yiwei Lyu, Tiange Luo, Jiacheng Shi, Todd C. Hollon, Honglak Lee(参考訳) 拡散確率モデルは高品質な画像の制御に成功しており、研究者はこの制御性をテキスト生成領域に活用しようと試みている。 拡散ベースの言語モデルに関する以前の研究は、外部の知識(事前訓練された重みなど)なしで訓練でき、安定した性能と制御性を達成できることを示した。 本稿では,微細テキストスタイル転送の標準ベンチマークであるStylePTBデータセットを用いた拡散モデルを構築した。 StylePTBのタスクは、以前の作業で評価されたタスクよりもはるかに洗練された出力テキストの制御が必要であり、我々のモデルは、個人と構成の両方でStylePTBの最先端のパフォーマンスを達成できた。 さらに,外部知識を伴わないStylePTBの限られたデータに基づいて学習し,事前学習した重み付け,埋め込み,外部文法解析を応用した先行研究を上回り,低リソース環境下での拡散型言語モデルの可能性を示す。

Diffusion probabilistic models have shown great success in generating high-quality images controllably, and researchers have tried to utilize this controllability into text generation domain. Previous works on diffusion-based language models have shown that they can be trained without external knowledge (such as pre-trained weights) and still achieve stable performance and controllability. In this paper, we trained a diffusion-based model on StylePTB dataset, the standard benchmark for fine-grained text style transfers. The tasks in StylePTB requires much more refined control over the output text compared to tasks evaluated in previous works, and our model was able to achieve state-of-the-art performance on StylePTB on both individual and compositional transfers. Moreover, our model, trained on limited data from StylePTB without external knowledge, outperforms previous works that utilized pretrained weights, embeddings, and external grammar parsers, and this may indicate that diffusion-based language models have great potential under low-resource settings.
翻訳日:2023-06-13 23:33:22 公開日:2023-06-12
# SimFBO: シンプルでフレキシブルでコミュニケーション効率の良い双方向学習を目指して

SimFBO: Towards Simple, Flexible and Communication-efficient Federated Bilevel Learning ( http://arxiv.org/abs/2305.19442v2 )

ライセンス: Link先を確認
Yifan Yang, Peiyao Xiao and Kaiyi Ji(参考訳) fbo(federated bilevel optimization)は、メタラーニングや微調整、ハイパーパラメータチューニングといった新たなネスト最適化構造によって、マシンラーニングやエッジコンピューティングにおいて、近年大きな可能性を秘めている。 しかし、既存のFBOアルゴリズムは複雑な計算を伴い、1イテレーションごとに複数のサブループが必要であり、それぞれが複数の通信ラウンドを含む。 本稿では,サブループなしで実装が容易で,汎用的なサーバ側アグリゲーションと通信効率向上のための更新を含む,シンプルで柔軟なFBOフレームワークSimFBOを提案する。 さらに,不均一局所計算に対する強いレジリエンスを持つSimFBOの変種として,システムレベルの不均質FBO(ShroFBO)を提案する。 我々は,SimFBO と ShroFBO がリニアコンバージェンス・スピードアップを実現し,部分的なクライアント参加とクライアントサンプリングを置き換えることなく実現し,サンプルと通信の複雑さを改善したことを示す。 実験は既存のfboアルゴリズムに対する提案手法の有効性を実証する。

Federated bilevel optimization (FBO) has shown great potential recently in machine learning and edge computing due to the emerging nested optimization structure in meta-learning, fine-tuning, hyperparameter tuning, etc. However, existing FBO algorithms often involve complicated computations and require multiple sub-loops per iteration, each of which contains a number of communication rounds. In this paper, we propose a simple and flexible FBO framework named SimFBO, which is easy to implement without sub-loops, and includes a generalized server-side aggregation and update for improving communication efficiency. We further propose System-level heterogeneity robust FBO (ShroFBO) as a variant of SimFBO with stronger resilience to heterogeneous local computation. We show that SimFBO and ShroFBO provably achieve a linear convergence speedup with partial client participation and client sampling without replacement, as well as improved sample and communication complexities. Experiments demonstrate the effectiveness of the proposed methods over existing FBO algorithms.
翻訳日:2023-06-13 23:33:04 公開日:2023-06-12
# infoverse:多次元メタ情報を用いたデータセットキャラクタリゼーションのためのユニバーサルフレームワーク

infoVerse: A Universal Framework for Dataset Characterization with Multidimensional Meta-information ( http://arxiv.org/abs/2305.19344v2 )

ライセンス: Link先を確認
Jaehyung Kim, Yekyung Kim, Karin de Langis, Jinwoo Shin, Dongyeop Kang(参考訳) NLPシステムの成功はしばしば、大規模で高品質なデータセットの可用性に依存している。 しかし、これらのデータセットのすべてのサンプルが学習に等しく価値があるわけではない。 モデル駆動メタ情報に基づくデータセットの特徴付け手法(例えば、モデルの信頼度)が開発されているが、これらの手法の関係や補完効果は注目されていない。 本稿では,様々なモデル駆動型メタ情報を取り込むことで,データセットの多次元特性を効果的に捉えるための新しい特徴空間を提供する,データセットキャラクタリゼーションのためのユニバーサルフレームワークであるinfoverseを提案する。 infoVerseは、元のセマンティック空間では明らかでないデータセットの特徴的な領域を明らかにし、ユーザー(またはモデル)に調査、アセスメント、アノテーションに焦点を当てるべきサンプルを特定する。 さらに,情報度を最大化する一連のデータポイントを選択するために,インフォバースを用いた新しいサンプリング手法を提案する。 実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、すべてのアプリケーションにおいて強いベースラインを一貫して上回る。 私たちのコードとデモは公開されています。

The success of NLP systems often relies on the availability of large, high-quality datasets. However, not all samples in these datasets are equally valuable for learning, as some may be redundant or noisy. Several methods for characterizing datasets based on model-driven meta-information (e.g., model's confidence) have been developed, but the relationship and complementary effects of these methods have received less attention. In this paper, we introduce infoVerse, a universal framework for dataset characterization, which provides a new feature space that effectively captures multidimensional characteristics of datasets by incorporating various model-driven meta-information. infoVerse reveals distinctive regions of the dataset that are not apparent in the original semantic space, hence guiding users (or models) in identifying which samples to focus on for exploration, assessment, or annotation. Additionally, we propose a novel sampling method on infoVerse to select a set of data points that maximizes informativeness. In three real-world applications (data pruning, active learning, and data annotation), the samples chosen on infoVerse space consistently outperform strong baselines in all applications. Our code and demo are publicly available.
翻訳日:2023-06-13 23:32:44 公開日:2023-06-12
# DVFO:エネルギー効率の良いエッジクラウド協調推論のための学習ベースDVFS

DVFO: Learning-Based DVFS for Energy-Efficient Edge-Cloud Collaborative Inference ( http://arxiv.org/abs/2306.01811v2 )

ライセンス: Link先を確認
Ziyang Zhang, Yang Zhao, Huan Li, Changyao Lin, and Jie Liu(参考訳) エッジデバイスリソースの制約とディープニューラルネットワーク(DNN)モデルの異なる特性のため、エッジデバイス上でのエネルギー消費とエンドツーエンドレイテンシの観点から、DNN推論性能を最適化することは大きな課題である。 動的電圧周波数スケーリング(DVFS)技術に加えて、エッジクラウドアーキテクチャは効率的なDNN推論のための協調的なアプローチを提供する。 しかし、現在のエッジクラウド協調推論手法は、エッジデバイス上で様々な計算資源を最適化していない。 そこで我々は,dvfsとオフロードパラメータをdrl(deep reinforcement learning)で共同で最適化する,新しいdvfs対応エッジクラウド協調推論フレームワークdvfoを提案する。 具体的には、DVFOが自動的に最適化する 1)エッジデバイスのcpu、gpu、メモリ周波数、及び 2) 機能マップをクラウドサーバにオフロードする。 さらに、DRL学習プロセスの高速化のための思考時移動同時機構と、ワークロードオフロードにおいて重要なDNN特徴マップを抽出する空間チャネルアテンション機構を活用する。 このアプローチは、さまざまなエッジクラウドネットワーク条件下で異なるDNNモデルのエネルギー効率とエンドツーエンドレイテンシを改善する。 様々なデータセット下で広くデプロイされたDNNモデルを用いた異種エッジデバイスに対する大規模な実験により、DVFOは最先端のスキームと比較して、平均して33%のエネルギー消費を著しく削減することが示された。 さらに、DVFOは最大28.6%-59.1%のレイテンシ削減を実現し、元の精度(平均1%の損失)を維持している。

Due to edge device resource constraints and different characteristics of deep neural network (DNN) models, it is a big challenge to optimize DNN inference performance in terms of energy consumption and end-to-end latency on edge devices. In addition to the dynamic voltage frequency scaling (DVFS) technique, the edge-cloud architecture provides a collaborative approach to efficient DNN inference. However, current edge-cloud collaborative inference methods have not optimized various compute resources on edge devices. Thus, we propose DVFO, a novel DVFS-enabled edge-cloud collaborative inference framework, which jointly optimize DVFS and offloading parameters via deep reinforcement learning (DRL). Specifically, DVFO automatically co-optimizes 1) CPU, GPU and memory frequencies of edge devices, and 2) feature maps to be offloaded to cloud servers. In addition, it leverages a thinking-while-moving concurrent mechanism to accelerate the DRL learning process, and a spatial-channel attention mechanism to extract DNN feature maps of secondary importance for workload offloading. This approach improves energy efficiency and end-to-end latency for different DNN models under various edge-cloud network conditions. Extensive experiments on heterogeneous edge devices with various widely-deployed DNN models under different datasets show that DVFO significantly reduces the energy consumption by 33% on average, compared to state-of-the-art schemes. Moreover, DVFO achieves up to 28.6%-59.1% end-to-end latency reduction, while maintaining original accuracy (within 1% loss on average).
翻訳日:2023-06-13 23:26:53 公開日:2023-06-12
# 大バッチ・ニューラル多目的ベイズ最適化

Large-Batch, Neural Multi-Objective Bayesian Optimization ( http://arxiv.org/abs/2306.01095v2 )

ライセンス: Link先を確認
Navid Ansari, Hans-Peter Seidel, Vahid Babaei(参考訳) ベイズ最適化はブラックボックスと高価な評価関数のグローバル最適化のための強力なフレームワークを提供する。 しかし、デフォルトのガウスプロセスサロゲートのスケーラビリティが低かったため、特に多目的設定において、データ集約的な問題を扱う能力に制限がある。 これらの制約に対処するための新しいベイズ最適化フレームワークを提案する。 本手法は,ベイズ型ニューラルネットワークを用いてサロゲートモデリングを行う。 これにより、大量のデータを効率的に処理し、複雑な問題をモデル化し、予測の不確実性を生成することができる。 さらに,提案手法は,よく知られた,容易にデプロイ可能なNSGA-IIに基づく,スケーラブルで不確実性を考慮した買収戦略を取り入れている。 この完全並列化戦略は、未編入領域の効率的な探索を促進する。 我々のフレームワークは、最小限のイテレーション数でデータ集約環境における効果的な最適化を可能にします。 本手法を最先端の多目的最適化と比較し,その優越性を示す。 実世界の2つの問題であるエアフォイルデザインとカラー印刷について評価を行い,提案手法の適用性と効率性を示す。 コードは、https://github.com/an-on-ym-ous/lbn_moboで入手できる。

Bayesian optimization provides a powerful framework for global optimization of black-box, expensive-to-evaluate functions. However, it has a limited capacity in handling data-intensive problems, especially in multi-objective settings, due to the poor scalability of default Gaussian Process surrogates. We present a novel Bayesian optimization framework specifically tailored to address these limitations. Our method leverages a Bayesian neural networks approach for surrogate modeling. This enables efficient handling of large batches of data, modeling complex problems, and generating the uncertainty of the predictions. In addition, our method incorporates a scalable, uncertainty-aware acquisition strategy based on the well-known, easy-to-deploy NSGA-II. This fully parallelizable strategy promotes efficient exploration of uncharted regions. Our framework allows for effective optimization in data-intensive environments with a minimum number of iterations. We demonstrate the superiority of our method by comparing it with state-of-the-art multi-objective optimizations. We perform our evaluation on two real-world problems - airfoil design and color printing - showcasing the applicability and efficiency of our approach. Code is available at: https://github.com/an-on-ym-ous/lbn_mobo
翻訳日:2023-06-13 23:25:39 公開日:2023-06-12
# 準備・測定シナリオにおける自己検証とウィグナーの定理の堅牢版

Self-testing in prepare-and-measure scenarios and a robust version of Wigner's theorem ( http://arxiv.org/abs/2306.00730v2 )

ライセンス: Link先を確認
Miguel Navascues, K\'aroly F. P\'al, Tam\'as V\'ertesi and Mateus Ara\'ujo(参考訳) 我々は、ある相手が既知の次元の量子状態のD$を信頼できない装置で準備した通信シナリオを別の相手に送信し、その相手を非特性測定装置で探索する。 我々は、任意の参照純量子状態のアンサンブルに対して、そのような準備と測定のシナリオと、観測された測定確率の線形汎関数 $w$ が存在することを証明し、その準備が基準状態、ユニタリまたは反ユニタリ変換と一致する場合にのみ$w$ が最大化可能であることを証明する。 言い換えれば、準備と測定のシナリオは純粋な量子状態の任意のアンサンブルを「自己テスト」することができる。 任意の極端な$D$次元量子測定、またはその集合も同様に自己検定することができる。 我々の結果は、物理対称性を特徴づける粒子物理学の既知の結果であるウィグナーの定理の堅牢な一般化に依存している。

We consider communication scenarios where one party sends quantum states of known dimensionality $D$, prepared with an untrusted apparatus, to another, distant party, who probes them with uncharacterized measurement devices. We prove that, for any ensemble of reference pure quantum states, there exists one such prepare-and-measure scenario and a linear functional $W$ on its observed measurement probabilities, such that $W$ can only be maximized if the preparations coincide with the reference states, modulo a unitary or an anti-unitary transformation. In other words, prepare-and-measure scenarios allow one to "self-test" arbitrary ensembles of pure quantum states. Arbitrary extreme $D$-dimensional quantum measurements, or sets thereof, can be similarly self-tested. Our results rely on a robust generalization of Wigner's theorem, a known result in particle physics that characterizes physical symmetries.
翻訳日:2023-06-13 23:25:08 公開日:2023-06-12
# trisig: triclustersの統計的意義を評価する

TriSig: Assessing the statistical significance of triclusters ( http://arxiv.org/abs/2306.00643v2 )

ライセンス: Link先を確認
Leonardo Alexandre, Rafael S. Costa, Rui Henriques(参考訳) テンソルデータ解析により、研究者はマトリックスデータだけでは得られない新しいパターンや関係を明らかにすることができる。 パターンから推測される情報は、病気の進行、生物生産過程、気象変動、グループダイナミクスに関する貴重な洞察を提供する。 しかし、突発的で冗長なパターンはこのプロセスを妨げる。 本研究の目的は、テンソルデータにおけるパターンの確率を評価するための統計的枠組みを提案し、行列データにおけるパターンの統計的意義を評価するための確立された原則を拡張することである。 偽陽性発見に対する二項テストに関する包括的議論は、変数依存性、時間依存性、不一致、およびbenjamini-hochberg 手続きによる \textit{p}-value corrections という観点から行われる。 生化学およびバイオテクノロジー領域における異なる実世界のケーススタディに対する最先端のtriclusteringアルゴリズムの適用から得られた結果は、いくつかのtriclustering検索の脆弱性を明らかにしながら、提案された統計フレームの有効性を検証している。 提案手法は,既存の3クラスタリングアルゴリズムに組み込むことで,偽陽性/盗作の発見を緩和し,さらに探索空間を縮小し,計算複雑性を低減できる。 可用性: コードはMITライセンス下でhttps://github.com/JupitersMight/TriSigで無償公開されている。

Tensor data analysis allows researchers to uncover novel patterns and relationships that cannot be obtained from matrix data alone. The information inferred from the patterns provides valuable insights into disease progression, bioproduction processes, weather fluctuations, and group dynamics. However, spurious and redundant patterns hamper this process. This work aims at proposing a statistical frame to assess the probability of patterns in tensor data to deviate from null expectations, extending well-established principles for assessing the statistical significance of patterns in matrix data. A comprehensive discussion on binomial testing for false positive discoveries is entailed at the light of: variable dependencies, temporal dependencies and misalignments, and \textit{p}-value corrections under the Benjamini-Hochberg procedure. Results gathered from the application of state-of-the-art triclustering algorithms over distinct real-world case studies in biochemical and biotechnological domains confer validity to the proposed statistical frame while revealing vulnerabilities of some triclustering searches. The proposed assessment can be incorporated into existing triclustering algorithms to mitigate false positive/spurious discoveries and further prune the search space, reducing their computational complexity. Availability: The code is freely available at https://github.com/JupitersMight/TriSig under the MIT license.
翻訳日:2023-06-13 23:24:49 公開日:2023-06-12
# スマートフォンにおけるユーザ回答の品質に影響を及ぼす要因

Factors Impacting the Quality of User Answers on Smartphones ( http://arxiv.org/abs/2306.00627v2 )

ライセンス: Link先を確認
Ivano Bison, Haonan Zhao(参考訳) これまでのところ、移動性や社会的相互作用といった人間の行動の予測可能性に関する研究は、主にセンサデータの利用に焦点を当てている。 しかし,センサデータは,個人の行動の背後にある主観的動機を捉えることが困難である。 個人的コンテキスト(例えば、どこにいて、何をしているのか)を理解することは、予測可能性を大きく向上させる。 主な制限は、人間の入力がしばしば欠落または不正確であることである。 本研究の目的は,ユーザが現在の状況について質問した場合の応答品質に影響を与える要因を特定することである。 ユーザの反応時間と完了時間という,2つの重要な要因が応答の質に影響を与えることが分かりました。 これらの要因は、様々な外因性原因(状況状況、日時など)と内因性要因(先天的態度、気分など)と相関する。 この2つの要因が反応の質に与える影響について検討する。

So far, most research investigating the predictability of human behavior, such as mobility and social interactions, has focused mainly on the exploitation of sensor data. However, sensor data can be difficult to capture the subjective motivations behind the individuals' behavior. Understanding personal context (e.g., where one is and what they are doing) can greatly increase predictability. The main limitation is that human input is often missing or inaccurate. The goal of this paper is to identify factors that influence the quality of responses when users are asked about their current context. We find that two key factors influence the quality of responses: user reaction time and completion time. These factors correlate with various exogenous causes (e.g., situational context, time of day) and endogenous causes (e.g., procrastination attitude, mood). In turn, we study how these two factors impact the quality of responses.
翻訳日:2023-06-13 23:24:26 公開日:2023-06-12
# 分散SGDと平均方向SAMは漸近的に等価である

Decentralized SGD and Average-direction SAM are Asymptotically Equivalent ( http://arxiv.org/abs/2306.02913v2 )

ライセンス: Link先を確認
Tongtian Zhu, Fengxiang He, Kaixuan Chen, Mingli Song, Dacheng Tao(参考訳) 分散確率勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。 しかし、既存の理論では、分散化が一般化を弱めている。 本稿では,従来の信念に挑戦し,分散学習を理解するための全く新しい視点を提案する。 d-sgdは一般の非凸非$-\beta$-smooth設定下で平均指向シャープネス認識最小化(sam)アルゴリズムの損失関数を暗黙的に最小化する。 This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios.

Decentralized stochastic gradient descent (D-SGD) allows collaborative learning on massive devices simultaneously without the control of a central server. However, existing theories claim that decentralization invariably undermines generalization. In this paper, we challenge the conventional belief and present a completely new perspective for understanding decentralized learning. We prove that D-SGD implicitly minimizes the loss function of an average-direction Sharpness-aware minimization (SAM) algorithm under general non-convex non-$\beta$-smooth settings. This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios.
翻訳日:2023-06-13 23:16:01 公開日:2023-06-12
# Video-LLaMA: 映像理解のための命令調整型オーディオ・ビジュアル言語モデル

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding ( http://arxiv.org/abs/2306.02858v3 )

ライセンス: Link先を確認
Hang Zhang, Xin Li, Lidong Bing(参考訳) 本稿では,ビデオ内の視覚的・聴覚的コンテンツの両方を理解する能力を備えた大規模言語モデル(LLM)を実現するマルチモーダルフレームワークであるVideo-LLaMAを提案する。 Video-LLaMAは、凍結した事前訓練されたビジュアルおよびオーディオエンコーダと凍結したLDMからのクロスモーダルトレーニングを行う。 MiniGPT-4やLLaVAのような静的画像理解に焦点を当てた従来のビジョンLLMとは異なり、Video-LLaMAは主にビデオ理解における2つの課題に対処している。 そこで本研究では,事前学習した画像エンコーダを映像エンコーダに組み込むビデオqフォーマを提案し,映像言語対応を学習するための映像対テキスト生成タスクを提案する。 第2の課題として,複数のモーダルを事前学習したオーディオエンコーダとして整列する汎用的な埋め込みモデルであるImageBindを利用するとともに,ImageBind上にオーディオQ-formerを導入して,LCMモジュールの適切な音声クエリ埋め込みを学習する。 ビジュアルエンコーダとオーディオエンコーダの出力をLLMの埋め込み空間に合わせるため,ビデオ-LLaMAを大量のビデオ/イメージ・キャプション・ペアと,適度だが高画質のビジュアル・インストラクション・チューニングデータセットで訓練する。 ビデオ-LLaMAは,映像内容の知覚と理解能力を示し,映像に提示される視覚的・聴覚的情報に基づく有意義な応答を生成する。 このことは、オーディオ視覚AIアシスタントの有望なプロトタイプとしてのVideo-LLaMAの可能性を強調している。

We present Video-LLaMA, a multi-modal framework that empowers Large Language Models (LLMs) with the capability of understanding both visual and auditory content in the video. Video-LLaMA bootstraps cross-modal training from the frozen pre-trained visual & audio encoders and the frozen LLMs. Unlike previous vision-LLMs that focus on static image comprehensions such as MiniGPT-4 and LLaVA, Video-LLaMA mainly tackles two challenges in video understanding: (1) capturing the temporal changes in visual scenes, (2) integrating audio-visual signals. To counter the first challenge, we propose a Video Q-former to assemble the pre-trained image encoder into our video encoder and introduce a video-to-text generation task to learn video-language correspondence. For the second challenge, we leverage ImageBind, a universal embedding model aligning multiple modalities as the pre-trained audio encoder, and introduce an Audio Q-former on top of ImageBind to learn reasonable auditory query embeddings for the LLM module. To align the output of both visual & audio encoders with LLM's embedding space, we train Video-LLaMA on massive video/image-caption pairs as well as visual-instruction-tuning datasets of moderate amount but higher quality. We found Video-LLaMA showcases the ability to perceive and comprehend video content, generating meaningful responses that are grounded in the visual and auditory information presented in the videos. This highlights the potential of Video-LLaMA as a promising prototype for audio-visual AI assistants.
翻訳日:2023-06-13 23:15:46 公開日:2023-06-12
# 硬質コアbose-hubbard格子のエネルギースペクトルの絡み合いの検出

Probing entanglement across the energy spectrum of a hard-core Bose-Hubbard lattice ( http://arxiv.org/abs/2306.02571v2 )

ライセンス: Link先を確認
Amir H. Karamlou, Ilan T. Rosen, Sarah E. Muschinske, Cora N. Barrett, Agustin Di Paolo, Leon Ding, Patrick M. Harrington, Max Hays, Rabindra Das, David K. Kim, Bethany M. Niedzielski, Meghan Schuldt, Kyle Serniak, Mollie E. Schwartz, Jonilyn L. Yoder, Simon Gustavsson, Yariv Yanay, Jeffrey A. Grover, and William D. Oliver(参考訳) 絡み合いとその伝播は、量子系の様々な物理的性質を理解する中心である。 特に、閉量子多体系では、絡み合いは創発的な熱力学的挙動をもたらすと考えられているが、多くの大規模量子系の非可積分性と計算の難解性のため、普遍的な理解は依然として困難である。 量子ハードウェアプラットフォームは、相互作用する多体システムにおける絡み合いの形成とスケーリングを研究する手段を提供する。 ここでは、制御可能な4 \times 4$の超伝導量子ビット配列を用いて、2次元ハードコアボース・ハバード格子をエミュレートする。 我々は、全ての格子サイトを同時に駆動して重畳状態を生成し、その多体エネルギースペクトルの相関長と絡み合いエントロピーを抽出する。 スペクトルの中心にある状態の体積則絡み合いスケーリングと、その辺付近での面積則スケーリングの開始へのクロスオーバーを観察した。

Entanglement and its propagation are central to understanding a multitude of physical properties of quantum systems. Notably, within closed quantum many-body systems, entanglement is believed to yield emergent thermodynamic behavior, yet a universal understanding remains challenging due to the non-integrability and computational intractability of most large-scale quantum systems. Quantum hardware platforms provide a means to study the formation and scaling of entanglement in interacting many-body systems. Here, we use a controllable $4 \times 4$ array of superconducting qubits to emulate a two-dimensional hard-core Bose-Hubbard lattice. We generate superposition states by simultaneously driving all lattice sites and extract correlation lengths and entanglement entropy across its many-body energy spectrum. We observe volume-law entanglement scaling for states at the center of the spectrum and a crossover to the onset of area-law scaling near its edges.
翻訳日:2023-06-13 23:15:16 公開日:2023-06-12
# 超音波画像による頸動脈狭窄の3次元インフレーション変換

Inflated 3D Convolution-Transformer for Weakly-supervised Carotid Stenosis Grading with Ultrasound Videos ( http://arxiv.org/abs/2306.02548v3 )

ライセンス: Link先を確認
Xinrui Zhou, Yuhao Huang, Wufeng Xue, Xin Yang, Yuxin Zou, Qilong Ying, Yuanji Zhang, Jia Liu, Jie Ren, Dong Ni(参考訳) 臨床における頸動脈狭窄度(CSG)の診断には, 血管の最も狭い位置とそれに対応する血管と残存血管の脱線が不可欠である。 しかし、パイプラインは、プラークと時間的変動のあいまいな境界のため、時間がかかり、難しい。 この手順を自動化するには、多くの手作業による記述が必要になるが、これは手間がかかるだけでなく、アノテーションの難しさから信頼性も低い。 本研究では,CSGの自動分類のための最初のビデオ分類フレームワークを提案する。 私たちの貢献は3倍です。 まず, 冗長で信頼できないアノテーションの要求を避けるために, 弱教師付きcsgのための新しい効果的なビデオ分類ネットワークを提案する。 第2に,モデルトレーニングを容易にするために,事前訓練された2次元畳み込み重みをネットワーク内の3次元の重み付けに適用し,効果的なウォームスタートを行う,ネットワークのためのインフレーション戦略を採用する。 第3に,2つの軽量な多次元アテンション機構を設計した空間的・時間的空間的・空間的相互依存をモデル化・統合するための,新しい注意誘導多次元フュージョン(AMDF)トランスフォーマエンコーダを提案する。 提案手法は,大容量の頸動脈ビデオデータセットで広く検証され,競合相手と比較して最先端の性能が示された。

Localization of the narrowest position of the vessel and corresponding vessel and remnant vessel delineation in carotid ultrasound (US) are essential for carotid stenosis grading (CSG) in clinical practice. However, the pipeline is time-consuming and tough due to the ambiguous boundaries of plaque and temporal variation. To automatize this procedure, a large number of manual delineations are usually required, which is not only laborious but also not reliable given the annotation difficulty. In this study, we present the first video classification framework for automatic CSG. Our contribution is three-fold. First, to avoid the requirement of laborious and unreliable annotation, we propose a novel and effective video classification network for weakly-supervised CSG. Second, to ease the model training, we adopt an inflation strategy for the network, where pre-trained 2D convolution weights can be adapted into the 3D counterpart in our network for an effective warm start. Third, to enhance the feature discrimination of the video, we propose a novel attention-guided multi-dimension fusion (AMDF) transformer encoder to model and integrate global dependencies within and across spatial and temporal dimensions, where two lightweight cross-dimensional attention mechanisms are designed. Our approach is extensively validated on a large clinically collected carotid US video dataset, demonstrating state-of-the-art performance compared with strong competitors.
翻訳日:2023-06-13 23:14:37 公開日:2023-06-12
# 説明可能な初期応答のための深部FCDDによる災害異常検出装置

Disaster Anomaly Detector via Deeper FCDDs for Explainable Initial Responses ( http://arxiv.org/abs/2306.02517v2 )

ライセンス: Link先を確認
Takato Yasuno, Masahiro Okano and Junichiro Fujii(参考訳) 極端な自然災害は、都市と農村の両方に壊滅的な影響を与える可能性がある。 あらゆる災害イベントにおいて、最初の応答は72時間以内に救助し、回復を促す鍵となる。 災害対応の初期段階では,広域の被害を迅速に評価し,優先地域を特定することが重要である。 機械学習アルゴリズムのうち、深い異常検出は日常の特徴とは異なる破壊的特徴を検出するのに有効である。 さらに、説明可能なコンピュータビジョンアプリケーションは初期応答を正当化すべきである。 本稿では, 深部完全畳み込みデータ記述(FCDD)を利用した異常検出アプリケーションを提案する。 より具体的には、崩壊した建物、交通事故、火災、浸水地帯の4つの災害カテゴリを持つデータセットAIDERの多くのトレーニングとテスト結果を示す。 また,異常クラス不均衡と正規クラスと競合するデータスケールのアブレーション研究も実施する。 実験の結果,F1では95%以上の高い精度が得られた。 さらに,VGG16バックボーンの深いFCDDは,他のベースラインであるCNN27,ResNet101,Inceptionv3より一貫して優れていた。 本研究は,災害現場理解研究領域における災害復旧問題への新たな貢献として,より高精度かつ破壊説明性の高い初期応答に対する災害異常検出アプリケーションを提供する新しいソリューションを提案する。 最後に、より堅牢で説明可能な、効果的な初期応答アプリケーションを改善するための今後の取り組みについて論じる。

Extreme natural disasters can have devastating effects on both urban and rural areas. In any disaster event, an initial response is the key to rescue within 72 hours and prompt recovery. During the initial stage of disaster response, it is important to quickly assess the damage over a wide area and identify priority areas. Among machine learning algorithms, deep anomaly detection is effective in detecting devastation features that are different from everyday features. In addition, explainable computer vision applications should justify the initial responses. In this paper, we propose an anomaly detection application utilizing deeper fully convolutional data descriptions (FCDDs), that enables the localization of devastation features and visualization of damage-marked heatmaps. More specifically, we show numerous training and test results for a dataset AIDER with the four disaster categories: collapsed buildings, traffic incidents, fires, and flooded areas. We also implement ablation studies of anomalous class imbalance and the data scale competing against the normal class. Our experiments provide results of high accuracies over 95% for F1. Furthermore, we found that the deeper FCDD with a VGG16 backbone consistently outperformed other baselines CNN27, ResNet101, and Inceptionv3. This study presents a new solution that offers a disaster anomaly detection application for initial responses with higher accuracy and devastation explainability, providing a novel contribution to the prompt disaster recovery problem in the research area of anomaly scene understanding. Finally, we discuss future works to improve more robust, explainable applications for effective initial responses.
翻訳日:2023-06-13 23:14:13 公開日:2023-06-12
# PGformer:多人数対話型モーション予測のためのプロキシブリッジ型ゲームトランス

PGformer: Proxy-Bridged Game Transformer for Multi-Person Extremely Interactive Motion Prediction ( http://arxiv.org/abs/2306.03374v2 )

ライセンス: Link先を確認
Yanwen Fang, Chao Li, Jintai Chen, Peng-Tao Jiang, Yifeng Geng, Xuansong Xie, Eddy K. F. Lam, Guodong Li(参考訳) マルチパーソン動作予測は特に密接な相互作用のある人の現実シナリオにおいて難しい課題である。 これまでのほとんどの作品は、通常、各人間のポーズを単独で予測する弱い相互作用(例えば、ハンドシェイキング)の研究に費やされてきた。 本稿では,過度な協調関係を有する複数人の動作予測に着目し,対話性の高い人物の動き軌跡間の関係を探究する。 具体的には,この状況に適した2つのポーズ列間の相互依存性を双方向に学習するために,新しいクロスクエリアテンション(XQA)モジュールを提案する。 さらに,提案するXQAモジュールと連携し,双方向情報フローを微妙に制御し,移動仲介役として機能する,関係者を橋渡しするプロキシエンティティを導入・構築する。 次に、これらの設計をTransformerベースのアーキテクチャに適応させ、プロキシブリッジゲームトランスフォーマー(PGformer)と呼ばれるシンプルなエンドツーエンドフレームワークを多人数対話型モーション予測に適用する。 本手法の有効性は,高度に対話的な動作を伴うEXPIデータセット上で評価されている。 PGformer は,短期・長期の予測において,最先端の手法よりも高い性能を示すことを示す。 さらに、我々のアプローチは、弱い相互作用を持つCMU-MocapとMuPoTS-3Dデータセットと互換性があり、奨励的な結果が得られる。 私たちのコードは受け入れ次第公開されます。

Multi-person motion prediction is a challenging task, especially for real-world scenarios of densely interacted persons. Most previous works have been devoted to studying the case of weak interactions (e.g., hand-shaking), which typically forecast each human pose in isolation. In this paper, we focus on motion prediction for multiple persons with extreme collaborations and attempt to explore the relationships between the highly interactive persons' motion trajectories. Specifically, a novel cross-query attention (XQA) module is proposed to bilaterally learn the cross-dependencies between the two pose sequences tailored for this situation. Additionally, we introduce and build a proxy entity to bridge the involved persons, which cooperates with our proposed XQA module and subtly controls the bidirectional information flows, acting as a motion intermediary. We then adapt these designs to a Transformer-based architecture and devise a simple yet effective end-to-end framework called proxy-bridged game Transformer (PGformer) for multi-person interactive motion prediction. The effectiveness of our method has been evaluated on the challenging ExPI dataset, which involves highly interactive actions. We show that our PGformer consistently outperforms the state-of-the-art methods in both short- and long-term predictions by a large margin. Besides, our approach can also be compatible with the weakly interacted CMU-Mocap and MuPoTS-3D datasets and achieve encouraging results. Our code will become publicly available upon acceptance.
翻訳日:2023-06-13 23:04:23 公開日:2023-06-12
# AGIQA-3K:AI生成画像品質評価のためのオープンデータベース

AGIQA-3K: An Open Database for AI-Generated Image Quality Assessment ( http://arxiv.org/abs/2306.04717v2 )

ライセンス: Link先を確認
Chunyi Li, Zicheng Zhang, Haoning Wu, Wei Sun, Xiongkuo Min, Xiaohong Liu, Guangtao Zhai, Weisi Lin(参考訳) テキスト画像生成モデルの急速な進歩により、AI生成画像(AGI)はエンターテイメント、教育、ソーシャルメディアなどに広く応用されている。 しかし,agi間の品質のばらつきが大きいことから,人間の主観的評価と整合する品質モデルの必要性が急務である。 この問題に対処するために、様々な人気AGIモデル、異なるプロンプトとモデルパラメータを通してAGIを生成し、知覚的品質とテキスト-画像アライメントの主観的スコアを収集し、これまでで最も包括的なAGI主観的品質データベースAGIQA-3Kを構築した。 さらに,本データベース上で,現在の画質評価モデル(iqa)と人間の知覚との一貫性を評価するためのベンチマーク実験を行い,主観的テキスト対画像アライメントの評価性能を著しく向上する階段方向を提案する。 我々は、AGIQA-3Kの微粒な主観的スコアがその後のAGI品質モデルに刺激を与え、人間の主観的知覚機構を知覚レベルとアライメントレベルの両方に適合させ、将来のAGIモデルの生成結果を最適化すると考えている。 データベースはhttps://github.com/lcysyzxdxc/AGIQA-3k-Databaseで公開されている。

With the rapid advancements of the text-to-image generative model, AI-generated images (AGIs) have been widely applied to entertainment, education, social media, etc. However, considering the large quality variance among different AGIs, there is an urgent need for quality models that are consistent with human subjective ratings. To address this issue, we extensively consider various popular AGI models, generated AGI through different prompts and model parameters, and collected subjective scores at the perceptual quality and text-to-image alignment, thus building the most comprehensive AGI subjective quality database AGIQA-3K so far. Furthermore, we conduct a benchmark experiment on this database to evaluate the consistency between the current Image Quality Assessment (IQA) model and human perception, while proposing StairReward that significantly improves the assessment performance of subjective text-to-image alignment. We believe that the fine-grained subjective scores in AGIQA-3K will inspire subsequent AGI quality models to fit human subjective perception mechanisms at both perception and alignment levels and to optimize the generation result of future AGI models. The database is released on https://github.com/lcysyzxdxc/AGIQA-3k-Database.
翻訳日:2023-06-13 21:19:58 公開日:2023-06-12
# ハイブリッドアクター・クリティカル強化学習に基づく適応周波数グリーンライト最適速度アドバイザ

Adaptive Frequency Green Light Optimal Speed Advisory based on Hybrid Actor-Critic Reinforcement Learning ( http://arxiv.org/abs/2306.04660v2 )

ライセンス: Link先を確認
Ming Xu, Dongyu Zuo(参考訳) green light optimal speed advisory (glosa) システムは、グリーンインターバルの間、交差点を通過する速度を車両に提案し、交差点での停止数とアイドル時間を最小限に抑えることにより、交通渋滞と燃料消費量を減らす。 しかし、従来の研究では、GLOSAアルゴリズムの最適化に重点を置いており、GLOSAシステムによる速度勧告の頻度を無視している。 具体的には、各決定ステップでスピードアドバイザリープロファイルを提供し、結果として冗長なアドバイザリーが得られ、一方、動的トラフィックに適応できない車両の最適な速度を1回だけ計算する研究もある。 本稿では,ハイブリッド・アクタ・ネットワークを用いたアクタ-クリティック・アーキテクチャを用いたh-ppo(hybrid proximal policy optimization)手法に基づく適応周波数glosa(af-glosa)モデルを提案する。 ハイブリッドアクタネットワークは、制御ギャップを出力する離散アクタと、加速度プロファイルを出力する連続アクタで構成される。 さらに,移動効率と燃料消費の両方を考慮した新しい報酬関数を設計する。 AF-GLOSAモデルは、SUMOの交通信号と3車線交点における従来のGLOSA法と学習に基づくGLOSA法と比較して評価される。 その結果, AF-GLOSAモデルでは, 平均停止時間, 燃料消費量, CO2排出量を削減できることがわかった。

Green Light Optimal Speed Advisory (GLOSA) system suggests speeds to vehicles to assist them in passing through intersections during green intervals, thus reducing traffic congestion and fuel consumption by minimizing the number of stops and idle times at intersections. However, previous research has focused on optimizing the GLOSA algorithm, neglecting the frequency of speed advisory by the GLOSA system. Specifically, some studies provide speed advisory profile at each decision step, resulting in redundant advisory, while others calculate the optimal speed for the vehicle only once, which cannot adapt to dynamic traffic. In this paper, we propose an Adaptive Frequency GLOSA (AF-GLOSA) model based on Hybrid Proximal Policy Optimization (H-PPO) method, which employs an actor-critic architecture with a hybrid actor network. The hybrid actor network consists of a discrete actor that outputs control gap and a continuous actor that outputs acceleration profiles. Additionally, we design a novel reward function that considers both travel efficiency and fuel consumption. The AF-GLOSA model is evaluated in comparison to traditional GLOSA and learning-based GLOSA methods in a three-lane intersection with a traffic signal in SUMO. The results demonstrate that the AF-GLOSA model performs best in reducing average stop times, fuel consumption and CO2 emissions.
翻訳日:2023-06-13 21:19:33 公開日:2023-06-12
# 小児喘息の治療手順を説明するためのヒューマノイドロボットとのギャミファイドインタラクション

A Gamified Interaction with a Humanoid Robot to explain Therapeutic Procedures in Pediatric Asthma ( http://arxiv.org/abs/2306.04422v2 )

ライセンス: Link先を確認
Laura Montalbano, Agnese Augello, Giovanni Pilato, Stefania La Grutta(参考訳) 慢性疾患では、正しい診断を受け、最も適切な治療を与えるだけでは、患者の臨床状態の改善を保証するには不十分である。 医薬処方への不服従は、治療目標の達成を妨げる主要な原因の1つである。 これは特に小児のような特定の疾患や特定の対象患者に当てはまる。 エンゲージメントとエンターテイメント技術は、より良い健康的な結果を達成するための臨床実践を支援するために活用することができる。 従来の治療教育の方法に比べ,ヒューマノイドロボットによるゲーム化セッションは,喘息の患児の正しい吸入手順を学習する上で,より切迫性が高いと仮定した。 この観点からは,Pepperロボットプラットフォーム上に実装されたインタラクティブモジュールと,パレルモのCNR小児科病院で2020年に実施予定の研究のセッティングについて述べる。 研究は新型コロナウイルス(covid-19)パンデミックで中止となった。 我々の長期的な目標は,質的質的調査計画を用いて,このような教育的行動の影響を評価し,治療への順応性の向上の可能性を評価することである。

In chronic diseases, obtaining a correct diagnosis and providing the most appropriate treatments often is not enough to guarantee an improvement of the clinical condition of a patient. Poor adherence to medical prescriptions constitutes one of the main causes preventing achievement of therapeutic goals. This is generally true especially for certain diseases and specific target patients, such as children. An engaging and entertaining technology can be exploited in support of clinical practices to achieve better health outcomes. Our assumption is that a gamified session with a humanoid robot, compared to the usual methodologies for therapeutic education, can be more incisive in learning the correct inhalation procedure in children affected by asthma. In this perspective, we describe an interactive module implemented on the Pepper robotic platform and the setting of a study that was planned in 2020 to be held at the Pneumoallergology Pediatric clinic of CNR in Palermo. The study was canceled due to the COVID-19 pandemic. Our long-term goal is to assess, by means of a qualitative-quantitative survey plan, the impact of such an educational action, evaluating possible improvement in the adherence to the treatment.
翻訳日:2023-06-13 21:18:21 公開日:2023-06-12
# スパース観測による日次予測の深層学習

Deep Learning for Day Forecasts from Sparse Observations ( http://arxiv.org/abs/2306.06079v2 )

ライセンス: Link先を確認
Marcin Andrychowicz, Lasse Espeholt, Di Li, Samier Merchant, Alex Merose, Fred Zyda, Shreya Agrawal, Nal Kalchbrenner(参考訳) 深層ニューラルネットワークは、気象条件をモデル化するための代替パラダイムを提供する。 データが利用可能になったら1秒未満で予測できる神経モデルの能力と、非常に高い時間分解能と空間分解能、そして大気観測から直接学習できる能力は、これらのモデルのユニークな利点のほんの一部にすぎない。 最新の確率的数値気象予報モデルと比較すると,大気観測で訓練された最も高い忠実度と最低遅延データであるニューラルモデルは,最大12時間のリードタイムを達成でき,降水量の唯一の変数に限られる。 本稿では,観測に基づくニューラルモデルによって予測可能な,リードタイム範囲と変数の両方を大きく拡張するMetNet-3を提案する。 MetNet-3は、密度とスパースの両方のデータセンサーから学習し、降水、風、温度、露点を最大24時間前に予測する。 MetNet-3は、極端にスパースなターゲットでのネットワークトレーニングにもかかわらず、暗黙的にデータ同化を捉え、空間的に密度の高い予測を生成するキーデンシフィケーション技術を導入している。 MetNet-3は、それぞれ2分と1kmまでの時間分解能と空間分解能が高く、運用遅延も低い。 MetNet-3は、観測ベースのニューラルモデルに新たなパフォーマンスマイルストーンが設定される前に、最大24時間、CONUS領域上でHRRRやENSのような最も優れたシングルおよびマルチメンバNWPを上回ります。 metnet-3は運用中であり、予測は他のモデルとともにgoogle検索で提供される。

Deep neural networks offer an alternative paradigm for modeling weather conditions. The ability of neural models to make a prediction in less than a second once the data is available and to do so with very high temporal and spatial resolution, and the ability to learn directly from atmospheric observations, are just some of these models' unique advantages. Neural models trained using atmospheric observations, the highest fidelity and lowest latency data, have to date achieved good performance only up to twelve hours of lead time when compared with state-of-the-art probabilistic Numerical Weather Prediction models and only for the sole variable of precipitation. In this paper, we present MetNet-3 that extends significantly both the lead time range and the variables that an observation based neural model can predict well. MetNet-3 learns from both dense and sparse data sensors and makes predictions up to 24 hours ahead for precipitation, wind, temperature and dew point. MetNet-3 introduces a key densification technique that implicitly captures data assimilation and produces spatially dense forecasts in spite of the network training on extremely sparse targets. MetNet-3 has a high temporal and spatial resolution of, respectively, up to 2 minutes and 1 km as well as a low operational latency. We find that MetNet-3 is able to outperform the best single- and multi-member NWPs such as HRRR and ENS over the CONUS region for up to 24 hours ahead setting a new performance milestone for observation based neural models. MetNet-3 is operational and its forecasts are served in Google Search in conjunction with other models.
翻訳日:2023-06-13 21:09:46 公開日:2023-06-12
# ポイントクラウドデータを用いた漁獲量学習のためのニューラルFIM

Neural FIM for learning Fisher Information Metrics from point cloud data ( http://arxiv.org/abs/2306.06062v2 )

ライセンス: Link先を確認
Oluwadamilola Fasina, Guillaume Huguet, Alexander Tong, Yanlei Zhang, Guy Wolf, Maximilian Nickel, Ian Adelstein, Smita Krishnaswamy(参考訳) データ拡散埋め込みは教師なし学習においてユビキタスであり、データの基本構造を明らかにするための有効な技術であることが証明されているが、拡散埋め込みはその離散的な性質のために本質的に制限されている。 この目的のために我々は、ポイントクラウドデータからフィッシャー情報量(FIM)を計算するニューラルFIMを提案し、データに対する連続多様体モデルを実現する。 ニューラルFIMは離散点雲データから拡張可能な距離空間を生成し、計量からの情報が体積や測地線などの多様体特性を教えてくれるようにする。 本稿では,PHATE可視化手法のパラメータ選択におけるNeural FIMの有用性と,IPSCリプログラミングとPBMC(免疫細胞)の2つの単一セルデータセットと玩具データセットの分岐点とクラスタセンターの埋め込みに関する情報を得る能力を示す。

Although data diffusion embeddings are ubiquitous in unsupervised learning and have proven to be a viable technique for uncovering the underlying intrinsic geometry of data, diffusion embeddings are inherently limited due to their discrete nature. To this end, we propose neural FIM, a method for computing the Fisher information metric (FIM) from point cloud data - allowing for a continuous manifold model for the data. Neural FIM creates an extensible metric space from discrete point cloud data such that information from the metric can inform us of manifold characteristics such as volume and geodesics. We demonstrate Neural FIM's utility in selecting parameters for the PHATE visualization method as well as its ability to obtain information pertaining to local volume illuminating branching points and cluster centers embeddings of a toy dataset and two single-cell datasets of IPSC reprogramming and PBMCs (immune cells).
翻訳日:2023-06-13 21:09:17 公開日:2023-06-12
# 物理インフォーメーションニューラルネットワークを用いた初期・後期の対流自発的塊化のシミュレーションと予測

Simulation and Prediction of Countercurrent Spontaneous Imbibition at Early and Late Times Using Physics-Informed Neural Networks ( http://arxiv.org/abs/2306.05554v2 )

ライセンス: Link先を確認
Jassem Abbasi, P{\aa}l {\O}steb{\o} Andersen(参考訳) COUCSI(Countercurrent spontaneous imbibition)は、湿潤相が非湿潤相を置換する多孔質材料のプロセスである。 本研究では,1次元coucsi問題の早期(et)および後期(lt)時間における解法として,物理学的不定型ニューラルネットワーク(pinns)の応用を初めて検討した。 また,PINNの性能向上のための変数変更手法についても検討した。 独立変数 (XT-, XY-, Z-formulations) を変化させることで, COUCSI 問題を3つの等価形式で定式化した。 第1は飽和を正規化位置 X と時間 T の関数として、第2はX と Y=T^0.5 の関数として、第3は Z=X/T^0.5 の唯一の関数として記述する。 PINNモデルは、フィードフォワードニューラルネットワークを用いて生成され、物理インフォームド損失項と初期および境界条件に対応する条件を含む重み付き損失関数の最小化に基づいて訓練された。 訓練には合成データも実験データも関与しなかった。 これら3つの定式化は、XTおよびXYの0.019と0.009、ETでのZの定式化では0.012と、水飽和平均絶対誤差(MAE)を正確に近似することができる。 Zの定式化は、ETにおけるシステムの自己相似性を完璧に捉えた。 これはXTとXYの定式化によって捕えられなかった。 飽和の総変動(TV)はZの定式化で保存され,XY-はXTの定式化よりも保存性が良好であった。 物理学に触発された変数に基づく問題の再定義により,問題の非線形性が減少し,高解のアキュラティ,高次ロスランドスケープ凸性,必要なコロケーション点の少ない数,ネットワークサイズが小さく,計算効率のよい解が得られた。

Countercurrent spontaneous imbibition (COUCSI) is a process in porous materials in which a wetting phase displaces non-wetting phase. In this work, we investigate for the first time the application of Physics-Informed Neural Networks (PINNs) in solving the 1D COUCSI problem in both early (ET) and late (LT) times. Also novel, we examine the Change-of-Variables technique for improving the performance of PINNs. We formulated the COUCSI problem in three equivalent forms by changing the independent variables: XT-, XY-, and Z-formulations. The first describes saturation as function of normalized position X and time T; the second as function of X and Y=T^0.5; and the third as a sole function of Z=X/T^0.5 (valid only at ET). The PINN model was generated using a feed-forward neural network and trained based on minimizing a weighted loss function, including the physics-informed loss term and terms corresponding to the initial and boundary conditions. No synthetical or experimental data were involved in the training. All three formulations could closely approximate the correct solutions (obtained by fine-grid numerical simulations), with water saturation mean absolute errors (MAE) around 0.019 and 0.009 for XT and XY formulations and 0.012 for the Z formulation at ET. The Z formulation perfectly captured the self-similarity of the system at ET. This was less captured by XT and XY formulations. The total variation (TV) of saturation was preserved in the Z formulation, and it was better preserved with XY- than XT formulation. It was demonstrated that redefining the problem based on physics-inspired variables reduced the non-linearity of the problem and allowed higher solution accuracies, a higher degree of loss-landscape convexity, a lower number of required collocation points, smaller network sizes, and more computationally efficient solutions.
翻訳日:2023-06-13 21:08:59 公開日:2023-06-12
# エンドツーエンドasp計算に向けて

Towards end-to-end ASP computation ( http://arxiv.org/abs/2306.06821v1 )

ライセンス: Link先を確認
Taisuke Sato, Akihiro Takemura, Tatsumi Inoue(参考訳) 本稿では,与えられた制約を満たす線形代数的安定モデルと解集合プログラミング(ASP)のエンドツーエンドアプローチを提案する。 この考え方はLin-Zhaoの定理 \cite{Lin04} をベクトル空間に直接制約を伴って実装することであり、これは行列化された正規論理プログラムから構築されたコスト関数の数値最小化、Lin-Zhaoの定理と制約のループ公式、したがって我々のアプローチにかかわる記号的ASPやSATソルバを使わないことである。 また,ループ公式のプログラムサイズとヒューリスティックスを縮小し,計算の難易度を低減するプリ計算を提案する。 3色およびハミルトンサイクル問題を含むプログラミング例を用いて、我々のアプローチを実証的に検証する。 我々のアプローチは純粋に数値であり、ベクトル/行列演算のみを含むため、マルチコアやGPUといった並列技術による加速度が期待できる。

We propose an end-to-end approach for answer set programming (ASP) and linear algebraically compute stable models satisfying given constraints. The idea is to implement Lin-Zhao's theorem \cite{Lin04} together with constraints directly in vector spaces as numerical minimization of a cost function constructed from a matricized normal logic program, loop formulas in Lin-Zhao's theorem and constraints, thereby no use of symbolic ASP or SAT solvers involved in our approach. We also propose precomputation that shrinks the program size and heuristics for loop formulas to reduce computational difficulty. We empirically test our approach with programming examples including the 3-coloring and Hamiltonian cycle problems. As our approach is purely numerical and only contains vector/matrix operations, acceleration by parallel technologies such as many-cores and GPUs is expected.
翻訳日:2023-06-13 16:28:10 公開日:2023-06-12
# ロバスト音声言語理解のためのマルチモーダル音声テキストアーキテクチャ

Multimodal Audio-textual Architecture for Robust Spoken Language Understanding ( http://arxiv.org/abs/2306.06819v1 )

ライセンス: Link先を確認
Anderson R. Avila, Mehdi Rezagholizadeh, Chao Xing(参考訳) 最近の音声アシスタントは通常、自動音声認識(ASR)エンジンと自然言語理解(NLU)システムからなるカスケード音声言語理解(SLU)ソリューションに基づいている。 このようなアプローチはASR出力に依存するため、しばしばいわゆるASRエラー伝播に悩まされる。 本研究では, BERT や RoBERTa などの事前学習言語モデル (PLM) に基づく最先端 NLU システムに対する ASR 誤り伝搬の影響について検討する。 さらに,マルチモーダル言語理解 (MLU) モジュールが提案され,ASR文字起こしにおける誤りによるSLU性能劣化を軽減する。 MLUは音声とテキストの両方から学習した自己教師機能、特に音声はWav2Vec、言語はBert/RoBERTaの恩恵を受ける。 我々のMLUは、エンコーダネットワークを組み合わせてオーディオ信号とテキストエンコーダを埋め込み、テキストの書き起こしを処理し、後続の融合層で音声とテキストのログを融合する。 提案したMLUは品質の悪いASR転写に対して堅牢であり,BERTとRoBERTaの性能は著しく損なわれていることがわかった。 本モデルは,3つのSLUデータセットから5つのタスクに対して評価し,3つのASRエンジンからのASR転写を用いてロバスト性を検証した。 その結果、提案手法は、学術的ASRエンジンの全てのデータセットでPLMモデルの性能を上回り、ASRエラー伝播問題を効果的に軽減することを示した。

Recent voice assistants are usually based on the cascade spoken language understanding (SLU) solution, which consists of an automatic speech recognition (ASR) engine and a natural language understanding (NLU) system. Because such approach relies on the ASR output, it often suffers from the so-called ASR error propagation. In this work, we investigate impacts of this ASR error propagation on state-of-the-art NLU systems based on pre-trained language models (PLM), such as BERT and RoBERTa. Moreover, a multimodal language understanding (MLU) module is proposed to mitigate SLU performance degradation caused by errors present in the ASR transcript. The MLU benefits from self-supervised features learned from both audio and text modalities, specifically Wav2Vec for speech and Bert/RoBERTa for language. Our MLU combines an encoder network to embed the audio signal and a text encoder to process text transcripts followed by a late fusion layer to fuse audio and text logits. We found that the proposed MLU showed to be robust towards poor quality ASR transcripts, while the performance of BERT and RoBERTa are severely compromised. Our model is evaluated on five tasks from three SLU datasets and robustness is tested using ASR transcripts from three ASR engines. Results show that the proposed approach effectively mitigates the ASR error propagation problem, surpassing the PLM models' performance across all datasets for the academic ASR engine.
翻訳日:2023-06-13 16:27:50 公開日:2023-06-12
# ロバストなトポロジカル・アンダーソン絶縁体によるリエントラント局在転移

Robust Topological Anderson Insulator Induced Reentrant Localization Transition ( http://arxiv.org/abs/2306.06818v1 )

ライセンス: Link先を確認
Zhanpeng Lu, Yunbo Zhang, and Zhihao Xu(参考訳) 準周期変調ホッピングを持つ一般化Su-Schrieffer-Heeger(SSH)モデルの位相と局在特性について検討した。 その結果、非対角的な準周期変調の相互作用は、トポロジカルアンダーソン絶縁体(TAI)相と再帰的なトポロジカルアンダーソン絶縁体(RTAI)相を誘導し、トポロジカル位相境界はゼロエネルギーモードの局在長のばらつきによって発見できることがわかった。 障害の増加とともにTAI体制が有限範囲に出現する従来のケースとは対照的に,TAIとRTAIは,我々のシステムに対する任意の変調振幅に対して頑健である。 さらに, TAI と RTAI は, 再帰的局所化遷移の出現を誘導できることがわかった。 このような再入射局在遷移とtai/rtaiの関係は, 運動量・格子工学の手法を用いて, 寒冷原子系の波束力学から検出できる。

We study the topology and localization properties of a generalized Su-Schrieffer-Heeger (SSH) model with a quasi-periodic modulated hopping. It is found that the interplay of off-diagonal quasi-periodic modulations can induce topological Anderson insulator (TAI) phases and reentrant topological Anderson insulator (RTAI), and the topological phase boundaries can be uncovered by the divergence of the localization length of the zero-energy mode. In contrast to the conventional case that the TAI regime emerges in a finite range with the increase of disorder, the TAI and RTAI are robust against arbitrary modulation amplitude for our system. Furthermore, we find that the TAI and RTAI can induce the emergence of reentrant localization transitions. Such an interesting connection between the reentrant localization transition and the TAI/RTAI can be detected from the wave-packet dynamics in cold atom systems by adopting the technique of momentum-lattice engineering.
翻訳日:2023-06-13 16:27:25 公開日:2023-06-12
# TrojPrompt: トレーニング済み言語モデルに対するブラックボックストロイの木馬攻撃

TrojPrompt: A Black-box Trojan Attack on Pre-trained Language Models ( http://arxiv.org/abs/2306.06815v1 )

ライセンス: Link先を確認
Jiaqi Xue, Yepeng Liu, Mengxin Zheng, Ting Hua, Yilin Shen, Ladislau Boloni and Qian Lou(参考訳) プロンプト学習は、事前学習された言語モデル(plm)適応性の改善に非常に効果的であることが証明されており、従来の微調整パラダイムを上回っており、数少ない学習シナリオ用に調整されたアプリケーションやapiの状況において、非常に有望である。 プロンプト学習ベースのapiが注目されているにもかかわらず、セキュリティに関する懸念は未検討のままである。 本稿では,プロンプトラーニング PLM API のトロイの木馬感受性に関する先駆的な研究を行う。 我々は,既存のバックドア攻撃の適用性を制限した離散プロンプト,少数ショット,ブラックボックス設定など,いくつかの重要な課題を特定した。 これらの課題に対処するため,我々は,汎用的でステルスなトリガを生成し,トロイの木馬をハードプロンプトに挿入する自動ブラックボックスフレームワークであるtrojpromptを提案する。 具体的には,限られたデータサンプルを用いて被害者のplm apiに問い合わせることで,様々な入力に対してユニバーサルトリガを生成するためのユニバーサルapi駆動トリガー探索アルゴリズムを提案する。 さらに,多種多様なモデルにおける有効性と伝達性を維持する毒素を発生させる新しいプログレッシブトロイの木馬毒アルゴリズムを提案する。 実世界のブラックボックス PLM API において,TrojPrompt をテキストプロンプトに効果的に挿入する能力を示すとともに,クリーンなテストセット上での例外的な性能を維持し,ベースラインモデルよりも大幅に優れていることを示す。 私たちの仕事は、現在のモデルの潜在的なセキュリティリスクに光を当て、潜在的な防御的アプローチを提供します。

Prompt learning has been proven to be highly effective in improving pre-trained language model (PLM) adaptability, surpassing conventional fine-tuning paradigms, and showing exceptional promise in an ever-growing landscape of applications and APIs tailored for few-shot learning scenarios. Despite the growing prominence of prompt learning-based APIs, their security concerns remain underexplored. In this paper, we undertake a pioneering study on the Trojan susceptibility of prompt-learning PLM APIs. We identified several key challenges, including discrete-prompt, few-shot, and black-box settings, which limit the applicability of existing backdoor attacks. To address these challenges, we propose TrojPrompt, an automatic and black-box framework to effectively generate universal and stealthy triggers and insert Trojans into hard prompts. Specifically, we propose a universal API-driven trigger discovery algorithm for generating universal triggers for various inputs by querying victim PLM APIs using few-shot data samples. Furthermore, we introduce a novel progressive trojan poisoning algorithm designed to generate poisoned prompts that retain efficacy and transferability across a diverse range of models. Our experiments and results demonstrate TrojPrompt's capacity to effectively insert Trojans into text prompts in real-world black-box PLM APIs, while maintaining exceptional performance on clean test sets and significantly outperforming baseline models. Our work sheds light on the potential security risks in current models and offers a potential defensive approach.
翻訳日:2023-06-13 16:27:06 公開日:2023-06-12
# HiddenSinger:ニューラルオーディオコーデックと潜時拡散モデルによる高品質歌声合成

HiddenSinger: High-Quality Singing Voice Synthesis via Neural Audio Codec and Latent Diffusion Models ( http://arxiv.org/abs/2306.06814v1 )

ライセンス: Link先を確認
Ji-Sang Hwang, Sang-Hoon Lee, and Seong-Whan Lee(参考訳) 近年,異化拡散モデルは様々な領域の生成モデルにおいて有意な性能を示している。 しかし、音声領域では、音声合成が長期音響特性を持つ非常に高次元のサンプルを必要とするため、時間変化オーディオを合成するための拡散モデルの適用は、複雑さと制御性の観点から制限に直面している。 歌唱音声合成におけるモデル複雑さによる課題を軽減するため,ニューラルオーディオコーデックと潜時拡散モデルを用いた高品質な歌唱音声合成システムであるHiddenSingerを提案する。 高忠実度オーディオを保証するため,音声コーデックを圧縮表現として符号化し,低次元圧縮潜在ベクトルから高忠実度オーディオを再構成するオーディオオートエンコーダを導入する。 その後、潜時拡散モデルを用いて楽譜から潜時表現をサンプリングする。 さらに,提案モデルは教師なしの歌唱学習フレームワークであるhiddensinger-uに拡張され,ラベルなし歌唱音声データセットを用いてモデルを訓練する。 実験の結果,従来のモデルよりも音質が優れていた。 さらに、HiddenSinger-Uは、ラベルなしデータのみに基づいて訓練された話者の高品質な歌声を合成することができる。

Recently, denoising diffusion models have demonstrated remarkable performance among generative models in various domains. However, in the speech domain, the application of diffusion models for synthesizing time-varying audio faces limitations in terms of complexity and controllability, as speech synthesis requires very high-dimensional samples with long-term acoustic features. To alleviate the challenges posed by model complexity in singing voice synthesis, we propose HiddenSinger, a high-quality singing voice synthesis system using a neural audio codec and latent diffusion models. To ensure high-fidelity audio, we introduce an audio autoencoder that can encode audio into an audio codec as a compressed representation and reconstruct the high-fidelity audio from the low-dimensional compressed latent vector. Subsequently, we use the latent diffusion models to sample a latent representation from a musical score. In addition, our proposed model is extended to an unsupervised singing voice learning framework, HiddenSinger-U, to train the model using an unlabeled singing voice dataset. Experimental results demonstrate that our model outperforms previous models in terms of audio quality. Furthermore, the HiddenSinger-U can synthesize high-quality singing voices of speakers trained solely on unlabeled data.
翻訳日:2023-06-13 16:26:38 公開日:2023-06-12
# 特に

Particularity ( http://arxiv.org/abs/2306.06812v1 )

ライセンス: Link先を確認
Lee Spector, Li Ding, Ryan Boldi(参考訳) 本稿では,適応型システムの設計原理について述べる。適応型システムの設計原理は,環境がもたらす特定の課題によって駆動されるが,多くの課題に対して平均的あるいはその他に集約されたパフォーマンス尺度とは対照的である。 この「特別性」アプローチの開発は、遺伝的プログラミングにおけるレキシケース選択の使用から、他の形態の機械学習への「特別性」アプローチ、より一般的な適応システムの設計へと遡る。

We describe a design principle for adaptive systems under which adaptation is driven by particular challenges that the environment poses, as opposed to average or otherwise aggregated measures of performance over many challenges. We trace the development of this "particularity" approach from the use of lexicase selection in genetic programming to "particularist" approaches to other forms of machine learning and to the design of adaptive systems more generally.
翻訳日:2023-06-13 16:26:18 公開日:2023-06-12
# 無バイアスガウスプロセスハイパーパラメータ推定によるベイズ最適化の可能性

Provably Efficient Bayesian Optimization with Unbiased Gaussian Process Hyperparameter Estimation ( http://arxiv.org/abs/2306.06844v1 )

ライセンス: Link先を確認
Huong Ha, Vu Nguyen, Hongyu Zhang, Anton van den Hengel(参考訳) ガウス過程(GP)に基づくベイズ最適化(BO)はブラックボックス関数を効率的に最適化する強力な手法である。 このアプローチに関連する実用的性能と理論的保証は、事前に未知であり、観測データから推定する必要がある適切なgpハイパーパラメータ値を持つことに依存する。 しかし実際には、boで一般的に使用されるバイアスデータサンプリング戦略のため、これらの推定は正しくない可能性がある。 これにより性能が低下し、BOのサブ線形グローバル収束保証を破る可能性がある。 そこで本研究では,実gpハイパーパラメータが事前に不明であり,観測データから推定する必要がある場合でも,対象関数のグローバル最適値にサブ線形収束可能なbo法を提案する。 提案手法では,マルチアームバンディット法(EXP3)を用いてBOプロセスにランダムなデータポイントを付加し,GPハイパーパラメータ推定プロセスに新たなトレーニング損失関数を適用し,観測データから不偏推定を確実にする。 さらに,提案手法の理論的解析を行う。 最後に,本手法が様々な合成および実世界の問題に対する既存手法よりも優れていることを示す。

Gaussian process (GP) based Bayesian optimization (BO) is a powerful method for optimizing black-box functions efficiently. The practical performance and theoretical guarantees associated with this approach depend on having the correct GP hyperparameter values, which are usually unknown in advance and need to be estimated from the observed data. However, in practice, these estimations could be incorrect due to biased data sampling strategies commonly used in BO. This can lead to degraded performance and break the sub-linear global convergence guarantee of BO. To address this issue, we propose a new BO method that can sub-linearly converge to the global optimum of the objective function even when the true GP hyperparameters are unknown in advance and need to be estimated from the observed data. Our method uses a multi-armed bandit technique (EXP3) to add random data points to the BO process, and employs a novel training loss function for the GP hyperparameter estimation process that ensures unbiased estimation from the observed data. We further provide theoretical analysis of our proposed method. Finally, we demonstrate empirically that our method outperforms existing approaches on various synthetic and real-world problems.
翻訳日:2023-06-13 16:21:02 公開日:2023-06-12
# 長文モデリングのためのリカレントアテンションネットワーク

Recurrent Attention Networks for Long-text Modeling ( http://arxiv.org/abs/2306.06843v1 )

ライセンス: Link先を確認
Xianming Li, Zongxi Li, Xiaotian Luo, Haoran Xie, Xing Lee, Yingbin Zhao, Fu Lee Wang, Qing Li(参考訳) 自己注意に基づくモデルは、短文マイニングにおいて顕著な進歩を遂げた。 しかし、二次計算の複雑さは長文処理におけるそれらの応用を制限する。 以前の作業ではチャンキング戦略を採用しており、長いドキュメントをチャンクに分割し、自己対応バックボーンをリカレント構造に積み重ねて意味表現を抽出する。 このようなアプローチは注意機構の並列化を無効にし、トレーニングコストを大幅に増加させ、ハードウェア要件を増加させる。 本稿では, 自己注意機構と再帰構造を再考し, 自己注意の繰り返し動作を可能にするために, RAN(Recurrent Attention Network) という長文符号化モデルを提案する。 両面の利点を組み合わせることで、よく設計されたRANはトークンレベルの表現とドキュメントレベルの表現の両方でグローバルなセマンティクスを抽出することができ、それぞれシーケンシャルタスクと分類タスクの両方と本質的に互換性がある。 さらにRANは、長いドキュメント処理の並列化をサポートするため、計算にスケーラブルである。 広範にわたる実験では、分類とシーケンシャルタスクの両方において提案したRANモデルの長文符号化能力を示し、幅広い応用の可能性を示している。

Self-attention-based models have achieved remarkable progress in short-text mining. However, the quadratic computational complexities restrict their application in long text processing. Prior works have adopted the chunking strategy to divide long documents into chunks and stack a self-attention backbone with the recurrent structure to extract semantic representation. Such an approach disables parallelization of the attention mechanism, significantly increasing the training cost and raising hardware requirements. Revisiting the self-attention mechanism and the recurrent structure, this paper proposes a novel long-document encoding model, Recurrent Attention Network (RAN), to enable the recurrent operation of self-attention. Combining the advantages from both sides, the well-designed RAN is capable of extracting global semantics in both token-level and document-level representations, making it inherently compatible with both sequential and classification tasks, respectively. Furthermore, RAN is computationally scalable as it supports parallelization on long document processing. Extensive experiments demonstrate the long-text encoding ability of the proposed RAN model on both classification and sequential tasks, showing its potential for a wide range of applications.
翻訳日:2023-06-13 16:20:20 公開日:2023-06-12
# AerialFormer:Aerial Image Segmentationのためのマルチレゾリューショントランス

AerialFormer: Multi-resolution Transformer for Aerial Image Segmentation ( http://arxiv.org/abs/2306.06842v1 )

ライセンス: Link先を確認
Kashu Yamazaki, Taisei Hanyu, Minh Tran, Adrian Garcia, Anh Tran, Roy McCann, Haitao Liao, Chase Rainwater, Meredith Adkins, Andrew Molthan, Jackson Cothren, Ngan Le(参考訳) Aerial Image Segmentationは、トップダウンの視点セマンティックセマンティックセグメンテーションであり、フォアグラウンド-バックグラウンド分布の強い不均衡、複雑な背景、クラス内不均一性、クラス間均一性、小さなオブジェクトなど、いくつかの困難な特徴を持っている。 これらの問題に対処するために、Transformerの利点を継承し、拡張経路における軽量なMD-CNN(Multi-Dilated Convolutional Neural Networks)を用いてTransformerをコントラクトパスで統一するAerialFormerを提案する。 トランスフォーマはマルチスケールな特徴を出力し、md-cnnsデコーダはマルチスケールから情報を集約する階層構造として設計されている。 したがって、ローカルとグローバルの両方のコンテキストを考慮に入れ、強力な表現と高解像度のセグメンテーションを描画する。 AerialFormerをiSAID、LoveDA、Potsdamの3つの一般的なデータセットでベンチマークしました。 包括的実験と広範囲なアブレーション実験により,提案したAerialFormerは従来の最先端手法よりも優れた性能を示した。 ソースコードは承認次第、公開される予定だ。

Aerial Image Segmentation is a top-down perspective semantic segmentation and has several challenging characteristics such as strong imbalance in the foreground-background distribution, complex background, intra-class heterogeneity, inter-class homogeneity, and tiny objects. To handle these problems, we inherit the advantages of Transformers and propose AerialFormer, which unifies Transformers at the contracting path with lightweight Multi-Dilated Convolutional Neural Networks (MD-CNNs) at the expanding path. Our AerialFormer is designed as a hierarchical structure, in which Transformer encoder outputs multi-scale features and MD-CNNs decoder aggregates information from the multi-scales. Thus, it takes both local and global contexts into consideration to render powerful representations and high-resolution segmentation. We have benchmarked AerialFormer on three common datasets including iSAID, LoveDA, and Potsdam. Comprehensive experiments and extensive ablation studies show that our proposed AerialFormer outperforms previous state-of-the-art methods with remarkable performance. Our source code will be publicly available upon acceptance.
翻訳日:2023-06-13 16:19:46 公開日:2023-06-12
# 知識追跡のためのスキル・ツー・スキル・スーパービジョンの活用

Leveraging Skill-to-Skill Supervision for Knowledge Tracing ( http://arxiv.org/abs/2306.06841v1 )

ライセンス: Link先を確認
Hyeondey Kim, Jinwoo Nam, Minjae Lee, Yun Jegal, Kyungwoo Song(参考訳) 知識追跡は知的学習システムにおいて重要な役割を果たす。 本課題は,学生が特定の質問に対して正しく回答する確率を予測することである。 そのためには,課題解決の歴史と課題に関する知識を活用して,学生の知識状態を追跡すべきである。 近年,知識追跡モデルの進歩により,問題解決履歴の活用が向上している。 しかし,問題に関する知識は,学生の回答履歴に比較して研究されていない。 知識を直接組み込む知識トレースアルゴリズムは、限られたデータやコールドスタートの設定において重要である。 そこで本研究では,知識の追跡にスキルとスキルの関係を利用する問題を考える。 本稿では,専門家によるスキルとスキルの関係について紹介する。 さらに,スキル間の関係に関する人間専門家の洞察を活用すべく,知識トラッシングモデルを構築するための新しい手法を提案する。 その結果,本手法はベースライン変圧器モデルよりも優れた性能を示した。 さらに,データ量が限られている状況では,モデルの優位度が高かったため,モデルのスムーズなコールドスタートが可能となった。

Knowledge tracing plays a pivotal role in intelligent tutoring systems. This task aims to predict the probability of students answering correctly to specific questions. To do so, knowledge tracing systems should trace the knowledge state of the students by utilizing their problem-solving history and knowledge about the problems. Recent advances in knowledge tracing models have enabled better exploitation of problem solving history. However, knowledge about problems has not been studied, as well compared to students' answering histories. Knowledge tracing algorithms that incorporate knowledge directly are important to settings with limited data or cold starts. Therefore, we consider the problem of utilizing skill-to-skill relation to knowledge tracing. In this work, we introduce expert labeled skill-to-skill relationships. Moreover, we also provide novel methods to construct a knowledge-tracing model to leverage human experts' insight regarding relationships between skills. The results of an extensive experimental analysis show that our method outperformed a baseline Transformer model. Furthermore, we found that the extent of our model's superiority was greater in situations with limited data, which allows a smooth cold start of our model.
翻訳日:2023-06-13 16:19:22 公開日:2023-06-12
# 関数近似を用いた強化学習における重機付きリワードの処理:ミニマックス最適およびインスタンス依存レグレト境界

Tackling Heavy-Tailed Rewards in Reinforcement Learning with Function Approximation: Minimax Optimal and Instance-Dependent Regret Bounds ( http://arxiv.org/abs/2306.06836v1 )

ライセンス: Link先を確認
Jiayi Huang, Han Zhong, Liwei Wang, Lin F. Yang(参考訳) 多くの研究は、一様有界の報酬を持つ強化学習(rl)のための効率的なアルゴリズムを考案することに焦点をあてているが、いくつかの$\epsilon\in(0,1]$ に対して有限$(1+\epsilon)$-th moments の報酬が \emph{heavy-tailed} である場合、大きな状態作用空間を持つrlのサンプルまたは時間効率のよいアルゴリズムが存在するかどうかという疑問が残されている。 本稿では、線形関数近似を用いたRLにおけるそのような報酬の課題に対処する。 まず,重尾付き線形バンドイットのアルゴリズムである \textsc{heavy-oful} を設計し,$\tilde{o}\big(d t^{\frac{1-\epsilon}{2(1+\epsilon)}} \sqrt{\sum_{t=1}^t \nu_t^2} + d t^{\frac{1-\epsilon}{2(1+\epsilon)}}\big)$,この種の \emph{first} を達成する。 ここで、$d$は特徴次元であり、$\nu_t^{1+\epsilon}$は$(1+\epsilon)$-th central moment of the reward at the $t$-th roundである。 さらに, 確率的および決定論的線形バンドイットの最悪の場合に適用した場合, 上記の境界はミニマックス最適であることを示した。 次に、このアルゴリズムを線形関数近似を用いてRL設定に拡張する。 このアルゴリズムは \textsc{heavy-lsvi-ucb} と呼ばれ、計算効率のよい \emph{instance-dependent} $k$-episode regret of $\tilde{o}(d \sqrt{h \mathcal{u}^*} k^\frac{1}{1+\epsilon} + d \sqrt{h \mathcal{v}^* k})$ を達成する。 ここで、$H$はエピソードの長さであり、$\mathcal{U}^* と \mathcal{V}^*$ はそれぞれ、報酬と値関数の中心モーメントを持つインスタンス依存の量スケーリングである。 また、マッチングされたミニマックス下界 $\Omega(d H K^{\frac{1}{1+\epsilon}} + d \sqrt{H^3K})$ を提供し、最悪の場合、アルゴリズムの最適性を示す。 我々の結果は、オンライン回帰問題全般において重み付きノイズを扱うことに独立した関心を持つような、新しい堅牢な自己正規化集中不等式によって達成される。

While numerous works have focused on devising efficient algorithms for reinforcement learning (RL) with uniformly bounded rewards, it remains an open question whether sample or time-efficient algorithms for RL with large state-action space exist when the rewards are \emph{heavy-tailed}, i.e., with only finite $(1+\epsilon)$-th moments for some $\epsilon\in(0,1]$. In this work, we address the challenge of such rewards in RL with linear function approximation. We first design an algorithm, \textsc{Heavy-OFUL}, for heavy-tailed linear bandits, achieving an \emph{instance-dependent} $T$-round regret of $\tilde{O}\big(d T^{\frac{1-\epsilon}{2(1+\epsilon)}} \sqrt{\sum_{t=1}^T \nu_t^2} + d T^{\frac{1-\epsilon}{2(1+\epsilon)}}\big)$, the \emph{first} of this kind. Here, $d$ is the feature dimension, and $\nu_t^{1+\epsilon}$ is the $(1+\epsilon)$-th central moment of the reward at the $t$-th round. We further show the above bound is minimax optimal when applied to the worst-case instances in stochastic and deterministic linear bandits. We then extend this algorithm to the RL settings with linear function approximation. Our algorithm, termed as \textsc{Heavy-LSVI-UCB}, achieves the \emph{first} computationally efficient \emph{instance-dependent} $K$-episode regret of $\tilde{O}(d \sqrt{H \mathcal{U}^*} K^\frac{1}{1+\epsilon} + d \sqrt{H \mathcal{V}^* K})$. Here, $H$ is length of the episode, and $\mathcal{U}^*, \mathcal{V}^*$ are instance-dependent quantities scaling with the central moment of reward and value functions, respectively. We also provide a matching minimax lower bound $\Omega(d H K^{\frac{1}{1+\epsilon}} + d \sqrt{H^3 K})$ to demonstrate the optimality of our algorithm in the worst case. Our result is achieved via a novel robust self-normalized concentration inequality that may be of independent interest in handling heavy-tailed noise in general online regression problems.
翻訳日:2023-06-13 16:19:09 公開日:2023-06-12
# 適応入力状態制御による相補光子偏光の量子的文脈性

Quantum contextuality of complementary photon polarizations explored by adaptive input state control ( http://arxiv.org/abs/2306.06831v1 )

ライセンス: Link先を確認
Kengo Matsuyama, Ming Ji, Holger F. Hofmann, Masataka Iinuma(参考訳) 量子的文脈性と非局所性を示す3つの決定論的条件を満たすために、2光子状態の絡み合いと局所的偏光を適応させることにより、相補的光子偏光間の非局所的文脈関係を実験的に検討する。 この適応入力状態制御の重要な要素は、光子源の絡み合いの可変度である。 局所偏光回転は3つの相関のうちの2つを最適化することができ、絡み合いの変化は3番目の相関を最適化する。 量子文脈性は局所的相補性と量子相関の非自明なトレードオフに基づいていることを示す。

We experimentally investigate non-local contextual relations between complementary photon polarizations by adapting the entanglement and the local polarizations of a two-photon state to satisfy three deterministic conditions demonstrating both quantum contextuality and non-locality. The key component of this adaptive input state control is the variable degree of entanglement of the photon source. Local polarization rotations can optimize two of the three correlations, and the variation of the entanglement optimizes the third correlation. Our results demonstrate that quantum contextuality is based on a non-trivial trade-off between local complementarity and quantum correlations.
翻訳日:2023-06-13 16:17:56 公開日:2023-06-12
# アノテーションはいつ重要なのか? popquornデータセットを用いたアノテータ集団の影響測定

When Do Annotator Demographics Matter? Measuring the Influence of Annotator Demographics with the POPQUORN Dataset ( http://arxiv.org/abs/2306.06826v1 )

ライセンス: Link先を確認
Jiaxin Pei and David Jurgens(参考訳) 注釈は役に立たない。 彼らの人口統計、生活経験、背景はすべて、データのラベル付けに寄与している。 しかしながら、NLPは、アノテーションのアイデンティティが彼らの決定にどのように影響するかを最近だけ検討している。 本稿では, POPQUORN(QUestion-Answering, Offensiveness, text Rewriting, politeness rating with demographic Nuance)を提案する。 POPQUORNには1,484人のアノテーションからの45,000のアノテーションが含まれている。 一連の分析を通じて,注釈者の背景が判断において重要な役割を担っていることを示す。 さらに、NLP(例えば、教育)ではこれまで考慮されていなかった背景が有意義であり、考慮すべきであることを示す。 本研究では,アノテータの背景を理解し,集団的バランスのとれた集団労働者のプールからラベルを収集することが,データセットのバイアスを軽減する上で重要であることを示唆する。 データセット、アノテーションの背景、アノテーションのインターフェースはhttps://github.com/Jiaxin-Pei/potato-prolific-dataset で利用可能だ。

Annotators are not fungible. Their demographics, life experiences, and backgrounds all contribute to how they label data. However, NLP has only recently considered how annotator identity might influence their decisions. Here, we present POPQUORN (the POtato-Prolific dataset for QUestion-Answering, Offensiveness, text Rewriting, and politeness rating with demographic Nuance). POPQUORN contains 45,000 annotations from 1,484 annotators, drawn from a representative sample regarding sex, age, and race as the US population. Through a series of analyses, we show that annotators' background plays a significant role in their judgments. Further, our work shows that backgrounds not previously considered in NLP (e.g., education), are meaningful and should be considered. Our study suggests that understanding the background of annotators and collecting labels from a demographically balanced pool of crowd workers is important to reduce the bias of datasets. The dataset, annotator background, and annotation interface are available at https://github.com/Jiaxin-Pei/potato-prolific-dataset .
翻訳日:2023-06-13 16:17:44 公開日:2023-06-12
# AnoFel: プライバシ保護フェデレーション学習のための匿名サポート

AnoFel: Supporting Anonymity for Privacy-Preserving Federated Learning ( http://arxiv.org/abs/2306.06825v1 )

ライセンス: Link先を確認
Ghada Almashaqbeh, Zahra Ghodsi(参考訳) フェデレートされた学習により、ユーザーはプライベートデータセット上で機械学習モデルを協調的にトレーニングできる。 セキュアアグリゲーションプロトコルを使用して、ローカルデータセットに関する情報漏洩を軽減する。 しかし、この設定は、トレーニングイテレーションにおけるユーザの参加をいまだリークしているため、センシティブな場合もある。 ユーザの匿名性を保護することは、ユーザが任意のタイミングでトレーニングプロセスに参加したり、離れたりできる動的環境においてさらに難しい。 本稿では,federated learningにおける個人および匿名の動的参加を支援する最初のフレームワークであるanofelを紹介する。 AnoFelは、いくつかの暗号化プリミティブ、匿名性セットの概念、差分プライバシー、匿名ユーザ登録をサポートする公開掲示板、およびリンク不能で機密性の高いモデル更新の提出を活用する。 さらに,リカバリプロトコルやインタラクションを必要とせずに,ユーザがいつでも参加あるいは離脱できる動的参加を可能にする。 セキュリティを評価するために,フェデレーション学習におけるプライバシーと匿名性の概念を形式化し,AnoFelがこの概念を満足していることを正式に証明する。 我々の知る限りでは、我々のシステムは証明可能な匿名性を保証する最初のソリューションである。 効率性を評価するため、AnoFelの具体的な実装を提供し、多数のクライアントにスケールする学習アプリケーションをサポートする能力を示す実験を行う。 512のクライアントを持つmnist分類タスクでは、クライアントの設定は3秒未満で、トレーニングイテレーションは3.2秒で完了する。 また,本システムと先行研究を比較し,現代学習課題の実用性を示す。

Federated learning enables users to collaboratively train a machine learning model over their private datasets. Secure aggregation protocols are employed to mitigate information leakage about the local datasets. This setup, however, still leaks the participation of a user in a training iteration, which can also be sensitive. Protecting user anonymity is even more challenging in dynamic environments where users may (re)join or leave the training process at any point of time. In this paper, we introduce AnoFel, the first framework to support private and anonymous dynamic participation in federated learning. AnoFel leverages several cryptographic primitives, the concept of anonymity sets, differential privacy, and a public bulletin board to support anonymous user registration, as well as unlinkable and confidential model updates submission. Additionally, our system allows dynamic participation, where users can join or leave at any time, without needing any recovery protocol or interaction. To assess security, we formalize a notion for privacy and anonymity in federated learning, and formally prove that AnoFel satisfies this notion. To the best of our knowledge, our system is the first solution with provable anonymity guarantees. To assess efficiency, we provide a concrete implementation of AnoFel, and conduct experiments showing its ability to support learning applications scaling to a large number of clients. For an MNIST classification task with 512 clients, the client setup takes less than 3 sec, and a training iteration can be finished in 3.2 sec. We also compare our system with prior work and demonstrate its practicality for contemporary learning tasks.
翻訳日:2023-06-13 16:17:26 公開日:2023-06-12
# SE#PCFG: パスワード分析とクラックのためのセマンティックに強化されたPCFG

SE#PCFG: Semantically Enhanced PCFG for Password Analysis and Cracking ( http://arxiv.org/abs/2306.06824v1 )

ライセンス: Link先を確認
Yangde Wang, Weidong Qiu, Weicheng Zhang, Hao Tian, Shujun Li(参考訳) ユーザー生成のテキストパスワードに関する多くの研究が行われている。 驚くべきことに、このようなパスワードのセマンティック情報は、英語や中国語のユーザーによって作られたパスワードが、限定的なセマンティックスでより研究されている。 本稿では,意味的に拡張されたPCFG (probabilistic context-free grammars) に基づく汎用フレームワークSE#PCFGを提案することにより,このギャップを埋める。 これにより,43種類のセマンティック情報,すなわちこれまでに検討された最もリッチなセットをセマンティックパスワード解析に利用することができる。 SE#PCFGを4言語(英語、中国語、ドイツ語、フランス語)のユーザによる17の大規模なパスワードデータベースに適用することにより、その有用性を実証し、クロスサイトパスワード相関など、さまざまなレベルでパスワードセマンティクスに関する幅広い洞察を報告します。 さらに,SE#PCFGと新しい系統的平滑化手法に基づいて,セマンティック拡張パスワードクラッキングアーキテクチャ(SEPCA)を提案する。 パスワードカバレッジ率の観点から,SEPCAとSOTA(State-of-the-art)の3つのベンチマークを比較した。 実験の結果,SEPCAは52のテストケースにおいて,ユーザレベルでそれぞれ最大21.53%,52.55%,7.86%(重複パスワード付き)の3つのベンチマークを一貫して,大幅に上回りました。 ユニークなパスワードのレベルでは、SEPCAは3つのベンチマークをそれぞれ33.32%、86.19%、10.46%まで上回っている。 その結果、SEPCAが新しいパスワードクラッキングフレームワークであることを示す。

Much research has been done on user-generated textual passwords. Surprisingly, semantic information in such passwords remain underinvestigated, with passwords created by English- and/or Chinese-speaking users being more studied with limited semantics. This paper fills this gap by proposing a general framework based on semantically enhanced PCFG (probabilistic context-free grammars) named SE#PCFG. It allowed us to consider 43 types of semantic information, the richest set considered so far, for semantic password analysis. Applying SE#PCFG to 17 large leaked password databases of user speaking four languages (English, Chinese, German and French), we demonstrate its usefulness and report a wide range of new insights about password semantics at different levels such as cross-website password correlations. Furthermore, based on SE#PCFG and a new systematic smoothing method, we proposed the Semantically Enhanced Password Cracking Architecture (SEPCA). To compare the performance of SEPCA against three state-of-the-art (SOTA) benchmarks in terms of the password coverage rate: two other PCFG variants and FLA. Our experimental results showed that SEPCA outperformed all the three benchmarks consistently and significantly across 52 test cases, by up to 21.53%, 52.55% and 7.86%, respectively, at the user level (with duplicate passwords). At the level of unique passwords, SEPCA also beats the three benchmarks by up to 33.32%, 86.19% and 10.46%, respectively. The results demonstrated the power of SEPCA as a new password cracking framework.
翻訳日:2023-06-13 16:17:01 公開日:2023-06-12
# 目立たない文書画像からの弱教師付き情報抽出

Weakly supervised information extraction from inscrutable handwritten document images ( http://arxiv.org/abs/2306.06823v1 )

ライセンス: Link先を確認
Sujoy Paul and Gagan Madan and Akankshya Mishra and Narayan Hegde and Pradeep Kumar and Gaurav Aggarwal(参考訳) 最先端情報抽出法はOCRエラーによって制限される。 印刷されたテキストはフォームライクな文書でうまく機能するが、構造化されていない手書きの文書は依然として課題である。 既存のモデルをドメイン固有のトレーニングデータに適応させるのは非常に費用がかかる。 1)ドメイン固有の文書(手書き処方、検査ノート等)の入手が限定されていること 2) 手書きの文書イメージをデコードするにはドメイン固有の知識が必要であるため、アノテーションはさらに困難になる。 本研究では,弱いラベル付きデータのみを用いて手書き処方薬から医薬名を抽出する複雑な問題に焦点をあてる。 データは画像と、その中の薬の名前のリストから成り立っているが、画像の中にその場所はない。 まず、弱いラベルから興味のある領域、すなわち医学の線を識別し、合成されたデータのみを用いて学習したドメイン特化医学言語モデルを注入することで解決する。 市販の最先端の方法と比較して,処方薬からの薬名抽出において,本手法は2.5倍以上の性能を発揮する。

State-of-the-art information extraction methods are limited by OCR errors. They work well for printed text in form-like documents, but unstructured, handwritten documents still remain a challenge. Adapting existing models to domain-specific training data is quite expensive, because of two factors, 1) limited availability of the domain-specific documents (such as handwritten prescriptions, lab notes, etc.), and 2) annotations become even more challenging as one needs domain-specific knowledge to decode inscrutable handwritten document images. In this work, we focus on the complex problem of extracting medicine names from handwritten prescriptions using only weakly labeled data. The data consists of images along with the list of medicine names in it, but not their location in the image. We solve the problem by first identifying the regions of interest, i.e., medicine lines from just weak labels and then injecting a domain-specific medicine language model learned using only synthetically generated data. Compared to off-the-shelf state-of-the-art methods, our approach performs >2.5x better in medicine names extraction from prescriptions.
翻訳日:2023-06-13 16:16:31 公開日:2023-06-12
# 一般測地線に沿った補間による合成データセットの生成

Generating Synthetic Datasets by Interpolating along Generalized Geodesics ( http://arxiv.org/abs/2306.06866v1 )

ライセンス: Link先を確認
Jiaojiao Fan and David Alvarez-Melis(参考訳) 機械学習モデルの事前トレーニングのためのデータは、しばしば異種データセットのコレクションで構成される。 ユニオンでのトレーニングは、不可知的な設定では妥当だが、ターゲットドメイン(最終的にモデルが使用される)が事前に知られているとき、それは準最適であるかもしれない。 その場合、理想的には、ターゲットのデータセットと最もよく似たデータセットにのみ事前トレーニングされる。 この選択をプリトレーニングコレクションにすでに存在するデータセットに限定するのではなく、この検索を‘合成’として合成できるすべてのデータセットに拡張する。 このような組み合わせをマルチデータセット補間として定義し、最適輸送(ot)理論から一般化された測地線の概念を定式化した。 我々は、最近のラベル付きデータセット間の距離の概念を用いてこれらの測地学を計算し、それに基づく代替補間スキームを導出する。 これらのメソッドはスケーラブルで効率的であり、特に -- 異なるラベルセットと無関係なデータセット間でも補間することができる。 コンピュータビジョンにおけるトランスファーラーニングの様々な実験を通じて、この手法は、対象とするオンデマンドデータセット合成に有望な新しいアプローチであることを実証する。

Data for pretraining machine learning models often consists of collections of heterogeneous datasets. Although training on their union is reasonable in agnostic settings, it might be suboptimal when the target domain -- where the model will ultimately be used -- is known in advance. In that case, one would ideally pretrain only on the dataset(s) most similar to the target one. Instead of limiting this choice to those datasets already present in the pretraining collection, here we explore extending this search to all datasets that can be synthesized as `combinations' of them. We define such combinations as multi-dataset interpolations, formalized through the notion of generalized geodesics from optimal transport (OT) theory. We compute these geodesics using a recent notion of distance between labeled datasets, and derive alternative interpolation schemes based on it: using either barycentric projections or optimal transport maps, the latter computed using recent neural OT methods. These methods are scalable, efficient, and -- notably -- can be used to interpolate even between datasets with distinct and unrelated label sets. Through various experiments in transfer learning in computer vision, we demonstrate this is a promising new approach for targeted on-demand dataset synthesis.
翻訳日:2023-06-13 16:09:00 公開日:2023-06-12
# 深部除細動オートエンコーダを用いた動静脈イシュラの非侵襲的血流検出

Deep denoising autoencoder-based non-invasive blood flow detection for arteriovenous fistula ( http://arxiv.org/abs/2306.06865v1 )

ライセンス: Link先を確認
Li-Chin Chen, Yi-Heng Lin, Li-Ning Peng, Feng-Ming Wang, Yu-Hsin Chen, Po-Hsun Huang, Shang-Feng Yang, Yu Tsao(参考訳) 臨床ガイドラインは、血液透析患者が迅速に機能障害を検知するために、定期的に動静脈のfistula(avf)をモニターし、サーベイすることの重要性を強調する。 超音波-アンジオグラフィー/超音波分析は,標準的なAVF狭窄診断ツールの限界を克服するが,従来の特徴抽出法に依拠し,様々な文脈で適用性を制限する。 対照的に、表現学習は、異なるコンテキスト間で容易に転送できる基本的な要因を捉えている。 本研究では,1レベル離散ウェーブレット変換により得られる波形を用いて,次元の縮小と再構成を行うディープ・デノナイジング・オートエンコーダ(DAE)に基づく手法を提案する。 以上の結果から,DAEが生み出す潜伏表現は0.93の精度で予測を上回った。 ノイズ混合の導入とノイズ・ツー・クリーンスキームの利用は潜在表現の識別能力を効果的に向上させる。 また, 患者特有の特徴を同定するために用いた場合, 潜在表現は精度0.92を超える性能を示した。 適切な軽量化手法は、過度に縮小された次元バージョンの検出性能を回復し、少ない計算装置での操作を可能にする。 以上の結果から, 表現学習は, AVFにおける聴性の特徴を抽出する上で, より有効な手法であることが示唆された。 潜在表現の操作は、将来の進歩に大きな可能性を秘めている。 この地域のさらなる調査は有望であり、調査の継続を保証している。

Clinical guidelines underscore the importance of regularly monitoring and surveilling arteriovenous fistula (AVF) access in hemodialysis patients to promptly detect any dysfunction. Although phono-angiography/sound analysis overcomes the limitations of standardized AVF stenosis diagnosis tool, prior studies have depended on conventional feature extraction methods, restricting their applicability in diverse contexts. In contrast, representation learning captures fundamental underlying factors that can be readily transferred across different contexts. We propose an approach based on deep denoising autoencoders (DAEs) that perform dimensionality reduction and reconstruction tasks using the waveform obtained through one-level discrete wavelet transform, utilizing representation learning. Our results demonstrate that the latent representation generated by the DAE surpasses expectations with an accuracy of 0.93. The incorporation of noise-mixing and the utilization of a noise-to-clean scheme effectively enhance the discriminative capabilities of the latent representation. Moreover, when employed to identify patient-specific characteristics, the latent representation exhibited performance by surpassing an accuracy of 0.92. Appropriate light-weighted methods can restore the detection performance of the excessively reduced dimensionality version and enable operation on less computational devices. Our findings suggest that representation learning is a more feasible approach for extracting auscultation features in AVF, leading to improved generalization and applicability across multiple tasks. The manipulation of latent representations holds immense potential for future advancements. Further investigations in this area are promising and warrant continued exploration.
翻訳日:2023-06-13 16:08:43 公開日:2023-06-12
# 明示的スパース正規化による情報バイパスリーク除去によるDARTSのロバスト化

Robustifying DARTS by Eliminating Information Bypass Leakage via Explicit Sparse Regularization ( http://arxiv.org/abs/2306.06858v1 )

ライセンス: Link先を確認
Jiuling Zhang, Zhiming Ding(参考訳) differentiable architecture search (darts)は、一般的な勾配降下を通じてアーキテクチャパラメータを直接最適化する、有望なエンドツーエンドnasメソッドである。 しかし、DARTSは探索空間におけるスキップ接続によって生じる破滅的な故障に対して脆弱である。 近年の研究では、トレーニング段階における連続相対スーパーネットと評価段階における離散ファイナネットのパフォーマンスの不一致を本質的に引き起こしていると論じるダーツの基本仮説に疑問を投げかけている。 我々は, 強靭性問題と懐疑論の両方が, スーパーネットのトレーニング中に漏洩した情報によって説明できることを示した。 これは、過去に十分に開発されていないトレーニングフェーズにおいて、アーキテクチャパラメータのスパーシティが果たす重要な役割を自然に浮き彫りにしている。 そこで本稿では,DARTSを高機能化するために,情報漏出を回避し,新たなスパース規則化近似と混合スパーシティ学習手法を提案する。 提案手法の有効性を実証するため,複数の探索空間について広範な実験を行った。

Differentiable architecture search (DARTS) is a promising end to end NAS method which directly optimizes the architecture parameters through general gradient descent. However, DARTS is brittle to the catastrophic failure incurred by the skip connection in the search space. Recent studies also cast doubt on the basic underlying hypotheses of DARTS which are argued to be inherently prone to the performance discrepancy between the continuous-relaxed supernet in the training phase and the discretized finalnet in the evaluation phase. We figure out that the robustness problem and the skepticism can both be explained by the information bypass leakage during the training of the supernet. This naturally highlights the vital role of the sparsity of architecture parameters in the training phase which has not been well developed in the past. We thus propose a novel sparse-regularized approximation and an efficient mixed-sparsity training scheme to robustify DARTS by eliminating the information bypass leakage. We subsequently conduct extensive experiments on multiple search spaces to demonstrate the effectiveness of our method.
翻訳日:2023-06-13 16:08:16 公開日:2023-06-12
# スクイージングによるマイクロ波光量子トランスダクションのテレポーテーション

Teleportation-based microwave-optical quantum transduction enhanced by squeezing ( http://arxiv.org/abs/2306.06856v1 )

ライセンス: Link先を確認
Jing Wu, Linran Fan and Quntao Zhuang(参考訳) 量子トランスダクションは量子ネットワークの重要な構成要素である。 様々なプラットフォームが提案されているが、最先端システムの効率は、直接変換アプローチによる堅牢な量子情報伝達を提供するしきい値以下である。 応用法16, 064044 (2021)] では、連続可変量子テレポーテーションに基づくトランスダクションパラダイムを提案し、低協調性領域においてより高いレートを示す。 最近では、[phys. rev. research 4 l042013 (2022)] はマイクロ波スクイージングを用いて直接変換を支援することを提案している。 本研究では,テレポーテーションに基づくトランスダクションプロトコルにおけるスキューズの役割について検討し,量子容量を下限と上限で評価することで,大幅な性能向上を実現する。 本分析はマイクロ波スクイーズ法と光スクイーズ法の両方を含み,テレポーテーション法と直接変換法との系統的ベンチマークを提供する。 テレポーテーションベースのプロトコルと直接変換プロトコルの差は小さくなるが、テレポーテーションベースのプロトコルは依然として実用的協調性領域において全体的な性能向上を実現している。 特に、テレポーテーションに基づくアプローチは、最適スキーズによる直接変換と比較しても、不完全な抽出効率に対してより堅牢である。

Quantum transduction is an important building block for quantum networking. Although various platforms have been proposed, the efficiency of the-state-of-the-art systems is still way below the threshold to provide robust quantum information transduction via a direct conversion approach. In [Phys. Rev. Applied 16, 064044 (2021)], we propose a transduction paradigm based on continuous-variable quantum teleportation that shows a much higher rate in the low cooperativitiy region. While more recently, [Phys. Rev. Research 4, L042013 (2022)] proposes to utilize microwave squeezing to assist direct conversion. In this work, we explore the role of squeezing in a teleportation-based transduction protocol and identify a significant performance boost via evaluating quantum capacity lower and upper bounds. Our analyses include both microwave squeezing and optical squeezing, and provide a systematical benchmark between the teleportation-based approach and direct conversion approach. Although with the help of large squeezing, the difference between the teleportation-based protocol and direct conversion protocol becomes smaller, teleportation-based protocol still provides an overall better performance in the practical cooperativity region. In particular, the teleportation-based approach is more robust against imperfect extraction efficiency, even compared with direct conversion with the optimal squeezing.
翻訳日:2023-06-13 16:07:59 公開日:2023-06-12
# 微分可能なアーキテクチャ検索に必要なのは最低限の温度

Small Temperature is All You Need for Differentiable Architecture Search ( http://arxiv.org/abs/2306.06855v1 )

ライセンス: Link先を確認
Jiuling Zhang, Zhiming Ding(参考訳) 微分可能アーキテクチャ探索(darts)は、離散的操作選択を緩和し、nasを離散的最適化から連続的問題にマッピングする連続的アーキテクチャパラメータを最適化することで、高度に効率的な勾配に基づくニューラルネットワーク検索(nas)を実現する。 その後dartsは、緩和されたスーパーネットを、検索後1回でプルーニングすることで離散空間にリマップし、最終的なアーキテクチャ(finalnet)を得る。 このリマップは本質的にトレーニングと評価の間のネットワークをミスマッチさせる可能性があり、極端なケースではパフォーマンスの不一致やモデル崩壊につながる。 学習段階における連続分布のスパース化に小規模温度を活用し,学習段階における緩和スーパーネットとプルーニングファイナネットとのギャップを解消する。 この目的を達成するために,まずスパースノイズのソフトマックスを定式化し,勾配飽和を回避した。 次に、アウトバウンド分布をよりよく制御するための指数温度スケジュールを提案し、エントロピーに基づく適応スキームを精査し、最終的に拡張を実現する。 本手法の効率と有効性を検証するため,広範囲にわたる実験を行った。

Differentiable architecture search (DARTS) yields highly efficient gradient-based neural architecture search (NAS) by relaxing the discrete operation selection to optimize continuous architecture parameters that maps NAS from the discrete optimization to a continuous problem. DARTS then remaps the relaxed supernet back to the discrete space by one-off post-search pruning to obtain the final architecture (finalnet). Some emerging works argue that this remap is inherently prone to mismatch the network between training and evaluation which leads to performance discrepancy and even model collapse in extreme cases. We propose to close the gap between the relaxed supernet in training and the pruned finalnet in evaluation through utilizing small temperature to sparsify the continuous distribution in the training phase. To this end, we first formulate sparse-noisy softmax to get around gradient saturation. We then propose an exponential temperature schedule to better control the outbound distribution and elaborate an entropy-based adaptive scheme to finally achieve the enhancement. We conduct extensive experiments to verify the efficiency and efficacy of our method.
翻訳日:2023-06-13 16:07:37 公開日:2023-06-12
# DARTS検索スペースを再考し、新しいベンチマークを更新

Rethink DARTS Search Space and Renovate a New Benchmark ( http://arxiv.org/abs/2306.06852v1 )

ライセンス: Link先を確認
Jiuling Zhang, Zhiming Ding(参考訳) DARTSサーチスペース(DSS)はNASの標準ベンチマークとなっているが、いくつかの新興研究では、狭い精度範囲の問題が指摘され、メソッドランキングに悪影響を及ぼすと主張している。 我々は、スコアの意味を覆すこの問題にすでに苦しんでいる最近の研究を観察する。 本研究は,LHDと呼ばれる大型でより硬いDSSのフレーム化を図り,探索効率を高く保ちながら,一連の改良を最初に提案し,編成する。 我々はLHDベースの新しいベンチマークの更新を進め、識別性とアクセシビリティの両面に対処する。 具体的には,12のベースラインを再実装し,過渡的ロバスト性と離散化ポリシという,未解明の2つの要因を組み合わせた12の条件で評価し,マルチ条件評価に基づくベンチマークを合理的に構築する。 ニューラルネットワーク探索(NAS)の手法を適切に評価するには,常に表型ベンチマークが不十分であることを考えると,我々の研究はNASの今後の進歩の重要な基盤となる。 https://github.com/chaoji90/LHD

DARTS search space (DSS) has become a canonical benchmark for NAS whereas some emerging works pointed out the issue of narrow accuracy range and claimed it would hurt the method ranking. We observe some recent studies already suffer from this issue that overshadows the meaning of scores. In this work, we first propose and orchestrate a suite of improvements to frame a larger and harder DSS, termed LHD, while retaining high efficiency in search. We step forward to renovate a LHD-based new benchmark, taking care of both discernibility and accessibility. Specifically, we re-implement twelve baselines and evaluate them across twelve conditions by combining two underexpolored influential factors: transductive robustness and discretization policy, to reasonably construct a benchmark upon multi-condition evaluation. Considering that the tabular benchmarks are always insufficient to adequately evaluate the methods of neural architecture search (NAS), our work can serve as a crucial basis for the future progress of NAS. https://github.com/chaoji90/LHD
翻訳日:2023-06-13 16:07:17 公開日:2023-06-12
# UniPoll:多目的最適化による統一ソーシャルメディアポーラ生成フレームワーク

UniPoll: A Unified Social Media Poll Generation Framework via Multi-Objective Optimization ( http://arxiv.org/abs/2306.06851v1 )

ライセンス: Link先を確認
Yixia Li, Rong Xiang, Yanlin Song, Jing Li(参考訳) ソーシャルメディアプラットフォームは意見を表現するための重要な手段であり、テキスト分析を通じて公共の視点を捉えるための貴重なリソースを提供する。 しかし、多くのユーザにとって、受動的ブラウジングは望ましいインタラクションモードであり、テキスト分析手法によって見落とされてしまう。 一方、ソーシャルメディアの世論調査は世論を集めるための実用的な機能として現れており、投稿者が事前に決められた回答オプションで質問をすることができる。 そこで本稿では,ソーシャルメディア投稿からポーリングの自動生成について,最先端自然言語生成(NLG)技術を活用して検討する。 しかし、既存のnlg技術は、主に一般ドメインのテキスト向けに開発されたが、ノイズの多いソーシャルメディアデータに適用すると効果がない可能性がある。 これらの課題に取り組むために、コメントでポストコンテキストを強化し、unipollと呼ばれる新しい統一ポーリング生成フレームワークを提案する。 プロンプトチューニングと多目的最適化を採用し、コンテキスト(投稿とコメント)とポーリング(質問と回答)の間の接続探索を強化している。 大規模な中国のWeiboデータセットの実験的比較では、UniPollは、質問と回答を別々に生成する最先端のNLGモデルであるT5を著しく上回っている。 総合的質的および定量的分析は、様々な評価レンズによるUniPollの優位性をさらに強調する。

Social media platforms are essential outlets for expressing opinions, providing a valuable resource for capturing public viewpoints via text analytics. However, for many users, passive browsing is their preferred mode of interaction, leading to their perspectives being overlooked by text analytics methods. Meanwhile, social media polls have emerged as a practical feature for gathering public opinions, allowing post authors to pose questions with pre-defined answer options for readers to vote on. To broaden the benefits of polls for posts without them, this article explores the automatic generation of a poll from a social media post by leveraging cutting-edge natural language generation (NLG) techniques. However, existing NLG techniques, primarily developed for general-domain texts, may be ineffective when applied to noisy social media data, which often feature implicit context-question-answer relations. To tackle these challenges, we enrich a post context with its comments and propose a novel unified poll generation framework called UniPoll. It employs prompt tuning with multi-objective optimization to bolster the connection exploration between contexts (posts and comments) and polls (questions and answers). Experimental comparisons on a large-scale Chinese Weibo dataset show that UniPoll significantly outperforms T5, the state-of-the-art NLG model, which generates question and answer separately. Comprehensive qualitative and quantitative analyses further underscore the superiority of UniPoll through various evaluation lenses.
翻訳日:2023-06-13 16:06:57 公開日:2023-06-12
# Volume-DROID: DROID-SLAMを用いたボリュームマッピングのリアルタイム実装

Volume-DROID: A Real-Time Implementation of Volumetric Mapping with DROID-SLAM ( http://arxiv.org/abs/2306.06850v1 )

ライセンス: Link先を確認
Peter Stratton, Sandilya Sai Garimella, Ashwin Saxena, Nibarkavi Amutha, Emaad Gerami(参考訳) 本稿では,DROID(Dariable Recurrent Optimization-Inspired Design)とVolumetric Mappingを統合した新しいSLAM手法であるVolume-DROIDを提案する。 volume-droidはビデオからカメラ画像(モノクロまたはステレオ)やフレームを入力として取り、droid-slam、point cloud registration、off-the-shelf semantic segmentation network、convolutional bayesian kernel inference(convbki)を組み合わせることで、環境の3dセマンティックマップを生成し、ロボットの正確な位置決めを提供する。 DROID-SLAMとConvolutional Bayesian Kernel Inference (ConvBKI)のリアルタイム融合は,RGB-Depthフレームからの点雲生成と最適化カメラのポーズの導入によって実現された。 この統合は、効率的でタイムリーな処理を可能にし、ラグを最小限に抑え、システムの効果的なパフォーマンスを保証する。 本手法は,カメラ画像やステレオ映像入力のみを用いたリアルタイムオンライン意味マッピングを実現する。 私たちの論文は、このアルゴリズムのオープンソースpython実装をhttps://github.com/peterstratton/volume-droidで公開しています。

This paper presents Volume-DROID, a novel approach for Simultaneous Localization and Mapping (SLAM) that integrates Volumetric Mapping and Differentiable Recurrent Optimization-Inspired Design (DROID). Volume-DROID takes camera images (monocular or stereo) or frames from a video as input and combines DROID-SLAM, point cloud registration, an off-the-shelf semantic segmentation network, and Convolutional Bayesian Kernel Inference (ConvBKI) to generate a 3D semantic map of the environment and provide accurate localization for the robot. The key innovation of our method is the real-time fusion of DROID-SLAM and Convolutional Bayesian Kernel Inference (ConvBKI), achieved through the introduction of point cloud generation from RGB-Depth frames and optimized camera poses. This integration, engineered to enable efficient and timely processing, minimizes lag and ensures effective performance of the system. Our approach facilitates functional real-time online semantic mapping with just camera images or stereo video input. Our paper offers an open-source Python implementation of the algorithm, available at https://github.com/peterstratton/Volume-DROID.
翻訳日:2023-06-13 16:06:31 公開日:2023-06-12
# リプシッツ正則化による過密緩和

Mitigating Transformer Overconfidence via Lipschitz Regularization ( http://arxiv.org/abs/2306.06849v1 )

ライセンス: Link先を確認
Wenqian Ye, Yunsheng Ma, Xu Cao, Kun Tang(参考訳) トランスフォーマーは多くのコンピュータビジョンタスクにおいて有望な結果を達成してきたが、標準のDot Product Self-Attention (DPSA) は、境界のない入力領域までの距離をほとんど保たないため、予測に過信する傾向にある。 本稿では,新しいリプシッツ正規化変換器(LRFormer)を提案することにより,このギャップを埋める。 具体的には、バナッハ空間内の距離を持つ新しい類似関数を示し、リプシッツ性を保証するとともに、契約的なリプシッツ境界によってこの項を正規化する。 提案手法は理論的保証により解析され,その有効性と信頼性の厳密な基礎を提供する。 本手法は, 予測, 校正, 不確実性評価において, 最先端のシングルフォワードパス手法よりも優れていることを示す。

Though Transformers have achieved promising results in many computer vision tasks, they tend to be over-confident in predictions, as the standard Dot Product Self-Attention (DPSA) can barely preserve distance for the unbounded input domain. In this work, we fill this gap by proposing a novel Lipschitz Regularized Transformer (LRFormer). Specifically, we present a new similarity function with the distance within Banach Space to ensure the Lipschitzness and also regularize the term by a contractive Lipschitz Bound. The proposed method is analyzed with a theoretical guarantee, providing a rigorous basis for its effectiveness and reliability. Extensive experiments conducted on standard vision benchmarks demonstrate that our method outperforms the state-of-the-art single forward pass approaches in prediction, calibration, and uncertainty estimation.
翻訳日:2023-06-13 16:06:09 公開日:2023-06-12
# 対称二項非一様ハイパーグラフ確率ブロックモデルにおけるスペクトルクラスタリングの強い一貫性と最適性

Strong consistency and optimality of spectral clustering in symmetric binary non-uniform Hypergraph Stochastic Block Model ( http://arxiv.org/abs/2306.06845v1 )

ライセンス: Link先を確認
Haixiao Wang(参考訳) 非一様 \emph{Hypergraph Stochastic Block Model (HSBM) におけるランダムハイパーグラフの非教師なし分類問題を考える(n/2$)。 本稿では,強い整合性を示す<emph{information-theoretical>しきい値を確立する。 しきい値以下では、全てのアルゴリズムは、高い確率で少なくとも2つの頂点を誤分類し、固有ベクトル推定器の期待値である 'emph{mismatch ratio} は閾値を下げる力に$n$で上限づけられる。 一方、しきい値を超えると、テンソルの収縮によって引き起こされる情報損失にもかかわらず、一段階のスペクトルアルゴリズムは、あるシナリオにおいて \emph{semidefinite programming} (SDP) が失敗しても、全ての頂点を収縮した隣接行列のみを与えられた場合、高い確率で正しく割り当てる。 さらに、各層を単独で考えることは不可能であっても、すべての均一層から情報を集約することで、強固な一貫性を実現することができる。 我々の結論は理論解析と数値実験の両方で支持されている。

Consider the unsupervised classification problem in random hypergraphs under the non-uniform \emph{Hypergraph Stochastic Block Model} (HSBM) with two equal-sized communities ($n/2$), where each edge appears independently with some probability depending only on the labels of its vertices. In this paper, an \emph{information-theoretical} threshold for strong consistency is established. Below the threshold, every algorithm would misclassify at least two vertices with high probability, and the expected \emph{mismatch ratio} of the eigenvector estimator is upper bounded by $n$ to the power of minus the threshold. On the other hand, when above the threshold, despite the information loss induced by tensor contraction, one-stage spectral algorithms assign every vertex correctly with high probability when only given the contracted adjacency matrix, even if \emph{semidefinite programming} (SDP) fails in some scenarios. Moreover, strong consistency is achievable by aggregating information from all uniform layers, even if it is impossible when each layer is considered alone. Our conclusions are supported by both theoretical analysis and numerical experiments.
翻訳日:2023-06-13 16:05:53 公開日:2023-06-12
# 事前学習言語モデルのN-gram近似について

On the N-gram Approximation of Pre-trained Language Models ( http://arxiv.org/abs/2306.06892v1 )

ライセンス: Link先を確認
Aravind Krishnan, Jesujoba Alabi, Dietrich Klakow(参考訳) 大規模事前学習型言語モデル (plm) は様々な自然言語理解 (nlu) タスク、特に低リソース設定において顕著な性能を示している。 それでも、ASR(Automatic Speech Recognition)におけるその可能性はほとんど解明されていない。 本研究では, ASR における言語モデリングにおける PLM の利用可能性について検討した。 gpt-2をn-gramモデルに近似するための大規模テキストサンプリングと確率変換の適用を比較した。 さらに,ランダムサンプリングのための語彙制限復号法を提案し,生成されたテキストのユーザビリティに対するドメイン難易度とデータサイズの影響を評価する。 本研究は,8つのドメイン固有コーパスにまたがってサンプリングベース近似を適用し,大規模なサンプルコーパスの補間により,ベースライントリグラム上での試験パープレキシティが15%向上することを示す。 語彙制限付き復号法は、ドメイン固有の設定において、この改善をさらに5%押し上げる。

Large pre-trained language models (PLMs) have shown remarkable performance across various natural language understanding (NLU) tasks, particularly in low-resource settings. Nevertheless, their potential in Automatic Speech Recognition (ASR) remains largely unexplored. This study investigates the potential usage of PLMs for language modelling in ASR. We compare the application of large-scale text sampling and probability conversion for approximating GPT-2 into an n-gram model. Furthermore, we introduce a vocabulary-restricted decoding method for random sampling, and evaluate the effects of domain difficulty and data size on the usability of generated text. Our findings across eight domain-specific corpora support the use of sampling-based approximation and show that interpolating with a large sampled corpus improves test perplexity over a baseline trigram by 15%. Our vocabulary-restricted decoding method pushes this improvement further by 5% in domain-specific settings.
翻訳日:2023-06-13 15:59:46 公開日:2023-06-12
# 思考の再帰:言語モデルを用いた多文脈推論への分割・包括的アプローチ

Recursion of Thought: A Divide-and-Conquer Approach to Multi-Context Reasoning with Language Models ( http://arxiv.org/abs/2306.06891v1 )

ライセンス: Link先を確認
Soochan Lee and Gunhee Kim(参考訳) 中間段階の生成(Chain of Thought (CoT))は、言語モデルの多段階推論能力を大幅に向上させる効果的な方法である。 しかし、CoT長は問題複雑性によって急速に成長し、最大コンテキストサイズを超えることが容易にできる。 すでによく研究されているコンテキスト制限を増加させる代わりに、直交方向を探索する: lmsを問題に複数のコンテキストに分割する。 提案する推論フレームワークはRecursion of Thought (RoT) と呼ばれ,コンテキスト関連操作のトリガとしてモデルが出力できる特別なトークンをいくつか導入する。 GPT-3を含む複数のアーキテクチャによる大規模な実験により、RoTは数十万のトークンからなる問題を解くためのLMの推論能力を劇的に改善した。

Generating intermediate steps, or Chain of Thought (CoT), is an effective way to significantly improve language models' (LM) multi-step reasoning capability. However, the CoT lengths can grow rapidly with the problem complexity, easily exceeding the maximum context size. Instead of increasing the context limit, which has already been heavily investigated, we explore an orthogonal direction: making LMs divide a problem into multiple contexts. We propose a new inference framework, called Recursion of Thought (RoT), which introduces several special tokens that the models can output to trigger context-related operations. Extensive experiments with multiple architectures including GPT-3 show that RoT dramatically improves LMs' inference capability to solve problems, whose solution consists of hundreds of thousands of tokens.
翻訳日:2023-06-13 15:59:30 公開日:2023-06-12
# NPVForensics:ディープフェイク検出のための非臨界音素とビセムの結合

NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake Detection ( http://arxiv.org/abs/2306.06885v1 )

ライセンス: Link先を確認
Yu Chen, Yang Yu, Rongrong Ni, Yao Zhao, Haoliang Li(参考訳) ディープラーニングによって強化されたディープフェイク技術は急速に進化し、社会の新しいセキュリティ上の懸念を生み出している。 既存のマルチモーダル検出法は、通常、視聴覚不整合を捉えてディープフェイクビデオを露出させる。 より真面目に言うと、Deepfakeの技術は、重要な音素視線領域の音声・視覚的校正を実現し、より現実的な改ざん効果を実現し、新たな課題をもたらす。 この問題に対処するために,NPVForensics と呼ばれる非クリティカルなPhonemes と Visemes の相関関係を抽出する新しいDeepfake検出手法を提案する。 まず,Swin Transformer (LFA-ST) を用いた局所特徴集約ブロックを提案する。 第二に、非臨界音素ビセムの進化的一貫性を測定するために、話面のきめ細かい動きに対する損失関数を設計する。 次に,モーダリティギャップを小さくし,2つのモーダリティの本質的な相補性をよりよく探求できるように,モーダリティ融合と表現アライメントのための音素-視覚認識モジュールを設計する。 最後に、自己指導型事前学習戦略を利用して、自然映像の音声・視覚対応を徹底的に学習する。 このように、我々のモデルは微調整で下流のDeepfakeデータセットに容易に適応できる。 既存のベンチマークに関する広範な実験は、提案手法が最先端の手法よりも優れていることを示している。

Deepfake technologies empowered by deep learning are rapidly evolving, creating new security concerns for society. Existing multimodal detection methods usually capture audio-visual inconsistencies to expose Deepfake videos. More seriously, the advanced Deepfake technology realizes the audio-visual calibration of the critical phoneme-viseme regions, achieving a more realistic tampering effect, which brings new challenges. To address this problem, we propose a novel Deepfake detection method to mine the correlation between Non-critical Phonemes and Visemes, termed NPVForensics. Firstly, we propose the Local Feature Aggregation block with Swin Transformer (LFA-ST) to construct non-critical phoneme-viseme and corresponding facial feature streams effectively. Secondly, we design a loss function for the fine-grained motion of the talking face to measure the evolutionary consistency of non-critical phoneme-viseme. Next, we design a phoneme-viseme awareness module for cross-modal feature fusion and representation alignment, so that the modality gap can be reduced and the intrinsic complementarity of the two modalities can be better explored. Finally, a self-supervised pre-training strategy is leveraged to thoroughly learn the audio-visual correspondences in natural videos. In this manner, our model can be easily adapted to the downstream Deepfake datasets with fine-tuning. Extensive experiments on existing benchmarks demonstrate that the proposed approach outperforms state-of-the-art methods.
翻訳日:2023-06-13 15:59:16 公開日:2023-06-12
# メモリ支援マルコフ熱過程における冷却と作業抽出

Cooling and work extraction under memory assisted Markovian thermal processes ( http://arxiv.org/abs/2306.06883v1 )

ライセンス: Link先を確認
Yuancheng Liu, Xueyuan Hu(参考訳) 有限次元記憶を補助するマルコフ熱過程による冷却と作業抽出の限界について検討する。 ここで記憶は自明なハミルトニアンのd次元量子系であり、当初は最大混合状態にある。 量子ビット系を冷却するには、コヒーレント制御による冷却と非コヒーレント制御による冷却の2つのパラダイムを考える。 いずれのパラダイムにおいても,一般熱プロセス(TP)とマルコフ熱プロセス(MTP)のセットの下で最適な基底状態の集団を導出し,さらに,TPとMPPのパフォーマンスのギャップを埋めるメモリアシストプロトコルを提案する。 作業抽出の課題として, 目標系が励起状態の量子ビットである場合, tpで達成される最小抽出誤差は, 十分なメモリで支援されたマルコフ熱過程によって近似できることを示す。 その結果,冷却や作業抽出を含む熱過程におけるtpおよびmtpの性能を橋渡しすることができる。

We investigate the limits on cooling and work extraction via Markovian thermal processes assisted by a finite dimensional memory. Here the memory is a d-dimensional quantum system with trivial Hamiltonian and initially in a maximally mixed state. For cooling a qubit system, we consider two paradigms, cooling under coherent control and cooling under incoherent control. For both paradigms, we derive the optimal ground state populations under the set of general thermal processes (TP) and the set of Markovian thermal processes (MTP), and further propose memory assisted protocols, which bridge the gap between the performances of TP and MTP. For the task of work extraction, we prove that when the target system is a qubit in the excited state, the minimum extraction error achieved by TP can be approximated by Markovian thermal processes assisted by a large enough memory. Our results can bridge the performances of TP and MTP in thermal processes including cooling and work extraction.
翻訳日:2023-06-13 15:58:48 公開日:2023-06-12
# unmasking deepfakes: ビデオ偽造検出のためのマスク付き時空間トランスフォーマー

Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for Enhanced Video Forgery Detection ( http://arxiv.org/abs/2306.06881v1 )

ライセンス: Link先を確認
Sayantan Das, Mojtaba Kolahdouzi, Levent \"Ozparlak, Will Hickie, Ali Etemad(参考訳) 本稿では,自己教師付きマスク型自動符号化装置で事前学習した視覚トランスフォーマを用いて,ディープフェイク映像の検出手法を提案する。 本手法は,ビデオの個々のrgbフレームから空間情報を学習することに焦点を当てた2つの異なるコンポーネントと,連続するフレームから生成された光流場から時間的一貫性情報を学習する。 一般的な大規模画像コーパス上で事前学習を行うほとんどのアプローチとは異なり、celeb-a(空間学習コンポーネント)とyoutube faces(時間学習コンポーネント)という、より小さな顔関連データセットを事前学習することで、強い結果が得られる。 提案手法は,faceforensics++(低品質,高品質,高圧縮版,超低品質)やceleb-dfv2データセットなど,一般的なデータセットでの性能評価を行うため,様々な実験を行った。 提案手法は,FaceForensics++ (LQ,HQ,VLQ) に新たな最先端性を設定し,Celeb-DFv2 上での競合結果を得る。 さらに、我々はFaceForensics++でモデルを微調整し、CelebDFv2でテストし、その強力なクロスデータセットの一般化能力を示すクロスデータセット設定において、この分野の他のメソッドよりも優れています。

We present a novel approach for the detection of deepfake videos using a pair of vision transformers pre-trained by a self-supervised masked autoencoding setup. Our method consists of two distinct components, one of which focuses on learning spatial information from individual RGB frames of the video, while the other learns temporal consistency information from optical flow fields generated from consecutive frames. Unlike most approaches where pre-training is performed on a generic large corpus of images, we show that by pre-training on smaller face-related datasets, namely Celeb-A (for the spatial learning component) and YouTube Faces (for the temporal learning component), strong results can be obtained. We perform various experiments to evaluate the performance of our method on commonly used datasets namely FaceForensics++ (Low Quality and High Quality, along with a new highly compressed version named Very Low Quality) and Celeb-DFv2 datasets. Our experiments show that our method sets a new state-of-the-art on FaceForensics++ (LQ, HQ, and VLQ), and obtains competitive results on Celeb-DFv2. Moreover, our method outperforms other methods in the area in a cross-dataset setup where we fine-tune our model on FaceForensics++ and test on CelebDFv2, pointing to its strong cross-dataset generalization ability.
翻訳日:2023-06-13 15:58:32 公開日:2023-06-12
# キーフレーム特徴中心の誘導による乳房超音波映像の分類

Boosting Breast Ultrasound Video Classification by the Guidance of Keyframe Feature Centers ( http://arxiv.org/abs/2306.06877v1 )

ライセンス: Link先を確認
AnLan Sun, Zhao Zhang, Meng Lei, Yuting Dai, Dong Wang, Liwei Wang(参考訳) 乳房超音波ビデオは超音波画像よりもリッチな情報を含んでいるため、この診断タスクのためのビデオモデルを開発することが重要である。 しかし、超音波ビデオデータセットの収集は非常に困難である。 本稿では,静的画像データセットを用いた超音波映像分類の性能向上の可能性を検討する。 そこで我々はKGA-Netとコヒーレンス損失を提案する。 KGA-Netはビデオクリップと静的イメージの両方を採用してネットワークをトレーニングしている。 コヒーレンスロスは、静止画像によって生成された特徴中心を用いて、ビデオモデルのフレームの注意を誘導する。 我々のKGA-Netは、公開BUSVデータセットのパフォーマンスを大きなマージンで向上させます。 フレームアテンションの可視化結果は,本手法の説明可能性を示している。 私たちの手法のコードとモデルの重み付けを公開します。

Breast ultrasound videos contain richer information than ultrasound images, therefore it is more meaningful to develop video models for this diagnosis task. However, the collection of ultrasound video datasets is much harder. In this paper, we explore the feasibility of enhancing the performance of ultrasound video classification using the static image dataset. To this end, we propose KGA-Net and coherence loss. The KGA-Net adopts both video clips and static images to train the network. The coherence loss uses the feature centers generated by the static images to guide the frame attention in the video model. Our KGA-Net boosts the performance on the public BUSV dataset by a large margin. The visualization results of frame attention prove the explainability of our method. The codes and model weights of our method will be made publicly available.
翻訳日:2023-06-13 15:58:04 公開日:2023-06-12
# villandiffusion:拡散モデルのための統一バックドア攻撃フレームワーク

VillanDiffusion: A Unified Backdoor Attack Framework for Diffusion Models ( http://arxiv.org/abs/2306.06874v1 )

ライセンス: Link先を確認
Sheng-Yen Chou, Pin-Yu Chen, Tsung-Yi Ho(参考訳) 拡散モデル(dms)は、反復的ノイズ付加と雑音除去から可逆的破壊過程を学ぶ最先端の生成モデルである。 これらは、テキストから画像への条件生成など、多くの生成AIアプリケーションのバックボーンである。 しかし、最近の研究では、基本的な無条件DM(DDPMやDDIMなど)は、モデル入力における悪意ある埋め込みパターンによって引き起こされる出力操作攻撃であるバックドアインジェクションに弱いことが示されている。 本稿では,dmsのバックドア解析の現在の範囲を拡大するための統一バックドアアタックフレームワーク(villandiffusion)を提案する。 本フレームワークは, 主流の非条件および条件付きDM(デノジングベースおよびスコアベース)と, 総合評価のための各種トレーニングフリーサンプリングを対象とする。 実験により,dm構成のバックドア解析を容易にするとともに,dmsに対するキャプションに基づくバックドア攻撃に対する新たな洞察を提供する。

Diffusion Models (DMs) are state-of-the-art generative models that learn a reversible corruption process from iterative noise addition and denoising. They are the backbone of many generative AI applications, such as text-to-image conditional generation. However, recent studies have shown that basic unconditional DMs (e.g., DDPM and DDIM) are vulnerable to backdoor injection, a type of output manipulation attack triggered by a maliciously embedded pattern at model input. This paper presents a unified backdoor attack framework (VillanDiffusion) to expand the current scope of backdoor analysis for DMs. Our framework covers mainstream unconditional and conditional DMs (denoising-based and score-based) and various training-free samplers for holistic evaluations. Experiments show that our unified framework facilitates the backdoor analysis of different DM configurations and provides new insights into caption-based backdoor attacks on DMs.
翻訳日:2023-06-13 15:57:54 公開日:2023-06-12
# 時間情報モデリングによる対話型KBQAの履歴意味グラフ化

History Semantic Graph Enhanced Conversational KBQA with Temporal Information Modeling ( http://arxiv.org/abs/2306.06872v1 )

ライセンス: Link先を確認
Hao Sun, Yang Li, Liwei Deng, Bowen Li, Binyuan Hui, Binhua Li, Yunshi Lan, Yan Zhang, Yongbin Li(参考訳) コンテキスト情報モデリングは対話型KBQAにおいて重要なタスクである。 しかし、既存の手法は通常、発話の独立性を仮定し、それらを分離してモデル化する。 本稿では,低計算コストを維持しつつ,会話履歴における長距離意味的依存関係を効果的にモデル化できるヒストリーセマンティックグラフ拡張KBQAモデルを提案する。 このフレームワークには、動的メモリ減衰機構と異なる粒度でコンテキストをモデル化するコンテキスト認識エンコーダが組み込まれている。 複雑な逐次質問応答のためのベンチマークデータセットを用いてHSGEを評価する。 実験結果から,全ての質問タイプの平均ベースラインを上回る結果が得られた。

Context information modeling is an important task in conversational KBQA. However, existing methods usually assume the independence of utterances and model them in isolation. In this paper, we propose a History Semantic Graph Enhanced KBQA model (HSGE) that is able to effectively model long-range semantic dependencies in conversation history while maintaining low computational cost. The framework incorporates a context-aware encoder, which employs a dynamic memory decay mechanism and models context at different levels of granularity. We evaluate HSGE on a widely used benchmark dataset for complex sequential question answering. Experimental results demonstrate that it outperforms existing baselines averaged on all question types.
翻訳日:2023-06-13 15:57:35 公開日:2023-06-12
# エンサンブルに基づくオフライン強化学習:悲観的な学習から最適探索へ

Ensemble-based Offline-to-Online Reinforcement Learning: From Pessimistic Learning to Optimistic Exploration ( http://arxiv.org/abs/2306.06871v1 )

ライセンス: Link先を確認
Kai Zhao, Yi Ma, Jinyi Liu, Yan Zheng, Zhaopeng Meng(参考訳) オフライン強化学習(RL)は、エージェントが一定の経験のデータセットから学習する学習パラダイムである。 しかしながら、静的データセットのみからの学習は、探索の欠如により、パフォーマンスを制限できる。 オフラインからオンラインまでのRLは、オフラインの事前トレーニングとオンラインの微調整を組み合わせることで、エージェントがリアルタイムで環境と対話することでポリシーをさらに洗練することができる。 その利点にもかかわらず、既存のオフラインからオンラインまでのRLメソッドは、オンラインフェーズにおけるパフォーマンス低下と改善の遅さに悩まされている。 これらの課題に対処するために,Ensemble-based Offline-to-Online (E2O) RLという新しいフレームワークを提案する。 Q-networksの数を増やすことで、オフラインの事前トレーニングとオンラインの微調整を、パフォーマンスを低下させることなくシームレスに橋渡しします。 さらに,オンラインのパフォーマンス向上を図るため,Q値推定の悲観性を適切に緩和し,アンサンブルに基づく探索機構を我々のフレームワークに組み込む。 実験結果から,既存のオフラインRL手法のオンライン微調整におけるトレーニング安定性,学習効率,最終性能を著しく向上し,既存のオフラインRL手法よりも大幅に向上することが示された。

Offline reinforcement learning (RL) is a learning paradigm where an agent learns from a fixed dataset of experience. However, learning solely from a static dataset can limit the performance due to the lack of exploration. To overcome it, offline-to-online RL combines offline pre-training with online fine-tuning, which enables the agent to further refine its policy by interacting with the environment in real-time. Despite its benefits, existing offline-to-online RL methods suffer from performance degradation and slow improvement during the online phase. To tackle these challenges, we propose a novel framework called Ensemble-based Offline-to-Online (E2O) RL. By increasing the number of Q-networks, we seamlessly bridge offline pre-training and online fine-tuning without degrading performance. Moreover, to expedite online performance enhancement, we appropriately loosen the pessimism of Q-value estimation and incorporate ensemble-based exploration mechanisms into our framework. Experimental results demonstrate that E2O can substantially improve the training stability, learning efficiency, and final performance of existing offline RL methods during online fine-tuning on a range of locomotion and navigation tasks, significantly outperforming existing offline-to-online RL methods.
翻訳日:2023-06-13 15:57:25 公開日:2023-06-12
# Sticker820K:ステッカーを使ったインタラクティブ検索

Sticker820K: Empowering Interactive Retrieval with Stickers ( http://arxiv.org/abs/2306.06870v1 )

ライセンス: Link先を確認
Sijie Zhao, Yixiao Ge, Zhongang Qi, Lin Song, Xiaohan Ding, Zehua Xie, Ying Shan(参考訳) ステッカーは現代のコミュニケーションのユビキタスな部分となり、視覚イメージを通じて複雑な感情を伝達している。 ステッカー解析のためのより強力なアルゴリズムの開発を容易にするために,820k画像テキストペアからなる大規模中国ステッカーデータセット,sticker820kを提案する。 それぞれのステッカーには、説明、光学文字、感情ラベル、スタイル分類など、リッチで高品質なテキストアノテーションがある。 自然画像領域における視覚言語タスクはよく研究されているが、CLIPなどのモデルを直接ステッカーデータに適用することは、自然画像データと動機画像データの相違による最適解ではない。 そこで我々は,Sticker820KデータセットのベンチマークモデルとしてStickerCLIPを提案する。 テキストから画像への検索タスクでは、stickerclipはクリップに対して強い優位性を示し、sticker820kテストセットの平均リコールで絶対値が66.0\%に達する。 さらに,最近普及したLDMを,即時チューニングにより拡張し,ステッカー検索機能を統合し,ユーザが指示でステッカーを検索できるようにする。 本手法の有効性を検証し, 上流タスクの品質に影響を与えることなく, LLM能力の拡張において, 即時チューニングの可能性を示す。

Stickers have become a ubiquitous part of modern-day communication, conveying complex emotions through visual imagery. To facilitate the development of more powerful algorithms for analyzing stickers, we propose a large-scale Chinese sticker dataset, namely Sticker820K, which consists of 820k image-text pairs. Each sticker has rich and high-quality textual annotations, including descriptions, optical characters, emotional labels, and style classifications. Although vision-language tasks in the domain of natural images have been well studied, directly applying the those models, such as CLIP, to sticker data is not an optimal solution due to the discrepant nature between natural and emotive image data. Therefore, we propose StickerCLIP as a benchmark model on the Sticker820K dataset. For the text-to-image retrieval task, our StickerCLIP demonstrates strong superiority over the CLIP, which achieves an absolute gain of 66.0\% in mean recall on the Sticker820K test set. Additionally, we endeavor to extend the recently popularized LLM by means of prompt tuning, integrating its ability for sticker retrieval and allowing users to retrieve stickers through instructions. We validate the feasibility of this method, demonstrating the immense potential of prompt tuning in expanding LLM abilities while not affecting the quality of upstream tasks.
翻訳日:2023-06-13 15:57:04 公開日:2023-06-12
# 量子ノイズランダム位相フィードバックによるガウス不変分布を持つカオス

Chaos with Gaussian invariant distribution by quantum-noise random phase feedback ( http://arxiv.org/abs/2306.06912v1 )

ライセンス: Link先を確認
Yanqiang Guo, Haifeng Li, Yingqi Wang, Xiangyu Meng, Tong Zhao and Xiaomin Guo(参考訳) 量子ノイズに基づくランダム位相フィードバックを実験的に提示し,ガウス不変分布を持つカオスレーザーを生成する。 真空揺らぎからの量子ノイズは平衡ホモダイン検出により取得され、位相変調器に注入されてランダム位相フィードバックを形成する。 高速インテンシティ変調器を用いた光スイッチを用いてカオス状態を繰り返しリセットし、初期ノイズに起因するカオス状態の強度統計分布の時間変化を測定する。 量子ノイズのランダム位相フィードバックにより、カオス出力の過渡強度分布は非対称不変分布からガウス不変分布に改善され、ガウス不変分布は微視的初期雑音から巨視的確率揺らぎへのランダムな摂動力学的遷移を示す。 位相フィードバック帯域幅と変調深さが不変分布に及ぼす影響を実験的に検討した。 カオス的時間遅延符号と平均置換エントロピーを0.036に抑え、ランダム位相フィードバックを用いて0.999に増強する。 ガウス不変分布を持つ高品質カオスレーザーは、超高速な乱数生成とセキュア通信のために望ましいランダムソースとなる。

We experimentally present a random phase feedback based on quantum noise to generate a chaotic laser with Gaussian invariant distribution. The quantum noise from vacuum fluctuations is acquired by balanced homodyne detection and injected into a phase modulator to form a random phase feedback. An optical switch using high-speed intensity modulator is employed to reset the chaotic states repeatedly and the time evolutions of intensity statistical distributions of the chaotic states stemming from the initial noise are measured. By the quantum-noise random phase feedback, the transient intensity distributions of the chaotic outputs are improved from asymmetric invariant distributions to Gaussian invariant distributions, and the Gaussian invariant distribution indicates a randomly perturbed dynamical transition from microscopic initial noise to macroscopic stochastic fluctuation. The effects of phase feedback bandwidth and modulation depth on the invariant distributions are investigated experimentally. The chaotic time-delay signature and mean permutation entropy are suppressed to 0.036 and enhanced to 0.999 using the random phase feedback, respectively. The high-quality chaotic laser with Gaussian invariant distribution can be a desired random source for ultrafast random number generation and secure communication.
翻訳日:2023-06-13 15:49:26 公開日:2023-06-12
# Graph Agent Network: 分散通信機能を備えたノードの敵レジリエンス

Graph Agent Network: Empowering Nodes with Decentralized Communications Capabilities for Adversarial Resilience ( http://arxiv.org/abs/2306.06909v1 )

ライセンス: Link先を確認
Ao Liu, Wenshan Li, Tao Li, Beibei Li, Hanyuan Huang, Guangquan Xu, Pan Zhou(参考訳) グローバル最適化によるエンドツーエンドトレーニングは、ノード分類のためのグラフニューラルネットワーク(GNN)を普及させた。 敵はGNNの入力と出力の本質的にオープンなインターフェースを利用して、重要なエッジを摂動させ、分類結果を操作できる。 現在の防御は、グローバル最適化ベースのエンドツーエンドトレーニングスキームを永続的に活用するため、本質的にgnnの脆弱性をカプセル化する。 これは特に、標的とする二次攻撃に対して防御できないことの証拠である。 本稿では,前述のGNNの脆弱性に対処するグラフエージェントネットワーク(GAgN)を提案する。 GAgNはグラフ構造化エージェントネットワークであり、各ノードは1-hop-viewエージェントとして設計されている。 エージェント間の分散的な相互作用を通じて、グローバルな知覚を推論して、特定のノードに対する埋め込み、次数、隣接関係などのタスクを実行することができる。 これによりノードは、分類タスクを実行しながら、逆エッジをフィルタリングできるようになる。 さらに、エージェントの限られたビューは、悪意のあるメッセージがGAgNでグローバルに伝播するのを防ぎ、グローバル最適化ベースの二次攻撃に抵抗する。 単層多層パーセプトロン(MLP)は理論的にこれらの機能を達成するのに十分であることを示す。 実験の結果,GAgNは意図したすべての機能を効果的に実装し,最先端の防御技術と比較して,摂動データセットの最適な分類精度を実現することがわかった。

End-to-end training with global optimization have popularized graph neural networks (GNNs) for node classification, yet inadvertently introduced vulnerabilities to adversarial edge-perturbing attacks. Adversaries can exploit the inherent opened interfaces of GNNs' input and output, perturbing critical edges and thus manipulating the classification results. Current defenses, due to their persistent utilization of global-optimization-based end-to-end training schemes, inherently encapsulate the vulnerabilities of GNNs. This is specifically evidenced in their inability to defend against targeted secondary attacks. In this paper, we propose the Graph Agent Network (GAgN) to address the aforementioned vulnerabilities of GNNs. GAgN is a graph-structured agent network in which each node is designed as an 1-hop-view agent. Through the decentralized interactions between agents, they can learn to infer global perceptions to perform tasks including inferring embeddings, degrees and neighbor relationships for given nodes. This empowers nodes to filtering adversarial edges while carrying out classification tasks. Furthermore, agents' limited view prevents malicious messages from propagating globally in GAgN, thereby resisting global-optimization-based secondary attacks. We prove that single-hidden-layer multilayer perceptrons (MLPs) are theoretically sufficient to achieve these functionalities. Experimental results show that GAgN effectively implements all its intended capabilities and, compared to state-of-the-art defenses, achieves optimal classification accuracy on the perturbed datasets.
翻訳日:2023-06-13 15:49:06 公開日:2023-06-12
# リモートセンシング画像の自己監督型マルチラベル分類のための能動的学習指導ファインチューニング

Active Learning Guided Fine-Tuning for enhancing Self-Supervised Based Multi-Label Classification of Remote Sensing Images ( http://arxiv.org/abs/2306.06908v1 )

ライセンス: Link先を確認
Lars M\"ollenbrok and Beg\"um Demir(参考訳) 近年、ディープニューラルネットワーク(DNN)は、リモートセンシング(RS)画像のマルチラベル分類(MLC)において非常に成功している。 自己教師付き事前学習とランダムに選択された小さなトレーニングセットの微調整を組み合わせることで、データ要求DNNのアノテーション作業を最小化するための一般的なアプローチとなっている。 しかし、小さな偏りのあるトレーニングセットの微調整は、モデルの性能を制限する可能性がある。 この問題に対処するために,能動学習(AL)による自己指導型プレトレーニングの併用の有効性を検討した。 AL戦略は,自己教師型モデルのMDC微調整を指導するために,反復的にアノテートするための情報的トレーニングサンプルを選択する。 実験の結果,AL誘導ファインチューニング(特にMLC問題に強いクラスバランスが存在する場合)をランダムに構築した小さなトレーニングセットを用いたファインチューニングに適用した場合の有効性が示された。

In recent years, deep neural networks (DNNs) have been found very successful for multi-label classification (MLC) of remote sensing (RS) images. Self-supervised pre-training combined with fine-tuning on a randomly selected small training set has become a popular approach to minimize annotation efforts of data-demanding DNNs. However, fine-tuning on a small and biased training set may limit model performance. To address this issue, we investigate the effectiveness of the joint use of self-supervised pre-training with active learning (AL). The considered AL strategy aims at guiding the MLC fine-tuning of a self-supervised model by selecting informative training samples to annotate in an iterative manner. Experimental results show the effectiveness of applying AL-guided fine-tuning (particularly for the case where strong class-imbalance is present in MLC problems) compared to the application of fine-tuning using a randomly constructed small training set.
翻訳日:2023-06-13 15:48:42 公開日:2023-06-12
# 微分可能多重忠実融合:ニューラルネットワークによる物理シミュレーションの効率的な学習と伝達学習

Differentiable Multi-Fidelity Fusion: Efficient Learning of Physics Simulations with Neural Architecture Search and Transfer Learning ( http://arxiv.org/abs/2306.06904v1 )

ライセンス: Link先を確認
Yuwen Deng, Wang Kang, Wei W. Xing(参考訳) ディープラーニングの急速な進歩により、ニューラルネットワークはサロゲートモデルとして科学研究や工学応用に広く利用されている。 複雑なシステムに適合するニューラルネットワークの大きな成功にもかかわらず、依然として2つの大きな課題が残っている。 一 異なる問題又はデータセットの一般化の欠如、及び 二 計算上費用がかかる大量のシミュレーションデータの需要 これらの課題を解決するために、ニューラルアーキテクチャ探索(NAS)を活用して、異なる問題に適したモデルアーキテクチャを自動的に探索し、学習を低忠実(高速だが不正確な)データから高忠実(スローだが正確な)モデルへ変換する、微分可能な \mf (DMF) モデルを提案する。 DMFの効率性と堅牢性を改善するために,ハイパーパラメータ探索や代替学習などの新しい機械学習技術が用いられている。 その結果、DMFは、少数の高忠実度トレーニングサンプルで物理シミュレーションを効率よく学習することができ、様々な総合的および実用的なベンチマーク問題に基づいて、最先端の手法(最大58$\%のRMSEの改善)よりも優れている。

With rapid progress in deep learning, neural networks have been widely used in scientific research and engineering applications as surrogate models. Despite the great success of neural networks in fitting complex systems, two major challenges still remain: i) the lack of generalization on different problems/datasets, and ii) the demand for large amounts of simulation data that are computationally expensive. To resolve these challenges, we propose the differentiable \mf (DMF) model, which leverages neural architecture search (NAS) to automatically search the suitable model architecture for different problems, and transfer learning to transfer the learned knowledge from low-fidelity (fast but inaccurate) data to high-fidelity (slow but accurate) model. Novel and latest machine learning techniques such as hyperparameters search and alternate learning are used to improve the efficiency and robustness of DMF. As a result, DMF can efficiently learn the physics simulations with only a few high-fidelity training samples, and outperform the state-of-the-art methods with a significant margin (with up to 58$\%$ improvement in RMSE) based on a variety of synthetic and practical benchmark problems.
翻訳日:2023-06-13 15:48:25 公開日:2023-06-12
# 道徳的イマジネーションによるGoogleチーム獲得: テクノロジー企業における責任あるイノベーションと倫理的文化変革のためのボトムアップアプローチ

Engaging Google Teams Through Moral Imagination: A Bottom-Up Approach for Responsible Innovation and Ethical Culture Change in Technology Companies ( http://arxiv.org/abs/2306.06901v1 )

ライセンス: Link先を確認
Benjamin Lange, Amanda McCroskery, Ben Zevenbergen, Geoff Keeling, Sandra Blascovich, Kyle Pedersen, Alison Lentz, and Blaise Aguera y Arcas(参考訳) 我々は,技術系企業のエンジニアリングチームと製品チームに対して,責任あるイノベーションの文化を促進するための「モラル・イマジネーション」手法を提案する。 当社のアプローチは、過去2年間にわたってGoogleで運用され、組織全体のチームと40以上のワークショップを開催しています。 当社のアプローチは,倫理意識,審議,企業の原則や倫理,プライバシレビュー手順,コンプライアンスコントロールといった技術設計における意思決定の文化を育むための,既存の形式的かつ非公式なイニシアティブを極めて補完するものです。 特に技術分野における方法論の特有な利点を特徴付ける。

We propose a 'Moral Imagination' methodology to facilitate a culture of responsible innovation for engineering and product teams in technology companies. Our approach has been operationalized over the past two years at Google, where we have conducted over 40 workshops with teams from across the organization. We argue that our approach is a crucial complement to existing formal and informal initiatives for fostering a culture of ethical awareness, deliberation, and decision-making in technology design such as company principles, ethics and privacy review procedures, and compliance controls. We characterize some distinctive benefits of our methodology for the technology sector in particular.
翻訳日:2023-06-13 15:48:03 公開日:2023-06-12
# 画像ラベルによるゼロショット検出訓練の強化

Augmenting Zero-Shot Detection Training with Image Labels ( http://arxiv.org/abs/2306.06899v1 )

ライセンス: Link先を確認
Katharina Kornmeier, Ulla Scheler, Pascal Herrmann(参考訳) ゼロショット検出(zsd, zero-shot detection)は,実世界検出のユースケースでは必須であるが,依然として難しい課題である。 最近の研究では、直接クラスラベルの代わりに埋め込みを出力する検出モデルでzsdを試みる。 この目的のために、検出モデルの出力は、CLIPのような学習された埋め込み空間に整列する必要がある。 しかし、このアライメントは、画像分類アノテーションと比較してコストがかかる検出データセットや、トレーニングデータにおけるカテゴリの多様性の欠如によって妨げられている。 我々は、イメージネットの画像ラベルと組み合わせてCLIP埋め込み空間を活用することで、この問題に対処する。 以上の結果から,画像ラベルは検出器出力を埋め込み空間に整合させることができ,ZSDの可能性が高いことがわかった。 検出データのみのトレーニングと比較すると,見知らぬクラスにおけるCOCOの65/15分割に対する3.3mAPの画像ラベルデータ,すなわち関連する作業の利得を2倍以上にすることで,大きな利得が得られる。

Zero-shot detection (ZSD), i.e., detection on classes not seen during training, is essential for real world detection use-cases, but remains a difficult task. Recent research attempts ZSD with detection models that output embeddings instead of direct class labels. To this aim, the output of the detection model must be aligned to a learned embedding space such as CLIP. However, this alignment is hindered by detection data sets which are expensive to produce compared to image classification annotations, and the resulting lack of category diversity in the training data. We address this challenge by leveraging the CLIP embedding space in combination with image labels from ImageNet. Our results show that image labels are able to better align the detector output to the embedding space and thus have a high potential for ZSD. Compared to only training on detection data, we see a significant gain by adding image label data of 3.3 mAP for the 65/15 split on COCO on the unseen classes, i.e., we more than double the gain of related work.
翻訳日:2023-06-13 15:47:48 公開日:2023-06-12
# 量子同期の一般指標としての漁業情報

Fisher information as general metrics of quantum synchronization ( http://arxiv.org/abs/2306.06897v1 )

ライセンス: Link先を確認
Yuan Shen, Hong Yi Soh, Leong-Chuan Kwek, Weijun Fan(参考訳) 量子同期は量子非線形力学において重要な現象として現れ、量子情報処理にも応用されている。 量子同期を定量化する複数の尺度が存在する。 しかし、現在では広く合意されている計量が広く採用されていない。 本稿では,古典的および量子フィッシャー情報(FI)を代替指標として用いて量子同期を検出し,測定する。 我々は、FIと量子同期の接続を確立し、量子位相同期のより一般的な指標として、古典的と量子的両方のFIを配置できることを実証する。 FIに基づく測定では特に2-to-1同期の利点を示す。 さらに,ノイズが同期対策に与える影響を分析し,消散・脱コヒーレンスの有無で各手法の頑健さと感受性を明らかにする。 量子同期の理解と活用のための新たな道を開く。

Quantum synchronization has emerged as a crucial phenomenon in quantum nonlinear dynamics with potential applications in quantum information processing. Multiple measures for quantifying quantum synchronization exist. However, there is currently no widely agreed metric that is universally adopted. In this paper, we propose using classical and quantum Fisher information (FI) as alternative metrics to detect and measure quantum synchronization. We establish the connection between FI and quantum synchronization, demonstrating that both classical and quantum FI can be deployed as more general indicators of quantum phase synchronization, in some regimes where all other existing measures fail to provide reliable results. We show advantages in FI-based measures, especially in 2-to-1 synchronization. Furthermore, we analyze the impact of noise on the synchronization measures, revealing the robustness and susceptibility of each method in the presence of dissipation and decoherence. Our results open up new avenues for understanding and exploiting quantum synchronization.
翻訳日:2023-06-13 15:47:29 公開日:2023-06-12
# MPPN:長期連続予測のための多解周期パターンネットワーク

MPPN: Multi-Resolution Periodic Pattern Network For Long-Term Time Series Forecasting ( http://arxiv.org/abs/2306.06895v1 )

ライセンス: Link先を確認
Xing Wang, Zhendong Wang, Kexin Yang, Junlan Feng, Zhiyan Song, Chao Deng, Lin zhu(参考訳) 時系列予測は、様々な現実のシナリオにおいて重要な役割を果たす。 近年の時系列予測の深層学習手法は,分解法やサンプリング法により時系列の複雑なパターンを捉える傾向にある。 しかしながら、抽出されたパターンのほとんどは予測不能なノイズを含み、解釈性に欠ける可能性がある。 さらに、多変量系列予測法は、通常、各変数の個々の特性を無視し、予測精度に影響を与える可能性がある。 時系列の固有パターンを捉えるために,多分解能周期パターンネットワーク(multi- resolution periodic pattern network,mppn)という,長期時系列予測のための新しいディープラーニングネットワークアーキテクチャを提案する。 まず,時系列の文脈認識型マルチレゾリューション意味単位を構築し,時系列のキーパターンをキャプチャするために多周期パターンマイニングを用いる。 そこで我々は,異なるパターンに対する多変量知覚を捉えるチャネル適応モジュールを提案する。 さらに,時系列の予測可能性を評価し,予測前の予測精度の上限を与えるエントロピーに基づく手法を提案する。 実世界の9つのベンチマーク実験の結果,MPPN は変圧器をベースとし,分解をベースとし,サンプリングをベースとした長期連続予測法よりも優れていた。

Long-term time series forecasting plays an important role in various real-world scenarios. Recent deep learning methods for long-term series forecasting tend to capture the intricate patterns of time series by decomposition-based or sampling-based methods. However, most of the extracted patterns may include unpredictable noise and lack good interpretability. Moreover, the multivariate series forecasting methods usually ignore the individual characteristics of each variate, which may affecting the prediction accuracy. To capture the intrinsic patterns of time series, we propose a novel deep learning network architecture, named Multi-resolution Periodic Pattern Network (MPPN), for long-term series forecasting. We first construct context-aware multi-resolution semantic units of time series and employ multi-periodic pattern mining to capture the key patterns of time series. Then, we propose a channel adaptive module to capture the perceptions of multivariate towards different patterns. In addition, we present an entropy-based method for evaluating the predictability of time series and providing an upper bound on the prediction accuracy before forecasting. Our experimental evaluation on nine real-world benchmarks demonstrated that MPPN significantly outperforms the state-of-the-art Transformer-based, decomposition-based and sampling-based methods for long-term series forecasting.
翻訳日:2023-06-13 15:47:15 公開日:2023-06-12
# 拡張クラスを用いた学習のための一般化された不偏性リスク推定器

A Generalized Unbiased Risk Estimator for Learning with Augmented Classes ( http://arxiv.org/abs/2306.06894v1 )

ライセンス: Link先を確認
Senlin Shu, Shuo He, Haobo Wang, Hongxin Wei, Tao Xiang, Lei Feng(参考訳) トレーニングデータですべてのクラスを観察できる標準的な学習パラダイムとは対照的に、拡張クラス(lac)による学習は、トレーニングデータに観察されない拡張クラスがテストフェーズで現れる可能性がある問題に取り組む。 従来の研究では、ラベルのないデータから、非バイアスリスク推定器(URE)を導出することができ、理論的な保証でLACに対して最小化することが可能であった。 しかし、このUREは、マルチクラス分類のための特定のタイプの1-versus-rest損失関数にのみ制限されており、実際にデータセットで損失を変更する必要がある場合に十分な柔軟性がない。 本稿では,LACのラベルなしデータに対して理論的保証を維持しつつ,任意の損失関数を備えた一般化されたUREを提案する。 先行研究でよく見られる負の実証的リスクの問題を緩和するため,新たなリスクペナルティ正則化用語を提案する。 提案手法の有効性を示す実験を行った。

In contrast to the standard learning paradigm where all classes can be observed in training data, learning with augmented classes (LAC) tackles the problem where augmented classes unobserved in the training data may emerge in the test phase. Previous research showed that given unlabeled data, an unbiased risk estimator (URE) can be derived, which can be minimized for LAC with theoretical guarantees. However, this URE is only restricted to the specific type of one-versus-rest loss functions for multi-class classification, making it not flexible enough when the loss needs to be changed with the dataset in practice. In this paper, we propose a generalized URE that can be equipped with arbitrary loss functions while maintaining the theoretical guarantees, given unlabeled data for LAC. To alleviate the issue of negative empirical risk commonly encountered by previous studies, we further propose a novel risk-penalty regularization term. Experiments demonstrate the effectiveness of our proposed method.
翻訳日:2023-06-13 15:46:54 公開日:2023-06-12
# 雑音性マンモグラム異常検出におけるコンテキスト内クロスディエンシ適応

In-context Cross-Density Adaptation on Noisy Mammogram Abnormalities Detection ( http://arxiv.org/abs/2306.06893v1 )

ライセンス: Link先を確認
Huy T. Nguyen, Thinh B. Lam, Quan D.D. Tran, Minh T. Nguyen, Dat T. Chung, and Vinh Q. Dinh(参考訳) 本稿では, 乳房密度分布が深層学習モデルの一般化性能に及ぼす影響を, VinDr-Mammoデータセットを用いたマンモグラフィー画像に対して検討する。 本研究では, ノイズ遅延伝達可能性探索(NLTE)フレームワークを用いたドメイン適応型オブジェクト検出(DAOD)を用いて, ノイズラベリング環境下での乳腺密度のモデル性能の向上を図る。 データセット内のソースとターゲット間のドメイン間ギャップを埋めるための堅牢な拡張フレームワークを提案する。 以上の結果から,daodに基づく手法は,提案する拡張フレームワークとともに,ディープラーニングモデルの一般化性能を向上させることができることが分かった。 本稿では,特に乳房密度分布の文脈において,乳房造影において重要な領域適応法の重要性について述べる。

This paper investigates the impact of breast density distribution on the generalization performance of deep-learning models on mammography images using the VinDr-Mammo dataset. We explore the use of domain adaptation techniques, specifically Domain Adaptive Object Detection (DAOD) with the Noise Latent Transferability Exploration (NLTE) framework, to improve model performance across breast densities under noisy labeling circumstances. We propose a robust augmentation framework to bridge the domain gap between the source and target inside a dataset. Our results show that DAOD-based methods, along with the proposed augmentation framework, can improve the generalization performance of deep-learning models (+5% overall mAP improvement approximately in our experimental results compared to commonly used detection models). This paper highlights the importance of domain adaptation techniques in medical imaging, particularly in the context of breast density distribution, which is critical in mammography.
翻訳日:2023-06-13 15:46:38 公開日:2023-06-12
# スケール回転同変リー群畳み込みニューラルネットワーク(Lie Group-CNN)

Scale-Rotation-Equivariant Lie Group Convolution Neural Networks (Lie Group-CNNs) ( http://arxiv.org/abs/2306.06934v1 )

ライセンス: Link先を確認
Wei-Dong Qiao, Yang Xu, and Hui Li(参考訳) 畳み込み核の重み共有機構は畳み込みニューラルネットワーク(cnns)の翻訳等価性を保証する。 近年,回転同分散が研究されている。 しかし, スケール等分散あるいは同時回転同分散の研究は不十分である。 本研究では,画像分類タスクのスケールローテーション等価性を維持するLie group-CNNを提案する。 LieグループCNNは、リフトモジュール、一連のグループ畳み込みモジュール、グローバルプール層、および分類層を含む。 昇降加群はユークリッド空間からリー群空間へ入力画像を転送し、群畳み込みはリー群要素のリー代数を入力として完全連結ネットワークを介してパラメータ化され、スケール回転同分散を達成する。 リー群SIM(2)は、スケール回転同値のリー群CNNを確立するために用いられる。 リー代数畳み込みネットワーク、拡張畳み込み、空間トランスフォーマーネットワーク、スケール不変ステアブルネットワークよりも優れた血液細胞データセット(97.50%)とHAM10000データセット(77.90%)において、Lie群CNNのスケールローテーション等価性を検証する。 さらに、SIM(2)上でのLie群CNNの回転等分散に対する一般化能力を、回転MNISTおよび回転CIFAR10上で検証し、SO(2)およびSE(2)上でネットワークの堅牢性を検証する。 そのため、リー群CNNは幾何的特徴の抽出に成功し、回転およびスケール変換を伴う画像上で同変認識を行うことができる。

The weight-sharing mechanism of convolutional kernels ensures translation-equivariance of convolution neural networks (CNNs). Recently, rotation-equivariance has been investigated. However, research on scale-equivariance or simultaneous scale-rotation-equivariance is insufficient. This study proposes a Lie group-CNN, which can keep scale-rotation-equivariance for image classification tasks. The Lie group-CNN includes a lifting module, a series of group convolution modules, a global pooling layer, and a classification layer. The lifting module transfers the input image from Euclidean space to Lie group space, and the group convolution is parameterized through a fully connected network using Lie-algebra of Lie-group elements as inputs to achieve scale-rotation-equivariance. The Lie group SIM(2) is utilized to establish the Lie group-CNN with scale-rotation-equivariance. Scale-rotation-equivariance of Lie group-CNN is verified and achieves the best recognition accuracy on the blood cell dataset (97.50%) and the HAM10000 dataset (77.90%) superior to Lie algebra convolution network, dilation convolution, spatial transformer network, and scale-equivariant steerable network. In addition, the generalization ability of the Lie group-CNN on SIM(2) on rotation-equivariance is verified on rotated-MNIST and rotated-CIFAR10, and the robustness of the network is verified on SO(2) and SE(2). Therefore, the Lie group-CNN can successfully extract geometric features and performs equivariant recognition on images with rotation and scale transformations.
翻訳日:2023-06-13 15:41:38 公開日:2023-06-12
# 生成的ゼロショット学習を改善するsemantic prototype

Evolving Semantic Prototype Improves Generative Zero-Shot Learning ( http://arxiv.org/abs/2306.06931v1 )

ライセンス: Link先を確認
Shiming Chen, Wenjin Hou, Ziming Hong, Xiaohan Ding, Yibing Song, Xinge You, Tongliang Liu, Kun Zhang(参考訳) ゼロショット学習(ZSL)では、生成法は事前に定義されたセマンティックプロトタイプに基づいてクラス関連サンプル特徴を合成する。 彼らは未確認のクラスサンプル機能を合成してZSL性能を向上し、分類器をより良く訓練する。 各クラスの事前定義されたセマンティックプロトタイプ(セマンティック埋め込みや条件とも呼ばれる)が、実際のセマンティックプロトタイプと正確に一致しないことを観察する。 したがって、合成されたビジュアルサンプル機能は、実際のサンプル特徴を忠実に表現せず、分類器の訓練と既存のZSL性能を制限する。 本稿では,このミスマッチ現象を視覚意味領域シフト問題として定式化する。 本稿では,クラス関連特徴合成のための経験的事前定義された意味的プロトタイプと実際のプロトタイプを整合させる動的意味的プロトタイプ進化(dsp)手法を提案する。 このアライメントは、統一されたフレームワークでサンプル機能とセマンティックプロトタイプを洗練し、合成されたビジュアルサンプル機能を実際のサンプル機能に近づけることで学習される。 アライメント後、未確認のクラスから合成されたサンプル特徴は実際のサンプル特徴に近づき、DSPが既存の生成的ZSL法を8.5\%、8.0\%、9.7\%改善するのに役立ち、標準のCUB、SUN AWA2データセットで顕著な性能向上が示され、進化するセマンティックプロトタイプがZSLの処女フィールドを探索していることを示している。

In zero-shot learning (ZSL), generative methods synthesize class-related sample features based on predefined semantic prototypes. They advance the ZSL performance by synthesizing unseen class sample features for better training the classifier. We observe that each class's predefined semantic prototype (also referred to as semantic embedding or condition) does not accurately match its real semantic prototype. So the synthesized visual sample features do not faithfully represent the real sample features, limiting the classifier training and existing ZSL performance. In this paper, we formulate this mismatch phenomenon as the visual-semantic domain shift problem. We propose a dynamic semantic prototype evolving (DSP) method to align the empirically predefined semantic prototypes and the real prototypes for class-related feature synthesis. The alignment is learned by refining sample features and semantic prototypes in a unified framework and making the synthesized visual sample features approach real sample features. After alignment, synthesized sample features from unseen classes are closer to the real sample features and benefit DSP to improve existing generative ZSL methods by 8.5\%, 8.0\%, and 9.7\% on the standard CUB, SUN AWA2 datasets, the significant performance improvement indicates that evolving semantic prototype explores a virgin field in ZSL.
翻訳日:2023-06-13 15:41:08 公開日:2023-06-12
# 局所適応時空間グラフニューラルネットワーク

Localised Adaptive Spatial-Temporal Graph Neural Network ( http://arxiv.org/abs/2306.06930v1 )

ライセンス: Link先を確認
Wenying Duan, Xiaoxi He, Zimu Zhou, Lothar Thiele, Hong Rao(参考訳) 空間時間グラフモデルは、空間的および時間的依存を抽象化しモデル化するために一般的である。 この本では、以下の質問をする: \textit{whether and to extent to how extent can localize spatial-temporal graph models? 我々は、最先端のモデルアーキテクチャであるadaptive spatial-temporal graph neural networks(astgnns)にスコープを限定しています。 局所化に対する我々のアプローチは、空間グラフ隣接行列のスパース化を伴う。 そこで我々は,ASTGNNの局所化を極端に(完全に)実現するグラフスカラー化アルゴリズムであるAdaptive Graph Sparsification (AGS)を提案する。 AGSを2つの異なるASTGNNアーキテクチャと9つの時空間データセットに適用する。 興味深いことに、ASTGNNの空間グラフは、テスト精度を低下させることなく99.5\%以上縮退することができる。 さらに、ASTGNNが完全にローカライズされ、グラフレスかつ純粋に一時的なものになっても、テスト済みデータセットの大半の精度は低下せず、残りのデータセットでわずかに精度が劣化しているだけである。 しかし、部分的にあるいは完全にローカライズされたASTGNNが再起動され、同じデータで再トレーニングされると、精度は大幅に低下する。 これらの観測に基づいて、 \textit{ (i)} テストデータでは、空間的依存によって提供される情報は、主に時間的依存によって提供される情報に含まれるため、推論のために本質的に無視することができる。 (ii) 空間依存は冗長な情報を提供するが, ASTGNNの効果的な訓練には不可欠であり, 訓練中は無視できない。 さらに、ASTGNNのローカライゼーションは、大規模な時空間データに必要とされる計算オーバーヘッドを低減し、ASTGNNの分散展開を可能にする可能性を秘めている。

Spatial-temporal graph models are prevailing for abstracting and modelling spatial and temporal dependencies. In this work, we ask the following question: \textit{whether and to what extent can we localise spatial-temporal graph models?} We limit our scope to adaptive spatial-temporal graph neural networks (ASTGNNs), the state-of-the-art model architecture. Our approach to localisation involves sparsifying the spatial graph adjacency matrices. To this end, we propose Adaptive Graph Sparsification (AGS), a graph sparsification algorithm which successfully enables the localisation of ASTGNNs to an extreme extent (fully localisation). We apply AGS to two distinct ASTGNN architectures and nine spatial-temporal datasets. Intriguingly, we observe that spatial graphs in ASTGNNs can be sparsified by over 99.5\% without any decline in test accuracy. Furthermore, even when ASTGNNs are fully localised, becoming graph-less and purely temporal, we record no drop in accuracy for the majority of tested datasets, with only minor accuracy deterioration observed in the remaining datasets. However, when the partially or fully localised ASTGNNs are reinitialised and retrained on the same data, there is a considerable and consistent drop in accuracy. Based on these observations, we reckon that \textit{(i)} in the tested data, the information provided by the spatial dependencies is primarily included in the information provided by the temporal dependencies and, thus, can be essentially ignored for inference; and \textit{(ii)} although the spatial dependencies provide redundant information, it is vital for the effective training of ASTGNNs and thus cannot be ignored during training. Furthermore, the localisation of ASTGNNs holds the potential to reduce the heavy computation overhead required on large-scale spatial-temporal data and further enable the distributed deployment of ASTGNNs.
翻訳日:2023-06-13 15:40:41 公開日:2023-06-12
# 近傍探索のためのスパース帰納的生成逆ハッシュ

Sparse-Inductive Generative Adversarial Hashing for Nearest Neighbor Search ( http://arxiv.org/abs/2306.06928v1 )

ライセンス: Link先を確認
Hong Liu(参考訳) 教師なしハッシュは、通常、ハミング空間における予め定義された計量(すなわちユークリッド計量)を保存することを目的として、過去10年間に広範な研究の焦点をあててきた。 この目的のために、既存のハッシュの符号化関数は通常準同型であり、対象の計量空間から離散ハミング空間への量子化損失を減少させる。 しかし、上記の2つの距離空間は不均一であり、準等尺写像は非線形であるため、そのような誤差を直接最小化することは実際問題である。 前者は一貫性のない特徴分布、後者は問題のある最適化問題につながる。 本稿では,大規模高次元特徴をバイナリコードにエンコードする,Sparsity-induced Generative Adversarial Hashing (SiGAH) と呼ばれる新しい教師なしハッシュ法を提案する。 量子化損失を最小化するのではなく、私たちの重要なイノベーションは学習ハミング空間を生成モデルを通じてターゲットの計量空間と同じようなデータ分布を持つように強制することにあります。 特に、ReLUベースのニューラルネットワークをジェネレータとして定式化し、バイナリコードを出力し、MSEロスベースのオートエンコーダネットワークを識別器として、生成逆学習を行いハッシュ関数を訓練する。 さらに、ハッシュコードから合成特徴を生成するために、圧縮されたセンシング手順を生成モデルに導入し、元の特徴と整合するようにバイナリコードの再構成境界を強制する。 最後に、このような生成的敵対的フレームワークは、Adamオプティマイザを通じて訓練することができる。 Tiny100K、GIST1M、Deep1M、MNISTの4つのベンチマーク実験の結果、提案されたSiGAHは最先端のアプローチよりも優れた性能を示している。

Unsupervised hashing has received extensive research focus on the past decade, which typically aims at preserving a predefined metric (i.e. Euclidean metric) in the Hamming space. To this end, the encoding functions of the existing hashing are typically quasi-isometric, which devote to reducing the quantization loss from the target metric space to the discrete Hamming space. However, it is indeed problematic to directly minimize such error, since such mentioned two metric spaces are heterogeneous, and the quasi-isometric mapping is non-linear. The former leads to inconsistent feature distributions, while the latter leads to problematic optimization issues. In this paper, we propose a novel unsupervised hashing method, termed Sparsity-Induced Generative Adversarial Hashing (SiGAH), to encode large-scale high-dimensional features into binary codes, which well solves the two problems through a generative adversarial training framework. Instead of minimizing the quantization loss, our key innovation lies in enforcing the learned Hamming space to have similar data distribution to the target metric space via a generative model. In particular, we formulate a ReLU-based neural network as a generator to output binary codes and an MSE-loss based auto-encoder network as a discriminator, upon which a generative adversarial learning is carried out to train hash functions. Furthermore, to generate the synthetic features from the hash codes, a compressed sensing procedure is introduced into the generative model, which enforces the reconstruction boundary of binary codes to be consistent with that of original features. Finally, such generative adversarial framework can be trained via the Adam optimizer. Experimental results on four benchmarks, i.e., Tiny100K, GIST1M, Deep1M, and MNIST, have shown that the proposed SiGAH has superior performance over the state-of-the-art approaches.
翻訳日:2023-06-13 15:40:04 公開日:2023-06-12
# TASRA:AIによる社会規模リスクの分類と分析

TASRA: A Taxonomy and Analysis of Societal-Scale Risks from AI ( http://arxiv.org/abs/2306.06924v1 )

ライセンス: Link先を確認
Andrew Critch and Stuart Russell(参考訳) 近年のいくつかの研究で、人工知能による人類に対する社会規模および絶滅レベルのリスクが特定されているが、そのようなリスクを徹底的に分類する試みは、ほとんどない。 多くの抜本的な分類が可能であり、特に新しいリスクや安全性への実践的なアプローチを明らかにする場合に有用である。 本稿では,リスクに繋がる行動,アクターは一体化されているか,意図的かという,説明責任に基づく分類について考察する。 また、多くのAIシステムの予期せぬ相互作用から生じるリスクや、技術的なソリューションとポリシーの複合が示される故意の誤用によるリスクなど、さまざまなリスクタイプがどのように機能するかを説明する物語も提供します。

While several recent works have identified societal-scale and extinction-level risks to humanity arising from artificial intelligence, few have attempted an {\em exhaustive taxonomy} of such risks. Many exhaustive taxonomies are possible, and some are useful -- particularly if they reveal new risks or practical approaches to safety. This paper explores a taxonomy based on accountability: whose actions lead to the risk, are the actors unified, and are they deliberate? We also provide stories to illustrate how the various risk types could each play out, including risks arising from unanticipated interactions of many AI systems, as well as risks from deliberate misuse, for which combined technical and policy solutions are indicated.
翻訳日:2023-06-13 15:39:33 公開日:2023-06-12
# SW/HW共同設計におけるLCMの使用可能性について:CiM DNN加速器の設計例

On the Viability of using LLMs for SW/HW Co-Design: An Example in Designing CiM DNN Accelerators ( http://arxiv.org/abs/2306.06923v1 )

ライセンス: Link先を確認
Zheyu Yan, Yifan Qin, Xiaobo Sharon Hu, Yiyu Shi(参考訳) Deep Neural Networks (DNN)は、幅広いタスクで素晴らしいパフォーマンスを示している。 しかし、エッジデバイスにDNNをデプロイすることは、強力なパワーと計算予算のために大きな課題となる。 この問題に対する効果的な解決策はソフトウェアハードウェア(SW-HW)の共同設計であり、利用可能なリソースを最適に活用するDNNモデルとハードウェアアーキテクチャのカスタマイズを可能にする。 しかしながら、sw-hwのコ・デザインは「コールド・スタート」問題として知られるヒューリスティックな知識を使わないため、伝統的に最適化速度が遅い。 本研究では,Large Language Models (LLM) を用いてこの問題に対処する手法を提案する。 協調設計最適化プロセスにおける事前学習 LLM の豊富な知識を利用することで、コールドスタート問題を効果的に回避し、設計プロセスを大幅に加速する。 提案手法は25倍の高速化を実現する。 この進歩は、エッジデバイスへのDNNの迅速かつ効率的な展開の道を開く。

Deep Neural Networks (DNNs) have demonstrated impressive performance across a wide range of tasks. However, deploying DNNs on edge devices poses significant challenges due to stringent power and computational budgets. An effective solution to this issue is software-hardware (SW-HW) co-design, which allows for the tailored creation of DNN models and hardware architectures that optimally utilize available resources. However, SW-HW co-design traditionally suffers from slow optimization speeds because their optimizers do not make use of heuristic knowledge, also known as the ``cold start'' problem. In this study, we present a novel approach that leverages Large Language Models (LLMs) to address this issue. By utilizing the abundant knowledge of pre-trained LLMs in the co-design optimization process, we effectively bypass the cold start problem, substantially accelerating the design process. The proposed method achieves a significant speedup of 25x. This advancement paves the way for the rapid and efficient deployment of DNNs on edge devices.
翻訳日:2023-06-13 15:39:19 公開日:2023-06-12
# 言語間整合規則化による多言語文表現の学習

Learning Multilingual Sentence Representations with Cross-lingual Consistency Regularization ( http://arxiv.org/abs/2306.06919v1 )

ライセンス: Link先を確認
Pengzhi Gao, Liwen Zhang, Zhongjun He, Hua Wu, Haifeng Wang(参考訳) 多言語文表現は類似性に基づくbitextマイニングの基礎であり、多言語ニューラルマシン翻訳(NMT)システムをより多くの言語に拡張するために重要である。 本稿では,220以上の言語をサポートする一対一の多言語文表現モデル MuSR を紹介する。 数十億の英語中心の並列コーパスを活用することで、Gaoら(2023年)で提案された言語間整合正則化手法であるCrossConSTを用いた多言語NTTフレームワークを採用することで、補助的なTransformerデコーダと組み合わせた多言語トランスフォーマーエンコーダを訓練する。 多言語類似性探索とバイテキストマイニングタスクの実験結果から,本手法の有効性を示す。 具体的には、148個の独立した多言語文エンコーダからなるLASER3(Heffernan et al., 2022)よりも優れた性能を実現する。

Multilingual sentence representations are the foundation for similarity-based bitext mining, which is crucial for scaling multilingual neural machine translation (NMT) system to more languages. In this paper, we introduce MuSR: a one-for-all Multilingual Sentence Representation model that supports more than 220 languages. Leveraging billions of English-centric parallel corpora, we train a multilingual Transformer encoder, coupled with an auxiliary Transformer decoder, by adopting a multilingual NMT framework with CrossConST, a cross-lingual consistency regularization technique proposed in Gao et al. (2023). Experimental results on multilingual similarity search and bitext mining tasks show the effectiveness of our approach. Specifically, MuSR achieves superior performance over LASER3 (Heffernan et al., 2022) which consists of 148 independent multilingual sentence encoders.
翻訳日:2023-06-13 15:39:00 公開日:2023-06-12
# 悪魔は細部にある:イベント抽出評価の落とし穴について

The Devil is in the Details: On the Pitfalls of Event Extraction Evaluation ( http://arxiv.org/abs/2306.06918v1 )

ライセンス: Link先を確認
Peng Hao, Wang Xiaozhi, Yao Feng, Zeng Kaisheng, Hou Lei, Li Juanzi, Liu Zhiyuan, Shen Weixing(参考訳) イベント抽出(EE)は、イベント検出(ED)とイベント引数抽出(EAE)という2つのサブタスクを含む、テキストからイベントを抽出するための重要なタスクである。 本稿では,ee評価の信頼性を確認し,(1)データプリプロセッシングの不一致により,同一データセット上での評価結果が直接的に比較されないが,データのプリプロセッシングの詳細は論文に広く記されていない,という3つの大きな落とし穴を特定した。 2) 異なるモデルパラダイムの出力空間の相違は、異なるパラダイムEEモデルに比較の根拠がなく、また予測とアノテーションの間の不明確なマッピング問題を引き起こす。 (3) 多くのEAEのみの作業に対するパイプライン評価の欠如は、EE作業と直接比較することが難しく、実際のパイプラインシナリオにおけるモデルパフォーマンスを十分に反映していない可能性がある。 本稿では,最近の論文の包括的メタアナリシスと実験実験を通じて,これらの落とし穴の影響を実証する。 これらの落とし穴を避けるために、データのプリプロセッシング、アウトプットの標準化、パイプライン評価結果の提供を含む一連の修正を提案する。 これらの改善を実現するために, https://github.com/THU-KEG/OmniEventから得られる一貫した評価フレームワークOMNIEVENTを開発した。

Event extraction (EE) is a crucial task aiming at extracting events from texts, which includes two subtasks: event detection (ED) and event argument extraction (EAE). In this paper, we check the reliability of EE evaluations and identify three major pitfalls: (1) The data preprocessing discrepancy makes the evaluation results on the same dataset not directly comparable, but the data preprocessing details are not widely noted and specified in papers. (2) The output space discrepancy of different model paradigms makes different-paradigm EE models lack grounds for comparison and also leads to unclear mapping issues between predictions and annotations. (3) The absence of pipeline evaluation of many EAE-only works makes them hard to be directly compared with EE works and may not well reflect the model performance in real-world pipeline scenarios. We demonstrate the significant influence of these pitfalls through comprehensive meta-analyses of recent papers and empirical experiments. To avoid these pitfalls, we suggest a series of remedies, including specifying data preprocessing, standardizing outputs, and providing pipeline evaluation results. To help implement these remedies, we develop a consistent evaluation framework OMNIEVENT, which can be obtained from https://github.com/THU-KEG/OmniEvent.
翻訳日:2023-06-13 15:38:43 公開日:2023-06-12
# 視覚トランスフォーマによる胸部x線画像の解析によるcovid-19診断の促進

Enhancing COVID-19 Diagnosis through Vision Transformer-Based Analysis of Chest X-ray Images ( http://arxiv.org/abs/2306.06914v1 )

ライセンス: Link先を確認
Sultan Zavrak(参考訳) 2019年の新型コロナウイルス(covid-19)の出現は、世界的健康危機を招き、様々な診断方法を通じて個人の病気の特定を必要としている。 放射線画像、特にX線画像の展開は、COVID-19の検出とキャラクタリゼーションにおいて重要な手段として認識されている。 近年の研究では、X線画像中のウイルスに関する貴重な知見が明らかにされており、人工知能(AI)技術を利用した診断精度の向上を目的とした方法論の探索が進められている。 現在の研究は、生の胸部x線画像、特にvit(pre-trained vision transformer)モデルを微調整することで、covid-19の自動診断のための革新的な枠組みを想定している。 開発したモデルでは, 2つの分類性能, 通常の症例からcovid-19を識別する, 3つの分類性能, 肺炎および正常例からcovid-19を識別する, および4つの分類性能, 細菌性肺炎, ウイルス性肺炎, および正常な条件を識別し, それぞれ異なるデータセットを用いて評価した。 提案モデルは,2進分類の99.92%と99.84%,3進分類の0.9795と86.48%,4進分類の86.81%という異常な精度を示した。

The advent of 2019 Coronavirus (COVID-19) has engendered a momentous global health crisis, necessitating the identification of the ailment in individuals through diverse diagnostic modalities. Radiological imaging, particularly the deployment of X-ray imaging, has been recognized as a pivotal instrument in the detection and characterization of COVID-19. Recent investigations have unveiled invaluable insights pertaining to the virus within X-ray images, instigating the exploration of methodologies aimed at augmenting diagnostic accuracy through the utilization of artificial intelligence (AI) techniques. The current research endeavor posits an innovative framework for the automated diagnosis of COVID-19, harnessing raw chest X-ray images, specifically by means of fine-tuning pre-trained Vision Transformer (ViT) models. The developed models were appraised in terms of their binary classification performance, discerning COVID-19 from Normal cases, as well as their ternary classification performance, discriminating COVID-19 from Pneumonia and Normal instances, and lastly, their quaternary classification performance, discriminating COVID-19 from Bacterial Pneumonia, Viral Pneumonia, and Normal conditions, employing distinct datasets. The proposed model evinced extraordinary precision, registering results of 99.92% and 99.84% for binary classification, 0.9795 and 86.48% for ternary classification, and 86.81% for quaternary classification, respectively, on the respective datasets.
翻訳日:2023-06-13 15:38:18 公開日:2023-06-12
# グラフトランスフォーマによるネットワークロバストネス学習

Network Robustness Learning via Graph Transformer ( http://arxiv.org/abs/2306.06913v1 )

ライセンス: Link先を確認
Yu Zhang, Jia Li, Jie Ding, Xiang Li(参考訳) ネットワークロバスト性(制御性ロバスト性や接続性ロバスト性を含む)の学習と解析は、攻撃に対する様々なネットワークシステムにとって重要である。 伝統的に、ネットワークの堅牢性は攻撃シミュレーションによって決定される。 ネットワークロバストネス学習は、ネットワークロバストネスを高精度かつ高速に学習することを目的としており、シミュレーションを置き換えることでネットワークロバストネスを分析する強力なツールを提供する。 本稿では, グラフ変換器(NRL-GT)による多目的かつ統一的なロバストネス学習手法を提案し, 頑健性曲線学習, 総合ロバストネス学習, 合成ネットワーク分類を含む複数の側面から, 可制御性ロバストネス学習と持続性ロバストネス学習を実現する。 多くの実験が示しています 1)NRL-GTは、制御性堅牢性と接続性堅牢性のための統一的な学習フレームワークであり、トレーニングとテストセットが異なる場合に高い精度を確保するための強力な一般化能力を示す。 2) 最先端手法と比較して,NRL-GTは複数面からのネットワーク堅牢性学習を同時に行うことができ,より少ない時間で優れた結果が得られる。 NRL-GTは、学習誤差が低く、高い効率で異なる大きさの複雑なネットワークを扱うことができる。 3)NRL-GTのバックボーンは、異なるサイズと異なる下流タスクの複雑なネットワークのための転送可能な機能学習モジュールとして機能する。

Learning and analysis of network robustness, including controllability robustness and connectivity robustness, is critical for various networked systems against attacks. Traditionally, network robustness is determined by attack simulations, which is very time-consuming and even incapable for large-scale networks. Network Robustness Learning, which is dedicated to learning network robustness with high precision and high speed, provides a powerful tool to analyze network robustness by replacing simulations. In this paper, a novel versatile and unified robustness learning approach via graph transformer (NRL-GT) is proposed, which accomplishes the task of controllability robustness learning and connectivity robustness learning from multiple aspects including robustness curve learning, overall robustness learning, and synthetic network classification. Numerous experiments show that: 1) NRL-GT is a unified learning framework for controllability robustness and connectivity robustness, demonstrating a strong generalization ability to ensure high precision when training and test sets are distributed differently; 2) Compared to the cutting-edge methods, NRL-GT can simultaneously perform network robustness learning from multiple aspects and obtains superior results in less time. NRL-GT is also able to deal with complex networks of different size with low learning error and high efficiency; 3) It is worth mentioning that the backbone of NRL-GT can serve as a transferable feature learning module for complex networks of different size and different downstream tasks.
翻訳日:2023-06-13 15:37:50 公開日:2023-06-12
# マルチラベル時間ネットワークを用いた大腸内視鏡ビデオの意味解析

Semantic Parsing of Colonoscopy Videos with Multi-Label Temporal Networks ( http://arxiv.org/abs/2306.06960v1 )

ライセンス: Link先を確認
Ori Kelner, Or Weinstein, Ehud Rivlin, and Roman Goldenberg(参考訳) ポリープ検出とキャラクタリゼーションが成功した後、大腸内視鏡のためにより高度な自動化ツールが開発されている。 品質指標やレポート生成といった新しい自動化タスクでは、アクティビティやイベント、解剖学的ランドマークなどを含むプロシージャフローの理解が必要になります。 本稿では,大腸内視鏡ビデオの自動意味解析手法を提案する。 本手法は、教師なしおよび教師なし体制下で訓練された新しいDL多ラベル時間分割モデルを用いる。 今回,300本以上のアノテーテッド大腸内視鏡映像の検査セットにおける方法の精度を評価し,アブレーションを用いて各部位の相対的重要性について検討した。

Following the successful debut of polyp detection and characterization, more advanced automation tools are being developed for colonoscopy. The new automation tasks, such as quality metrics or report generation, require understanding of the procedure flow that includes activities, events, anatomical landmarks, etc. In this work we present a method for automatic semantic parsing of colonoscopy videos. The method uses a novel DL multi-label temporal segmentation model trained in supervised and unsupervised regimes. We evaluate the accuracy of the method on a test set of over 300 annotated colonoscopy videos, and use ablation to explore the relative importance of various method's components.
翻訳日:2023-06-13 15:30:52 公開日:2023-06-12
# ディープラーニングにおけるHypernetworksの簡単なレビュー

A Brief Review of Hypernetworks in Deep Learning ( http://arxiv.org/abs/2306.06955v1 )

ライセンス: Link先を確認
Vinod Kumar Chauhan, Jiandong Zhou, Ping Lu, Soheila Molaei and David A. Clifton(参考訳) ハイパーネットワーク(hypernetworks)またはハイパーネット(hypernets)は、ターゲットネットワークと呼ばれる別のニューラルネットワークの重み付けを生成するニューラルネットワークである。 柔軟性、適応性、より高速なトレーニング、情報共有、モデル圧縮などを実現する強力なディープラーニング技術として登場しました。 ハイパーネットは、連続学習、因果推論、移動学習、ウェイトプルーニング、不確実性定量化、ゼロショット学習、自然言語処理、強化学習など、様々なディープラーニング問題において有望な結果を示している。 さまざまな問題設定で成功しているにも関わらず、現時点では、ハイパーネットの利用に関する開発や支援について研究者に伝えるレビューはない。 このギャップを埋めるため、ハイパーネットの進展をレビューする。 本稿では,ハイパーネットを用いたディープニューラルネットワークの学習例を示し,ハイパーネットの設計に影響を与える5つの基準について,入力,出力,入力と出力の可変性,ハイパーネットのアーキテクチャを分類する。 また,さまざまな深層学習問題におけるハイパーネットの応用について検討する。 最後に,ハイパーネット分野における課題と今後の方向性について考察する。 ハイパーネットワークはディープラーニングの分野に革命を起こす可能性があると考えています。 彼らはニューラルネットワークを設計し、訓練する新しい方法を提供し、さまざまなタスクにおけるディープラーニングモデルのパフォーマンスを改善する可能性を秘めている。 このレビューを通じて、ハイパーネットワークによるディープラーニングのさらなる進歩を促すことを目指している。

Hypernetworks, or hypernets in short, are neural networks that generate weights for another neural network, known as the target network. They have emerged as a powerful deep learning technique that allows for greater flexibility, adaptability, faster training, information sharing, and model compression etc. Hypernets have shown promising results in a variety of deep learning problems, including continual learning, causal inference, transfer learning, weight pruning, uncertainty quantification, zero-shot learning, natural language processing, and reinforcement learning etc. Despite their success across different problem settings, currently, there is no review available to inform the researchers about the developments and help in utilizing hypernets. To fill this gap, we review the progress in hypernets. We present an illustrative example to train deep neural networks using hypernets and propose to categorize hypernets on five criteria that affect the design of hypernets as inputs, outputs, variability of inputs and outputs, and architecture of hypernets. We also review applications of hypernets across different deep learning problem settings. Finally, we discuss the challenges and future directions that remain under-explored in the field of hypernets. We believe that hypernetworks have the potential to revolutionize the field of deep learning. They offer a new way to design and train neural networks, and they have the potential to improve the performance of deep learning models on a variety of tasks. Through this review, we aim to inspire further advancements in deep learning through hypernetworks.
翻訳日:2023-06-13 15:30:35 公開日:2023-06-12
# 自動音声認識のためのcnnフロントエンドのマルチビュー周波数対応方式

Multi-View Frequency-Attention Alternative to CNN Frontends for Automatic Speech Recognition ( http://arxiv.org/abs/2306.06954v1 )

ライセンス: Link先を確認
Belen Alastruey, Lukas Drude, Jahn Heymann, Simon Wiesler(参考訳) 畳み込みフロントエンドは、Transformerベースの自動音声認識において典型的な選択であり、スペクトルを前処理し、そのシーケンス長を減らし、時間と周波数の局所情報を組み合わせる。 しかし、音声スペクトログラムの幅と高さは、残響や調音システムによって異なる情報を示すため、時間軸は左から右への明確な依存性を持つ。 逆に母音と子音は、非常に異なるパターンを示し、ほぼ不規則な周波数域を占有する。 したがって,局所畳み込みよりも周波数に対するグローバルな注意が有益であると仮定する。 提案するf-attentionモジュールによる畳み込みニューラルネットワークフロントエンドをalexaトラフィックに置き換えた,生産規模コンフォーメータトランスデューサ上で,約2.4%の相対単語誤り率低減(rwerr)を得る。 一般化可能性を示すために,短期記憶に基づくリスニング・アンド・スペル・アーキテクチャを用いて,公開librispeechデータを用いて4.6 % rwerrを取得し,(シミュレーション)ノイズ条件に対するロバスト性を示す。

Convolutional frontends are a typical choice for Transformer-based automatic speech recognition to preprocess the spectrogram, reduce its sequence length, and combine local information in time and frequency similarly. However, the width and height of an audio spectrogram denote different information, e.g., due to reverberation as well as the articulatory system, the time axis has a clear left-to-right dependency. On the contrary, vowels and consonants demonstrate very different patterns and occupy almost disjoint frequency ranges. Therefore, we hypothesize, global attention over frequencies is beneficial over local convolution. We obtain 2.4 % relative word error rate reduction (rWERR) on a production scale Conformer transducer replacing its convolutional neural network frontend by the proposed F-Attention module on Alexa traffic. To demonstrate generalizability, we validate this on public LibriSpeech data with a long short term memory-based listen attend and spell architecture obtaining 4.6 % rWERR and demonstrate robustness to (simulated) noisy conditions.
翻訳日:2023-06-13 15:29:53 公開日:2023-06-12
# 翻訳記憶強化ニューラルマシン翻訳の再考

Rethinking Translation Memory Augmented Neural Machine Translation ( http://arxiv.org/abs/2306.06948v1 )

ライセンス: Link先を確認
Hongkun Hao, Guoping Huang, Lemao Liu, Zhirui Zhang, Shuming Shi, Rui Wang(参考訳) 本稿では,2つの視点,すなわち検索の確率的視点と分散バイアス分解原理から,翻訳メモリ拡張ニューラルマシン翻訳(tm-augmented nmt)を再考する。 この結果から、TM強化NMTはデータの適合性(低バイアス)に優れるが、トレーニングデータ(高分散)のゆらぎに敏感であることが示され、これは、最近報告された同じ翻訳タスクにおける矛盾現象を説明できる:TM増強NMTは、高リソースシナリオ下でバニラNTTを実質的に前進させるが、低リソースシナリオでは失敗する。 そこで, tm-augmented nmtモデルを提案し, 分散を促進させ, 矛盾する現象に対処する。 拡張実験により,提案したTM拡張NMTは,従来のNMTと既存のTM拡張NMTの両方に対して,2つの分散優先シナリオ(低リソースおよびプラグアンドプレイ)と高リソースシナリオで一貫した利得が得られることが示された。

This paper rethinks translation memory augmented neural machine translation (TM-augmented NMT) from two perspectives, i.e., a probabilistic view of retrieval and the variance-bias decomposition principle. The finding demonstrates that TM-augmented NMT is good at the ability of fitting data (i.e., lower bias) but is more sensitive to the fluctuations in the training data (i.e., higher variance), which provides an explanation to a recently reported contradictory phenomenon on the same translation task: TM-augmented NMT substantially advances vanilla NMT under the high-resource scenario whereas it fails under the low-resource scenario. Then we propose a simple yet effective TM-augmented NMT model to promote the variance and address the contradictory phenomenon. Extensive experiments show that the proposed TM-augmented NMT achieves consistent gains over both conventional NMT and existing TM-augmented NMT under two variance-preferable (low-resource and plug-and-play) scenarios as well as the high-resource scenario.
翻訳日:2023-06-13 15:29:24 公開日:2023-06-12
# 滑らかさ誘導正規化とスペクトログラムデータ拡張に基づく水中音響目標認識

Underwater Acoustic Target Recognition based on Smoothness-inducing Regularization and Spectrogram-based Data Augmentation ( http://arxiv.org/abs/2306.06945v1 )

ライセンス: Link先を確認
Ji Xu, Yuan Xie, Wenchao Wang(参考訳) 水中音響目標認識は、複雑な水中環境と限られたデータ可用性のために難しい課題である。 データの不足は、複雑なモデリングをサポートする認識システムの能力を妨げる可能性があるため、その進歩を妨げる。 認識モデルの一般化能力を向上させるため,水中信号のシミュレーションやデータ分散の多様化にデータ拡張などの手法が用いられている。 しかし、水中環境の複雑さは、シミュレーションされた信号が実際のシナリオから逸脱し、非真のデータによって誤認されるバイアスのあるモデルをもたらす可能性がある。 本研究では,性能低下のリスクを回避しつつ,限定データの場合のモデルの一般化能力を高めるための2つの戦略を提案する。 まず、従来のデータ拡張の代替として、正規化項にシミュレートされた信号のみを組み込むスムーズネス誘導正規化を利用する。 さらに,クラス間関係を捉えるために,spectrogramベースのデータ拡張戦略であるlocal masking and replicating (lmr)を提案する。 提案手法の優位性を示す実験と可視化分析を行った。

Underwater acoustic target recognition is a challenging task owing to the intricate underwater environments and limited data availability. Insufficient data can hinder the ability of recognition systems to support complex modeling, thus impeding their advancement. To improve the generalization capacity of recognition models, techniques such as data augmentation have been employed to simulate underwater signals and diversify data distribution. However, the complexity of underwater environments can cause the simulated signals to deviate from real scenarios, resulting in biased models that are misguided by non-true data. In this study, we propose two strategies to enhance the generalization ability of models in the case of limited data while avoiding the risk of performance degradation. First, as an alternative to traditional data augmentation, we utilize smoothness-inducing regularization, which only incorporates simulated signals in the regularization term. Additionally, we propose a specialized spectrogram-based data augmentation strategy, namely local masking and replicating (LMR), to capture inter-class relationships. Our experiments and visualization analysis demonstrate the superiority of our proposed strategies.
翻訳日:2023-06-13 15:29:03 公開日:2023-06-12
# QUBOハミルトニアンの制限項に対する量子数最適化

Qubit Number Optimization for Restriction Terms of QUBO Hamiltonians ( http://arxiv.org/abs/2306.06943v1 )

ライセンス: Link先を確認
I\~nigo Perez Delgado, Beatriz Garc\'ia Markaida, Alejandro Mata Ali, Aitor Moreno Fdez. de Leceta(参考訳) 二次連立最適化 (qubo) の通常の制限項では、整数制限係数 (irc) と呼ばれる論理量子ビット r の整数数がアクティブである。 本稿では,これらの制約を実装するためのよく知られた手法と,高頻度に実施されるケースにおいてより効率的であることを示すいくつかの新しい手法を収集する。 さらに、数学的には$R$の分数値を求めることができる。 これらのフラクショナル制限係数 (FRC) に対して、制限ハミルトニアンの実装に必要な量子ビットの数をさらに減らす方法を示す。 最後に、FRCの実装に直面した場合、DWaveのAdvantage$\_$system4.1 Quantum Annealer (QA) の応答を特徴付け、提示されたメソッドとそれらが使用する状況の要約ガイドを提供する。

In usual restriction terms of the Quadratic Unconstrained Binary Optimization (QUBO) hamiltonians, a integer number of logical qubits R, called the Integer Restriction Coefficient (IRC), are forced to stay active. In this paper we gather the well-known methods of implementing these restrictions, as well as some novel methods that show to be more efficient in some frequently implemented cases. Moreover, it is mathematically allowed to ask for fractional values of $R$. For these Fractionary Restriction Coefficients (FRC) we show how they can reduce the number of qubits needed to implement the restriction hamiltonian even further. Lastly, we characterize the response of DWave's Advantage$\_$system4.1 Quantum Annealer (QA) when faced with the implementation of FRCs, and offer a summary guide of the presented methods and the situations each of them is to be used.
翻訳日:2023-06-13 15:28:45 公開日:2023-06-12
# BEA 2023 教育対話におけるAI教師の反応生成タスクの共有化

The BEA 2023 Shared Task on Generating AI Teacher Responses in Educational Dialogues ( http://arxiv.org/abs/2306.06941v1 )

ライセンス: Link先を確認
Ana\"is Tack, Ekaterina Kochmar, Zheng Yuan, Serge Bibauw, Chris Piech(参考訳) 本稿では,教育対話における教師応答生成に関する最初の共有課題について述べる。 このタスクの目的は、生成言語モデルがAI教師として機能する能力をベンチマークし、教師と学生の対話で学生に返信することであった。 8チームがコダラボで開催された大会に参加した。 彼らは、Alpaca, Bloom, DialoGPT, DistilGPT-2, Flan-T5, GPT-2, GPT-3, GPT-4, LLaMA, OPT-2.7B, T5-baseなど、さまざまな最先端モデルを試した。 提案項目はBERTScoreとDialogRPTを使って自動的に評価され、上位3項目はTackとPiech(2022年)に基づく教育能力の観点からさらに手作業で評価された。 自動評価と人的評価の両方で第1位にランクインしたNAISTeacher systemは,GPT-3.5による応答を,プロンプトのアンサンブルと対話コンテキストに対するダイアログRPTに基づく応答ランキングを用いて生成した。 参加者の有望な成果にもかかわらず、結果は教育的コンテキストに適した評価メトリクスの必要性も強調している。

This paper describes the results of the first shared task on the generation of teacher responses in educational dialogues. The goal of the task was to benchmark the ability of generative language models to act as AI teachers, replying to a student in a teacher-student dialogue. Eight teams participated in the competition hosted on CodaLab. They experimented with a wide variety of state-of-the-art models, including Alpaca, Bloom, DialoGPT, DistilGPT-2, Flan-T5, GPT-2, GPT-3, GPT- 4, LLaMA, OPT-2.7B, and T5-base. Their submissions were automatically scored using BERTScore and DialogRPT metrics, and the top three among them were further manually evaluated in terms of pedagogical ability based on Tack and Piech (2022). The NAISTeacher system, which ranked first in both automated and human evaluation, generated responses with GPT-3.5 using an ensemble of prompts and a DialogRPT-based ranking of responses for given dialogue contexts. Despite the promising achievements of the participating teams, the results also highlight the need for evaluation metrics better suited to educational contexts.
翻訳日:2023-06-13 15:28:26 公開日:2023-06-12
# 1D畳み込みオートエンコーダを用いた深部ニューラルネットワークによる恒星大気の高精度補間

High-precision interpolation of stellar atmospheres with a deep neural network using a 1D convolutional auto encoder for feature extraction ( http://arxiv.org/abs/2306.06938v1 )

ライセンス: Link先を確認
C. Westendorp Plaza, A. Asensio Ramos, C. Allende Prieto(参考訳) 恒星大気のモデルグリッドが広く利用可能であることを考えると、単純な線形補間を超える正確な手法を用いて中間大気モデルを復元し、データの複雑さを捉える必要がある。 我々の目標は、質量カラム、温度、気体圧、電子密度の成層構造を、大気の特定のパラメータ(金属性、有効温度、表面重力、その他の重要な化学元素の存在量)と組み合わせて、光学的深さで、信頼性が高く、正確で、軽量で、高速に復元する方法を確立することである。 我々は,1次元畳み込みオートエンコーダを用いて,atlas9とmarcsモデルを用いたグリッドの非線形性を抽出する,完全接続型深層ニューラルネットワークを用いた。 私たちがinnterpolと呼ぶこの新しい手法は、従来の機械学習手法とは対照的に、データ関係の非線形性を効果的に考慮し、light gradient boosting method (lightgbm) のように、データセットの削減とよく知られた競合において、その速度に繰り返し使用される。 特徴抽出器として主成分分析を用いるよりも畳み込み自己エンコーダの方が精度が高く, 高速かつ高精度な恒星モデル大気の生成, 収束問題の緩和, 将来の発展のためのフレームワークとして有用であると考えられる。 トレーニングと直接補間のためのコードとデータは、https://github.com/cwestend/innterpolで完全に再現可能であり、フィールドやその他の場所での他の連続1dデータの実用的な出発点となる。

Given the widespread availability of grids of models for stellar atmospheres, it is necessary to recover intermediate atmospheric models by means of accurate techniques that go beyond simple linear interpolation and capture the intricacies of the data. Our goal is to establish a reliable, precise, lightweight, and fast method for recovering stellar model atmospheres, that is to say the stratification of mass column, temperature, gas pressure, and electronic density with optical depth given any combination of the defining atmospheric specific parameters: metallicity, effective temperature, and surface gravity, as well as the abundances of other key chemical elements. We employed a fully connected deep neural network which in turn uses a 1D convolutional auto-encoder to extract the nonlinearities of a grid using the ATLAS9 and MARCS model atmospheres. This new method we call iNNterpol effectively takes into account the nonlinearities in the relationships of the data as opposed to traditional machine-learning methods, such as the light gradient boosting method (LightGBM), that are repeatedly used for their speed in well-known competitions with reduced datasets. We show a higher precision with a convolutional auto-encoder than using principal component analysis as a feature extractor.We believe it constitutes a useful tool for generating fast and precise stellar model atmospheres, mitigating convergence issues, as well as a framework for future developments. The code and data for both training and direct interpolation are available online at https://github.com/cwestend/iNNterpol for full reproducibility and to serve as a practical starting point for other continuous 1D data in the field and elsewhere.
翻訳日:2023-06-13 15:28:03 公開日:2023-06-12
# CARL-G: グラフによるクラスタリング高速化表現学習

CARL-G: Clustering-Accelerated Representation Learning on Graphs ( http://arxiv.org/abs/2306.06936v1 )

ライセンス: Link先を確認
William Shiao, Uday Singh Saini, Yozen Liu, Tong Zhao, Neil Shah, Evangelos E. Papalexakis(参考訳) グラフ上での自己教師あり学習は、様々な下流タスクで大きなパフォーマンスを達成する上で大きな進歩を遂げた。 しかし、最先端の手法の多くは障害を抱えており、その可能性を最大限に発揮できない。 例えば、対照的な方法は一般的に負のサンプリングを必要とし、しばしば計算コストがかかる。 非矛盾的メソッドはこの高価なステップを避けるが、既存のメソッドの多くは複雑なアーキテクチャやデータセット固有の拡張に依存している。 本稿では、これらの障害を克服するために、古典的な教師なし機械学習文献から借用できるだろうか? 距離ベースのクラスタリングのゴールは、類似したアイテムの表現をまとめ、異なるアイテムを分割するという、対照的な学習の目標とよく似ている、という私たちの重要な洞察に導かれています。 その結果、carl-gは、クラスタ検証インデックス(cvis)に触発された損失、すなわちクラスタ品質の内部測定(基礎的真理は不要)を利用した、グラフ表現学習のための新しいクラスタリングベースのフレームワークである。 CARL-Gはクラスタリング法やCVIに適応し,クラスタリング法とCVIの適切な選択により,CARL-Gは4/5データセットのノード分類ベースラインを最大79倍のトレーニングスピードアップで上回ることを示す。 CARL-Gは、ノードクラスタリングや類似検索タスクのベースラインと同等以上のパフォーマンスを示し、最高のパフォーマンスのベースラインよりも最大1500倍高速にトレーニングする。 最後に,CVIによるグラフ表現学習における損失の理論的基礎も提供する。

Self-supervised learning on graphs has made large strides in achieving great performance in various downstream tasks. However, many state-of-the-art methods suffer from a number of impediments, which prevent them from realizing their full potential. For instance, contrastive methods typically require negative sampling, which is often computationally costly. While non-contrastive methods avoid this expensive step, most existing methods either rely on overly complex architectures or dataset-specific augmentations. In this paper, we ask: Can we borrow from classical unsupervised machine learning literature in order to overcome those obstacles? Guided by our key insight that the goal of distance-based clustering closely resembles that of contrastive learning: both attempt to pull representations of similar items together and dissimilar items apart. As a result, we propose CARL-G - a novel clustering-based framework for graph representation learning that uses a loss inspired by Cluster Validation Indices (CVIs), i.e., internal measures of cluster quality (no ground truth required). CARL-G is adaptable to different clustering methods and CVIs, and we show that with the right choice of clustering method and CVI, CARL-G outperforms node classification baselines on 4/5 datasets with up to a 79x training speedup compared to the best-performing baseline. CARL-G also performs at par or better than baselines in node clustering and similarity search tasks, training up to 1,500x faster than the best-performing baseline. Finally, we also provide theoretical foundations for the use of CVI-inspired losses in graph representation learning.
翻訳日:2023-06-13 15:27:32 公開日:2023-06-12
# LIVABLE: ソフトウェア脆弱性型の長期分類を探る

LIVABLE: Exploring Long-Tailed Classification of Software Vulnerability Types ( http://arxiv.org/abs/2306.06935v1 )

ライセンス: Link先を確認
Xin-Cheng Wen, Cuiyun Gao, Feng Luo, Haoyu Wang, Ge Li, and Qing Liao(参考訳) 従来の研究では、ソフトウェア脆弱性の検出に重点を置いており、タスクに対するグラフニューラルネットワーク(GNN)ベースのアプローチの有効性を実証している。 ソフトウェア脆弱性のさまざまなタイプと関連する重大度を考慮すれば、開発者毎に脆弱性のあるコードのタイプを決定することも有益です。 本稿では,少数のクラスが大量のサンプル(例:ヘッドクラス)を持つが,他のクラスは少数のサンプル(例:テールクラス)しか含まないという,脆弱性型の分布が実際に長い尾を持つことを観察する。 従来の脆弱性検出アプローチを採用すると、主に2つの理由から検出性能が低下する傾向にある。 まず,GNNの過度な問題により,脆弱性表現を効果的に学習することは困難である。 第2に,テールの脆弱性タイプを極めて少ないサンプルで予測することは困難であり,これらの問題を緩和するため,livableと呼ばれる,ロングテールのソフトウェア脆弱性タイプ分類手法を提案する。 LIVABLEは主に、(1)脆弱性表現学習モジュールを含む2つのモジュールで構成される。 また、sequence-to-sequenceモデルによって脆弱性の表現が強化される。 2)新しいトレーニング損失により学習期間と関連するサンプル数に応じて異なるタイプの学習重み付けを調整する適応的再重み付けモジュール。

Prior studies generally focus on software vulnerability detection and have demonstrated the effectiveness of Graph Neural Network (GNN)-based approaches for the task. Considering the various types of software vulnerabilities and the associated different degrees of severity, it is also beneficial to determine the type of each vulnerable code for developers. In this paper, we observe that the distribution of vulnerability type is long-tailed in practice, where a small portion of classes have massive samples (i.e., head classes) but the others contain only a few samples (i.e., tail classes). Directly adopting previous vulnerability detection approaches tends to result in poor detection performance, mainly due to two reasons. First, it is difficult to effectively learn the vulnerability representation due to the over-smoothing issue of GNNs. Second, vulnerability types in tails are hard to be predicted due to the extremely few associated samples.To alleviate these issues, we propose a Long-taIled software VulnerABiLity typE classification approach, called LIVABLE. LIVABLE mainly consists of two modules, including (1) vulnerability representation learning module, which improves the propagation steps in GNN to distinguish node representations by a differentiated propagation method. A sequence-to-sequence model is also involved to enhance the vulnerability representations. (2) adaptive re-weighting module, which adjusts the learning weights for different types according to the training epochs and numbers of associated samples by a novel training loss.
翻訳日:2023-06-13 15:27:06 公開日:2023-06-12
# MaxcutのためのQAOAにおけるより効率的なパラメータ初期化戦略

More efficient parameter initialization strategy in QAOA for Maxcut ( http://arxiv.org/abs/2306.06986v1 )

ライセンス: Link先を確認
Xiao-Hui Ni, Bin-Bin Cai, Hai-Ling Liu, Su-Juan Qin, Fei Gao and Qiao-Yan Wen(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、組合せ最適化問題の解法として広く用いられているハイブリッド量子古典アルゴリズムである。 qaoaの1つの大きなボトルネックは、量子回路の最適パラメータを見つけることである。 補間戦略 (INTERP) は、MaxcutのQAOAにおけるパラメータ初期化戦略である。 interp はレベル $i$ で最適化されたパラメータに対する線形補間を行い、$i=1,2,...,p$ と $p$ は回路深度である。 interpはランダム初期化と比較して準最適解を見つける時間を大幅に削減する。 また,Multi-interpolation を用いた InterP+ 戦略を提案する。 InterPと比較すると、InterP+は最適化のラウンドの少なくとも半分を削減している。 シミュレーションの結果,InterP+はInterPと比較して約2/3のランニング時間を節約し,準最適解が得られることがわかった。 さらに、マルチスタートとセレクションを導入することで、Multi-INTERP+を提案する。 シミュレーションの結果, Multi-INTERP+ は InterP と同じ準最適解を得るだけでなく, InterP や InterP+ よりも高い平均性能が得られることがわかった。

The Quantum Approximate Optimization Algorithm (QAOA) is a prospective hybrid quantum-classical algorithm, which is widely used to solve combinatorial optimization problems. One major bottleneck of QAOA lies in finding optimal parameters of the quantum circuit, which motivates one to search for heuristic parameter initialization strategies. Interpolation strategy (INTERP) is a parameter initialization strategy in QAOA for Maxcut. INTERP produces an initial guess of the parameters for level $i+1$ by executing linear interpolation to the optimized parameters at level $i$, where $i=1,2,...,p$ and $p$ is the circuit depth. INTERP greatly reduces the time to find quasi-optimal solutions compared with random initialization. Also for Maxcut, we first propose INTERP+ strategy using multi-interpolation. Compared with INTERP, INTERP+ cuts down at least half the number of rounds of optimization. The simulation results demonstrate that INTERP+ saves about 2/3 of running time compared with INTERP and can obtain the same quasi-optimal solutions as INTERP. In addition, we present Multi-INTERP+ by introducing multi-start and selection. Numerous simulation results demonstrate that Multi-INTERP+ can not only get the same quasi-optimal solutions as INTERP but also get higher average performance than INTERP and INTERP+.
翻訳日:2023-06-13 15:21:24 公開日:2023-06-12
# 部分アノテート超音波画像を用いた乳癌の弱い教師あり病変の検出と診断

Weakly Supervised Lesion Detection and Diagnosis for Breast Cancers with Partially Annotated Ultrasound Images ( http://arxiv.org/abs/2306.06982v1 )

ライセンス: Link先を確認
Jian Wang, Liang Qiao, Shichong Zhou, Jin Zhou, Jun Wang, Juncheng Li, Shihui Ying, Cai Chang, and Jun Shi(参考訳) 深層学習(DL)は乳がんの超音波によるコンピュータ支援診断(CAD)に有効であることが証明されている。 自動CADシステムでは下記の診断に病変検出が重要である。 しかし、既存のDLベースの手法では、通常、病変検出と診断モデルの両方をトレーニングするために、手動による関心領域(ROI)ラベルとクラスラベルが必要である。 臨床実践において、ROIラベル、すなわち基礎的真実は、ソノロジーの個人経験による分類作業に最適であるとは限らないため、CADモデルの診断性能を制限する粗いアノテーションが問題となる。 この課題に対処するために,乳がん用超音波CADの診断精度を高めるために,弱教師付き学習に基づく新しい2段階検出診断ネットワーク(TSDDNet)を提案する。 特に、roiレベルラベルは、第1訓練段階では粗いラベルと見なされ、その後、完全および部分的に注釈されたサンプルの両方の最適レシオン領域を特定するために候補選択機構が設計されている。 完全に注釈付けされた画像中の現在のROIレベルラベルと検出されたROIを、クラスラベルのガイダンスの下で弱教師付きで改善する。 第2の訓練段階では, 検出ネットワークと分類ネットワークを統合フレームワークに統合し, 統合最適化のための最終cadモデルとして自己蒸留戦略がさらに提案され, 診断性能がさらに向上する。 提案するTSDDNetはBモード超音波データセットを用いて評価し,その実験結果から病変検出と診断の両タスクにおいて最高の性能を示し,将来的な応用の可能性を示す。

Deep learning (DL) has proven highly effective for ultrasound-based computer-aided diagnosis (CAD) of breast cancers. In an automaticCAD system, lesion detection is critical for the following diagnosis. However, existing DL-based methods generally require voluminous manually-annotated region of interest (ROI) labels and class labels to train both the lesion detection and diagnosis models. In clinical practice, the ROI labels, i.e. ground truths, may not always be optimal for the classification task due to individual experience of sonologists, resulting in the issue of coarse annotation that limits the diagnosis performance of a CAD model. To address this issue, a novel Two-Stage Detection and Diagnosis Network (TSDDNet) is proposed based on weakly supervised learning to enhance diagnostic accuracy of the ultrasound-based CAD for breast cancers. In particular, all the ROI-level labels are considered as coarse labels in the first training stage, and then a candidate selection mechanism is designed to identify optimallesion areas for both the fully and partially annotated samples. It refines the current ROI-level labels in the fully annotated images and the detected ROIs in the partially annotated samples with a weakly supervised manner under the guidance of class labels. In the second training stage, a self-distillation strategy further is further proposed to integrate the detection network and classification network into a unified framework as the final CAD model for joint optimization, which then further improves the diagnosis performance. The proposed TSDDNet is evaluated on a B-mode ultrasound dataset, and the experimental results show that it achieves the best performance on both lesion detection and diagnosis tasks, suggesting promising application potential.
翻訳日:2023-06-13 15:21:01 公開日:2023-06-12
# 感情変化予測とモッド推論の改善に対する弱修正アプローチ

A Weakly Supervised Approach to Emotion-change Prediction and Improved Mood Inference ( http://arxiv.org/abs/2306.06979v1 )

ライセンス: Link先を確認
Soujanya Narayana, Ibrahim Radwan, Ravikiran Parameshwara, Iman Abbasnejad, Akshay Asthana, Ramanathan Subramanian, Roland Goecke(参考訳) 感情コンピューティング研究の大多数は感情の推測、気分の検査、あるいは「textit{mood-emotion interplay"」の理解に重点を置いている。 先行作業で構築する、私たちは (a)注釈付きラベルを使わずに、気分を推測するための感情変化情報(\delta$)を推測し、組み込む b) 長時間ビデオクリップの気分予測は, 気分の性格化に合わせて試みる。 我々は、トレーニング済みのシームズネットワークからメトリクス学習を通じて感情変化(\Delta$)ラベルを生成し、ムード分類のためのムードラベルに加えてこれらを使用する。 textit{unimodal} (ムードラベルのみを使用するトレーニング) と \textit{multimodal} (ムード+$\delta$ラベルを使用するトレーニング) モデルを評価する実験では、ムード予測が感情変化情報の導入によって恩恵をもたらすことを示し、効果的なムード推論のためのムード-感情相互作用のモデル化の重要性を強調した。

Whilst a majority of affective computing research focuses on inferring emotions, examining mood or understanding the \textit{mood-emotion interplay} has received significantly less attention. Building on prior work, we (a) deduce and incorporate emotion-change ($\Delta$) information for inferring mood, without resorting to annotated labels, and (b) attempt mood prediction for long duration video clips, in alignment with the characterisation of mood. We generate the emotion-change ($\Delta$) labels via metric learning from a pre-trained Siamese Network, and use these in addition to mood labels for mood classification. Experiments evaluating \textit{unimodal} (training only using mood labels) vs \textit{multimodal} (training using mood plus $\Delta$ labels) models show that mood prediction benefits from the incorporation of emotion-change information, emphasising the importance of modelling the mood-emotion interplay for effective mood inference.
翻訳日:2023-06-13 15:20:32 公開日:2023-06-12
# クラスタリングのための計算理論と半教師ありアルゴリズム

A Computational Theory and Semi-Supervised Algorithm for Clustering ( http://arxiv.org/abs/2306.06974v1 )

ライセンス: Link先を確認
Nassir Mohammad(参考訳) クラスタリングのための計算理論と半教師ありクラスタリングアルゴリズムを提案する。 クラスタリングは、各グループが選択されたグループ化原則と測度に関して異常を含まないようなデータのグループ化の獲得であると定義されており、他のすべての例は、フリンジポイント、孤立した異常、異常クラスタ、未知クラスタであると考えられている。 より正確には、一様ランダム分布の仮定の下で適切なモデリングを行った後、群に関して発生の予想が <1 である任意の例は異常と見なされ、そうでなければその群のメンバーシップが割り当てられる。 したがって、クラスタリングは異常検出の二重性として考え出される。 データの表現は、点とクラスタ中央値とのユークリッド距離として取られる。 これは、中央値から外れ値のロバスト性、その近似的な中心位置、そして決定境界が汎用的な目的であるからである。 クラスタリング手法のカーネルはモハマドの異常検出アルゴリズムであり、パラメータフリーで高速で効率的なクラスタリングアルゴリズムをもたらす。 クラスタリングはインタラクティブで反復的なプロセスであることを認め、アルゴリズムはサンプル間の既知の関係のごく一部に依存している。 これらの関係は、ユーザの目的を定義し、クラスタリングプロセスをガイドするための種となる。 その後、アルゴリズムはクラスタを拡張し、残りの例を探索とその後の反復に残した。 結果は合成および実世界のデータセットで示され、最も広く使われているクラスタリング法に対する利点を示す。

A computational theory for clustering and a semi-supervised clustering algorithm is presented. Clustering is defined to be the obtainment of groupings of data such that each group contains no anomalies with respect to a chosen grouping principle and measure; all other examples are considered to be fringe points, isolated anomalies, anomalous clusters or unknown clusters. More precisely, after appropriate modelling under the assumption of uniform random distribution, any example whose expectation of occurrence is <1 with respect to a group is considered an anomaly; otherwise it is assigned a membership of that group. Thus, clustering is conceived as the dual of anomaly detection. The representation of data is taken to be the Euclidean distance of a point to a cluster median. This is due to the robustness properties of the median to outliers, its approximate location of centrality and so that decision boundaries are general purpose. The kernel of the clustering method is Mohammad's anomaly detection algorithm, resulting in a parameter-free, fast, and efficient clustering algorithm. Acknowledging that clustering is an interactive and iterative process, the algorithm relies on a small fraction of known relationships between examples. These relationships serve as seeds to define the user's objectives and guide the clustering process. The algorithm then expands the clusters accordingly, leaving the remaining examples for exploration and subsequent iterations. Results are presented on synthetic and realworld data sets, demonstrating the advantages over the most widely used clustering methods.
翻訳日:2023-06-13 15:20:11 公開日:2023-06-12
# 低温SiV中心の発光によるダイヤモンドの局所レーザー加熱効果

Local laser heating effects in diamond probed by photoluminescence of SiV centers at low temperature ( http://arxiv.org/abs/2306.06972v1 )

ライセンス: Link先を確認
YuanFei Gao, JiaMin Lai, ZhenYao Li, PingHeng Tan, ChongXin Shan, and Jun Zhang(参考訳) ダイヤモンドは一般的に高い熱伝導率を持つと考えられているため、低い励起力でレーザー加熱効果にはほとんど注意が払われていない。 しかし、成長過程における欠陥は、特に低温において熱伝導率を著しく低下させる可能性がある。 ここでは, ダイヤモンド中のシリコン空孔(SiV)中心におけるゼロフォノンライン(ZPL)の動的赤方偏移と拡張を観察した。 また,SiVの微細構造スペクトルの固有温度応答をプローブとして,レーザー加熱効果が出現し,高欠陥濃度による温度上昇が生じることを確認した。 熱拡散過程をシミュレートすることにより, 局所的に約1W/(mK)の熱伝導率を推定した。 その結果, ダイヤモンドの低温におけるレーザー加熱効果を特徴付けることが可能な方法が得られた。

Diamond is generally considered to have high thermal conductivity, so little attention has been paid to the laser heating effects at low excitation power. However, defects during the growth process can result in a great degradation of thermal conductivity, especially at low temperatures. Here, we observed the dynamic redshift and broadening of zero phonon line (ZPL) of silicon-vacancy (SiV) centers in diamondin the experiment. Utilizing the intrinsic temperature response of the fine structure spectra of SiV as a probe, we confirmed that the laser heating effect appears and the temperature rising results from high defect concentration. By simulating the thermal diffusion process, we have estimated the thermal conductivity of around 1 W/(mK) at the local site, which is a two order magnitude lower than that of single-crystal diamond. Our results provide a feasible scheme for characterizing the laser heating effect of diamond at low temperatures.
翻訳日:2023-06-13 15:19:48 公開日:2023-06-12
# ロボットビジョンシステムのための特徴量制約空間を用いた視点生成

Viewpoint Generation using Feature-Based Constrained Spaces for Robot Vision Systems ( http://arxiv.org/abs/2306.06969v1 )

ライセンス: Link先を確認
Alejandro Maga\~na, Jonas Dirr, Philipp Bauer, Gunther Reinhart(参考訳) 様々なシステムやプロセスの制約を考慮した視点の効率的な計算は、視覚タスクを実行しようとするロボットビジョンシステムが直面する共通の課題である。 基本的な研究はこの問題に取り組むための堅実かつ健全な解決策を提供してきたが、その形式的記述を定め、ロボットビジョンシステムの多様性を考慮し、統合ソリューションを提供する包括的枠組みは、未解決のままである。 したがって、この出版物は幾何学的問題としての視点の生成を概説し、それを解決するバックボーンとして特徴ベース制約空間("\mathcal{C}$-spaces")に基づく一般化された理論的枠組みを導入する。 $\mathcal{c}$-空間は視点制約が広がる位相空間として理解でき、そこでは、考慮された制約を満たしながら特徴を取得するためにセンサを配置することができる。 本研究は、幾何学的、決定論的、閉な解を提供するような多くの視点制約を$\mathcal{c}$-空間として効率的に定式化できることを実証する。 導入された$\mathcal{C}$-spacesは、汎用ドメインと視点制約モデルに基づいて特徴づけられ、現在のフレームワークを異なるアプリケーションやロボットビジョンシステムに転送しやすくする。 提案する概念の有効性と効率をシミュレーションに基づくシナリオで検証し、2つの異なるセンサーからなる実ロボットビジョンシステム上で検証する。

The efficient computation of viewpoints under consideration of various system and process constraints is a common challenge that any robot vision system is confronted with when trying to execute a vision task. Although fundamental research has provided solid and sound solutions for tackling this problem, a holistic framework that poses its formal description, considers the heterogeneity of robot vision systems, and offers an integrated solution remains unaddressed. Hence, this publication outlines the generation of viewpoints as a geometrical problem and introduces a generalized theoretical framework based on Feature-Based Constrained Spaces ($\mathcal{C}$-spaces) as the backbone for solving it. A $\mathcal{C}$-space can be understood as the topological space that a viewpoint constraint spans, where the sensor can be positioned for acquiring a feature while fulfilling the regarded constraint. The present study demonstrates that many viewpoint constraints can be efficiently formulated as $\mathcal{C}$-spaces providing geometric, deterministic, and closed solutions. The introduced $\mathcal{C}$-spaces are characterized based on generic domain and viewpoint constraints models to ease the transferability of the present framework to different applications and robot vision systems. The effectiveness and efficiency of the concepts introduced are verified on a simulation-based scenario and validated on a real robot vision system comprising two different sensors.
翻訳日:2023-06-13 15:19:33 公開日:2023-06-12
# 後方方向マッチングは可能か?

Can Forward Gradient Match Backpropagation? ( http://arxiv.org/abs/2306.06968v1 )

ライセンス: Link先を確認
Louis Fournier (MLIA), St\'ephane Rivaud (MLIA), Eugene Belilovsky (MILA), Michael Eickenberg, Edouard Oyallon (MLIA)(参考訳) フォワードグラディエント(Forward Gradients) — 前方微分モードで指向性デリバティブを使用するというアイデアは、最近、ニューラルネットワークトレーニングに利用でき、ロックや記憶要求といったバックプロパゲーション勾配計算に一般的に関連する問題を回避することが示されている。 コストはステップの方向を推測する必要性であり、高次元では難しい。 現在の解は等方的推定ベクトル分布よりも重み付き平均に依存するが、小さな局所補助ネットワークから得られるフィードバックなど、より有望な方向の勾配推定を強く偏り付けることを提案する。 標準的なコンピュータビジョンニューラルネットワークでは,従来文献で紹介されていたような,勾配目標と勾配推定の組み合わせを体系的に網羅した厳密な研究を行う。 前向き勾配法では,局所損失から得られた勾配を候補方向として,ランダムノイズを大幅に改善することがわかった。

Forward Gradients - the idea of using directional derivatives in forward differentiation mode - have recently been shown to be utilizable for neural network training while avoiding problems generally associated with backpropagation gradient computation, such as locking and memorization requirements. The cost is the requirement to guess the step direction, which is hard in high dimensions. While current solutions rely on weighted averages over isotropic guess vector distributions, we propose to strongly bias our gradient guesses in directions that are much more promising, such as feedback obtained from small, local auxiliary networks. For a standard computer vision neural network, we conduct a rigorous study systematically covering a variety of combinations of gradient targets and gradient guesses, including those previously presented in the literature. We find that using gradients obtained from a local loss as a candidate direction drastically improves on random noise in Forward Gradient methods.
翻訳日:2023-06-13 15:19:07 公開日:2023-06-12
# 非エルミート系の例外分類

Exceptional Classifications of Non-Hermitian Systems ( http://arxiv.org/abs/2306.06967v1 )

ライセンス: Link先を確認
Jung-Wan Ryu, Jae-Ho Han, Chang-Hwan Yi, Moon Jip Park, and Hee Chul Park(参考訳) 非エルミート系における固有状態合体は、光学系と開量子系を包含する様々な科学領域で広く観測されている。 近年の研究では、異常点(EP)の断熱的囲みが、固有状態の交換に加えて非自明なベリー相をもたらすことが明らかになっている。 これらの現象に基づき,本研究では非エルミート物理系におけるepsの排他的分類枠組みを提案する。 固有状態交換効果のみを包含する以前の分類とは対照的に、提案した分類はEPを包含した後の$\pi$Berry相の存在に依存してより細かい$\mathbb{Z}_2$分類をもたらす。 さらに、任意の一次元系をEPの断熱包絡にマッピングすることにより、EPを含む位相相転移によって特徴づけられる一次元非エルミート系を分類することができる。 互いに相反するSu-Schrieffer-Heeger(SSH)モデルなど,様々な一次元モデルに例外的分類を適用することで,非エルミート系における位相位相の理解を深める可能性を示す。 さらに,例外的なバルク境界対応と非エルミート系における特異な位相境界モードの出現について述べる。

Eigenstate coalescence in non-Hermitian systems is widely observed in diverse scientific domains encompassing optics and open quantum systems. Recent investigations have revealed that adiabatic encircling of exceptional points (EPs) leads to a nontrivial Berry phase in addition to an exchange of eigenstates. Based on these phenomena, we propose in this work an exhaustive classification framework for EPs in non-Hermitian physical systems. In contrast to previous classifications that only incorporate the eigenstate exchange effect, our proposed classification gives rise to finer $\mathbb{Z}_2$ classifications depending on the presence of a $\pi$ Berry phase after the encircling of the EPs. Moreover, by mapping arbitrary one-dimensional systems to the adiabatic encircling of EPs, we can classify one-dimensional non-Hermitian systems characterized by topological phase transitions involving EPs. Applying our exceptional classification to various one-dimensional models, such as the non-reciprocal Su--Schrieffer--Heeger (SSH) model, we exhibit the potential for enhancing the understanding of topological phases in non-Hermitian systems. Additionally, we address exceptional bulk-boundary correspondence and the emergence of distinct topological boundary modes in non-Hermitian systems.
翻訳日:2023-06-13 15:18:49 公開日:2023-06-12
# nf4は理論上最適な情報ではありません

NF4 Isn't Information Theoretically Optimal (and that's Good) ( http://arxiv.org/abs/2306.06965v1 )

ライセンス: Link先を確認
Davis Yoshida(参考訳) このノートは、dettmers et al., 2023で使われているabsmaxベースのブロックワイズ量子化に関するいくつかの単純な計算と実験を共有している。 提案したNF4データ型は、通常分布する重みを表すのに理論的に最適であると言われている。 量子化すべき値の分布はブロックサイズに依存するので、これはまったくそうではないことを私は示しています。 私はこれらの洞察を応用して、Quantileベースの手法ではなく、期待されるL1再構成エラーを最小限に抑え、改善されたコードを導き出そうとします。 これにより、より大きな量子化ブロックサイズのパフォーマンスが向上し、どちらのコードもより小さなブロックサイズで同じように動作する。

This note shares some simple calculations and experiments related to absmax-based blockwise quantization, as used in Dettmers et al., 2023. Their proposed NF4 data type is said to be information theoretically optimal for representing normally distributed weights. I show that this is can't quite be the case, as the distribution of the values to be quantized depends on the block-size. I attempt to apply these insights to derive an improved code based on minimizing the expected L1 reconstruction error, rather than the quantile based method. This leads to improved performance for larger quantization block sizes, while both codes perform similarly at smaller block sizes.
翻訳日:2023-06-13 15:18:30 公開日:2023-06-12
# 頭部から爪への特徴融合 : 長期視覚認識のための極端増強戦略

Feature Fusion from Head to Tail: an Extreme Augmenting Strategy for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2306.06963v1 )

ライセンス: Link先を確認
Mengke Li, Zhikai Hu, Yang Lu, Weichao Lan, Yiu-ming Cheung, Hui Huang(参考訳) ロングテールデータの不均衡分布は、モデルがヘッドクラスを他のクラスよりも正しく分類する傾向があり、テールクラスでのパフォーマンスが低くなるため、ディープニューラルネットワークにとって課題となる。 テールクラスのセマンティクスの欠如は、認識精度の低下に寄与する重要な要因の1つである。 この問題を正すために,head-to-tail fusion (h2t) と呼ばれるヘッドクラスから様々な意味情報を借用することにより,末尾クラスを強化することを提案する。 テールクラスのフィーチャーマップの一部を、ヘッドクラスのマップにランダムに置き換えます。 融合特徴マップは、それらに関連するヘッドクラスの特徴を取り入れることで、テールクラスの多様性を効果的に向上させることができる。 提案手法は加法核融合モジュールにより実装が容易であり,性能向上のために既存のロングテール認識法と高い互換性を有する。 様々な長い尾を持つベンチマークに対する大規模な実験は、提案されたH2Tの有効性を示す。 ソースコードはhttps://github.com/keke921/h2tで一時的に入手できる。

The imbalanced distribution of long-tailed data poses a challenge for deep neural networks, as models tend to prioritize correctly classifying head classes over others so that perform poorly on tail classes. The lack of semantics for tail classes is one of the key factors contributing to their low recognition accuracy. To rectify this issue, we propose to augment tail classes by borrowing the diverse semantic information from head classes, referred to as head-to-tail fusion (H2T). We randomly replace a portion of the feature maps of the tail class with those of the head class. The fused feature map can effectively enhance the diversity of tail classes by incorporating features from head classes that are relevant to them. The proposed method is easy to implement due to its additive fusion module, making it highly compatible with existing long-tail recognition methods for further performance boosting. Extensive experiments on various long-tailed benchmarks demonstrate the effectiveness of the proposed H2T. The source code is temporarily available at https://github.com/Keke921/H2T.
翻訳日:2023-06-13 15:18:18 公開日:2023-06-12
# 交通予測のための動的因果グラフ畳み込みネットワーク

Dynamic Causal Graph Convolutional Network for Traffic Prediction ( http://arxiv.org/abs/2306.07019v1 )

ライセンス: Link先を確認
Junpeng Lin, Ziyue Li, Zhishuai Li, Lei Bai, Rui Zhao, Chen Zhang(参考訳) 相関交通系列における複雑な時空間依存性のモデル化は交通予測に不可欠である。 近年の研究では、ニューラルネットワークを用いた時空間相関抽出による予測性能の向上が示されているが、その効果は、トラヒックネットワークの空間トポロジーを表現するのに使用されるグラフ構造の品質に依存する。 本研究では,交通データの微細な時空間トポロジを捉えるために,時間変化の動的ベイズネットワークを組み込んだ交通予測手法を提案する。 次に、グラフ畳み込みネットワークを使用してトラフィック予測を生成します。 非線形トラヒック伝播パターンを効率的にモデル化するために,ハイパーネットワークとしてディープラーニングモジュールを開発し,ステップワイズ動的因果グラフを生成する。 実交通データを用いた実験結果から,提案手法の予測性能が優れていることを示す。

Modeling complex spatiotemporal dependencies in correlated traffic series is essential for traffic prediction. While recent works have shown improved prediction performance by using neural networks to extract spatiotemporal correlations, their effectiveness depends on the quality of the graph structures used to represent the spatial topology of the traffic network. In this work, we propose a novel approach for traffic prediction that embeds time-varying dynamic Bayesian network to capture the fine spatiotemporal topology of traffic data. We then use graph convolutional networks to generate traffic forecasts. To enable our method to efficiently model nonlinear traffic propagation patterns, we develop a deep learning-based module as a hyper-network to generate stepwise dynamic causal graphs. Our experimental results on a real traffic dataset demonstrate the superior prediction performance of the proposed method.
翻訳日:2023-06-13 15:10:37 公開日:2023-06-12
# 制限されたカーネルマシンのプリマル表現とデュアル表現の組み合わせ

Combining Primal and Dual Representations in Deep Restricted Kernel Machines Classifiers ( http://arxiv.org/abs/2306.07015v1 )

ライセンス: Link先を確認
Francesco Tonin, Panagiotis Patrinos, Johan A. K. Suykens(参考訳) ディープネットワークとは対照的に、カーネルメソッドは奥行きを直接利用できない。 この点において、Deep Restricted Kernel Machine (DRKM) フレームワークは、複数のレベルのカーネルPCA (KPCA) とLast-Squares Support Vector Machines (LSSVM) を、可視かつ隠れたユニットを使用したディープアーキテクチャに統合することができる。 そこで本研究では,KPCAの目的と分類レベルを結合したDRKM分類法を提案する。 分類レベルは LSSVM あるいは MLP 特徴マップとして定式化することができ、レベルとレイヤの深さを組み合わせることができる。 分類レベルはその原始的な定式化で表され、深いKPCAレベルはデータの最も情報性の高い成分をより低次元空間に埋め込むことができる。 利用可能なトレーニングポイントが少ないベンチマークデータセットの実験では,LSSVM/MLPよりもディープメソッドが向上し,複数のKPCAレベルのモデルが単一レベルのモデルより優れていることを示す。

In contrast to deep networks, kernel methods cannot directly take advantage of depth. In this regard, the deep Restricted Kernel Machine (DRKM) framework allows multiple levels of kernel PCA (KPCA) and Least-Squares Support Vector Machines (LSSVM) to be combined into a deep architecture using visible and hidden units. We propose a new method for DRKM classification coupling the objectives of KPCA and classification levels, with the hidden feature matrix lying on the Stiefel manifold. The classification level can be formulated as an LSSVM or as an MLP feature map, combining depth in terms of levels and layers. The classification level is expressed in its primal formulation, as the deep KPCA levels can embed the most informative components of the data in a much lower dimensional space. In the experiments on benchmark datasets with few available training points, we show that our deep method improves over the LSSVM/MLP and that models with multiple KPCA levels can outperform models with a single level.
翻訳日:2023-06-13 15:10:25 公開日:2023-06-12
# 身体制御タスク指導のための言語修正の生成

Generating Language Corrections for Teaching Physical Control Tasks ( http://arxiv.org/abs/2306.07012v1 )

ライセンス: Link先を確認
Megha Srivastava, Noah Goodman, Dorsa Sadigh(参考訳) AIアシストは、言語学習からインテリジェントな家庭教師システムまで、教育の先進的応用に引き続き役立っているが、学生のフィードバックを提供するための現在の方法はまだ限られている。 ほとんどの自動フィードバックシステムはバイナリ補正フィードバックを提供しており、生徒が改善方法を理解するのに役立たないかもしれないし、新しいドメインに一般化しないハンドコーディングフィードバックテンプレートを必要とするかもしれない。 これは、学生の振る舞いや専門領域の多様性が豊富なため、フィードバックを提供するための汎用的な補助ツールを活用することが難しくなる、物理的な制御タスクにとって特に困難である。 我々はCORGIを設計、構築する。これは、自転車の乗り方を学ぶなど、物理的な制御タスクの言語修正を訓練したモデルである。 CORGIは、一対の学生と専門家の軌跡を入力として取り込んで、自然言語の修正を生成して、学生が改善するのに役立つ。 我々はCORGIを3つの多様な物理的制御タスク(描画、操舵、関節運動)のデータより収集し、訓練する。 自動評価と人的評価の両方を通じて、CORGIが可能であることを示す。 (i)新規の学生軌道に対して有効なフィードバックを生成する。 (ii)新しい制御ダイナミクスを持つドメインのベースラインを上回っていること。 (iii)インタラクティブな描画タスクで学生の学習を改善する。

AI assistance continues to help advance applications in education, from language learning to intelligent tutoring systems, yet current methods for providing students feedback are still quite limited. Most automatic feedback systems either provide binary correctness feedback, which may not help a student understand how to improve, or require hand-coding feedback templates, which may not generalize to new domains. This can be particularly challenging for physical control tasks, where the rich diversity in student behavior and specialized domains make it challenging to leverage general-purpose assistive tools for providing feedback. We design and build CORGI, a model trained to generate language corrections for physical control tasks, such as learning to ride a bike. CORGI takes in as input a pair of student and expert trajectories, and then generates natural language corrections to help the student improve. We collect and train CORGI over data from three diverse physical control tasks (drawing, steering, and joint movement). Through both automatic and human evaluations, we show that CORGI can (i) generate valid feedback for novel student trajectories, (ii) outperform baselines on domains with novel control dynamics, and (iii) improve student learning in an interactive drawing task.
翻訳日:2023-06-13 15:10:02 公開日:2023-06-12
# 圧縮センシングによる量子位相推定

Quantum Phase Estimation by Compressed Sensing ( http://arxiv.org/abs/2306.07008v1 )

ライセンス: Link先を確認
Changhao Yi, Cunlu Zhou, and Jun Takahashi(参考訳) 信号回復アルゴリズムとして、圧縮センシングは、データが低複雑さでサンプルが稀な場合に特に有用であり、量子位相推定(QPE)のタスクと完全に一致する。 本研究では,圧縮センシングに基づく初期量子コンピュータのためのハイゼンベルク限定QPEアルゴリズムを提案する。 より具体的には、適切な初期状態のコピーといくつかのユニタリ演算子へのクエリが多数ある場合、アルゴリズムは全実行時$\mathcal{o}(\epsilon^{-1}\text{poly}\log(\epsilon^{-1}))$で周波数を回復することができ、ここで$\epsilon$が精度である。 さらに、最大実行時間は、最先端のアルゴリズムに匹敵する$T_{\max}\epsilon \ll \pi$を満足する。 また、より一般的な量子固有値推定問題(QEEP)を考察し、オフグリッド圧縮センシングがQEEPの解決の有力な候補であることを示す。

As a signal recovery algorithm, compressed sensing is particularly useful when the data has low-complexity and samples are rare, which matches perfectly with the task of quantum phase estimation (QPE). In this work we present a new Heisenberg-limited QPE algorithm for early quantum computers based on compressed sensing. More specifically, given many copies of a proper initial state and queries to some unitary operators, our algorithm is able to recover the frequency with a total runtime $\mathcal{O}(\epsilon^{-1}\text{poly}\log(\epsilon^{-1}))$, where $\epsilon$ is the accuracy. Moreover, the maximal runtime satisfies $T_{\max}\epsilon \ll \pi$, which is comparable to the state of art algorithms, and our algorithm is also robust against certain amount of noise from sampling. We also consider the more general quantum eigenvalue estimation problem (QEEP) and show numerically that the off-grid compressed sensing can be a strong candidate for solving the QEEP.
翻訳日:2023-06-13 15:09:44 公開日:2023-06-12
# クロスアテンション強化デュアルストリームネットワークを用いたai画像検出

AI-Generated Image Detection using a Cross-Attention Enhanced Dual-Stream Network ( http://arxiv.org/abs/2306.07005v1 )

ライセンス: Link先を確認
Ziyi Xi, Wenmin Huang, Kangkang Wei, Weiqi Luo and Peijia Zheng(参考訳) AIGC(AI Generated Content)の急速な進化により、この技術によって生成された偽造画像は本質的には騙されやすく、従来のコンピュータ生成グラフィクス(CG)に比べて人間の介入が少なくなる。 しかし、CGとAIGCの相違により、従来のCG検出法はAIGC生成画像の同定に不十分な傾向にある。 本研究は,AIGCにおけるテキスト・画像生成プロセスに焦点をあてる。 まず、DALLE2とDreamStudioという2つの異なるAIシステムを利用した2つのテキスト画像データベースを最初に組み立てる。 aigcが生み出す固有の異常を確率的に捉えることを目的として,残留ストリームとコンテンツストリームからなる頑健なデュアルストリームネットワークを開発した。 前者は空間リッチモデル(SRM)を用いて画像から様々なテクスチャ情報を巧みに抽出し、後者は低周波で追加の鍛造された痕跡を捕捉し、残留ストリームが見落としてしまうような補完的な情報を抽出する。 これら2つのストリーム間の情報交換を強化するために,クロスマルチヘッドアテンション機構を導入する。 両データベースに比較実験を多数実施し,提案手法は画像解像度の範囲で従来型のCG検出技術より一貫して優れていることを示す。 さらに,本手法はロバスト性テストとデータベース間実験により,優れた性能を示す。 SPL2018やDsTokといった従来のCGベンチマークに適用した場合,本手法はCG検出分野における既存手法の能力をはるかに上回っている。

With the rapid evolution of AI Generated Content (AIGC), forged images produced through this technology are inherently more deceptive and require less human intervention compared to traditional Computer-generated Graphics (CG). However, owing to the disparities between CG and AIGC, conventional CG detection methods tend to be inadequate in identifying AIGC-produced images. To address this issue, our research concentrates on the text-to-image generation process in AIGC. Initially, we first assemble two text-to-image databases utilizing two distinct AI systems, DALLE2 and DreamStudio. Aiming to holistically capture the inherent anomalies produced by AIGC, we develope a robust dual-stream network comprised of a residual stream and a content stream. The former employs the Spatial Rich Model (SRM) to meticulously extract various texture information from images, while the latter seeks to capture additional forged traces in low frequency, thereby extracting complementary information that the residual stream may overlook. To enhance the information exchange between these two streams, we incorporate a cross multi-head attention mechanism. Numerous comparative experiments are performed on both databases, and the results show that our detection method consistently outperforms traditional CG detection techniques across a range of image resolutions. Moreover, our method exhibits superior performance through a series of robustness tests and cross-database experiments. When applied to widely recognized traditional CG benchmarks such as SPL2018 and DsTok, our approach significantly exceeds the capabilities of other existing methods in the field of CG detection.
翻訳日:2023-06-13 15:09:23 公開日:2023-06-12
# 制約マルコフ決定過程におけるラグランジアンアプローチのためのキャンセラフリーレグレト境界

Cancellation-Free Regret Bounds for Lagrangian Approaches in Constrained Markov Decision Processes ( http://arxiv.org/abs/2306.07001v1 )

ライセンス: Link先を確認
Adrian M\"uller, Pragnya Alatur, Giorgia Ramponi, Niao He(参考訳) 制約付きマルコフ決定過程(CMDP)は、安全な強化学習問題をモデル化する一般的な方法の1つであり、安全目的は制約関数によってモデル化される。 ラグランジアンベースの双対あるいは原始双対アルゴリズムはCMDPで学習するための効率的な方法を提供する。 これらのアルゴリズムについて、有限ホリゾン設定における現在知られている後悔の限界は、あるエピソードにおける制約違反を補い、別のエピソードでは厳密な制約満足度で補うことができる。 しかし,実際の応用においては,このような挙動を安全とは考えていない。 本稿では,この弱点を,表層有限水平CMDPに対するモデルベース二元アルゴリズム \textsc{OptAug-CMDP} の提案により克服する。 本アルゴリズムは拡張ラグランジアン法に動機付けられ,効率的に実行可能である。 CMDPを探索する際の$K$のエピソードにおいて、このアルゴリズムは目的と制約違反の両方に対して$\tilde{O}(\sqrt{K})$の後悔を得る。 既存のラグランジアンアプローチとは異なり、本アルゴリズムは誤りをキャンセルすることなくこの後悔を達成する。

Constrained Markov Decision Processes (CMDPs) are one of the common ways to model safe reinforcement learning problems, where the safety objectives are modeled by constraint functions. Lagrangian-based dual or primal-dual algorithms provide efficient methods for learning in CMDPs. For these algorithms, the currently known regret bounds in the finite-horizon setting allow for a \textit{cancellation of errors}; that is, one can compensate for a constraint violation in one episode with a strict constraint satisfaction in another episode. However, in practical applications, we do not consider such a behavior safe. In this paper, we overcome this weakness by proposing a novel model-based dual algorithm \textsc{OptAug-CMDP} for tabular finite-horizon CMDPs. Our algorithm is motivated by the augmented Lagrangian method and can be performed efficiently. We show that during $K$ episodes of exploring the CMDP, our algorithm obtains a regret of $\tilde{O}(\sqrt{K})$ for both the objective and the constraint violation. Unlike existing Lagrangian approaches, our algorithm achieves this regret without the need for the cancellation of errors.
翻訳日:2023-06-13 15:08:57 公開日:2023-06-12
# Slot-VAE:スロット注意によるオブジェクト中心のシーン生成

Slot-VAE: Object-Centric Scene Generation with Slot Attention ( http://arxiv.org/abs/2306.06997v1 )

ライセンス: Link先を確認
Yanbo Wang, Letao Liu, Justin Dauwels(参考訳) スロット注意は、コンピュータビジョンタスクにおいて、監督を必要とせずに、目覚ましいオブジェクト中心表現学習性能を示す。 合成モデリングによって引き起こされたオブジェクト中心の結合能力にもかかわらず、スロットアテンションは新規シーンを生成する能力に欠ける。 本稿では,オブジェクト中心のシーン生成のための階層型VAEフレームワークとスロットアテンションを統合した生成モデルであるSlot-VAEを提案する。 各画像に対して、モデルは、高レベルなシーン構造とオブジェクト中心のスロット表現を同時に推定し、個々のオブジェクトコンポーネントを埋め込む。 生成中、スロット表現がグローバルシーン表現から生成され、コヒーレントなシーン構造が保証される。 Slot-VAEによるシーン生成能力の評価は,サンプル品質とシーン構造精度において,スロット表現に基づく生成ベースラインよりも優れていることを示す。

Slot attention has shown remarkable object-centric representation learning performance in computer vision tasks without requiring any supervision. Despite its object-centric binding ability brought by compositional modelling, as a deterministic module, slot attention lacks the ability to generate novel scenes. In this paper, we propose the Slot-VAE, a generative model that integrates slot attention with the hierarchical VAE framework for object-centric structured scene generation. For each image, the model simultaneously infers a global scene representation to capture high-level scene structure and object-centric slot representations to embed individual object components. During generation, slot representations are generated from the global scene representation to ensure coherent scene structures. Our extensive evaluation of the scene generation ability indicates that Slot-VAE outperforms slot representation-based generative baselines in terms of sample quality and scene structure accuracy.
翻訳日:2023-06-13 15:08:35 公開日:2023-06-12
# 凸リラクゼーションを伴う認定訓練におけるロバストな正確性

How robust accuracy suffers from certified training with convex relaxations ( http://arxiv.org/abs/2306.06995v1 )

ライセンス: Link先を確認
Piersilvio De Bartolomeis, Jacob Clarysse, Amartya Sanyal, Fanny Yang(参考訳) 敵の攻撃は、安全クリティカルなアプリケーションにおける最先端の分類器のデプロイに重大な脅威をもたらす。 この問題に対処するための方法として、経験的防御と認定防衛という2つのクラスが登場した。 認証された防御は堅牢性を保証するが、敵の訓練のような経験的な防御は実践者の間ではるかに人気がある。 本稿では,これら2つのロバストなトレーニングパラダイムの標準とロバストエラーを,複数のコンピュータビジョンタスク間で系統的に比較する。 ほとんどのタスクでは、$\mathscr{l}_\infty$-ballと$\mathscr{l}_2$-ballの脅威モデルに対して、凸緩和による認定トレーニングは、敵のトレーニングよりも厳しい標準と堅牢なエラーに悩まされる。 さらに、認定トレーニングと敵対トレーニングの誤差ギャップが、脅威モデルとデータ分布にどのように依存するかを考察する。 特に摂動予算の他に、摂動集合の形状とデータ分布の暗黙の限界の重要な要因として特定する。 我々は、合成データセットと画像データセットの両方に関する広範囲にわたる議論を支持します。

Adversarial attacks pose significant threats to deploying state-of-the-art classifiers in safety-critical applications. Two classes of methods have emerged to address this issue: empirical defences and certified defences. Although certified defences come with robustness guarantees, empirical defences such as adversarial training enjoy much higher popularity among practitioners. In this paper, we systematically compare the standard and robust error of these two robust training paradigms across multiple computer vision tasks. We show that in most tasks and for both $\mathscr{l}_\infty$-ball and $\mathscr{l}_2$-ball threat models, certified training with convex relaxations suffers from worse standard and robust error than adversarial training. We further explore how the error gap between certified and adversarial training depends on the threat model and the data distribution. In particular, besides the perturbation budget, we identify as important factors the shape of the perturbation set and the implicit margin of the data distribution. We support our arguments with extensive ablations on both synthetic and image datasets.
翻訳日:2023-06-13 15:08:19 公開日:2023-06-12
# 時空間ブートストラップによる時系列自己監督表現学習

Correlated Time Series Self-Supervised Representation Learning via Spatiotemporal Bootstrapping ( http://arxiv.org/abs/2306.06994v1 )

ライセンス: Link先を確認
Luxuan Wang, Lei Bai, Ziyue Li, Rui Zhao, Fugee Tsung(参考訳) 関連時系列分析は多くの実業界で重要な役割を果たしている。 より下流のタスクのために、この大規模なデータの効率的な表現を学ぶことは必要だが、難しい。 本稿では,ブートストラップ付き時空間表現予測による個別インスタンスの時間段階表現学習フレームワークを提案する。 我々は,時系列の相関予測と予測モデルをデータ制限のある新しいインスタンスに転送するコールドスタートにおける表現学習フレームワークの有効性と柔軟性を評価した。 学習した表現の上にトレーニングされた線形回帰モデルは、私たちのモデルがほとんどのケースで最高のパフォーマンスを示す。 特に表現学習モデルと比較して, PMS-BAYデータセットではRMSE, MAE, MAPEを37%, 49%, 48%削減する。 さらに, 実世界の乗客フローデータでは, 15%, 19%, 18%の増加率で, 新たなコールドスタートインスタンスの今後の情報を推測する能力を示す。 ソースコードはGitHub https://github.com/bonaldli/Spatiotemporal-TS-Representation-Learningで公開される。

Correlated time series analysis plays an important role in many real-world industries. Learning an efficient representation of this large-scale data for further downstream tasks is necessary but challenging. In this paper, we propose a time-step-level representation learning framework for individual instances via bootstrapped spatiotemporal representation prediction. We evaluated the effectiveness and flexibility of our representation learning framework on correlated time series forecasting and cold-start transferring the forecasting model to new instances with limited data. A linear regression model trained on top of the learned representations demonstrates our model performs best in most cases. Especially compared to representation learning models, we reduce the RMSE, MAE, and MAPE by 37%, 49%, and 48% on the PeMS-BAY dataset, respectively. Furthermore, in real-world metro passenger flow data, our framework demonstrates the ability to transfer to infer future information of new cold-start instances, with gains of 15%, 19%, and 18%. The source code will be released under the GitHub https://github.com/bonaldli/Spatiotemporal-TS-Representation-Learning
翻訳日:2023-06-13 15:08:01 公開日:2023-06-12
# 高速拡散モデル

Fast Diffusion Model ( http://arxiv.org/abs/2306.06991v1 )

ライセンス: Link先を確認
Zike Wu, Pan Zhou, Kenji Kawaguchi, Hanwang Zhang(参考訳) 実際のデータ合成の成功にもかかわらず、拡散モデル(DM)は、しばしば遅くてコストのかかるトレーニングとサンプリングの問題に悩まされ、より広範なアプリケーションを制限する。 そこで本研究では,dmsの拡散過程を確率的最適化の観点から改善し,トレーニングとサンプリングの両方を高速化する高速拡散モデル(fdm)を提案する。 具体的には, DMの拡散過程が確率的勾配降下(SGD)の確率的最適化過程と, 確率的時間変動問題において一致することを最初に見出した。 運動量sgdは現在の勾配と余分な運動量の両方を使い、より安定してより高速に収束する。 我々は,トレーニングとサンプリングの両方を加速するために,拡散過程に運動量を導入することに着想を得た。 しかし、これは運動量に基づく拡散過程から雑音摂動核を導出するという課題に付随する。 この目的のために、運動量に基づく過程を、臨界減衰状態(カーネル溶液)が振動を回避し、拡散過程のより高速な収束速度を持つダンプ振動系として構成する。 経験的な結果から,当社のfdmはvp,ve,edmなどいくつかの人気dmフレームワークに適用可能であり,cifar-10,ffhq,afhqv2データセットで比較可能な画像合成性能で,トレーニングコストを約50%削減できることがわかった。 さらに、FDMはサンプリングステップを約$3\times$に減らし、同様の性能を同じ決定論的サンプリングで達成する。 コードはhttps://github.com/sail-sg/fdmで入手できる。

Despite their success in real data synthesis, diffusion models (DMs) often suffer from slow and costly training and sampling issues, limiting their broader applications. To mitigate this, we propose a Fast Diffusion Model (FDM) which improves the diffusion process of DMs from a stochastic optimization perspective to speed up both training and sampling. Specifically, we first find that the diffusion process of DMs accords with the stochastic optimization process of stochastic gradient descent (SGD) on a stochastic time-variant problem. Note that momentum SGD uses both the current gradient and an extra momentum, achieving more stable and faster convergence. We are inspired to introduce momentum into the diffusion process to accelerate both training and sampling. However, this comes with the challenge of deriving the noise perturbation kernel from the momentum-based diffusion process. To this end, we frame the momentum-based process as a Damped Oscillation system whose critically damped state -- the kernel solution -- avoids oscillation and thus has a faster convergence speed of the diffusion process. Empirical results show that our FDM can be applied to several popular DM frameworks, e.g. VP, VE, and EDM, and reduces their training cost by about 50% with comparable image synthesis performance on CIFAR-10, FFHQ, and AFHQv2 datasets. Moreover, FDM decreases their sampling steps by about $3\times$ to achieve similar performance under the same deterministic samplers. The code is available at https://github.com/sail-sg/FDM.
翻訳日:2023-06-13 15:07:45 公開日:2023-06-12
# Floquet-Engineered Rydberg 原子配列におけるスピン交換モデルの量子シミュレーション

Quantum simulation of generic spin exchange models in Floquet-engineered Rydberg atom arrays ( http://arxiv.org/abs/2306.07041v1 )

ライセンス: Link先を確認
Naveen Nishad, Anna Keselman, Thierry Lahaye, Antoine Browaeys, Shai Tsesses(参考訳) 量子シミュレーションは、不可解あるいは難解な物理現象に対する洞察を与えるが、多くの量子シミュレータは、彼らが模倣するモデルでは避けられない制限がある。 Rydberg氏の説明によると、これはあらゆる種類のスピン交換モデルをシミュレートできる可能性のあるプラットフォームであり、現在達成不可能な実験能力を持つ。 本稿では,大域制御と局所制御を併用したフロッケ工学を用いて,原子配列内の一般スピン交換ハミルトニアンをシミュレートする新しい経路を提案する。 本手法の汎用性と適用性を示すために, 従来実験的な機能のみを用いて, 原子配列で実現されていないいくつかのスピン交換モデルの生成を数値的に検討した。 提案手法は多くの既存構成で容易に検討でき、多くのエキゾチックな量子スピンモデルを調べるための経路を提供する。

Although quantum simulation can give insight into elusive or intractable physical phenomena, many quantum simulators are unavoidably limited in the models they mimic. Such is also the case for atom arrays interacting via Rydberg states - a platform potentially capable of simulating any kind of spin exchange model, albeit with currently unattainable experimental capabilities. Here, we propose a new route towards simulating generic spin exchange Hamiltonians in atom arrays, using Floquet engineering with both global and local control. To demonstrate the versatility and applicability of our approach, we numerically investigate the generation of several spin exchange models which have yet to be realized in atom arrays, using only previously-demonstrated experimental capabilities. Our proposed scheme can be readily explored in many existing setups, providing a path to investigate a large class of exotic quantum spin models.
翻訳日:2023-06-13 15:02:01 公開日:2023-06-12
# 非対称カーネルを持つ非線形SVD:特徴学習と非対称Nystr\"om法

Nonlinear SVD with Asymmetric Kernels: feature learning and asymmetric Nystr\"om method ( http://arxiv.org/abs/2306.07040v1 )

ライセンス: Link先を確認
Qinghua Tao, Francesco Tonin, Panagiotis Patrinos, Johan A. K. Suykens(参考訳) 非対称データは、有向グラフのような実生活に自然に存在する。 本稿では,Mercurerカーネルを必要とする一般的なカーネル手法と異なり,非対称なカーネルベース学習問題に取り組む。 非対称核、すなわち KSVD による行列特異値分解の非線形拡張を記述する。 まず、与えられたデータ行列の列と列の2つの非線形特徴写像を構築する。 提案した最適化問題は、相互直交制約を受ける部分空間に投影される各写像の分散を最大化する。 ラグランジュ双対性を通じて、非対称核によって引き起こされる特徴空間における左と右の特異ベクトルによって解くことができることを示した。 さらに、非対称核上の特異ベクトルに対応する一対の随伴固有関数を持つ積分方程式から始め、Nystr\"om法を有限標本近似により非対称ケースに拡張し、KSVDでのトレーニングを高速化することができる。 実験により、非対称なKSVDはシンメトリゼーションを利用するメルサーカーネル法よりも優れた特徴を学習し、非対称なNystr\"om法の有効性を検証する。

Asymmetric data naturally exist in real life, such as directed graphs. Different from the common kernel methods requiring Mercer kernels, this paper tackles the asymmetric kernel-based learning problem. We describe a nonlinear extension of the matrix Singular Value Decomposition through asymmetric kernels, namely KSVD. First, we construct two nonlinear feature mappings w.r.t. rows and columns of the given data matrix. The proposed optimization problem maximizes the variance of each mapping projected onto the subspace spanned by the other, subject to a mutual orthogonality constraint. Through Lagrangian duality, we show that it can be solved by the left and right singular vectors in the feature space induced by the asymmetric kernel. Moreover, we start from the integral equations with a pair of adjoint eigenfunctions corresponding to the singular vectors on an asymmetrical kernel, and extend the Nystr\"om method to asymmetric cases through the finite sample approximation, which can be applied to speedup the training in KSVD. Experiments show that asymmetric KSVD learns features outperforming Mercer-kernel based methods that resort to symmetrization, and also verify the effectiveness of the asymmetric Nystr\"om method.
翻訳日:2023-06-13 15:01:46 公開日:2023-06-12
# 二重井戸における単一原子によるキャビティ光の量子干渉

Quantum Interference of Cavity Light Induced by a Single Atom in Double Well ( http://arxiv.org/abs/2306.07037v1 )

ライセンス: Link先を確認
Yijia Zhou, Xinwei Li, Weibin Li, Hao Zhang(参考訳) 複数の原子から放出される光子の干渉は広く研究されている。 単一原子は、光学キャビティに結合した二重ウェルポテンシャルをトンネルするときに放出される光に干渉を生じさせる。 キャビティフィールド干渉の位相はダブルウェル間隔によって調節することができる。 コヒーレントトンネル制御により、超ポアソニアン束光が発生する破壊干渉レジームにおいて、単一光子励起の遮断が認められる。 さらに,コヒーレントトンネル運動の原子フラックスがカイラルキャビティ場を生成することを示した。 キラリティの方向は、原子運動の脱コヒーレンスと空洞光子の崩壊の前に多くのサイクルで振動する。 我々の研究は、量子情報応用のための原子の制御可能な量子状態を持つ光子を操作する新しい方法を開く。

Interference in photons emitted from multiple atoms has been studied extensively. We show that a single atom can induce interference in its emitted light when tunnelling in a double-well potential coupled to an optical cavity. The phase in the cavity field interference can be modulated by the double-well spacing. By controlling the coherent tunnelling, blockade of single-photon excitations is found in the destructive interference regime, where super-Poissonian bunched light is generated. Furthermore, we show that the atomic flux of the coherent tunnelling motion generates chiral cavity fields. The direction of the chirality oscillates for many cycles before the decoherence of the atomic motion and the decay of the cavity photons. Our work opens new ways for manipulating photons with controllable quantum states of atoms for quantum information applications.
翻訳日:2023-06-13 15:01:27 公開日:2023-06-12
# 複数のラベルなしデータセットからのバイナリ分類をほぼ省略する

Making Binary Classification from Multiple Unlabeled Datasets Almost Free of Supervision ( http://arxiv.org/abs/2306.07036v1 )

ライセンス: Link先を確認
Yuhao Wu, Xiaobo Xia, Jun Yu, Bo Han, Gang Niu, Masashi Sugiyama, Tongliang Liu(参考訳) ラベル付けコストが高い状況では、大量の教師付きデータを利用する分類器の訓練が高価または禁止される。 より弱い形式の監督を扱う上での顕著な進歩は、すべてのラベルなしデータセットに対して正確なクラスプリミティブの知識を必要とする複数のラベルなしデータセットからのバイナリ分類である。 しかし、多くの実世界のシナリオでは、クラス事前の可用性は制限される。 この問題に対処するために、複数の未ラベルデータセットの2つのクラス優先確率の相対順序(ラベル付きデータセットの正の比率が高い)を知っているクラス先行(MU-OPPO)の1対の数値関係を持つ複数の未ラベルデータセットからのバイナリ分類という、新しい問題を解決することを提案する。 MU-OPPOでは、ラベルなしデータセットのクラス事前は必要ありませんが、ラベルなしデータセットのどちらがより大きいクラスを持つかを知るために、ラベルなしデータセットのペアが存在することだけが必要です。 明らかに、この形式の監視は入手が容易であり、ラベリングコストをほぼ無料にすることができる。 4つの逐次モジュールからなるMU-OPPO問題を扱うための新しいフレームワークを提案する。 (i)擬似ラベル付与 (ii)自信のある例集 (iii)クラス先行推定 (iv)推定クラス先行による分類訓練。 理論的には,提案フレームワークの下で推定されたクラス先行と真のクラス先行とのギャップを分析する。 実証実験により,本フレームワークの優位性を確認した。 実験の結果,このフレームワークはクラス優先度の推定誤差が小さくなり,バイナリ分類の性能が向上した。

Training a classifier exploiting a huge amount of supervised data is expensive or even prohibited in a situation, where the labeling cost is high. The remarkable progress in working with weaker forms of supervision is binary classification from multiple unlabeled datasets which requires the knowledge of exact class priors for all unlabeled datasets. However, the availability of class priors is restrictive in many real-world scenarios. To address this issue, we propose to solve a new problem setting, i.e., binary classification from multiple unlabeled datasets with only one pairwise numerical relationship of class priors (MU-OPPO), which knows the relative order (which unlabeled dataset has a higher proportion of positive examples) of two class-prior probabilities for two datasets among multiple unlabeled datasets. In MU-OPPO, we do not need the class priors for all unlabeled datasets, but we only require that there exists a pair of unlabeled datasets for which we know which unlabeled dataset has a larger class prior. Clearly, this form of supervision is easier to be obtained, which can make labeling costs almost free. We propose a novel framework to handle the MU-OPPO problem, which consists of four sequential modules: (i) pseudo label assignment; (ii) confident example collection; (iii) class prior estimation; (iv) classifier training with estimated class priors. Theoretically, we analyze the gap between estimated class priors and true class priors under the proposed framework. Empirically, we confirm the superiority of our framework with comprehensive experiments. Experimental results demonstrate that our framework brings smaller estimation errors of class priors and better performance of binary classification.
翻訳日:2023-06-13 15:01:12 公開日:2023-06-12
# ViTとOCRに対するテキスト攻撃、ビジョンが失敗したとき

When Vision Fails: Text Attacks Against ViT and OCR ( http://arxiv.org/abs/2306.07033v1 )

ライセンス: Link先を確認
Nicholas Boucher, Jenny Blessing, Ilia Shumailov, Ross Anderson, Nicolas Papernot(参考訳) テキストベースの機械学習モデルは、レンダリングされたテキストの視覚的な入力で動作するが、既存の攻撃に対して頑健である一方で、テキストとして符号化された視覚的敵の例に対して脆弱であることを示す。 我々は、暗号テキストを操作するためにダイアクリティカルマークを組み合わせるUnicode機能を使用し、テキストのレンダリング時に小さな視覚的摂動が現れるようにします。 遺伝的アルゴリズムを用いて,ブラックボックス設定で視覚的に逆行する例を生成する方法を示し,モデル食品の逆行例は人間の理解に影響を与えないことを示す。 我々は、Facebook、Microsoft、IBM、Googleが発行したプロダクションモデルに対する敵対的な例を作成することで、これらの攻撃の有効性を実世界で実証する。

While text-based machine learning models that operate on visual inputs of rendered text have become robust against a wide range of existing attacks, we show that they are still vulnerable to visual adversarial examples encoded as text. We use the Unicode functionality of combining diacritical marks to manipulate encoded text so that small visual perturbations appear when the text is rendered. We show how a genetic algorithm can be used to generate visual adversarial examples in a black-box setting, and conduct a user study to establish that the model-fooling adversarial examples do not affect human comprehension. We demonstrate the effectiveness of these attacks in the real world by creating adversarial examples against production models published by Facebook, Microsoft, IBM, and Google.
翻訳日:2023-06-13 15:00:43 公開日:2023-06-12
# 因果構造学習における事前エラーの軽減--LLMによる事前知識を目指して

Mitigating Prior Errors in Causal Structure Learning: Towards LLM driven Prior Knowledge ( http://arxiv.org/abs/2306.07032v1 )

ライセンス: Link先を確認
Lyuzhou Chen, Taiyu Ban, Xiangyu Wang, Derui Lyu, Huanhuan Chen(参考訳) 因果構造学習 (Causal structure learning) は、ベイズネットワーク(BN)を通して変数間の因果関係と効果関係を符号化する顕著な手法である。 実世界の観測データから単に因果構造を復元することは精度に欠ける一方、LLM(Large Language Models)の開発は因果関係の新しいフロンティアを開きつつある。 LLMは、変数間の因果関係を、調査された変数を定義する"text"入力で発見する強力な能力を示し、潜在的に新しい階層と因果関係の新たなはしごをもたらす。 我々は, LLM による因果構造学習の新たな課題として, LLM からの誤った因果文に対処することを目指している。 先駆的な試みとして,人間の介入を必要とせず,事前エラーに耐性のあるBN学習戦略を提案する。 エッジレベル事前に注目することで,事前の誤りを順序整合,順序反転,無関係の3つのタイプに分類し,十分なデータを仮定した構造ハミング距離 (shd) に理論的影響を与える。 興味深いことに、オーダー逆誤差のみが「準円」として定義される一意な非巡回閉構造の増加に寄与することを発見し、証明する。 この知見を生かしたポストホック戦略は、"準円"の増大に対する影響によって、秩序が逆転する事前エラーを特定するために用いられる。 実データと合成データの両方に対する経験的評価を通じて,事前の誤りに対する戦略の堅牢性を示す。 具体的には、正しい事前知識の大多数を維持しながら、オーダー逆誤差に抵抗する実質的な能力を強調します。

Causal structure learning, a prominent technique for encoding cause and effect relationships among variables, through Bayesian Networks (BNs). Merely recovering causal structures from real-world observed data lacks precision, while the development of Large Language Models (LLM) is opening a new frontier of causality. LLM presents strong capability in discovering causal relationships between variables with the "text" inputs defining the investigated variables, leading to a potential new hierarchy and new ladder of causality. We aim an critical issue in the emerging topic of LLM based causal structure learning, to tackle erroneous prior causal statements from LLM, which is seldom considered in the current context of expert dominating prior resources. As a pioneer attempt, we propose a BN learning strategy resilient to prior errors without need of human intervention. Focusing on the edge-level prior, we classify the possible prior errors into three types: order-consistent, order-reversed, and irrelevant, and provide their theoretical impact on the Structural Hamming Distance (SHD) under the presumption of sufficient data. Intriguingly, we discover and prove that only the order-reversed error contributes to an increase in a unique acyclic closed structure, defined as a "quasi-circle". Leveraging this insight, a post-hoc strategy is employed to identify the order-reversed prior error by its impact on the increment of "quasi-circles". Through empirical evaluation on both real and synthetic datasets, we demonstrate our strategy's robustness against prior errors. Specifically, we highlight its substantial ability to resist order-reversed errors while maintaining the majority of correct prior knowledge.
翻訳日:2023-06-13 15:00:30 公開日:2023-06-12
# hessian based pruningを用いた資源効率のよいニューラルネットワーク

Resource Efficient Neural Networks Using Hessian Based Pruning ( http://arxiv.org/abs/2306.07030v1 )

ライセンス: Link先を確認
Jack Chong, Manas Gupta, Lihui Chen(参考訳) ニューラルネットワークプルーニングは、訓練されたモデルのサイズと浮動小数点演算数を減らすための実用的な方法である。 プルーニングの1つの方法は、より一般的なマグニチュードプルーニングアプローチと比較して、相対ヘッセントレースを用いて各チャネルの感度を計算することである。 しかし、ヘッセントレースを推定するために使われる確率的アプローチは、収束する前に何度も反復する必要がある。 これは、数百万のパラメータを持つ大きなモデルで使用する場合、時間がかかる可能性がある。 この問題に対処するために、FP32の代わりにFP16精度を用いてHessianトレースを推定することで既存のアプローチを変更する。 我々は、CIFAR10/CIFAR100画像分類タスクで訓練されたResNet-32/ResNet-56/WideResNet-28-8上の修正手法(EHAP)を試験し、Hessianトレースの高速な計算を実現する。 具体的には、モデルアーキテクチャとGPUデバイスの異なる組み合わせの実験において、17%から最大44%のスピードアップを実現しました。 修正されたアプローチでは、ResNet-32とResNet-56モデルをプルーニングする際のGPUメモリも40%削減されています。 また, FP16 と FP32 のヘシアントレース計算を用いてプルーニングを行った結果, 両者に顕著な精度差は認められなかった。 全体としては、プルーニングモデルの性能を犠牲にすることなく、相対ヘッセントレースを高速に計算するシンプルで効果的な方法である。 また、EHAPと量子化対応トレーニング(QAT)を用いて、INT8 QATを用いてネットワークをさらに圧縮する完全なパイプラインを提案する。 特に、重み付けには対称量子化、活性化には非対称量子化を用いる。

Neural network pruning is a practical way for reducing the size of trained models and the number of floating-point operations. One way of pruning is to use the relative Hessian trace to calculate sensitivity of each channel, as compared to the more common magnitude pruning approach. However, the stochastic approach used to estimate the Hessian trace needs to iterate over many times before it can converge. This can be time-consuming when used for larger models with many millions of parameters. To address this problem, we modify the existing approach by estimating the Hessian trace using FP16 precision instead of FP32. We test the modified approach (EHAP) on ResNet-32/ResNet-56/WideResNet-28-8 trained on CIFAR10/CIFAR100 image classification tasks and achieve faster computation of the Hessian trace. Specifically, our modified approach can achieve speed ups ranging from 17% to as much as 44% during our experiments on different combinations of model architectures and GPU devices. Our modified approach also takes up around 40% less GPU memory when pruning ResNet-32 and ResNet-56 models, which allows for a larger Hessian batch size to be used for estimating the Hessian trace. Meanwhile, we also present the results of pruning using both FP16 and FP32 Hessian trace calculation and show that there are no noticeable accuracy differences between the two. Overall, it is a simple and effective way to compute the relative Hessian trace faster without sacrificing on pruned model performance. We also present a full pipeline using EHAP and quantization aware training (QAT), using INT8 QAT to compress the network further after pruning. In particular, we use symmetric quantization for the weights and asymmetric quantization for the activations.
翻訳日:2023-06-13 14:59:59 公開日:2023-06-12
# 回転増強技術:画像分類のためのアンサンブル学習の新しい視点

Rotational augmentation techniques: a new perspective on ensemble learning for image classification ( http://arxiv.org/abs/2306.07027v1 )

ライセンス: Link先を確認
Unai Mu\~noz-Aseguinolaza, Basilio Sierra and Naiara Aginako(参考訳) 機械学習におけるデータ拡張技術の人気は、既存のデータセットから新しいサンプルを作成することを可能にするため、近年増大している。 特に回転拡張は、イメージを回転させ、トレーニングのための追加データポイントとして利用するという大きな可能性を秘めている。 本研究は,元のデータセットから各画像の変換を用いて,テストセットを生成する分類手法の性能を向上させるための新しいアプローチを提案する。 その後、増補フェーズから取得した各サブセットの最も信頼性の高い結果を決定するためにアンサンブルベースのシステムが実装され、元のイメージ毎に最終的な予測が得られた。 本研究の結果から, 回転増倍法は標準分類モデルの精度を大幅に向上し, 投票方式の選択がモデルの性能に大きな影響を及ぼす可能性が示唆された。 全体として、アンサンブルベースの投票システムを使用することで、単純な投票よりも正確な結果が得られることがわかった。

The popularity of data augmentation techniques in machine learning has increased in recent years, as they enable the creation of new samples from existing datasets. Rotational augmentation, in particular, has shown great promise by revolving images and utilising them as additional data points for training. This research study introduces a new approach to enhance the performance of classification methods where the testing sets were generated employing transformations on every image from the original dataset. Subsequently, ensemble-based systems were implemented to determine the most reliable outcome in each subset acquired from the augmentation phase to get a final prediction for every original image. The findings of this study suggest that rotational augmentation techniques can significantly improve the accuracy of standard classification models; and the selection of a voting scheme can considerably impact the model's performance. Overall, the study found that using an ensemble-based voting system produced more accurate results than simple voting.
翻訳日:2023-06-13 14:59:27 公開日:2023-06-12
# DRCFS:2倍のロバストな因果的特徴選択

DRCFS: Doubly Robust Causal Feature Selection ( http://arxiv.org/abs/2306.07024v1 )

ライセンス: Link先を確認
Francesco Quinzan, Ashkan Soleymani, Patrik Jaillet, Cristian R. Rojas, Stefan Bauer(参考訳) 特定の対象変数に高い関連性を持つ複雑なシステムの特徴を知ることは、科学の多くの分野において基本的な関心事である。 既存のアプローチは、しばしば線形設定に制限され、時には保証が欠如している。 非線形および高次元の設定においても因果的特徴を識別する2つの頑健な特徴選択法であるDRCFSを提案する。 理論的な保証を提供し、仮定に必要な条件を示し、幅広いシミュレーションおよび半合成データセットで広範な実験を行う。 DRCFSは既存の最先端手法を著しく上回り、高度に非線形かつ高次元の問題に挑戦しても頑健な特徴を選択する。

Knowing the features of a complex system that are highly relevant to a particular target variable is of fundamental interest in many areas of science. Existing approaches are often limited to linear settings, sometimes lack guarantees, and in most cases, do not scale to the problem at hand, in particular to images. We propose DRCFS, a doubly robust feature selection method for identifying the causal features even in nonlinear and high dimensional settings. We provide theoretical guarantees, illustrate necessary conditions for our assumptions, and perform extensive experiments across a wide range of simulated and semi-synthetic datasets. DRCFS significantly outperforms existing state-of-the-art methods, selecting robust features even in challenging highly non-linear and high-dimensional problems.
翻訳日:2023-06-13 14:59:12 公開日:2023-06-12
# 極端正の磁気抵抗効果の理論モデル

Theoretical model for the extreme positive magnetoresistance ( http://arxiv.org/abs/2306.07020v1 )

ライセンス: Link先を確認
George Kastrinakis(参考訳) PtSn$_4$, PtBi$_2$, PdCoO$_2$, WTe$_2$, NbSb$_2$, NbP, TaSb$_2$, LaSb, LaBi, ZrSiS, MoTe$_2$などの金属系で最近観測された正極磁気抵抗(XMR)モデルを示す。 このモデルは、我々の初期の正の巨大磁気抵抗の研究の延長であり、精巧な図式を用いている。 XMRは(表面効果ではなく)バルク効果であり、有限磁場に対する導電率の劇的な感度は$H$である。 これは低温でも、有限乱れ弾性スピン散乱の存在下でも可能であり、理論から予測される特別な値として、物質依存の効果的なクーロン反発が可能である。 実験との良好な合意が得られる。 我々のモデルによれば、XMRはよりクリーンなサンプルでは高く、$H$の方向に関しては異方性がある。 特にpt,sc,rhを含む化合物について考察する。

We present a model for the positive extreme magnetoresistance (XMR), recently observed in a plethora of metallic systems, such as PtSn$_4$, PtBi$_2$, PdCoO$_2$, WTe$_2$, NbSb$_2$, NbP, TaSb$_2$, LaSb, LaBi, ZrSiS and MoTe$_2$. The model is an extension of our earlier work on positive giant magnetoresistance, and uses an elaborate diagrammatic formulation. XMR is a bulk effect (not a surface effect), due to the dramatic sensitivity of the conductivity to the finite magnetic field $H$. This is possible at low temperatures, in the presence of finite disorder elastic spin scattering, and for a special value, predicted from the theory, of the material-dependent effective Coulomb repulsion. Good agreement with experiments is obtained. According to our model XMR is higher in cleaner samples, and anisotropic with regards to the direction of $H$. We discuss in particular compounds containing the elements Pt, Sc, and Rh.
翻訳日:2023-06-13 14:59:00 公開日:2023-06-12
# 深層モデル圧縮は、モデルのあいまいさを捉えるのに役立つ

Deep Model Compression Also Helps Models Capture Ambiguity ( http://arxiv.org/abs/2306.07061v1 )

ライセンス: Link先を確認
Hancheol Park, Jong C. Park(参考訳) 自然言語理解(NLU)タスクは、アノテータ間でラベルの妥当性が議論されるような、不明瞭な量のサンプルに直面する。 したがって、NLUモデルはそのような曖昧さを考慮に入れなければならないが、人間の意見分布は極めて低く、自信過剰な予測をもたらす傾向がある。 この問題に対処するために、各サンプルとその候補クラスとの関係を正確に把握する方法を検討する必要がある。 本研究では,深層モデル圧縮を用いた新しい手法を提案し,そのような関係をいかに説明できるかを示す。 より合理的に表現された関係が下位層で見つけられ、検証の精度がこれらの層に収束していることが自然に層を刈り取ることに繋がる。 また、下層から関係知識を蒸留することで、モデルがより良い分布を生み出すことが期待できる。 実験結果から,金分布ラベルを使わずにあいまいさの定量化に大幅な改善が得られた。 正の副作用として,本手法はモデルサイズを大幅に削減し,NLU製品の魅力的な側面である遅延を改善する。

Natural language understanding (NLU) tasks face a non-trivial amount of ambiguous samples where veracity of their labels is debatable among annotators. NLU models should thus account for such ambiguity, but they approximate the human opinion distributions quite poorly and tend to produce over-confident predictions. To address this problem, we must consider how to exactly capture the degree of relationship between each sample and its candidate classes. In this work, we propose a novel method with deep model compression and show how such relationship can be accounted for. We see that more reasonably represented relationships can be discovered in the lower layers and that validation accuracies are converging at these layers, which naturally leads to layer pruning. We also see that distilling the relationship knowledge from a lower layer helps models produce better distribution. Experimental results demonstrate that our method makes substantial improvement on quantifying ambiguity without gold distribution labels. As positive side-effects, our method is found to reduce the model size significantly and improve latency, both attractive aspects of NLU products.
翻訳日:2023-06-13 14:50:39 公開日:2023-06-12
# データ観測過程としての決定木に基づくベイズ決定理論最適性を実現する予測アルゴリズム

Prediction Algorithms Achieving Bayesian Decision Theoretical Optimality Based on Decision Trees as Data Observation Processes ( http://arxiv.org/abs/2306.07060v1 )

ライセンス: Link先を確認
Yuta Nakahara, Shota Saito, Naoki Ichijo, Koki Kazama, Toshiyasu Matsushima(参考訳) 決定木の分野では、従来の研究のほとんどは、与えられたデータから構築される予測関数を表現するためにのみ使われるため、新しいデータの予測の統計的最適性を保証するのが困難であり、過剰フィッティングに苦しむ。 対照的に、本論文を含むいくつかの研究は、与えられたデータの背後にある確率的データ観測過程を表現するために木を用いた。 さらに,木に対する事前分布を仮定してベイズ決定理論に基づいて,過剰フィッティングに対して頑健な統計的最適予測を導出した。 しかしながら、これらの研究は、このベイズ最適予測の計算において、木といくつかのパラメータで表される特徴空間のすべての分割パターンに対する実現不可能な和を含むため、依然として問題となる。 特に、開問題(英: open problem)とは、分割軸の組み合わせ、すなわち木の内部ノードへの特徴の割り当てに関する総和である。 これをマルコフ連鎖モンテカルロ法により解き、ステップサイズは木の後方分布に応じて適応的に調整される。

In the field of decision trees, most previous studies have difficulty ensuring the statistical optimality of a prediction of new data and suffer from overfitting because trees are usually used only to represent prediction functions to be constructed from given data. In contrast, some studies, including this paper, used the trees to represent stochastic data observation processes behind given data. Moreover, they derived the statistically optimal prediction, which is robust against overfitting, based on the Bayesian decision theory by assuming a prior distribution for the trees. However, these studies still have a problem in computing this Bayes optimal prediction because it involves an infeasible summation for all division patterns of a feature space, which is represented by the trees and some parameters. In particular, an open problem is a summation with respect to combinations of division axes, i.e., the assignment of features to inner nodes of the tree. We solve this by a Markov chain Monte Carlo method, whose step size is adaptively tuned according to a posterior distribution for the trees.
翻訳日:2023-06-13 14:50:21 公開日:2023-06-12
# リスク測度の信頼度境界に対する分布最適化フレームワーク

A Distribution Optimization Framework for Confidence Bounds of Risk Measures ( http://arxiv.org/abs/2306.07059v1 )

ライセンス: Link先を確認
Hao Liang, Zhi-quan Luo(参考訳) 本稿では,従来の手法と比較して,各種リスク対策の信頼性境界を大幅に改善する分布最適化フレームワークを提案する。 本枠組みは, リスクセンシティブな意思決定文献において確立されている, エントロピーリスク尺度, CVaR, スペクトルリスク尺度, 歪みリスク尺度, 等価確実性, ランク依存型予測ユーティリティなどの一般的なリスク尺度を包含する。 そこで本研究では, 実験分布から導出される濃度境界に基づく2つの推定手法, 特にワッサーシュタイン距離と上限距離について紹介する。 経験的リスク尺度から信頼度半径を付加または減算する従来のアプローチとは異なり,提案手法は距離に基づく経験的分布の特定の変換を評価する。 その結果、我々の信頼境界は従来の方法よりも厳密な結果が得られる。 さらに,CVaRバンドイットに対してより厳密な問題依存的後悔境界を提供することにより,提案手法の有効性を検証した。

We present a distribution optimization framework that significantly improves confidence bounds for various risk measures compared to previous methods. Our framework encompasses popular risk measures such as the entropic risk measure, conditional value at risk (CVaR), spectral risk measure, distortion risk measure, equivalent certainty, and rank-dependent expected utility, which are well established in risk-sensitive decision-making literature. To achieve this, we introduce two estimation schemes based on concentration bounds derived from the empirical distribution, specifically using either the Wasserstein distance or the supremum distance. Unlike traditional approaches that add or subtract a confidence radius from the empirical risk measures, our proposed schemes evaluate a specific transformation of the empirical distribution based on the distance. Consequently, our confidence bounds consistently yield tighter results compared to previous methods. We further verify the efficacy of the proposed framework by providing tighter problem-dependent regret bound for the CVaR bandit.
翻訳日:2023-06-13 14:50:01 公開日:2023-06-12
# 外乱検出のためのカーネルランダム投影深さ

Kernel Random Projection Depth for Outlier Detection ( http://arxiv.org/abs/2306.07056v1 )

ライセンス: Link先を確認
Akira Tamamori(参考訳) 本稿では,データクラウド上の複数のモダリティと非凸性に対処するために,ランダム射影深さ(rpd)の拡張を提案する。 提案手法の枠組みでは、RCDは再生カーネルヒルベルト空間で計算される。 カーネル主成分分析の助けを借りて,提案手法が上記の多重様相と非凸性に対応することを期待する。 実験結果は,提案手法がrdpよりも優れており,受信機動作特性(roc)の曲線下領域(aucs)に関するベンチマークデータセットの既存の検出モデルと同等であることを示す。

This paper proposes an extension of Random Projection Depth (RPD) to cope with multiple modalities and non-convexity on data clouds. In the framework of the proposed method, the RPD is computed in a reproducing kernel Hilbert space. With the help of kernel principal component analysis, we expect that the proposed method can cope with the above multiple modalities and non-convexity. The experimental results demonstrate that the proposed method outperforms RPD and is comparable to other existing detection models on benchmark datasets regarding Area Under the Curves (AUCs) of Receiver Operating Characteristic (ROC).
翻訳日:2023-06-13 14:49:43 公開日:2023-06-12
# 液滴, 気泡, キンクの相互作用とダイナミクス

Interactions and dynamics of droplets, bubbles and kinks ( http://arxiv.org/abs/2306.07055v1 )

ライセンス: Link先を確認
G. C. Katsimiga, S. I. Mistakidis, B. A. Malomed, D. J. Frantzeskakis, R. Carretero-Gonz\'alez and P. G. Kevrekidis(参考訳) 我々は,lee-huang-yang補正を含む1次元グロス・ピタエフスキーモデルを用いて,複数の明るい液滴と気泡のダイナミクスと相互作用,およびキンクスと液滴およびアンチキンクとの相互作用について検討した。 ケミカルポテンシャルの観点からは, 液滴や気泡の存在領域を同定し, 液滴の安定性を検証し, 気泡の不安定性を明らかにする。 液滴ファミリーの制限ケースは安定なキンクである。 液滴間の相互作用は相内(相外)アトラクション(反発)を示し、いわゆるマントン法は観察された動的応答を解明し、相転移の中間値に対する混合挙動を示す。 異なる化学ポテンシャルを持つ液滴は質量交換現象を経験する。 個々のバブルは、不安定化の前にコア膨張と相互アトラクションを示す。 キンクと相互作用する液滴はそれらによって吸収され、分散衝撃波と灰色のソリトンが放出される。 kink-antikink相互作用は反発的であり、反伝播衝撃波を生成する。 本研究は,現在の実験で検出できる液滴とキンクの動的特徴を明らかにした。

We explore the dynamics and interactions of multiple bright droplets and bubbles, as well as the interactions of kinks with droplets and with antikinks, in the extended one-dimensional Gross-Pitaevskii model including the Lee-Huang-Yang correction. Existence regions are identified for the droplets and bubbles in terms of their chemical potential, verifying the stability of the droplets and exposing the instability of the bubbles. The limiting case of the droplet family is a stable kink. The interactions between droplets demonstrate in-phase (out-of-phase) attraction (repulsion), with the so-called Manton's method explicating the observed dynamical response, and mixed behavior for intermediate values of the phase shift. Droplets bearing different chemical potentials experience mass-exchange phenomena. Individual bubbles exhibit core expansion and mutual attraction prior to their destabilization. Droplets interacting with kinks are absorbed by them, a process accompanied by the emission of dispersive shock waves and gray solitons. Kink-antikink interactions are repulsive, generating counter-propagating shock waves. Our findings reveal dynamical features of droplets and kinks that can be detected in current experiments.
翻訳日:2023-06-13 14:49:33 公開日:2023-06-12
# 学習後の勾配上昇による言語モデルの一般化

Gradient Ascent Post-training Enhances Language Model Generalization ( http://arxiv.org/abs/2306.07052v1 )

ライセンス: Link先を確認
Dongkeun Yoon, Joel Jang, Sungdong Kim, Minjoon Seo(参考訳) 本研究では,事前学習したLM(350M, 1.3B, 2.7B)を,ランダムな未ラベルテキストコーパス上でのグラディエント・アセンジ・ポスト・トレーニング(GAP)のほんの数ステップで更新することで,多様なNLPタスクにおけるゼロショット一般化能力を高めることを実証的に示す。 具体的には、GAPは、12の異なるNLPタスクに対して、LMを2~3倍大きなLMにできることを示す。 また,GAPをアウト・オブ・ディストリビューション・コーパスに適用すると,信頼性の高い性能向上がもたらされることを示す。 この結果から, GAPはタスク固有の微調整を伴わずに, LMの一般化能力を向上するための有望な手法である可能性が示唆された。

In this work, we empirically show that updating pretrained LMs (350M, 1.3B, 2.7B) with just a few steps of Gradient Ascent Post-training (GAP) on random, unlabeled text corpora enhances its zero-shot generalization capabilities across diverse NLP tasks. Specifically, we show that GAP can allow LMs to become comparable to 2-3x times larger LMs across 12 different NLP tasks. We also show that applying GAP on out-of-distribution corpora leads to the most reliable performance improvements. Our findings indicate that GAP can be a promising method for improving the generalization capability of LMs without any task-specific fine-tuning.
翻訳日:2023-06-13 14:49:13 公開日:2023-06-12
# オブジェクト検出とインスタンスセグメンテーションのための再訪トークンプルーニング

Revisiting Token Pruning for Object Detection and Instance Segmentation ( http://arxiv.org/abs/2306.07050v1 )

ライセンス: Link先を確認
Yifei Liu, Mathias Gehrig, Nico Messikommer, Marco Cannici, Davide Scaramuzza(参考訳) ビジョントランスフォーマー(vits)はコンピュータビジョンにおいて印象的な性能を示しているが、その高い計算コスト(トークン数の二乗)は、計算制約付きアプリケーションにおける採用を制限している。 しかし、全てのトークンが等しく重要であるわけではないため、この大量のトークンは必要ないかもしれない。 本稿では,オブジェクト検出とインスタンスセグメンテーションの推論を高速化するトークンプルーニングについて検討し,画像分類から先行研究を拡張した。 広範な実験を通じて、我々は高密度なタスクに対する4つの洞察を提供する。 (i)トークンは完全に刈り取られて廃棄されるのではなく、機能マップに保存して後で使用する。 (ii) 前処理したトークンの再活性化により,モデル性能がさらに向上する。 (iii)画像に基づく動的刈り込み速度は固定刈り出し速度より優れている。 (iv)軽量2層MLPはトークンを効果的にプーンし、より単純な設計で複雑なゲーティングネットワークに匹敵する精度を実現する。 我々は,これらの設計選択がCOCOデータセットに与える影響を評価し,先行技術トークンプルーニングモデルよりも優れており,ボックスとマスクの両方において,1.5mAPから0.3mAPまでの性能低下を著しく低減する手法を提案する。 すべてのトークンを使用する高密度なトークンと比較すると,提案手法はネットワーク全体の推論速度を最大34%,バックボーンを46%向上させる。

Vision Transformers (ViTs) have shown impressive performance in computer vision, but their high computational cost, quadratic in the number of tokens, limits their adoption in computation-constrained applications. However, this large number of tokens may not be necessary, as not all tokens are equally important. In this paper, we investigate token pruning to accelerate inference for object detection and instance segmentation, extending prior works from image classification. Through extensive experiments, we offer four insights for dense tasks: (i) tokens should not be completely pruned and discarded, but rather preserved in the feature maps for later use. (ii) reactivating previously pruned tokens can further enhance model performance. (iii) a dynamic pruning rate based on images is better than a fixed pruning rate. (iv) a lightweight, 2-layer MLP can effectively prune tokens, achieving accuracy comparable with complex gating networks with a simpler design. We evaluate the impact of these design choices on COCO dataset and present a method integrating these insights that outperforms prior art token pruning models, significantly reducing performance drop from ~1.5 mAP to ~0.3 mAP for both boxes and masks. Compared to the dense counterpart that uses all tokens, our method achieves up to 34% faster inference speed for the whole network and 46% for the backbone.
翻訳日:2023-06-13 14:48:54 公開日:2023-06-12
# 適度に大きいラベル空間を持つビジネス関連テキストの不均衡多ラベル分類

Imbalanced Multi-label Classification for Business-related Text with Moderately Large Label Spaces ( http://arxiv.org/abs/2306.07046v1 )

ライセンス: Link先を確認
Muhammad Arslan and Christophe Cruz(参考訳) 本研究では,特定の不均衡なビジネスデータセットを用いて,複数ラベルテキスト分類のための4つの手法の性能を比較した。 評価した4つの方法は、細調整されたBERT、バイナリ関連、分類チェイン、ラベルパワーセットである。 その結果,細調整BERTは,高い精度,F1スコア,精度,リコールを達成し,他の3つの手法よりも優れていた。 Binary Relevanceはこのデータセットでもよく機能し、Classifier ChainsとLabel Powersetは比較的低いパフォーマンスを示している。 これらの知見は,多言語テキスト分類タスクにおける細調整BERTの有効性を浮き彫りにし,複雑で多面的なテキスト分析を目指す企業にとって有用なツールである可能性が示唆された。

In this study, we compared the performance of four different methods for multi label text classification using a specific imbalanced business dataset. The four methods we evaluated were fine tuned BERT, Binary Relevance, Classifier Chains, and Label Powerset. The results show that fine tuned BERT outperforms the other three methods by a significant margin, achieving high values of accuracy, F1 Score, Precision, and Recall. Binary Relevance also performs well on this dataset, while Classifier Chains and Label Powerset demonstrate relatively poor performance. These findings highlight the effectiveness of fine tuned BERT for multi label text classification tasks, and suggest that it may be a useful tool for businesses seeking to analyze complex and multifaceted texts.
翻訳日:2023-06-13 14:48:31 公開日:2023-06-12
# データ駆動型一般化2次元四元数主成分分析とカラー顔認識への応用

Data-Driven Bilateral Generalized Two-Dimensional Quaternion Principal Component Analysis with Application to Color Face Recognition ( http://arxiv.org/abs/2306.07045v1 )

ライセンス: Link先を確認
Mei-Xiang Zhao, Zhi-Gang Jia, Dun-Wei Gong and Yong Zhang(参考訳) 新しいデータ駆動型一般化2次元四元数成分分析法 (BiG2DQPCA) を提案し, 列方向と列方向の両方から行列標本の特徴を抽出した。 この一般的なフレームワークは、ベクトル化せずに直接2次元カラー画像に作用し、空間情報や色情報を適切に保存する。 BiG2DQPCAの一般化リッジ回帰モデルが最初に提案される。 デフレ化手法とマイナライズ最大化の枠組みを応用し,big2dqpcaの最適特徴を計算する新しい四元最適化アルゴリズムを提案し,各イテレーションでクローズドフォーム解を求める。 BiG2DQPCAに基づく新しいアプローチは、新しいデータ駆動重み付け技術を用いて、顔の色認識と画像再構成を行う。 実用カラー顔データベース上で十分な数値実験を行い,認識精度と画像再構成率の観点から,最先端手法よりもbig2dqpcaが優れていることを示す。

A new data-driven bilateral generalized two-dimensional quaternion principal component analysis (BiG2DQPCA) is presented to extract the features of matrix samples from both row and column directions. This general framework directly works on the 2D color images without vectorizing and well preserves the spatial and color information, which makes it flexible to fit various real-world applications. A generalized ridge regression model of BiG2DQPCA is firstly proposed with orthogonality constrains on aimed features. Applying the deflation technique and the framework of minorization-maximization, a new quaternion optimization algorithm is proposed to compute the optimal features of BiG2DQPCA and a closed-form solution is obtained at each iteration. A new approach based on BiG2DQPCA is presented for color face recognition and image reconstruction with a new data-driven weighting technique. Sufficient numerical experiments are implemented on practical color face databases and indicate the superiority of BiG2DQPCA over the state-of-the-art methods in terms of recognition accuracies and rates of image reconstruction.
翻訳日:2023-06-13 14:48:17 公開日:2023-06-12
# トランスフォーマーは段階的なランクアップを通じて学ぶ

Transformers learn through gradual rank increase ( http://arxiv.org/abs/2306.07042v1 )

ライセンス: Link先を確認
Enric Boix-Adsera, Etai Littwin, Emmanuel Abbe, Samy Bengio, Joshua Susskind(参考訳) 我々は、トレーニングされた重みと初期重みの差が徐々にランクアップするトランスフォーマーにおけるインクリメンタルな学習ダイナミクスを特定する。 我々は、対角行列の単純化と小さな初期化の下で、これを厳密に証明する。 この理論を支持する実験を行い, 仮定を単純化することなく現象を実際に発生させることができることを示した。

We identify incremental learning dynamics in transformers, where the difference between trained and initial weights progressively increases in rank. We rigorously prove this occurs under the simplifying assumptions of diagonal weight matrices and small initialization. Our experiments support the theory and also show that phenomenon can occur in practice without the simplifying assumptions.
翻訳日:2023-06-13 14:48:00 公開日:2023-06-12
# コロイドMoS2ナノ構造の温度変化とその光学特性への影響

Morphology Transition with Temperature and their Effect on Optical Properties of Colloidal MoS2 Nanostructures ( http://arxiv.org/abs/2306.07093v1 )

ライセンス: Link先を確認
Simran Lambora, Asha Bhardwaj(参考訳) モルフォロジーは、閉じ込め効果によるナノ材料の化学的および光学的性質を決定する上で重要な役割を担っている。 我々は,コロイド状モリブデンジスルフィド (MoS2) ナノ構造を, 量子ドット (QD) とナノシートの混合から, 合成反応温度を90度から160度に変化させることにより, 主にナノロッドへと変化させ, エネルギー分散X線分光法とX線光電子分光法を用いて, 合成したQD, ナノシートおよびナノロッドの電気化学量と組成をMoS2に定量した。 反応温度の変化によるナノ構造のモルフォロジー遷移により、光ルミネッセンス量子収率は90度から120度に上昇すると0から4.4%に増大し、さらに温度が160度cに上昇すると、量子収率は2.63%に低下する。 反応温度が90度から160度に上昇する合成ナノ構造に対して, 発光最大値と吸収エッジにおける18nmと140nmの赤色シフトが観察された。 非古典的成長機構によって説明される温度によるコロイドmos2ナノ構造形状と光学的性質の初回微視的解析を行った。

Morphology plays a crucial role in deciding the chemical and optical properties of nanomaterials due to confinement effects. We report the morphology transition of colloidal molybdenum disulfide (MoS2) nanostructures, synthesized by one pot heat-up method, from mix of quantum dots (QDs) and nanosheets to predominantly nanorods by varying the synthesis reaction temperature from 90 to 160 degree C. The stoichiometry and composition of the synthesized QDs, nanosheets and nanorods have been quantified to be MoS2 using energy dispersive X-ray spectroscopy and X-ray photoelectron spectroscopy analysis. Nanostructure morphology transition due to variation in reaction temperature has resulted in photoluminescence quantum yield enhancement from zero to 4.4% on increase in temperature from 90 to 120 degree C. On further increase in temperature to 160 degree C, a decrease in quantum yield to 2.63% is observed. A red shift of 18 nm and 140 nm in the emission maxima and absorption edge respectively is observed for the synthesized nanostructures with increase in reaction temperature from 90 to 160 degree C. The change in the quantum yield is attributed to the change in shape and hence confinement of charge carriers. To the best of our knowledge, first-time microscopic analysis of colloidal MoS2 nanostructures shape and optical property variation with temperature explained by non-classical growth mechanism is presented.
翻訳日:2023-06-13 14:43:07 公開日:2023-06-12
# 安全なベイズ最適化による移動制御器のチューニング

Tuning Legged Locomotion Controllers via Safe Bayesian Optimization ( http://arxiv.org/abs/2306.07092v1 )

ライセンス: Link先を確認
Daniel Widmer, Dongho Kang, Bhavya Sukhija, Jonas H\"ubotter, Andreas Krause, Stelian Coros(参考訳) 本稿では,ロボットハードウェアプラットフォームにおけるモデルベースコントローラの配置を簡素化するためのデータ駆動戦略を提案する。 本手法は,制御体系における単純化されたモデルと実システムとのミスマッチを解消し,制御ゲインのチューニングを自動化するためのモデルフリーセーフラーニングアルゴリズムを活用する。 この方法は、おそらく安全な領域内でサンプル効率良くパラメータを最適化することにより、ロボットとの危険な相互作用のリスクを実質的に軽減する。 さらに、異なる歩行パラメータをコンテキストとして組み込むためのアプローチの適用性を拡張し、多様な歩行パターンに対してモーションコントローラをチューニングできる安全なサンプル効率探索アルゴリズムを実現する。 本手法をシミュレーションとハードウェア実験により検証し,複数の歩行に対するモデルベースモーションコントローラのチューニング性能が良好であることを実証した。

In this paper, we present a data-driven strategy to simplify the deployment of model-based controllers in legged robotic hardware platforms. Our approach leverages a model-free safe learning algorithm to automate the tuning of control gains, addressing the mismatch between the simplified model used in the control formulation and the real system. This method substantially mitigates the risk of hazardous interactions with the robot by sample-efficiently optimizing parameters within a probably safe region. Additionally, we extend the applicability of our approach to incorporate the different gait parameters as contexts, leading to a safe, sample-efficient exploration algorithm capable of tuning a motion controller for diverse gait patterns. We validate our method through simulation and hardware experiments, where we demonstrate that the algorithm obtains superior performance on tuning a model-based motion controller for multiple gaits safely.
翻訳日:2023-06-13 14:42:38 公開日:2023-06-12
# 分断された肺気道・容器のトポロジー修復:ベースラインとデータセット

Topology Repairing of Disconnected Pulmonary Airways and Vessels: Baselines and a Dataset ( http://arxiv.org/abs/2306.07089v1 )

ライセンス: Link先を確認
Ziqiao Weng, Jiancheng Yang, Dongnan Liu, Weidong Cai(参考訳) 肺疾患の診断と治療には, 肺気道および血管の正確な分断が重要である。 しかし、現在のディープラーニングアプローチは、その臨床的有用性を阻害する分離性の問題に苦しむ。 この課題に対処するために, 分離肺管状構造のトポロジーを修復するためにデータ駆動法を応用した後処理手法を提案する。 我々のアプローチは、ニューラルネットワークが非接続なコンポーネントをブリッジできるキーポイントを予測するために訓練されるキーポイント検出タスクとして問題を定式化する。 完全肺構造から分離したデータを生成するトレーニングデータ合成パイプラインを使用する。 さらに、肺気道、動脈、静脈の800の完全な3Dモデルと合成切断データを含む新しい肺樹修復データセットが公開されている。 私たちのコードとデータはhttps://github.com/m3dv/pulmonary-tree-repairingで入手できます。

Accurate segmentation of pulmonary airways and vessels is crucial for the diagnosis and treatment of pulmonary diseases. However, current deep learning approaches suffer from disconnectivity issues that hinder their clinical usefulness. To address this challenge, we propose a post-processing approach that leverages a data-driven method to repair the topology of disconnected pulmonary tubular structures. Our approach formulates the problem as a keypoint detection task, where a neural network is trained to predict keypoints that can bridge disconnected components. We use a training data synthesis pipeline that generates disconnected data from complete pulmonary structures. Moreover, the new Pulmonary Tree Repairing (PTR) dataset is publicly available, which comprises 800 complete 3D models of pulmonary airways, arteries, and veins, as well as the synthetic disconnected data. Our code and data are available at https://github.com/M3DV/pulmonary-tree-repairing.
翻訳日:2023-06-13 14:42:23 公開日:2023-06-12
# MaskedFusion360:カメラ機能クエリによるLiDARデータ再構成

MaskedFusion360: Reconstruct LiDAR Data by Querying Camera Features ( http://arxiv.org/abs/2306.07087v1 )

ライセンス: Link先を確認
Royden Wagner, Marvin Klemp, Carlos Fernandez Lopez(参考訳) 自動運転アプリケーションでは、LiDARデータは3Dにおける距離に関する正確な情報を提供するが、カメラデータのセマンティック・リッチネスは欠如している。 したがって,都市景観の知覚に関する最先端の手法は,両センサタイプからのデータを融合させる。 本研究では,LiDARとカメラデータを融合する新たな自己教師手法を提案する。 我々は、マスク付きオートエンコーダ(MAE)をベースとした深層学習モデルを構築し、融合LiDARとカメラ機能からマスク付きLiDARデータを再構成する。 鳥眼視表現を用いる関連手法とは対照的に,密集した球面ライダー投影から特徴を融合し,同様の視野で魚眼カメラから特徴を抽出した。 したがって、学習した空間変換を中程度の視点変換に還元し、高密度LiDAR表現を生成するために追加のモジュールを必要としない。 https://github.com/KIT-MRT/masked-fusion-360

In self-driving applications, LiDAR data provides accurate information about distances in 3D but lacks the semantic richness of camera data. Therefore, state-of-the-art methods for perception in urban scenes fuse data from both sensor types. In this work, we introduce a novel self-supervised method to fuse LiDAR and camera data for self-driving applications. We build upon masked autoencoders (MAEs) and train deep learning models to reconstruct masked LiDAR data from fused LiDAR and camera features. In contrast to related methods that use birds-eye-view representations, we fuse features from dense spherical LiDAR projections and features from fish-eye camera crops with a similar field of view. Therefore, we reduce the learned spatial transformations to moderate perspective transformations and do not require additional modules to generate dense LiDAR representations. Code is available at: https://github.com/KIT-MRT/masked-fusion-360
翻訳日:2023-06-13 14:42:09 公開日:2023-06-12
# LUT-GCE: 高速低照度画像強調のためのルックアップテーブルグローバル曲線推定

LUT-GCE: Lookup Table Global Curve Estimation for Fast Low-light Image Enhancement ( http://arxiv.org/abs/2306.07083v1 )

ライセンス: Link先を確認
Changguang Wu, Jiangxin Dong, Jinhui Tang(参考訳) 本稿では,Lookup Table Global Curve Estimation (LUT-GCE) という,低照度画像強調のための効果的かつ効率的な手法を提案する。 画素単位で調整した既存の曲線法とは対照的に,画像全体の大域的な曲線を推定し,アンダー・エクスプロイアとオーバー・エクスプロイアの両方の補正を可能にする。 具体的には、光強調のための新しい立方曲線定式化を開発し、画像のレンジ調整のための画像適応および画素非依存曲線を可能にする。 次に,25.4kのパラメータしか持たない超軽量ネットワークであるグローバル曲線推定ネットワーク(gcenet)を提案する。 推論速度をさらに高速化するために、高速な検索にルックアップテーブル法を用いる。 さらに、画像のコントラストを改善し、より鮮明な詳細を回復できるゼロショット学習を可能にするために、新しいヒストグラムの滑らかさ損失を設計する。 定量的および定性的な結果は,提案手法の有効性を示す。 さらに,提案手法は,特に高精細画像(例えば,1080p,4k)において,推論速度の観点から技術状況よりも優れる。

We present an effective and efficient approach for low-light image enhancement, named Lookup Table Global Curve Estimation (LUT-GCE). In contrast to existing curve-based methods with pixel-wise adjustment, we propose to estimate a global curve for the entire image that allows corrections for both under- and over-exposure. Specifically, we develop a novel cubic curve formulation for light enhancement, which enables an image-adaptive and pixel-independent curve for the range adjustment of an image. We then propose a global curve estimation network (GCENet), a very light network with only 25.4k parameters. To further speed up the inference speed, a lookup table method is employed for fast retrieval. In addition, a novel histogram smoothness loss is designed to enable zero-shot learning, which is able to improve the contrast of the image and recover clearer details. Quantitative and qualitative results demonstrate the effectiveness of the proposed approach. Furthermore, our approach outperforms the state of the art in terms of inference speed, especially on high-definition images (e.g., 1080p and 4k).
翻訳日:2023-06-13 14:41:54 公開日:2023-06-12
# 潜時動的インシシシト拡散過程

Latent Dynamical Implicit Diffusion Processes ( http://arxiv.org/abs/2306.07077v1 )

ライセンス: Link先を確認
Mohammad R. Rezaei(参考訳) 潜時力学モデルは、雑音の多いデータサンプルの列を表す潜時力学過程の分布を学習するために一般的に用いられる。 しかし, 潜水・観測力学の複雑さと変動性から, 忠実度の高いモデルから試料を作成することは困難である。 DDPMやNCSNのような拡散型生成モデルの最近の進歩は、従来の分布から高品質な逐次サンプルを生成するために、Neural ODE、RNN、正規化フローネットワークといった最先端の潜時生成モデルに代わる有望な選択肢を示している。 しかし, 逐次モデルを用いた逐次データモデリングへの応用はまだ検討されていない。 そこで本研究では, 動的潜伏過程からのサンプル生成に暗黙的拡散過程を利用し, 逐次観測サンプルを生成する, 潜伏動的暗黙的拡散過程 (ldidps) と呼ばれる新しい潜伏変数モデルを提案する。 合成およびシミュレートされたニューラルデコード問題に対してLDIDPを試験した。 ldidpは潜在次元上のダイナミクスを正確に学習できることを実証する。 さらに, 暗黙的サンプリング法により, 潜在空間および観測空間から高品質な逐次データサンプルを計算効率良く生成することができる。

Latent dynamical models are commonly used to learn the distribution of a latent dynamical process that represents a sequence of noisy data samples. However, producing samples from such models with high fidelity is challenging due to the complexity and variability of latent and observation dynamics. Recent advances in diffusion-based generative models, such as DDPM and NCSN, have shown promising alternatives to state-of-the-art latent generative models, such as Neural ODEs, RNNs, and Normalizing flow networks, for generating high-quality sequential samples from a prior distribution. However, their application in modeling sequential data with latent dynamical models is yet to be explored. Here, we propose a novel latent variable model named latent dynamical implicit diffusion processes (LDIDPs), which utilizes implicit diffusion processes to sample from dynamical latent processes and generate sequential observation samples accordingly. We tested LDIDPs on synthetic and simulated neural decoding problems. We demonstrate that LDIDPs can accurately learn the dynamics over latent dimensions. Furthermore, the implicit sampling method allows for the computationally efficient generation of high-quality sequential data samples from the latent and observation spaces.
翻訳日:2023-06-13 14:41:33 公開日:2023-06-12
# 税務弁護士としての大規模言語モデル--法的能力の出現を事例として

Large Language Models as Tax Attorneys: A Case Study in Legal Capabilities Emergence ( http://arxiv.org/abs/2306.07075v1 )

ライセンス: Link先を確認
John J. Nay, David Karamardian, Sarah B. Lawsky, Wenting Tao, Meghana Bhat, Raghav Jain, Aaron Travis Lee, Jonathan H. Choi, Jungo Kasai(参考訳) LLM(Large Language Models)の法解析能力の理解の向上は、法律サービスの効率の向上、人工知能の管理、LLMの活用による法の矛盾の特定に寄与する。 本稿では,税法適用におけるLLM機能について考察する。 何千もの例にまたがって自動検証パイプラインをセットアップし、論理的推論と数学のスキルを必要とし、市民や企業の実際の経済生活に関連する方法でllmの能力をテストすることができる構造を持っているため、この領域を選択します。 実験では,その後のOpenAIモデルリリースにおけるパフォーマンスの向上とともに,新たな法的理解能力を示す。 我々は、LLMに追加の法的文脈を提供することの影響を評価するために、関連する法的権限の取得と活用を試みている。 最も先進的なモデルであるgpt-4の性能を著しく向上させるのが、質問と回答のペアの例を示す、少数ショットプロンプトである。 以上の結果から, LLMは特に, 改善の促進と適切な法的文章とを組み合わせれば, 高い精度で実行可能であるが, 専門家の税理士レベルではまだ実行できないことが示唆された。 LLMが進歩を続けるにつれて、法律を自律的に推論する能力は、法律専門家やAIガバナンスに重大な影響を及ぼす可能性がある。

Better understanding of Large Language Models' (LLMs) legal analysis abilities can contribute to improving the efficiency of legal services, governing artificial intelligence, and leveraging LLMs to identify inconsistencies in law. This paper explores LLM capabilities in applying tax law. We choose this area of law because it has a structure that allows us to set up automated validation pipelines across thousands of examples, requires logical reasoning and maths skills, and enables us to test LLM capabilities in a manner relevant to real-world economic lives of citizens and companies. Our experiments demonstrate emerging legal understanding capabilities, with improved performance in each subsequent OpenAI model release. We experiment with retrieving and utilising the relevant legal authority to assess the impact of providing additional legal context to LLMs. Few-shot prompting, presenting examples of question-answer pairs, is also found to significantly enhance the performance of the most advanced model, GPT-4. The findings indicate that LLMs, particularly when combined with prompting enhancements and the correct legal texts, can perform at high levels of accuracy but not yet at expert tax lawyer levels. As LLMs continue to advance, their ability to reason about law autonomously could have significant implications for the legal profession and AI governance.
翻訳日:2023-06-13 14:41:01 公開日:2023-06-12
# ニューラルネットワークによる外惑星大気中の不平衡化学計算の高速化

Using a neural network approach to accelerate disequilibrium chemistry calculations in exoplanet atmospheres ( http://arxiv.org/abs/2306.07074v1 )

ライセンス: Link先を確認
Julius L. A. M. Hendrix, Amy J. Louca, Yamila Miguel(参考訳) JWSTによる外惑星の特徴付けの時代において、外惑星大気の化学的および物理的過程を理解するために古典的な前方モデルの迅速な実装の必要性はこれまで以上に重要である。 特に、化学動力学符号で解く時間依存常微分方程式は計算に非常に時間がかかる。 本研究では,1次元化学動力学符号の数学的枠組みを置き換えるニューラルネットワークの実装に焦点を当てた。 ニューラルネットワークは、自由パラメータとして、重力プロファイル、温度-圧力プロファイル、初期混合比、および熱-jupiters大気サンプルの恒星フラックスを用いて、定常状態における混合比出力を予測する。 ネットワークのアーキテクチャは、入力変数ごとに個別のオートエンコーダで構成され、入力次元を減少させ、LSTMのようなニューラルネットワークの入力トレーニングデータとして使用される。 その結果, 混合比, 恒星スペクトル, 圧力プロファイルのオートエンコーダは, データの符号化および復号化に極めて成功していることがわかった。 その結果,90%のケースにおいて,十分に訓練されたモデルが熱・木星大気シミュレーションにおいて,種の混合率を推定できることがわかった。 完全に訓練されたモデルは、正確に予測しながら、前方の化学動力学モデルで行うシミュレーションの約1000倍高速である。

In this era of exoplanet characterisation with JWST, the need for a fast implementation of classical forward models to understand the chemical and physical processes in exoplanet atmospheres is more important than ever. Notably, the time-dependent ordinary differential equations to be solved by chemical kinetics codes are very time-consuming to compute. In this study, we focus on the implementation of neural networks to replace mathematical frameworks in one-dimensional chemical kinetics codes. Using the gravity profile, temperature-pressure profiles, initial mixing ratios, and stellar flux of a sample of hot-Jupiters atmospheres as free parameters, the neural network is built to predict the mixing ratio outputs in steady state. The architecture of the network is composed of individual autoencoders for each input variable to reduce the input dimensionality, which is then used as the input training data for an LSTM-like neural network. Results show that the autoencoders for the mixing ratios, stellar spectra, and pressure profiles are exceedingly successful in encoding and decoding the data. Our results show that in 90% of the cases, the fully trained model is able to predict the evolved mixing ratios of the species in the hot-Jupiter atmosphere simulations. The fully trained model is ~1000 times faster than the simulations done with the forward, chemical kinetics model while making accurate predictions.
翻訳日:2023-06-13 14:40:21 公開日:2023-06-12
# 非対称信頼区間を有する予算付きマルチアームバンディット

Budgeted Multi-Armed Bandits with Asymmetric Confidence Intervals ( http://arxiv.org/abs/2306.07071v1 )

ライセンス: Link先を確認
Marco Heyden, Vadim Arzamasov, Edouard Fouch\'e, Klemens B\"ohm(参考訳) 確率的Budgeted Multi-Armed Bandit (MAB) 問題について検討し、プレイヤーが期待できない報酬とコストでK$アームから選択する。 目標は、予算制約の下での全報酬を最大化することです。 プレイヤーは、最も高い報酬コスト比率の腕をできるだけ頻繁に選択しようとする。 この問題に対する現在の最先端のポリシーにはいくつかの問題がある。 そこで本稿では,非対称な信頼区間を用いた新しい高信頼境界(UCB)サンプリングポリシーである$\omega$-UCBを提案する。 これらの間隔は、サンプル平均とランダム変数の境界との間の距離でスケールし、我々の競合相手と比較してより正確で厳密な報酬コスト比を推定する。 我々のアプローチは対数的後悔であり、合成および実環境における既存のポリシーを一貫して上回っていることを示す。

We study the stochastic Budgeted Multi-Armed Bandit (MAB) problem, where a player chooses from $K$ arms with unknown expected rewards and costs. The goal is to maximize the total reward under a budget constraint. A player thus seeks to choose the arm with the highest reward-cost ratio as often as possible. Current state-of-the-art policies for this problem have several issues, which we illustrate. To overcome them, we propose a new upper confidence bound (UCB) sampling policy, $\omega$-UCB, that uses asymmetric confidence intervals. These intervals scale with the distance between the sample mean and the bounds of a random variable, yielding a more accurate and tight estimation of the reward-cost ratio compared to our competitors. We show that our approach has logarithmic regret and consistently outperforms existing policies in synthetic and real settings.
翻訳日:2023-06-13 14:39:46 公開日:2023-06-12
# 目標指向自己組織化のための局所適応型セルオートマトン

Locally adaptive cellular automata for goal-oriented self-organization ( http://arxiv.org/abs/2306.07067v1 )

ライセンス: Link先を確認
Sina Khajehabdollahi, Emmanouil Giannakakis, Victor Buendia, Georg Martius, Anna Levina(参考訳) 出現現象を研究するための重要な要素は、大規模にまたがる創発的なシステムを生成・操作する能力である。 セルオートマトン(cellal automata)は、その効果的なスケーラビリティで特に知られているモデルクラスであるが、通常は固定されたローカルルールによって制限される。 本稿では,スケーラブルで表現豊かなモデルを生成するための適応セルオートマトンの新しいモデルクラスを提案する。 本稿では,セルオートマトンとシステム状態の更新ルールを局所的に結合することで,計算効率を向上させる方法を示す。 このアプローチの適用例を示すために,自己組織型イジングモデルと2種類のプラスティックニューラルネットワーク,レートとスパイクモデルという2つの異なる創発モデルを実装した。 イジングモデルを用いて,局所的/グローバル的温度と局所的/グローバル的な温度との結合が,臨界温度付近に留まるようにモデルを調整できることを示す。 ニューラルモデルを用いて、興奮性および抑制性ニューロンと様々な可塑性機構を持つ大電流ニューロンネットワークにおいて古典的平衡状態を再現する。 我々の研究は集団行動と出現を研究するための複数の方向を開く。

The essential ingredient for studying the phenomena of emergence is the ability to generate and manipulate emergent systems that span large scales. Cellular automata are the model class particularly known for their effective scalability but are also typically constrained by fixed local rules. In this paper, we propose a new model class of adaptive cellular automata that allows for the generation of scalable and expressive models. We show how to implement computation-effective adaptation by coupling the update rule of the cellular automaton with itself and the system state in a localized way. To demonstrate the applications of this approach, we implement two different emergent models: a self-organizing Ising model and two types of plastic neural networks, a rate and spiking model. With the Ising model, we show how coupling local/global temperatures to local/global measurements can tune the model to stay in the vicinity of the critical temperature. With the neural models, we reproduce a classical balanced state in large recurrent neuronal networks with excitatory and inhibitory neurons and various plasticity mechanisms. Our study opens multiple directions for studying collective behavior and emergence.
翻訳日:2023-06-13 14:39:30 公開日:2023-06-12
# 平均化」による不均一時系列予測の改善と食料需要予測への応用

Improving Forecasts for Heterogeneous Time Series by "Averaging", with Application to Food Demand Forecast ( http://arxiv.org/abs/2306.07119v1 )

ライセンス: Link先を確認
Lukas Neubauer, Peter Filzmoser(参考訳) 実世界のアプリケーションにおける一般的な予測設定は、同一領域のおそらく異種時系列の集合を考える。 長さなどの各時系列の特性が異なるため、各時系列の予測を直進的に得ることは困難である。 本稿では,k-ネアレスト近傍の近傍に類似する時系列を探索するために,動的時間ウォーピングにおける類似度尺度を用いた一般的な枠組みを提案し,平均化による簡易モデルの予測を改善する。 平均化を行ういくつかの方法が提案され、理論的議論は平均化が予測に有用であることを示す。 さらに、診断ツールの提案により、手順の深い理解が可能になる。

A common forecasting setting in real world applications considers a set of possibly heterogeneous time series of the same domain. Due to different properties of each time series such as length, obtaining forecasts for each individual time series in a straight-forward way is challenging. This paper proposes a general framework utilizing a similarity measure in Dynamic Time Warping to find similar time series to build neighborhoods in a k-Nearest Neighbor fashion, and improve forecasts of possibly simple models by averaging. Several ways of performing the averaging are suggested, and theoretical arguments underline the usefulness of averaging for forecasting. Additionally, diagnostics tools are proposed allowing a deep understanding of the procedure.
翻訳日:2023-06-13 14:31:53 公開日:2023-06-12
# Androidマルウェア検出のための機械学習パイプライン構築について--実践、課題、機会の手続き的調査

On building machine learning pipelines for Android malware detection: a procedural survey of practices, challenges and opportunities ( http://arxiv.org/abs/2306.07118v1 )

ライセンス: Link先を確認
Masoud Mehrabi Koushki, Ibrahim AbuAlhaol, Anandharaju Durai Raju, Yang Zhou, Ronnie Salvador Giagone and Huang Shengqiang(参考訳) スマートフォン市場のリーダーとして、Androidはマルウェア攻撃の目玉ターゲットとなっている。 悪質なアプリケーション(アプリ)の数は過去10年間で継続的に増加しており、関係者全員にとって大きな課題となっている。 特に市場保有者や研究者にとって、多数のサンプルが手動によるマルウェア検出を不可能にしているため、このプロセスを自動化する機械学習(ML)アプローチを調査する研究が流入している。 しかし,提案手法のいくつかは高い性能を実現する一方で,急速に進化するAndroidマルウェアは,時間とともに精度を維持することができない。 これにより、コミュニティはさらなる研究を行い、より柔軟なMLパイプラインを構築する必要がある。 しかし、現在、既存のソリューションから学び、改善するために、既存の文献の体系的な概要が欠如しているために妨げられている。 既存の調査論文では、MLプロセスの一部(例えば、データ収集やモデル展開)のみに焦点を当て、モデル評価や説明のような他の重要なステージを省略することが多い。 本稿では,10年にわたる研究(2011年~2021年)にまたがる42の論文のレビューを通じて,この問題に対処する。 そこで,本論文では,mlアルゴリズムの活用方法,設計した特徴,採用した次元化手法,トレーニングに用いたデータセット,評価と説明戦略について紹介する。 この分類から、知識のギャップを特定し、改善と将来の仕事のためのアイデアを提供する。

As the smartphone market leader, Android has been a prominent target for malware attacks. The number of malicious applications (apps) identified for it has increased continually over the past decade, creating an immense challenge for all parties involved. For market holders and researchers, in particular, the large number of samples has made manual malware detection unfeasible, leading to an influx of research that investigate Machine Learning (ML) approaches to automate this process. However, while some of the proposed approaches achieve high performance, rapidly evolving Android malware has made them unable to maintain their accuracy over time. This has created a need in the community to conduct further research, and build more flexible ML pipelines. Doing so, however, is currently hindered by a lack of systematic overview of the existing literature, to learn from and improve upon the existing solutions. Existing survey papers often focus only on parts of the ML process (e.g., data collection or model deployment), while omitting other important stages, such as model evaluation and explanation. In this paper, we address this problem with a review of 42 highly-cited papers, spanning a decade of research (from 2011 to 2021). We introduce a novel procedural taxonomy of the published literature, covering how they have used ML algorithms, what features they have engineered, which dimensionality reduction techniques they have employed, what datasets they have employed for training, and what their evaluation and explanation strategies are. Drawing from this taxonomy, we also identify gaps in knowledge and provide ideas for improvement and future work.
翻訳日:2023-06-13 14:31:42 公開日:2023-06-12
# 交渉の言語

Language of Bargaining ( http://arxiv.org/abs/2306.07117v1 )

ライセンス: Link先を確認
Mourad Heddaya, Solomon Dworkin, Chenhao Tan, Rob Voigt, Alexander Zentefis(参考訳) 交渉教育における確立した活動を活用して,言語活用が二国間交渉をどのように形作るかを研究するための新しいデータセットを構築した。 私たちのデータセットは、既存の作業を2つの方法で拡張します。 1)クラウドソーシングプラットフォームではなく行動実験室を通じて参加者を募集し、参加者が音声で交渉できるようにし、より自然主義的な対話を可能にします。 2) 参加者が交互に記入した数値提示によってのみ交渉を行う制御設定を付加するが, 対照的な2つのコミュニケーション形態は, 両者の平均的な合意価格が同一であることに留意する。 しかし、議題が話し合えると、提案の交換が減り、交渉が早く終了し、合意に達する可能性が高くなり、議題が同意する価格のばらつきが著しく低下する。 さらに,交渉における発話行為の分類法を提案し,注釈付き発話行為でデータセットを豊かにする。 交渉の成功を予測するための予測タスクを設定し、相手の議論に反応することが交渉を進める上で有利であることを見出します。

Leveraging an established exercise in negotiation education, we build a novel dataset for studying how the use of language shapes bilateral bargaining. Our dataset extends existing work in two ways: 1) we recruit participants via behavioral labs instead of crowdsourcing platforms and allow participants to negotiate through audio, enabling more naturalistic interactions; 2) we add a control setting where participants negotiate only through alternating, written numeric offers.Despite the two contrasting forms of communication, we find that the average agreed prices of the two treatments are identical. But when subjects can talk, fewer offers are exchanged, negotiations finish faster, the likelihood of reaching agreement rises, and the variance of prices at which subjects agree drops substantially. We further propose a taxonomy of speech acts in negotiation and enrich the dataset with annotated speech acts. We set up prediction tasks to predict negotiation success and find that being reactive to the arguments of the other party is advantageous over driving the negotiation.
翻訳日:2023-06-13 14:31:18 公開日:2023-06-12
# 救急コールセンターにおけるマルチモーダル感情認識のための注意機構の探索

Exploring Attention Mechanisms for Multimodal Emotion Recognition in an Emergency Call Center Corpus ( http://arxiv.org/abs/2306.07115v1 )

ライセンス: Link先を確認
Th\'eo Deschamps-Berger, Lori Lamel, Laurence Devillers(参考訳) 人間の意思決定を強化する感情検出技術は、現実世界のアプリケーションにとって重要な研究課題であるが、現実の感情データセットは比較的稀で小さい。 本稿では,フランスの救急コールセンターで収集したCEMOを用いて実験を行った。 音声とテキストに基づく2つの事前学習モデルを用いて,音声感情認識のための微調整を行った。 トレーニング済みのTransformerエンコーダを使用することで、データの制限とスパースの性質が軽減される。 本稿では,これらのモダリティ特化モデルの融合戦略について検討する。 特に,音声エンコーダとテキストエンコーダの両方から最も関連性の高い情報を収集するために,クロスアテンション機構と無関係の融合試験を行った。 マルチモーダル融合は,単一モダリティのいずれにおいても絶対的に4-9%の利得をもたらし,対称多頭クロス・アテンション機構は後期古典的核融合のアプローチよりも優れた性能を示した。 また,実生活のcemoコーパスでは,音声成分がテキストよりも感情的な情報を符号化することを示す。

The emotion detection technology to enhance human decision-making is an important research issue for real-world applications, but real-life emotion datasets are relatively rare and small. The experiments conducted in this paper use the CEMO, which was collected in a French emergency call center. Two pre-trained models based on speech and text were fine-tuned for speech emotion recognition. Using pre-trained Transformer encoders mitigates our data's limited and sparse nature. This paper explores the different fusion strategies of these modality-specific models. In particular, fusions with and without cross-attention mechanisms were tested to gather the most relevant information from both the speech and text encoders. We show that multimodal fusion brings an absolute gain of 4-9% with respect to either single modality and that the Symmetric multi-headed cross-attention mechanism performed better than late classical fusion approaches. Our experiments also suggest that for the real-life CEMO corpus, the audio component encodes more emotive information than the textual one.
翻訳日:2023-06-13 14:31:02 公開日:2023-06-12
# 多変量時系列異常検出のための結合注意ネットワーク

Coupled Attention Networks for Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2306.07114v1 )

ライセンス: Link先を確認
Feng Xia, Xin Chen, Shuo Yu, Mingliang Hou, Mujie Liu, Linlin You(参考訳) 多変量時系列異常検出(MTAD)は、様々な現実世界のアプリケーション領域において重要な役割を果たす。 過去数年間、MTADは学術と産業の両方から急速に注目を集めてきた。 多くのディープラーニングとグラフ学習モデルは、多変量時系列データにおける効果的な異常検出のために開発されており、スマート監視や前例のない機能を備えたリスク管理といった高度なアプリケーションを可能にする。 それでもMTADは、センサーと変数間の依存関係から生じる重要な課題に直面している。 本稿では,動的変数関係を特徴とする多変量時系列データにおける異常検出のための統合注意型ニューラルネットワークフレームワーク(can)を提案する。 適応グラフ学習法とグラフ注意法を組み合わせることで,センサ間のグローバル相関と動的局所相関の両方を表現するグローバル局所グラフを生成する。 センサ間の関係と時間的依存関係を捉えるため、グローバルローカルグラフに基づく畳み込みニューラルネットワークを時間的自己認識モジュールに統合し、結合された注目モジュールを構築する。 さらに,多変量時系列データのキャラクタリゼーションを改善するために,再構成や予測処理が可能なマルチレベルエンコーダデコーダアーキテクチャを開発した。 提案したCANアプローチの性能を評価するために,実世界のデータセットに関する大規模な実験が行われ,CANが最先端のベースラインを著しく上回ることを示した。

Multivariate time series anomaly detection (MTAD) plays a vital role in a wide variety of real-world application domains. Over the past few years, MTAD has attracted rapidly increasing attention from both academia and industry. Many deep learning and graph learning models have been developed for effective anomaly detection in multivariate time series data, which enable advanced applications such as smart surveillance and risk management with unprecedented capabilities. Nevertheless, MTAD is facing critical challenges deriving from the dependencies among sensors and variables, which often change over time. To address this issue, we propose a coupled attention-based neural network framework (CAN) for anomaly detection in multivariate time series data featuring dynamic variable relationships. We combine adaptive graph learning methods with graph attention to generate a global-local graph that can represent both global correlations and dynamic local correlations among sensors. To capture inter-sensor relationships and temporal dependencies, a convolutional neural network based on the global-local graph is integrated with a temporal self-attention module to construct a coupled attention module. In addition, we develop a multilevel encoder-decoder architecture that accommodates reconstruction and prediction tasks to better characterize multivariate time series data. Extensive experiments on real-world datasets have been conducted to evaluate the performance of the proposed CAN approach, and the results show that CAN significantly outperforms state-of-the-art baselines.
翻訳日:2023-06-13 14:30:44 公開日:2023-06-12
# 線形分類器:テキスト分類のためのしばしば許されるベースライン

Linear Classifier: An Often-Forgotten Baseline for Text Classification ( http://arxiv.org/abs/2306.07111v1 )

ライセンス: Link先を確認
Yu-Chen Lin, Si-An Chen, Jie-Jyun Liu, and Chih-Jen Lin(参考訳) BERTのような大規模事前学習型言語モデルは、テキスト分類の一般的なソリューションである。 これらの高度な手法の優れた性能により、今日では、いくつかの時代を直接訓練し、得られたモデルを展開することが多い。 本稿では,この方法が満足のいく結果が得られることだけを指摘する。 単語のバグ・オブ・ワード機能に線形分類器のような単純なベースラインを,高度な手法とともに実行することの重要性を論じる。 まず、多くのテキストデータに対して、線形手法は競合性能、高い効率、堅牢性を示す。 第二に、BERTのような先進的なモデルは適切に適用すれば、最良の結果しか得られない。 単純なベースラインは、高度なモデルの結果が許容できるかどうかを確認するのに役立つ。 実験結果はこれらの点を完全に裏付ける。

Large-scale pre-trained language models such as BERT are popular solutions for text classification. Due to the superior performance of these advanced methods, nowadays, people often directly train them for a few epochs and deploy the obtained model. In this opinion paper, we point out that this way may only sometimes get satisfactory results. We argue the importance of running a simple baseline like linear classifiers on bag-of-words features along with advanced methods. First, for many text data, linear methods show competitive performance, high efficiency, and robustness. Second, advanced models such as BERT may only achieve the best results if properly applied. Simple baselines help to confirm whether the results of advanced models are acceptable. Our experimental results fully support these points.
翻訳日:2023-06-13 14:30:22 公開日:2023-06-12
# 因果性を考慮した強化学習によるミニマックスレグレット最適化による対向拘束自転車

Adversarial Constrained Bidding via Minimax Regret Optimization with Causality-Aware Reinforcement Learning ( http://arxiv.org/abs/2306.07106v1 )

ライセンス: Link先を確認
Haozhe Wang, Chao Du, Panyan Fang, Li He, Liang Wang, Bo Zheng(参考訳) インターネットの普及は、オンラインオークションの仕組みによって引き起こされたオンライン広告の出現につながった。 これらの繰り返しのオークションにおいて、ソフトウェアエージェントは、長期的なユーティリティのために最適化するために集約された広告主を代表して参加する。 多様な要求を満たすために、異なる支出制約の対象となる広告目的を最適化するために入札戦略が用いられる。 既存の規制された入札に対するアプローチは、通常、訓練とテストの条件に依存しており、これは異なる当事者が競合する可能性のある目標を持つオンライン広告市場の敵意と矛盾する。 そこで,本研究では,敵対的入札環境における制約付き入札の問題を考察する。 i.d.仮定に頼るのではなく、我々の洞察は、環境の列車分布と潜在的なテスト分布を一致させることであり、一方で政策の後悔を最小限に抑えることである。 そこで本研究では,教師が教師の学習環境を学習する環境と,学習者が与えられた環境分布に関する方針をメタラーニングする環境とをインターリーブするMinimax Regret Optimization (MiRO)アプローチを提案する。 さらに,入札戦略の学習に専門家によるデモンストレーションを取り入れた。 因果対応政策設計を通じて,専門家の知識を抽出し,MiROを改良する。 産業データと合成データの両方に関する大規模な実験により、我々の手法であるMiROとCausality-aware reinforcement Learning (MiROCL)が従来の手法より30%以上優れていたことが判明した。

The proliferation of the Internet has led to the emergence of online advertising, driven by the mechanics of online auctions. In these repeated auctions, software agents participate on behalf of aggregated advertisers to optimize for their long-term utility. To fulfill the diverse demands, bidding strategies are employed to optimize advertising objectives subject to different spending constraints. Existing approaches on constrained bidding typically rely on i.i.d. train and test conditions, which contradicts the adversarial nature of online ad markets where different parties possess potentially conflicting objectives. In this regard, we explore the problem of constrained bidding in adversarial bidding environments, which assumes no knowledge about the adversarial factors. Instead of relying on the i.i.d. assumption, our insight is to align the train distribution of environments with the potential test distribution meanwhile minimizing policy regret. Based on this insight, we propose a practical Minimax Regret Optimization (MiRO) approach that interleaves between a teacher finding adversarial environments for tutoring and a learner meta-learning its policy over the given distribution of environments. In addition, we pioneer to incorporate expert demonstrations for learning bidding strategies. Through a causality-aware policy design, we improve upon MiRO by distilling knowledge from the experts. Extensive experiments on both industrial data and synthetic data show that our method, MiRO with Causality-aware reinforcement Learning (MiROCL), outperforms prior methods by over 30%.
翻訳日:2023-06-13 14:30:12 公開日:2023-06-12
# 決定境界へのヘッセンのつながりを明かす

Unveiling the Hessian's Connection to the Decision Boundary ( http://arxiv.org/abs/2306.07104v1 )

ライセンス: Link先を確認
Mahalakshmi Sabanayagam, Freya Behrens, Urte Adomaityte, Anna Dawid(参考訳) 一般化されたミニマの性質を理解することは、ディープラーニング研究の核心にある。 一方で、ニューラルネットワークの一般化は、高次元入力空間での研究が難しい決定境界複雑性と結びついている。 逆に、最小値の平坦性は一般化の議論の的となっている。 本研究は,2つのアプローチの欠落を補足し,ヘッセンのトップ固有ベクトルがニューラルネットワークによって学習された決定境界を特徴付けることを示す。 特に、ヘッセンスペクトルの外れ値の数は、決定境界の複雑さに比例する。 この知見に基づいて,高次元決定境界の複雑さを研究するための新しい簡単なアプローチを提案し,この接続が自然に新しい一般化測度を誘導することを示すとともに,一般化測度と組み合わせて極小を単純な広辺境界で正確に識別する新しいマージン推定手法を開発した。 全体として、この分析はヘッセンと決定境界の間の関係を確立し、単純で広いマージン決定境界を持つミニマを識別する新しい方法を提供する。

Understanding the properties of well-generalizing minima is at the heart of deep learning research. On the one hand, the generalization of neural networks has been connected to the decision boundary complexity, which is hard to study in the high-dimensional input space. Conversely, the flatness of a minimum has become a controversial proxy for generalization. In this work, we provide the missing link between the two approaches and show that the Hessian top eigenvectors characterize the decision boundary learned by the neural network. Notably, the number of outliers in the Hessian spectrum is proportional to the complexity of the decision boundary. Based on this finding, we provide a new and straightforward approach to studying the complexity of a high-dimensional decision boundary; show that this connection naturally inspires a new generalization measure; and finally, we develop a novel margin estimation technique which, in combination with the generalization measure, precisely identifies minima with simple wide-margin boundaries. Overall, this analysis establishes the connection between the Hessian and the decision boundary and provides a new method to identify minima with simple wide-margin decision boundaries.
翻訳日:2023-06-13 14:29:45 公開日:2023-06-12
# 半教師あり学習におけるグラフの学習

Efficiently Learning the Graph for Semi-supervised Learning ( http://arxiv.org/abs/2306.07098v1 )

ライセンス: Link先を確認
Dravyansh Sharma, Maxwell Jones(参考訳) 計算効率は、ラベルなしの例が多数あるデータセット上の半教師付き学習に古典的なグラフベースのアプローチを使用する際の大きなボトルネックである。 効率を改善する技術として一般的には、グラフ正規化の目的を近似するが、2つの大きな欠点がある。まず、グラフはヒューリスティックなハイパーパラメータ値で知られ、構築されていると仮定される。 複数のデータセットから半教師付き学習のためのグラフを同じ領域から学習する最近の研究と、グラフラプラシアン行列における線形系を解くための高速近似手法の活用を基礎として、上記の制限を克服するアルゴリズムを提案する。 スパースおよび高密度グラフファミリーの学習理論的複雑性の形式的分離を示す。 さらに,共役勾配法を用いて,スパース族から最良グラフを効率的に学習する方法を示す。 本手法は,軽度な平滑性仮定の下で,線形後悔を伴うオンライングラフを効率的に学習するためにも利用できる。 オンライン学習の結果は一般に述べられ、他の問題に対する近似的かつ効率的なパラメータチューニングに有用である。 提案手法を実装し,ベンチマークデータセット上の学習グラフを用いた半教師付き学習の先行研究に対して,重要な($10-100x)スピードアップを示す。

Computational efficiency is a major bottleneck in using classic graph-based approaches for semi-supervised learning on datasets with a large number of unlabeled examples. Known techniques to improve efficiency typically involve an approximation of the graph regularization objective, but suffer two major drawbacks - first the graph is assumed to be known or constructed with heuristic hyperparameter values, second they do not provide a principled approximation guarantee for learning over the full unlabeled dataset. Building on recent work on learning graphs for semi-supervised learning from multiple datasets for problems from the same domain, and leveraging techniques for fast approximations for solving linear systems in the graph Laplacian matrix, we propose algorithms that overcome both the above limitations. We show a formal separation in the learning-theoretic complexity of sparse and dense graph families. We further show how to approximately learn the best graphs from the sparse families efficiently using the conjugate gradient method. Our approach can also be used to learn the graph efficiently online with sub-linear regret, under mild smoothness assumptions. Our online learning results are stated generally, and may be useful for approximate and efficient parameter tuning in other problems. We implement our approach and demonstrate significant ($\sim$10-100x) speedups over prior work on semi-supervised learning with learned graphs on benchmark datasets.
翻訳日:2023-06-13 14:29:26 公開日:2023-06-12
# 視覚言語事前学習のためのグローバル・ローカルセマンティクス補完学習

Global and Local Semantic Completion Learning for Vision-Language Pre-training ( http://arxiv.org/abs/2306.07096v1 )

ライセンス: Link先を確認
Rong-Cheng Tu, Yatai Ji, Jie Jiang, Weijie Kong, Chengfei Cai, Wenzhe Zhao, Hongfa Wang, Yujiu Yang, and Wei Liu(参考訳) クロスモーダルアライメントは視覚言語事前学習(VLP)モデルにおいて重要な役割を担い、異なるモダリティ間で有意義な関連を捉えることができる。 この目的のために、NLP事前学習領域におけるマスメッド言語モデリング(MLM)タスクの成功に触発されて、VLPはクロスモーダル相互作用をさらに促進するために多くのマスメッドモデリングタスクが提案されている。 従来のマスク付きモデリングタスクの中核となる考え方は、局所的なアライメント、すなわち画像パッチとテキストトークンの関係を学習するための可視的コンテキストに基づいてマスク付きトークンを再構築することである。 しかし、そのほとんどはマスクされたデータのために生成されたグローバルセマンティック機能にほとんど注意を払わず、その結果、他のモダリティの局所的な特徴に対するグローバル表現のクロスモーダルアライメント能力が制限された。 そこで本稿では,グローバルなアライメントとローカルなアライメントを同時に実現するための,グローバルおよびローカルなセマンティックコンプリート学習(GLSCL)タスクを提案する。 特に、glsclタスクはマスクデータの欠落したセマンティクスを補完し、クロスモーダルインタラクションによってグローバルおよびローカルな特徴を回復する。 GLSCLは,マスク付きグローバルセマンティックコンプリート(MGSC)とマスク付きローカルトークンコンプリート(MLTC)から構成される。 MGSCは、下流タスクのパフォーマンスに大きな影響を与える、より代表的なグローバルな特徴の学習を促進し、MLTCはマルチモーダルデータに対する正確な理解をさらに高めることができる。 さらに,画像テキストとビデオテキストのマルチモーダルタスクを同時に実行可能にするフレキシブルなビジョンエンコーダを提案する。 実験の結果,視覚的質問応答,画像テキスト検索,ビデオテキスト検索など,様々な視覚言語ベンチマーク上での最先端性能が得られた。

Cross-modal alignment plays a crucial role in vision-language pre-training (VLP) models, enabling them to capture meaningful associations across different modalities. For this purpose, inspired by the success of masked language modeling (MLM) tasks in the NLP pre-training area, numerous masked modeling tasks have been proposed for VLP to further promote cross-modal interactions. The core idea of previous masked modeling tasks is to focus on reconstructing the masked tokens based on visible context for learning local-local alignment, i.e., associations between image patches and text tokens. However, most of them pay little attention to the global semantic features generated for the masked data, resulting in a limited cross-modal alignment ability of global representations to local features of the other modality. Therefore, in this paper, we propose a novel Global and Local Semantic Completion Learning (GLSCL) task to facilitate global-local alignment and local-local alignment simultaneously. Specifically, the GLSCL task complements the missing semantics of masked data and recovers global and local features by cross-modal interactions. Our GLSCL consists of masked global semantic completion (MGSC) and masked local token completion (MLTC). MGSC promotes learning more representative global features which have a great impact on the performance of downstream tasks, and MLTC can further enhance accurate comprehension on multimodal data. Moreover, we present a flexible vision encoder, enabling our model to simultaneously perform image-text and video-text multimodal tasks. Experimental results show that our proposed method obtains state-of-the-art performance on various vision-language benchmarks, such as visual question answering, image-text retrieval, and video-text retrieval.
翻訳日:2023-06-13 14:29:07 公開日:2023-06-12
# InstructP2P: テキスト命令で3Dポイントクラウドを編集する学習

InstructP2P: Learning to Edit 3D Point Clouds with Text Instructions ( http://arxiv.org/abs/2306.07154v1 )

ライセンス: Link先を確認
Jiale Xu, Xintao Wang, Yan-Pei Cao, Weihao Cheng, Ying Shan, Shenghua Gao(参考訳) 人間の指示に従ってタスクを実行するaiシステムを強化することで、生産性が大幅に向上する。 本稿では,ポイントクラウド上での3次元形状編集のためのエンドツーエンドフレームワークであるInstructP2Pについて述べる。 InstructP2Pは、テキスト条件のポイントクラウド拡散モデル、ポイント-E、および強力な言語モデルの強みを相乗化することにより、既存の手法の能力を拡張し、言語命令を用いた色と幾何の編集を可能にする。 そこで,instructp2pを訓練するために,形状分割データセット,市販形状プログラム,大規模言語モデルchatgptで生成された多種多様な編集命令を統合した新しい形状編集データセットを提案する。 提案手法では,特定の領域の色と形状を1つの前方パスで編集できるが,他の領域は影響を受けない。 InstructP2Pは、限られた量のデータで訓練されているにもかかわらず、新しい形状のカテゴリや指示に適応して一般化能力を示す。

Enhancing AI systems to perform tasks following human instructions can significantly boost productivity. In this paper, we present InstructP2P, an end-to-end framework for 3D shape editing on point clouds, guided by high-level textual instructions. InstructP2P extends the capabilities of existing methods by synergizing the strengths of a text-conditioned point cloud diffusion model, Point-E, and powerful language models, enabling color and geometry editing using language instructions. To train InstructP2P, we introduce a new shape editing dataset, constructed by integrating a shape segmentation dataset, off-the-shelf shape programs, and diverse edit instructions generated by a large language model, ChatGPT. Our proposed method allows for editing both color and geometry of specific regions in a single forward pass, while leaving other regions unaffected. In our experiments, InstructP2P shows generalization capabilities, adapting to novel shape categories and instructions, despite being trained on a limited amount of data.
翻訳日:2023-06-13 14:22:34 公開日:2023-06-12
# 機械翻訳における感情バイアスの測定

Measuring Sentiment Bias in Machine Translation ( http://arxiv.org/abs/2306.07152v1 )

ライセンス: Link先を確認
Kai Hartung, Aaricia Herygers, Shubham Kurlekar, Khabbab Zakaria, Taylan Volkan, S\"oren Gr\"ottrup, Munir Georges(参考訳) 生成モデルによって引き起こされるテキストに対するバイアスは近年ますます大きな話題になっている。 本稿では,感情分析モデルによって分類される感情に機械翻訳がバイアスをもたらす可能性について検討する。 そこで本研究では,2つの並列コーパス上の5つの言語に対する3つのオープンアクセス機械翻訳モデルを比較し,翻訳プロセスがテキストで認識される感情クラスの変化を引き起こすかどうかを検証する。 統計的テストではラベルの確率分布の変化が示されるが、翻訳過程によって引き起こされるバイアスを想定するほど一貫性のあるものは見当たらない。

Biases induced to text by generative models have become an increasingly large topic in recent years. In this paper we explore how machine translation might introduce a bias in sentiments as classified by sentiment analysis models. For this, we compare three open access machine translation models for five different languages on two parallel corpora to test if the translation process causes a shift in sentiment classes recognized in the texts. Though our statistic test indicate shifts in the label probability distributions, we find none that appears consistent enough to assume a bias induced by the translation process.
翻訳日:2023-06-13 14:22:14 公開日:2023-06-12
# 候補者インセンティブ分布:投票方法が選挙インセンティブを形成する方法

Candidate Incentive Distributions: How voting methods shape electoral incentives ( http://arxiv.org/abs/2306.07147v1 )

ライセンス: Link先を確認
Marcus Ogren(参考訳) 投票方法の違いによる政治的妥協の促進、社会の緊張緩和の傾向をコンピュータシミュレーションを用いて評価し、どの候補者に訴えるインセンティブを与えるかを判断する。 Instant Runoff Votingは、シングルウィンドのPlurality Votingよりも広い範囲の有権者にアピールするよう候補者にインセンティブを与えるが、それでも候補者は反対派の有権者よりも、彼らの基盤に訴えるインセンティブを強く与えている。 対照的に、star (score then automatic runoff) 投票やcondorcet 投票など他の投票方法が、現在提案されている投票者に対して、そのベースに対してアピールするインセンティブを与え、投票方法の違いは、より多くの候補者が参加するほど顕著になる。

We evaluate the tendency for different voting methods to promote political compromise and reduce tensions in a society by using computer simulations to determine which voters candidates are incentivized to appeal to. We find that Instant Runoff Voting incentivizes candidates to appeal to a wider range of voters than single-winner Plurality Voting, but that it still leaves candidates far more strongly incentivized to appeal to their base than to voters in opposing factions. In contrast, we find that other voting methods, including STAR (Score Then Automatic Runoff) Voting and Condorcet methods, incentivize candidates to appeal to currently-opposed voters as much to their base, and that these differences between voting methods become more pronounced the more candidates are in the race.
翻訳日:2023-06-13 14:22:04 公開日:2023-06-12
# 自動走行車のシナリオ生成手法とインテリジェンス評価フレームワークの展開

Evolving Testing Scenario Generation Method and Intelligence Evaluation Framework for Automated Vehicles ( http://arxiv.org/abs/2306.07142v1 )

ライセンス: Link先を確認
Yining Ma, Wei Jiang, Lingtong Zhang, Junyi Chen, Hong Wang, Chen Lv, Xuesong Wang, Lu Xiong(参考訳) シナリオベーステストにおける背景車両(BV)と自動車両(AV)の相互作用は、AVのインテリジェンスを評価する上で重要な役割を果たす。 現在のテストシナリオは、通常、事前に定義されたまたはスクリプト化されたBVを使用し、実際の運転シナリオにおける人間のような社会的行動の複雑さを不適切に反映し、AVの総合的な知性を評価するための体系的な指標を欠いている。 そこで本研究では,深部強化学習(DRL)を用いて,AIVのテストとインテリジェンス評価のための人間的なBVを作成するシナリオ生成手法を提案する。 まず,人間のような競争性,協調性,相互運転モチベーションを有するドライバモデルの設計を行う。 そして、改良された「レベルk」トレーニング手順を利用して、3つの異なるドライバモデルがゲームベースのインタラクティブ運転ポリシーを取得する。 これらのモデルは、すべてのBVが継続的に相互作用し、多様なコンテンツを進化させる進化シナリオを生成するために、BVに割り当てられる。 次に、安全性、運転効率、相互作用ユーティリティを含むフレームワークを提示し、テスト中の3つのシステムのインテリジェンス性能を評価し定量化し、インテリジェンステストにおける進化シナリオの有効性を示す。 最後に、提案された進化するテストシナリオの複雑さと信頼性が検証される。 その結果,提案シナリオは,他のベースラインシナリオと比較して高い複雑性を示し,自然主義駆動データと85%以上類似していることがわかった。 このことは,現実的で挑戦的な環境下での高レベルAVの開発と評価を容易にする手法の可能性を強調している。

Interaction between the background vehicles (BVs) and automated vehicles (AVs) in scenario-based testing plays a critical role in evaluating the intelligence of the AVs. Current testing scenarios typically employ predefined or scripted BVs, which inadequately reflect the complexity of human-like social behaviors in real-world driving scenarios, and also lack a systematic metric for evaluating the comprehensive intelligence of AVs. Therefore, this paper proposes an evolving scenario generation method that utilizes deep reinforcement learning (DRL) to create human-like BVs for testing and intelligence evaluation of AVs. Firstly, a class of driver models with human-like competitive, cooperative, and mutual driving motivations is designed. Then, utilizing an improved "level-k" training procedure, the three distinct driver models acquire game-based interactive driving policies. And these models are assigned to BVs for generating evolving scenarios in which all BVs can interact continuously and evolve diverse contents. Next, a framework including safety, driving efficiency, and interaction utility are presented to evaluate and quantify the intelligence performance of 3 systems under test (SUTs), indicating the effectiveness of the evolving scenario for intelligence testing. Finally, the complexity and fidelity of the proposed evolving testing scenario are validated. The results demonstrate that the proposed evolving scenario exhibits the highest level of complexity compared to other baseline scenarios and has more than 85% similarity to naturalistic driving data. This highlights the potential of the proposed method to facilitate the development and evaluation of high-level AVs in a realistic and challenging environment.
翻訳日:2023-06-13 14:21:46 公開日:2023-06-12
# 生成言語モデルによる意図しない自己強化学習による言語バイアスの増幅について

On the Amplification of Linguistic Bias through Unintentional Self-reinforcement Learning by Generative Language Models -- A Perspective ( http://arxiv.org/abs/2306.07135v1 )

ライセンス: Link先を確認
Minhyeok Lee(参考訳) ジェネレーティブ言語モデル(GLM)は、様々なデジタルアプリケーションで広く使われているため、言語景観を著しく形作る可能性がある。 しかし、この普及が必然的に、既存の言語バイアスを増幅する自己強化学習サイクルを引き起こす可能性がある。 本稿では,GLMの初期バイアスが生成したテキストに反映され,その後のモデルの学習材料に反映され,それらのバイアスを補強・増幅する現象の可能性を探る。 さらに,GLMの広範性が,これらのバイアスを無意識に学習し,再現することによって,次世代の言語・認知発達にどのように影響するかを明らかにする。 この潜在的な自己強化サイクルの意味はモデル自身を超えて広がり、人間の言語や談話に影響を与える。 このバイアス増幅の利点とデメリットは、言語多様性への脅威と初期glmへの依存に対する教育的利益と将来のglm学習の容易さを考慮して検討される。 本稿は,これらの課題を理解し,解決するための厳密な研究の必要性を浮き彫りにする。 モデル透明性の向上、バイアス対応トレーニング技術、人間とGLM生成テキストを区別する手法の開発、およびGLMの公正性とバイアス評価のための堅牢な尺度を提唱している。 目的は、人間の言語の豊かさと多様性を保ちながら、これらの強力な技術の効果的で安全で公平な利用を確保することである。

Generative Language Models (GLMs) have the potential to significantly shape our linguistic landscape due to their expansive use in various digital applications. However, this widespread adoption might inadvertently trigger a self-reinforcement learning cycle that can amplify existing linguistic biases. This paper explores the possibility of such a phenomenon, where the initial biases in GLMs, reflected in their generated text, can feed into the learning material of subsequent models, thereby reinforcing and amplifying these biases. Moreover, the paper highlights how the pervasive nature of GLMs might influence the linguistic and cognitive development of future generations, as they may unconsciously learn and reproduce these biases. The implications of this potential self-reinforcement cycle extend beyond the models themselves, impacting human language and discourse. The advantages and disadvantages of this bias amplification are weighed, considering educational benefits and ease of future GLM learning against threats to linguistic diversity and dependence on initial GLMs. This paper underscores the need for rigorous research to understand and address these issues. It advocates for improved model transparency, bias-aware training techniques, development of methods to distinguish between human and GLM-generated text, and robust measures for fairness and bias evaluation in GLMs. The aim is to ensure the effective, safe, and equitable use of these powerful technologies, while preserving the richness and diversity of human language.
翻訳日:2023-06-13 14:21:21 公開日:2023-06-12
# 軌道誘導と針先力フィードバックを用いた協調型ロボット生検

Collaborative Robotic Biopsy with Trajectory Guidance and Needle Tip Force Feedback ( http://arxiv.org/abs/2306.07129v1 )

ライセンス: Link先を確認
Robin Mieling, Maximilian Neidhardt, Sarah Latus, Carolin Stapper, Stefan Gerlach, Inga Kniep, Axel Heinemann, Benjamin Ondruschka and Alexander Schlaefer(参考訳) 生検の診断的価値は針の位置に大きく依存する。 針の位置決めを改善するために,ロボット軌道誘導法が提案されているが,リアルタイムナビゲーションのフィードバックは限られている。 針先端力の触覚表示は、挿入経路に沿って組織構造を局在させることにより、針ナビゲーションに豊富なフィードバックを与えることができる。 本報告では, トラジェクトリーガイダンスと審美フィードバックを組み合わせて, 針の配置を補助するロボットバイオプシーシステムを提案する。 ロボットは針を整列させ、挿入は現場で針の位置を制御する医療専門家と協調して行われる。 実時間データ処理のための光コヒーレンストモグラフィーと機械学習に基づいて針先端の力を検出する針設計を提案する。 我々のロボット装置は、摩擦力とは無関係に深部組織界面を感知し、所望の標的構造に対して針の配置を改善する。 まず,前生体組織の針先端力センシングをファントム実験で評価した。 本研究では, 挿入時の先端力を一定速度で特徴付けるとともに, 組織界面の検出能力を示す。 参加者は針先からのフィードバックだけで、元の生体組織インターフェースの91%を検出できる。 最後に,膵臓のin situ生検を行ない,より小さい,より深いターゲット構造を正確にサンプリングできることを実証した。

The diagnostic value of biopsies is highly dependent on the placement of needles. Robotic trajectory guidance has been shown to improve needle positioning, but feedback for real-time navigation is limited. Haptic display of needle tip forces can provide rich feedback for needle navigation by enabling localization of tissue structures along the insertion path. We present a collaborative robotic biopsy system that combines trajectory guidance with kinesthetic feedback to assist the physician in needle placement. The robot aligns the needle while the insertion is performed in collaboration with a medical expert who controls the needle position on site. We present a needle design that senses forces at the needle tip based on optical coherence tomography and machine learning for real-time data processing. Our robotic setup allows operators to sense deep tissue interfaces independent of frictional forces to improve needle placement relative to a desired target structure. We first evaluate needle tip force sensing in ex-vivo tissue in a phantom study. We characterize the tip forces during insertions with constant velocity and demonstrate the ability to detect tissue interfaces in a collaborative user study. Participants are able to detect 91% of ex-vivo tissue interfaces based on needle tip force feedback alone. Finally, we demonstrate that even smaller, deep target structures can be accurately sampled by performing post-mortem in situ biopsies of the pancreas.
翻訳日:2023-06-13 14:20:57 公開日:2023-06-12
# 拡張型)分節論理プログラムの代名詞的特徴

Argumentative Characterizations of (Extended) Disjunctive Logic Programs ( http://arxiv.org/abs/2306.07126v1 )

ライセンス: Link先を確認
Jesse Heyninck and Ofer Arieli(参考訳) 本稿では,議論論,特に仮定に基づく議論,および異なる論理プログラムとの関係に関する確立された研究を継続する。 特に, カミナダ, シュルツ, トニの既知の結果を拡張し, 仮定に基づく議論は正規論理プログラムだけでなく, 分離論理プログラムとその拡張も表現できることを示した。 そこで本研究では,議論フレームワークの核となる論理が尊重すべき不和の推論規則を考察し,論理プログラムの規則の先頭にある不和の処理に対応することを示す。

This paper continues an established line of research about the relations between argumentation theory, particularly assumption-based argumentation, and different kinds of logic programs. In particular, we extend known result of Caminada, Schultz and Toni by showing that assumption-based argumentation can represent not only normal logic programs, but also disjunctive logic programs and their extensions. For this, we consider some inference rules for disjunction that the core logic of the argumentation frameworks should respect, and show the correspondence to the handling of disjunctions in the heads of the logic programs' rules.
翻訳日:2023-06-13 14:20:37 公開日:2023-06-12
# リカレントニューラルネットワークを用いた学習時間認識行動のダイナミクスについて

On the Dynamics of Learning Time-Aware Behavior with Recurrent Neural Networks ( http://arxiv.org/abs/2306.07125v1 )

ライセンス: Link先を確認
Peter DelMastro, Rushiv Arora, Edward Rietman, Hava T. Siegelmann(参考訳) リカレントニューラルネットワーク(recurrent neural network, rnns)は、時間依存パターンのモデリングにおいて大きな成功を収めているが、潜在時間的特徴の学習表現とトレーニング中のこれらの表現の出現に関する研究は限られている。 このギャップに対処するために、時間自動制御(TA)を用いて、複雑性を直接制御可能な隠れ時間変数に依存する教師付き学習タスクのモデリングを行う。 動的システムの観点からの過去の研究に基づいて、長期記憶に対する時間認識の必要性を強調するTAの新しいコレクションである時間的フリップフロップをエミュレートするためにRNNを訓練する。 それらはすぐに時間に依存しない振る舞いを完了しますが、最初は隠れた時間に依存した特徴を見つけるのに苦労しています。 周期的"時間"認識オートマトンの場合、rnnは遷移規則の周期を修飾する時間をエンコードする周期軌道間を切り替えることを学ぶ。 次に, 学習中のrnnダイナミクスの変化を監視するために不動点安定解析を適用し, 学習相が周期的挙動が出現する分岐によって分離されるのを観察した。 このようにして、動的システム理論は、これらのモデルの学習された表現だけでなく、学習プロセス自体のダイナミクスにも洞察を与えることができることを示す。 我々は、この分析スタイルが、時間認識以外の文脈における繰り返しアーキテクチャのトレーニングパスに関する洞察を与えるかもしれないと論じる。

Recurrent Neural Networks (RNNs) have shown great success in modeling time-dependent patterns, but there is limited research on their learned representations of latent temporal features and the emergence of these representations during training. To address this gap, we use timed automata (TA) to introduce a family of supervised learning tasks modeling behavior dependent on hidden temporal variables whose complexity is directly controllable. Building upon past studies from the perspective of dynamical systems, we train RNNs to emulate temporal flipflops, a new collection of TA that emphasizes the need for time-awareness over long-term memory. We find that these RNNs learn in phases: they quickly perfect any time-independent behavior, but they initially struggle to discover the hidden time-dependent features. In the case of periodic "time-of-day" aware automata, we show that the RNNs learn to switch between periodic orbits that encode time modulo the period of the transition rules. We subsequently apply fixed point stability analysis to monitor changes in the RNN dynamics during training, and we observe that the learning phases are separated by a bifurcation from which the periodic behavior emerges. In this way, we demonstrate how dynamical systems theory can provide insights into not only the learned representations of these models, but also the dynamics of the learning process itself. We argue that this style of analysis may provide insights into the training pathologies of recurrent architectures in contexts outside of time-awareness.
翻訳日:2023-06-13 14:20:26 公開日:2023-06-12
# 分布強化学習のための多様な投影アンサンブル

Diverse Projection Ensembles for Distributional Reinforcement Learning ( http://arxiv.org/abs/2306.07124v1 )

ライセンス: Link先を確認
Moritz A. Zanger, Wendelin B\"ohmer, Matthijs T. J. Spaan(参考訳) 古典的強化学習とは対照的に、分布的強化学習アルゴリズムは期待値ではなくリターンの分布を学習することを目的としている。 帰納分布の性質は一般に事前あるいは任意の複素数であるので、共通のアプローチは表現可能なパラメトリック分布の集合内で近似を求める。 通常、これは制限のない分布を単純化された分布の集合に投影する。 このプロジェクションステップは,ニューラルネットワークや勾配降下と結合した場合に強い帰納バイアスを伴い,学習モデルの一般化行動に大きな影響を与える。 本研究は,多様性による確実な不確実性推定を容易にするために,分布アンサンブルにおける複数の異なる投影と表現の組み合わせを研究する。 我々はこのような射影アンサンブルの理論的性質を確立し、平均1ドルワッサーシュタイン距離で測定されたアンサンブル不一致を用いたアルゴリズムを深層探査のボーナスとして導出する。 動作スイートベンチマークのアルゴリズムを評価した結果,多種多様なプロジェクションアンサンブルが,多種多様なタスクにおける既存手法よりも顕著な性能向上をもたらすことが判明した。

In contrast to classical reinforcement learning, distributional reinforcement learning algorithms aim to learn the distribution of returns rather than their expected value. Since the nature of the return distribution is generally unknown a priori or arbitrarily complex, a common approach finds approximations within a set of representable, parametric distributions. Typically, this involves a projection of the unconstrained distribution onto the set of simplified distributions. We argue that this projection step entails a strong inductive bias when coupled with neural networks and gradient descent, thereby profoundly impacting the generalization behavior of learned models. In order to facilitate reliable uncertainty estimation through diversity, this work studies the combination of several different projections and representations in a distributional ensemble. We establish theoretical properties of such projection ensembles and derive an algorithm that uses ensemble disagreement, measured by the average $1$-Wasserstein distance, as a bonus for deep exploration. We evaluate our algorithm on the behavior suite benchmark and find that diverse projection ensembles lead to significant performance improvements over existing methods on a wide variety of tasks with the most pronounced gains in directed exploration problems.
翻訳日:2023-06-13 14:20:02 公開日:2023-06-12
# 経験的リスク最小化の正則化における相対エントロピー非対称性の解析

Analysis of the Relative Entropy Asymmetry in the Regularization of Empirical Risk Minimization ( http://arxiv.org/abs/2306.07123v1 )

ライセンス: Link先を確認
Francisco Daunas, I\~naki Esnaola, Samir M. Perlaza, H. Vincent Poor(参考訳) 相対エントロピー非対称性の効果は、相対エントロピー正則化(ERM-RER)問題による経験的リスク最小化において解析される。 新しい正規化(type-ii regularization)が導入され、erm-rer問題の解が参照測度の支持の外側に拡張される。 新しいERM-RER Type-II問題の解は、その解に関する基準測度のラドン-ニコディム微分によって解析的に特徴づけられる。 溶液の分析は、ERM-RER問題の正則化剤として作用する相対エントロピーの以下の性質を明らかにする。 一 相対エントロピーは、タイプiiの解の支持を基準尺度の支持に崩壊させ、トレーニングデータが提供する証拠を支配する強い帰納的バイアスをもたらす。 二 タイプII正則化は、経験的リスク関数の適切な変換を伴う古典的相対エントロピー正則化と等価である。 正規化パラメータの関数として期待される経験的リスクのクローズドフォーム表現を提供する。

The effect of the relative entropy asymmetry is analyzed in the empirical risk minimization with relative entropy regularization (ERM-RER) problem. A novel regularization is introduced, coined Type-II regularization, that allows for solutions to the ERM-RER problem with a support that extends outside the support of the reference measure. The solution to the new ERM-RER Type-II problem is analytically characterized in terms of the Radon-Nikodym derivative of the reference measure with respect to the solution. The analysis of the solution unveils the following properties of relative entropy when it acts as a regularizer in the ERM-RER problem: i) relative entropy forces the support of the Type-II solution to collapse into the support of the reference measure, which introduces a strong inductive bias that dominates the evidence provided by the training data; ii) Type-II regularization is equivalent to classical relative entropy regularization with an appropriate transformation of the empirical risk function. Closed-form expressions of the expected empirical risk as a function of the regularization parameters are provided.
翻訳日:2023-06-13 14:19:43 公開日:2023-06-12
# ベンチマークニューラルネットワークのトレーニングアルゴリズム

Benchmarking Neural Network Training Algorithms ( http://arxiv.org/abs/2306.07179v1 )

ライセンス: Link先を確認
George E. Dahl, Frank Schneider, Zachary Nado, Naman Agarwal, Chandramouli Shama Sastry, Philipp Hennig, Sourabh Medapati, Runa Eschenhagen, Priya Kasimbeg, Daniel Suo, Juhan Bae, Justin Gilmer, Abel L. Peirson, Bilal Khan, Rohan Anil, Mike Rabbat, Shankar Krishnan, Daniel Snider, Ehsan Amid, Kongtao Chen, Chris J. Maddison, Rakshith Vasudev, Michal Badura, Ankush Garg, Peter Mattson(参考訳) 広く理解されているトレーニングアルゴリズムは、ディープラーニングパイプラインに不可欠な部分である。 さまざまなワークロード(例えば、ルールの更新、プロトコルのチューニング、学習率のスケジュール、データ選択スキームなど)でのトレーニングを高速化するトレーニングアルゴリズムの改善は、時間を節約し、計算リソースを節約し、よりよい、より正確なモデルにつながる可能性がある。 残念なことに、コミュニティとして、私たちは現在、トレーニングアルゴリズムの改善を確実に特定することができません。 本研究は, 具体的な実験から, トレーニングのスピードアップには, 1) トレーニングアルゴリズムの試行的な比較によって直面する3つの基本的な課題を解決するための, 新たなベンチマークが必要である,と論じる。 これらの課題に対処するために,我々は,固定ハードウェア上で動作している複数のワークロードを用いた,新たな競争力のあるタイム・トゥ・リゾルトベンチマークであるalgoperf: training algorithms benchmarkを導入する。 当社のベンチマークには,現在広く使用されているメソッドよりも,ワークロードの変更にロバストなベンチマーク提案の検出を可能にする,ワークロードの亜種が含まれています。 最後に,近年の文献で注目されている様々な最適化手法と他の最適化手法を用いたベースライン提案の評価を行った。 これらのベースライン結果は,ベンチマークの有効性を総合的に示し,メソッド間の非自明なギャップが存在することを示すとともに,将来のベンチマークの試行において,暫定的な現状を定めている。

Training algorithms, broadly construed, are an essential part of every deep learning pipeline. Training algorithm improvements that speed up training across a wide variety of workloads (e.g., better update rules, tuning protocols, learning rate schedules, or data selection schemes) could save time, save computational resources, and lead to better, more accurate, models. Unfortunately, as a community, we are currently unable to reliably identify training algorithm improvements, or even determine the state-of-the-art training algorithm. In this work, using concrete experiments, we argue that real progress in speeding up training requires new benchmarks that resolve three basic challenges faced by empirical comparisons of training algorithms: (1) how to decide when training is complete and precisely measure training time, (2) how to handle the sensitivity of measurements to exact workload details, and (3) how to fairly compare algorithms that require hyperparameter tuning. In order to address these challenges, we introduce a new, competitive, time-to-result benchmark using multiple workloads running on fixed hardware, the AlgoPerf: Training Algorithms benchmark. Our benchmark includes a set of workload variants that make it possible to detect benchmark submissions that are more robust to workload changes than current widely-used methods. Finally, we evaluate baseline submissions constructed using various optimizers that represent current practice, as well as other optimizers that have recently received attention in the literature. These baseline results collectively demonstrate the feasibility of our benchmark, show that non-trivial gaps between methods exist, and set a provisional state-of-the-art for future benchmark submissions to try and surpass.
翻訳日:2023-06-13 14:12:38 公開日:2023-06-12
# 画像破損に対するディープラーニングモデルの周波数ベース脆弱性解析

Frequency-Based Vulnerability Analysis of Deep Learning Models against Image Corruptions ( http://arxiv.org/abs/2306.07178v1 )

ライセンス: Link先を確認
Harshitha Machiraju, Michael H. Herzog, Pascal Frossard(参考訳) ディープラーニングモデルは、現実世界の画像腐敗を扱うときにしばしば課題に直面する。 これに応えて、研究者は画像汚職データセットを開発し、そのような汚職を扱うディープニューラルネットワークの性能を評価する。 しかし、これらのデータセットには重大な制限があり、実際のシナリオで発生するすべての腐敗を考慮に入れていない。 このギャップに対処するために、我々は、モデルが失敗する可能性のある特定のタイプの腐敗を特定するために設計されたアルゴリズムであるmufia(multiplicative filter attack)を提案する。 本アルゴリズムは,モデルの誤分類を許容する画像周波数成分の組み合わせを同定し,元の画像と意味的類似性を保ちながら識別する。 最先端のモデルでさえ、既知の一般的な汚職に対して堅牢であるように訓練されたモデルでさえ、MUFIAによって作られた低視認性ベースの汚職と戦っている。 これは、より広い範囲の現実世界の画像破損に対してモデルのロバスト性を高めるためのより包括的なアプローチの必要性を強調している。

Deep learning models often face challenges when handling real-world image corruptions. In response, researchers have developed image corruption datasets to evaluate the performance of deep neural networks in handling such corruptions. However, these datasets have a significant limitation: they do not account for all corruptions encountered in real-life scenarios. To address this gap, we present MUFIA (Multiplicative Filter Attack), an algorithm designed to identify the specific types of corruptions that can cause models to fail. Our algorithm identifies the combination of image frequency components that render a model susceptible to misclassification while preserving the semantic similarity to the original image. We find that even state-of-the-art models trained to be robust against known common corruptions struggle against the low visibility-based corruptions crafted by MUFIA. This highlights the need for more comprehensive approaches to enhance model robustness against a wider range of real-world image corruptions.
翻訳日:2023-06-13 14:12:09 公開日:2023-06-12
# Sliced-Wassersteinとの不均衡最適輸送

Unbalanced Optimal Transport meets Sliced-Wasserstein ( http://arxiv.org/abs/2306.07176v1 )

ライセンス: Link先を確認
Thibault S\'ejourn\'e, Cl\'ement Bonet, Kilian Fatras, Kimia Nadjahi, Nicolas Courty(参考訳) 確率測度を比較するための強力なフレームワークとして最適輸送(OT)が登場し、多くの統計的および機械学習問題において基本的な課題となっている。 過去10年間で、計算学的、統計学的に、または比較すべき測定値とデータセットに対してより堅牢なot変種を設計するための大きな進歩があった。 その中でも、スライスされたot距離は最適輸送の立方体の複雑さと次元の呪いを緩和するために広く使われている。 並行して、不均衡なOTは、より一般的な正の測度の比較を可能にしつつ、外れ値に対してより堅牢であるように設計された。 本稿では,これら2つの概念,すなわちスライシングとアンバランスなOTを組み合わせて,正の測度を効率的に比較するための一般的な枠組みを開発することを提案する。 本研究では,不均衡なOTをスライシングするアイデアに基づく2つの新しい損失関数を提案する。 次に、これらの損失関数を計算するために高速フランクウルフ型アルゴリズムを開発し、その結果得られる方法論が、その包含するモジュラーであり、事前の関連作業を拡張することを示す。 最終的に私たちは、合成データと実際のデータセットの両方について損失関数と方法論の実証分析を行い、それらの関連性と適用可能性を説明しました。

Optimal transport (OT) has emerged as a powerful framework to compare probability measures, a fundamental task in many statistical and machine learning problems. Substantial advances have been made over the last decade in designing OT variants which are either computationally and statistically more efficient, or more robust to the measures and datasets to compare. Among them, sliced OT distances have been extensively used to mitigate optimal transport's cubic algorithmic complexity and curse of dimensionality. In parallel, unbalanced OT was designed to allow comparisons of more general positive measures, while being more robust to outliers. In this paper, we propose to combine these two concepts, namely slicing and unbalanced OT, to develop a general framework for efficiently comparing positive measures. We propose two new loss functions based on the idea of slicing unbalanced OT, and study their induced topology and statistical properties. We then develop a fast Frank-Wolfe-type algorithm to compute these loss functions, and show that the resulting methodology is modular as it encompasses and extends prior related work. We finally conduct an empirical analysis of our loss functions and methodology on both synthetic and real datasets, to illustrate their relevance and applicability.
翻訳日:2023-06-13 14:11:54 公開日:2023-06-12
# 長期記憶による言語モデルの拡張

Augmenting Language Models with Long-Term Memory ( http://arxiv.org/abs/2306.07174v1 )

ライセンス: Link先を確認
Weizhi Wang, Li Dong, Hao Cheng, Xiaodong Liu, Xifeng Yan, Jianfeng Gao, Furu Wei(参考訳) 既存の大規模言語モデル(LLM)は、入力長制限による固定サイズの入力しか入手できないため、過去の入力からリッチな長文情報を利用できない。 そこで我々は,長期記憶(long-term memory, longmem)を付加した言語モデルフレームワークを提案する。 本稿では,メモリエンコーダとして固定されたオリジナルのbackbone llmと,メモリレコーダとリーダとして適応的な残差側ネットワークを備えた,新たな分離ネットワークアーキテクチャを設計する。 このような分離メモリ設計は、メモリの不安定さに苦しむことなく、メモリ検索のための長期の過去のコンテキストをキャッシュして更新することができる。 メモリ拡張適応トレーニングによって強化されたLongMemは、過去のコンテキストを記憶し、言語モデリングに長期メモリを使用することができる。 提案するメモリ検索モジュールはメモリバンク内で無限長のコンテキストを扱うことができ、様々なダウンストリームタスクの恩恵を受けることができる。 通常、LongMemは長文のメモリを65kのトークンに拡張し、長文の学習用の長文のメモリとして多くのショットのデモ例をキャッシュすることができる。 実験により,本手法は,長時間コンテキストモデリングベンチマークであるchapterbreakの強力なlong-contextモデルよりも優れており,llm上でのメモリ応答型in-context学習において著しい改善が得られた。 提案手法は,長文内容を記憶・活用するための言語モデルに有効であることを示す。 私たちのコードはhttps://aka.ms/longmem.com/でオープンソースです。

Existing large language models (LLMs) can only afford fix-sized inputs due to the input length limit, preventing them from utilizing rich long-context information from past inputs. To address this, we propose a framework, Language Models Augmented with Long-Term Memory (LongMem), which enables LLMs to memorize long history. We design a novel decoupled network architecture with the original backbone LLM frozen as a memory encoder and an adaptive residual side-network as a memory retriever and reader. Such a decoupled memory design can easily cache and update long-term past contexts for memory retrieval without suffering from memory staleness. Enhanced with memory-augmented adaptation training, LongMem can thus memorize long past context and use long-term memory for language modeling. The proposed memory retrieval module can handle unlimited-length context in its memory bank to benefit various downstream tasks. Typically, LongMem can enlarge the long-form memory to 65k tokens and thus cache many-shot extra demonstration examples as long-form memory for in-context learning. Experiments show that our method outperforms strong long-context models on ChapterBreak, a challenging long-context modeling benchmark, and achieves remarkable improvements on memory-augmented in-context learning over LLMs. The results demonstrate that the proposed method is effective in helping language models to memorize and utilize long-form contents. Our code is open-sourced at https://aka.ms/LongMem.
翻訳日:2023-06-13 14:11:33 公開日:2023-06-12
# 確率的分類器におけるshapley値

Shapley Value on Probabilistic Classifiers ( http://arxiv.org/abs/2306.07171v1 )

ライセンス: Link先を確認
Xiang Li and Haocheng Xia and Jinfei Liu(参考訳) データ評価は、データの経済的価値のために、データサイエンスにおいてますます重要な分野になりつつある。 機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。 1つの一般的な方法はShapley値であり、MLモデルに有益または有害なデータポイントを特定するのに役立つ。 しかし、従来のShapleyベースのデータ評価手法では、確率的分類器のための有益と有害な訓練データポイントを効果的に区別することはできない。 本稿では,二項化予測結果よりも確率的分類器の予測クラス確率を利用する確率的ユーティリティ関数を構築することにより,確率的シェープリー(P-Shapley)値を提案する。 また,各データポイントの確率的分類器への限界寄与を効果的に定量化するために,信頼度校正のための複数のアクティベーション関数を提供する。 4つの実世界のデータセットに対する大規模な実験は、高可用性で信頼性の高いMLモデルを構築する上でのデータの重要性を評価する上で、提案したP-Shapley値の有効性を示す。

Data valuation has become an increasingly significant discipline in data science due to the economic value of data. In the context of machine learning (ML), data valuation methods aim to equitably measure the contribution of each data point to the utility of an ML model. One prevalent method is Shapley value, which helps identify data points that are beneficial or detrimental to an ML model. However, traditional Shapley-based data valuation methods may not effectively distinguish between beneficial and detrimental training data points for probabilistic classifiers. In this paper, we propose Probabilistic Shapley (P-Shapley) value by constructing a probability-wise utility function that leverages the predicted class probabilities of probabilistic classifiers rather than binarized prediction results in the traditional Shapley value. We also offer several activation functions for confidence calibration to effectively quantify the marginal contribution of each data point to the probabilistic classifiers. Extensive experiments on four real-world datasets demonstrate the effectiveness of our proposed P-Shapley value in evaluating the importance of data for building a high-usability and trustworthy ML model.
翻訳日:2023-06-13 14:11:07 公開日:2023-06-12
# 短いショット学習による健康の社会的要因の抽出

Prompt-based Extraction of Social Determinants of Health Using Few-shot Learning ( http://arxiv.org/abs/2306.07170v1 )

ライセンス: Link先を確認
Giridhar Kaushik Ramachandran, Yujuan Fu, Bin Han, Kevin Lybarger, Nicholas J Dobbins, \"Ozlem Uzuner, Meliha Yetisgen(参考訳) SDOHが患者の健康に与える影響を理解するために、構造化されていないテキストを通して電子健康記録に記録されている社会的健康決定因子(SDOH)がますます研究されている。 本研究では,物質利用,雇用,生活状況情報を含む,SDOHに注釈を付した非特定社会史セクションの多施設コーパスである社会史注釈コーパス(SHAC)を利用する。 本稿では,一括プロンプト設定においてGPT-4を用いて,SHACによるSDOH情報の自動抽出について検討する。 GPT-4抽出性能と高性能教師付きアプローチを比較し,徹底的な誤差解析を行う。 このプロンプトベースのgpt-4法は、shacによるn2c2チャレンジにおいて、全チームで7番目に優れたパフォーマンスシステムであるshacテストセットで0.652 f1を達成した。

Social determinants of health (SDOH) documented in the electronic health record through unstructured text are increasingly being studied to understand how SDOH impacts patient health outcomes. In this work, we utilize the Social History Annotation Corpus (SHAC), a multi-institutional corpus of de-identified social history sections annotated for SDOH, including substance use, employment, and living status information. We explore the automatic extraction of SDOH information with SHAC in both standoff and inline annotation formats using GPT-4 in a one-shot prompting setting. We compare GPT-4 extraction performance with a high-performing supervised approach and perform thorough error analyses. Our prompt-based GPT-4 method achieved an overall 0.652 F1 on the SHAC test set, similar to the 7th best-performing system among all teams in the n2c2 challenge with SHAC.
翻訳日:2023-06-13 14:10:48 公開日:2023-06-12
# ヒューマン・ゲイト劣化分析に向けた説明可能なAIと機械学習

Explainable AI and Machine Learning Towards Human Gait Deterioration Analysis ( http://arxiv.org/abs/2306.07165v1 )

ライセンス: Link先を確認
Abdullah Alharthi(参考訳) 拡大する研究領域である歩行分析では、さまざまな応用に非侵襲的なセンサーと機械学習技術を使用している。 本研究では,パーキンソン病(pd)の認知的低下と2つのタスク条件下での歩行分析に焦点を当てた。 畳み込みニューラルネットワーク(cnns)と説明可能な機械学習を用いて,歩行データを客観的に分析し,臨床関連バイオマーカーと関連付ける。 これは、機械学習の出力を人間の視覚的観察に基づく決定や、カーエント医療の実践でテストされ、定期的に実施される定量的歩行パラメータに基づいて接続することで達成される。 PDの認知低下に伴う歩行劣化の解析は,グラウンド・リアクション・フォース(GRF)データからPD重症度を評価する手法を用いて,ロバストな結果が得られる。 physioNet.orgデータセット毎の98%のF1値と95.5%のF1スコアの分類精度を達成した。 臨床観察可能な特徴とモデル出力を結びつけることで,pd重症度が歩行に与える影響を実証する。 さらに, 健康な歩行分析における認知的負荷の意義について検討し, 被験者同一性検証のための100%f1スコアのロバストな分類精度について検討した。 また,モデル予測に欠かせない弱い特徴をレイヤワイズアソシエーション伝播を用いて同定する。 本研究は,健常者の認知負荷とPD歩行の認知低下の両分類例において,歩行に対する認知劣化の影響が身体バランスおよび足の着地/揚力動態に影響を及ぼすことを明らかにした。

Gait analysis, an expanding research area, employs non invasive sensors and machine learning techniques for a range of applicatio ns. In this study, we concentrate on gait analysis for detecting cognitive decline in Parkinson's disease (PD) and under dual task conditions. Using convolutional neural networks (CNNs) and explainable machine learning, we objectively analyze gait data and associate findings with clinically relevant biomarkers. This is accomplished by connecting machine learning outputs to decisions based on human visual observations or derived quantitative gait parameters, which are tested and routinely implemented in curr ent healthcare practice. Our analysis of gait deterioration due to cognitive decline in PD enables robust results using the proposed methods for assessing PD severity from ground reaction force (GRF) data. We achieved classification accuracies of 98% F1 sc ores for each PhysioNet.org dataset and 95.5% F1 scores for the combined PhysioNet dataset. By linking clinically observable features to the model outputs, we demonstrate the impact of PD severity on gait. Furthermore, we explore the significance of cognit ive load in healthy gait analysis, resulting in robust classification accuracies of 100% F1 scores for subject identity verification. We also identify weaker features crucial for model predictions using Layer Wise Relevance Propagation. A notable finding o f this study reveals that cognitive deterioration's effect on gait influences body balance and foot landing/lifting dynamics in both classification cases: cognitive load in healthy gait and cognitive decline in PD gait.
翻訳日:2023-06-13 14:10:34 公開日:2023-06-12
# オンライン近似アルゴリズムの一般変換

General Transformation for Consistent Online Approximation Algorithms ( http://arxiv.org/abs/2306.07163v1 )

ライセンス: Link先を確認
Jing Dong, Yuichi Yoshida(参考訳) 我々は,オフライン近似アルゴリズムを用いたランダムオーダーモデルにおいて,$\epsilon$-approximate regretの少ないオンラインアルゴリズムを開発するためのトランスフォーメーションフレームワークを提案する。 まず、平均感度の低いオフライン近似アルゴリズムを、$\epsilon$-approximate regretの低いオンラインアルゴリズムに変換する一般化定理を提案する。 次に,オフライン近似アルゴリズムを,コアセット構成法を用いて低感度バージョンに変換できることを実証する。 提案手法の汎用性を示すために,オンライン$(k,z)$クラスタリング,オンライン行列近似,オンライン回帰など,さまざまな問題に適用し,各問題に対する後悔の多元対数$\epsilon$-approximateを達成することに成功した。 さらに,これら3事例すべてにおいて,オンラインアプリケーションで望まれる低整合性も実現可能であることを示す。

We introduce a transformation framework that can be utilized to develop online algorithms with low $\epsilon$-approximate regret in the random-order model from offline approximation algorithms. We first give a general reduction theorem that transforms an offline approximation algorithm with low average sensitivity to an online algorithm with low $\epsilon$-approximate regret. We then demonstrate that offline approximation algorithms can be transformed into a low-sensitivity version using a coreset construction method. To showcase the versatility of our approach, we apply it to various problems, including online $(k,z)$-clustering, online matrix approximation, and online regression, and successfully achieve polylogarithmic $\epsilon$-approximate regret for each problem. Moreover, we show that in all three cases, our algorithm also enjoys low inconsistency, which may be desired in some online applications.
翻訳日:2023-06-13 14:10:06 公開日:2023-06-12
# フレキシブルなグラディエント追従手法による計算通信トレードオフについて

On the Computation-Communication Trade-Off with A Flexible Gradient Tracking Approach ( http://arxiv.org/abs/2306.07159v1 )

ライセンス: Link先を確認
Yan Huang and Jinming Xu(参考訳) 本稿では,分散確率最適化問題をネットワーク上で解くための,調整可能な計算と通信ステップを備えた柔軟な勾配追従手法を提案する。 提案手法では,各ノードが各ラウンドで複数の局所勾配更新と複数ノード間通信を行い,目的関数の特性やネットワークトポロジに応じて計算コストと通信コストのバランスをとることを目的としている。 適切に設計されたリアプノフ関数を利用して、滑らかで強い凸目的関数の任意の精度を達成するために計算と通信の複雑さの両方を導出する。 本解析は,グラフトポロジーと目的関数の性質に対する収束性能の鋭い依存性を示し,計算と通信のトレードオフを浮き彫りにした。 理論的結果を検証するため, 数値実験を行った。

We propose a flexible gradient tracking approach with adjustable computation and communication steps for solving distributed stochastic optimization problem over networks. The proposed method allows each node to perform multiple local gradient updates and multiple inter-node communications in each round, aiming to strike a balance between computation and communication costs according to the properties of objective functions and network topology in non-i.i.d. settings. Leveraging a properly designed Lyapunov function, we derive both the computation and communication complexities for achieving arbitrary accuracy on smooth and strongly convex objective functions. Our analysis demonstrates sharp dependence of the convergence performance on graph topology and properties of objective functions, highlighting the trade-off between computation and communication. Numerical experiments are conducted to validate our theoretical findings.
翻訳日:2023-06-13 14:09:47 公開日:2023-06-12
# ベイズニューラルネットワークに対するリーマンラプラス近似

Riemannian Laplace approximations for Bayesian neural networks ( http://arxiv.org/abs/2306.07158v1 )

ライセンス: Link先を確認
Federico Bergamin, Pablo Moreno-Mu\~noz, S{\o}ren Hauberg, Georgios Arvanitidis(参考訳) ベイズニューラルネットワークは、しばしば重量-後部とガウス分布を近似する。 しかし、実践的な後部は、地方でも非常に非ガウス的であり、経験的なパフォーマンスは劣化することが多い。 本稿では,実後方の形状に適応する単純なパラメトリック近似後輪を提案し,その位置勾配によって決定されるリーマン計量を導出する。 我々は、サンプルが自然に負のログポストを持つ重み領域に収まるリーマンラプラス近似を開発する。 これらのサンプルは、リーマン計量の構造と自動微分を利用して効率的に行うことができる常微分方程式の系を解いて描画できることを示した。 実験により,従来のラプラス近似よりも一貫して改善できることを実証した。 さらに,従来のラプラス近似とは異なり,本手法は事前選択に過度に敏感ではなく,現在のアプローチの実用的落とし穴を緩和することを示した。

Bayesian neural networks often approximate the weight-posterior with a Gaussian distribution. However, practical posteriors are often, even locally, highly non-Gaussian, and empirical performance deteriorates. We propose a simple parametric approximate posterior that adapts to the shape of the true posterior through a Riemannian metric that is determined by the log-posterior gradient. We develop a Riemannian Laplace approximation where samples naturally fall into weight-regions with low negative log-posterior. We show that these samples can be drawn by solving a system of ordinary differential equations, which can be done efficiently by leveraging the structure of the Riemannian metric and automatic differentiation. Empirically, we demonstrate that our approach consistently improves over the conventional Laplace approximation across tasks. We further show that, unlike the conventional Laplace approximation, our method is not overly sensitive to the choice of prior, which alleviates a practical pitfall of current approaches.
翻訳日:2023-06-13 14:09:34 公開日:2023-06-12
# 検索強化コントラスト視覚テキストモデル

Retrieval-Enhanced Contrastive Vision-Text Models ( http://arxiv.org/abs/2306.07196v1 )

ライセンス: Link先を確認
Ahmet Iscen, Mathilde Caron, Alireza Fathi, Cordelia Schmid(参考訳) CLIPのような対照的な画像テキストモデルは、多くの最先端システムの構成要素を形成する。 一般的な汎用概念の認識には優れていますが、未熟な、あるいはトレーニング済みのデータセットにない細かなエンティティには依然として苦労しています。 したがって、その成功の鍵となる要素は、事前学習段階で記憶できる概念セットを拡張することを目的とした、大規模にキュレートされた事前学習データの利用である。 本研究では、モデルパラメータに直接詳細な知識をエンコードする代替手法について検討する。代わりに、モデルにトレーニングを行い、その知識を外部メモリから取得する。 具体的には,既存の視覚テキストモデルに推論時にメモリから取得したクロスモーダルな情報で埋め込みを洗練させ,ゼロショット予測を大幅に改善することを提案する。 注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。 実験により, 検索強化コントラスト(RECO)トレーニングは, スタンフォードカーの+10.9, CUB-2011の+10.2, OVENベンチマークの+7.3といった, 難易度の高いタスクにおいてCLIP性能を大幅に向上させることを確認した。

Contrastive image-text models such as CLIP form the building blocks of many state-of-the-art systems. While they excel at recognizing common generic concepts, they still struggle on fine-grained entities which are rare, or even absent from the pre-training dataset. Hence, a key ingredient to their success has been the use of large-scale curated pre-training data aiming at expanding the set of concepts that they can memorize during the pre-training stage. In this work, we explore an alternative to encoding fine-grained knowledge directly into the model's parameters: we instead train the model to retrieve this knowledge from an external memory. Specifically, we propose to equip existing vision-text models with the ability to refine their embedding with cross-modal retrieved information from a memory at inference time, which greatly improves their zero-shot predictions. Remarkably, we show that this can be done with a light-weight, single-layer, fusion transformer on top of a frozen CLIP. Our experiments validate that our retrieval-enhanced contrastive (RECO) training improves CLIP performance substantially on several challenging fine-grained tasks: for example +10.9 on Stanford Cars, +10.2 on CUB-2011 and +7.3 on the recent OVEN benchmark.
翻訳日:2023-06-13 14:03:05 公開日:2023-06-12
# 大規模言語モデルと(非)言語的再帰

Large language models and (non-)linguistic recursion ( http://arxiv.org/abs/2306.07195v1 )

ライセンス: Link先を確認
Maksymilian D\k{a}bkowski and Ga\v{s}per Begu\v{s}(参考訳) 再帰は人間の言語の特徴の1つである。 動物コミュニケーションシステムには言語設計の特徴が数多く存在するが、再帰は行われていない。 これまでの研究では、GPT-4が金属工学的能力を示す最初の大規模言語モデル(LLM)であることが示されている(Begu\v{s}, D\k{a}bkowski, Rhodes 2023)。 本稿では,言語と非言語の両方において,LLMにおける再帰的行動の抽出と解析を目的としたいくつかのプロンプト設計を提案する。 我々は、gpt-4が明示的に推奨されると、再帰的構造を生成および分析できることを実証する。 そこで本研究では,メタ言語による再帰認識(人間特有の認知特性)が,GPT-4のような多数のパラメータを持つトランスフォーマーに出現するかどうかを初めて検討する。

Recursion is one of the hallmarks of human language. While many design features of language have been shown to exist in animal communication systems, recursion has not. Previous research shows that GPT-4 is the first large language model (LLM) to exhibit metalinguistic abilities (Begu\v{s}, D\k{a}bkowski, and Rhodes 2023). Here, we propose several prompt designs aimed at eliciting and analyzing recursive behavior in LLMs, both linguistic and non-linguistic. We demonstrate that when explicitly prompted, GPT-4 can both produce and analyze recursive structures. Thus, we present one of the first studies investigating whether meta-linguistic awareness of recursion -- a uniquely human cognitive property -- can emerge in transformers with a high number of parameters such as GPT-4.
翻訳日:2023-06-13 14:02:42 公開日:2023-06-12
# 検索型多段階学習による科学的文書分類

Weakly-Supervised Scientific Document Classification via Retrieval-Augmented Multi-Stage Training ( http://arxiv.org/abs/2306.07193v1 )

ライセンス: Link先を確認
Ran Xu, Yue Yu, Joyce C. Ho, Carl Yang(参考訳) 科学的文書分類は幅広い応用にとって重要な課題であるが、大量の人ラベルデータを取得するコストは禁じられる可能性がある。 この課題に対処するために,ラベル名のみを用いた科学的文書分類のための弱教師付きアプローチを提案する。 科学的ドメインでは、ラベルには文書コーパスに現れないドメイン固有の概念が含まれており、ラベルと文書を正確に一致させることが困難である。 そこで本研究では,ラベル名のセマンティクスを捉えるために,埋め込み空間でのマッチングを行うために,密検索を利用するlourowを提案する。 さらにラベル名表現を充実させるためにラベル名拡張モジュールも設計する。 最後に、自己学習ステップを使用して予測を洗練する。 3つのデータセットの実験により、WADERは平均して11.9%のベースラインを上回ります。 私たちのコードはhttps://github.com/ritaranx/wanderで公開します。

Scientific document classification is a critical task for a wide range of applications, but the cost of obtaining massive amounts of human-labeled data can be prohibitive. To address this challenge, we propose a weakly-supervised approach for scientific document classification using label names only. In scientific domains, label names often include domain-specific concepts that may not appear in the document corpus, making it difficult to match labels and documents precisely. To tackle this issue, we propose WANDER, which leverages dense retrieval to perform matching in the embedding space to capture the semantics of label names. We further design the label name expansion module to enrich the label name representations. Lastly, a self-training step is used to refine the predictions. The experiments on three datasets show that WANDER outperforms the best baseline by 11.9% on average. Our code will be published at https://github.com/ritaranx/wander.
翻訳日:2023-06-13 14:02:28 公開日:2023-06-12
# リモートコンピューティングユーザのためのサイバーセキュリティトレーニング

Cybersecurity Training for Users of Remote Computing ( http://arxiv.org/abs/2306.07192v1 )

ライセンス: Link先を確認
Marcelo Ponce, Ramses van Zon(参考訳) リモートコンピューティングシステムのエンドユーザは、サイバー脅威や攻撃に対する保護を強化する基本的な方法をよく知らない。 本稿では,そのようなシステムを使用するユーザに対して,サイバーセキュリティを改善するための具体的なテクニックについて論じる。 これらの技術の背後にある理論的根拠を説明するために、リモートで共有されたコンピューティングリソースを使用する場合の脅威を深く説明する。 これらの処方と推奨の詳細は、スーパーコンピュータ、クラスタ、linuxワークステーションなど、リモートサーバに接続する特定のユースケースに当てはまるが、主な概念とアイデアは、より広い範囲のケースに適用することができる。

End users of remote computing systems are frequently not aware of basic ways in which they could enhance protection against cyber-threats and attacks. In this paper, we discuss specific techniques to help and train users to improve cybersecurity when using such systems. To explain the rationale behind these techniques, we go into some depth explaining possible threats in the context of using remote, shared computing resources. Although some of the details of these prescriptions and recommendations apply to specific use cases when connecting to remote servers, such as a supercomputer, cluster, or Linux workstation, the main concepts and ideas can be applied to a wider spectrum of cases.
翻訳日:2023-06-13 14:02:12 公開日:2023-06-12
# 配電リスク制御による公平なランキング学習

Fair Learning to Rank with Distribution-free Risk Control ( http://arxiv.org/abs/2306.07188v1 )

ライセンス: Link先を確認
Ruocheng Guo, Jean-Fran\c{c}ois Ton, Yang Liu(参考訳) オンライン経済においてLearning to Rank(LTR)手法は不可欠であり、ユーザやアイテムプロバイダに影響を与える。 LTRモデルの公正性は、アイテム関連性に比例して露光を割り当てることに不可欠である。 決定論的ランキングモデルは、同じ関連のあるアイテムがわずかに異なるスコアを受け取ると不公平な露出分布をもたらす可能性がある。 plackett-luce (pl) モデルを組み込んだ確率的 ltr モデルは公平性の問題に対処するが、計算コストや性能保証には限界がある。 このような制約を克服するため,FairLTR-RCを提案する。 FairLTR-RCは、事前訓練されたスコアリング機能を活用して確率的LTRモデルを作成する。 さらに、FairLTR-RCは、分布自由リスク制御フレームワークを使用して、ユーザ指定ユーティリティに有限サンプル保証を提供する。 さらに、Thresholded PL(TPL)モデルを取り入れることで、実用性と公正性の効果的なトレードオフを実現することができる。 いくつかのベンチマークデータセットによる実験結果から、FairLTR-RCは特定のユーティリティのレベルを保証しながら、広く使われている決定論的LTRモデルの公平性を著しく改善することが示された。

Learning to Rank (LTR) methods are vital in online economies, affecting users and item providers. Fairness in LTR models is crucial to allocate exposure proportionally to item relevance. The deterministic ranking model can lead to unfair exposure distribution when items with the same relevance receive slightly different scores. Stochastic LTR models, incorporating the Plackett-Luce (PL) model, address fairness issues but have limitations in computational cost and performance guarantees. To overcome these limitations, we propose FairLTR-RC, a novel post-hoc model-agnostic method. FairLTR-RC leverages a pretrained scoring function to create a stochastic LTR model, eliminating the need for expensive training. Furthermore, FairLTR-RC provides finite-sample guarantees on a user-specified utility using distribution-free risk control framework. By additionally incorporating the Thresholded PL (TPL) model, we are able to achieve an effective trade-off between utility and fairness. Experimental results on several benchmark datasets demonstrate that FairLTR-RC significantly improves fairness in widely-used deterministic LTR models while guaranteeing a specified level of utility.
翻訳日:2023-06-13 14:02:01 公開日:2023-06-12
# セグメントの時間的アライメントを用いたビデオ対音楽レコメンデーション

Video-to-Music Recommendation using Temporal Alignment of Segments ( http://arxiv.org/abs/2306.07187v1 )

ライセンス: Link先を確認
Laure Pr\'etet, Ga\"el Richard, Cl\'ement Souchier, Geoffroy Peeters(参考訳) ビデオのサウンドトラックとして使用される楽曲の相互推薦について検討する。 この問題は音楽監督タスクとして知られている。 我々は,音楽とビデオのコンテント関係を学習する自己監督システムを構築した。 内容の充実に加えて、音楽監督において構造の充実が重要であり、適切なレコメンデーションを得る。 本稿では,構造認識レコメンデーションを用いたシステムの性能向上手法を提案する。 中心となる考え方は、完全なオーディオビデオクリップだけでなく、トレーニングと推論のための短いセグメントを考えることである。 セマンティクスセグメンテーションとトラックのランク付けをシーケンスアライメントで行えば,結果が大幅に向上することがわかった。 異なるランキング指標とセグメンテーション手法の影響について検討する。

We study cross-modal recommendation of music tracks to be used as soundtracks for videos. This problem is known as the music supervision task. We build on a self-supervised system that learns a content association between music and video. In addition to the adequacy of content, adequacy of structure is crucial in music supervision to obtain relevant recommendations. We propose a novel approach to significantly improve the system's performance using structure-aware recommendation. The core idea is to consider not only the full audio-video clips, but rather shorter segments for training and inference. We find that using semantic segments and ranking the tracks according to sequence alignment costs significantly improves the results. We investigate the impact of different ranking metrics and segmentation methods.
翻訳日:2023-06-13 14:01:43 公開日:2023-06-12
# CD-CTFM:マルチスケール特徴を用いたリモートセンシングクラウド検出のための軽量CNNトランスフォーマネットワーク

CD-CTFM: A Lightweight CNN-Transformer Network for Remote Sensing Cloud Detection Fusing Multiscale Features ( http://arxiv.org/abs/2306.07186v1 )

ライセンス: Link先を確認
Wenxuan Ge, Xubing Yang, Li Zhang(参考訳) リモートセンシング画像の雲は必然的に情報抽出に影響を与え、衛星画像の次の分析を妨げる。 したがって、雲検出は必要な前処理手順である。 しかし、既存の手法には多くの計算とパラメータがある。 本稿では,CD-CTFMという軽量CNN-Transformerネットワークを提案する。 CD-CTFMはエンコーダ・デコーダアーキテクチャに基づいており、アテンション機構を組み込んでいる。 デコーダ部分では,cnnとtransformerをバックボーンとして組み込んだ軽量ネットワークを用いて,局所的特徴とグローバル特徴を同時に抽出する。 さらに、軽量な機能ピラミッドモジュールは、コンテキスト情報でマルチスケール機能を融合するように設計されている。 復号器部では、復号器と復号器のスキップ接続に軽量なチャンネル空間アテンションモジュールを組み込み、多くのパラメータを導入することなく無関係な情報を抑えながら低レベルの特徴を抽出する。 最後に、提案モデルは、38-CloudとMODISの2つのクラウドデータセットで評価される。 その結果,CD-CTFMは最先端手法と同等の精度を達成できた。 同時に、CD-CTFMは効率の点で最先端の手法よりも優れている。

Clouds in remote sensing images inevitably affect information extraction, which hinder the following analysis of satellite images. Hence, cloud detection is a necessary preprocessing procedure. However, the existing methods have numerous calculations and parameters. In this letter, a lightweight CNN-Transformer network, CD-CTFM, is proposed to solve the problem. CD-CTFM is based on encoder-decoder architecture and incorporates the attention mechanism. In the decoder part, we utilize a lightweight network combing CNN and Transformer as backbone, which is conducive to extract local and global features simultaneously. Moreover, a lightweight feature pyramid module is designed to fuse multiscale features with contextual information. In the decoder part, we integrate a lightweight channel-spatial attention module into each skip connection between encoder and decoder, extracting low-level features while suppressing irrelevant information without introducing many parameters. Finally, the proposed model is evaluated on two cloud datasets, 38-Cloud and MODIS. The results demonstrate that CD-CTFM achieves comparable accuracy as the state-of-art methods. At the same time, CD-CTFM outperforms state-of-art methods in terms of efficiency.
翻訳日:2023-06-13 14:01:34 公開日:2023-06-12
# マスキング戦略が言語モデルによる知識保持に及ぼす影響

The Effect of Masking Strategies on Knowledge Retention by Language Models ( http://arxiv.org/abs/2306.07185v1 )

ライセンス: Link先を確認
Jonas Wallat, Tianyi Zhang, Avishek Anand(参考訳) 言語モデルは、事前学習段階からかなりの量の世界の知識を保持する。 これにより、知識のあるモデルは、ランク付けや質問応答といった情報検索で一般的な知識集約的なタスクに適用できる。 責任あるモデルを構築するためには、モデルによってどの事実情報が取得されるかを理解する必要があります。 しかし,事前学習作業が事前学習中に言語モデルによって獲得・忘れられた知識量に与える影響を理解するために,限定的な研究がなされている。 知識獲得の理解を深めることが本論文の目標である。 そこで,事前学習タスクの選択を利用して知識をモデルに注入する。 下記のステップでは、実際の質問に答える能力を測定することにより、モデルの知識保持をテストする。 本研究は,相互情報に基づく相関スパンのマスキングエンティティと原則マスキングが,ランダムトークンをマスキングするよりも事実的知識が保持されることを示す。 本研究は, 課題遂行能力と同様に, モデルが他の課題(破滅的な忘れ方)を遂行するために訓練された場合, 実際に得られた知識は, 忘れられてしまうことを示した。 再現性を高めるため、この論文で使用されるデータとともに、コードも公開されている。

Language models retain a significant amount of world knowledge from their pre-training stage. This allows knowledgeable models to be applied to knowledge-intensive tasks prevalent in information retrieval, such as ranking or question answering. Understanding how and which factual information is acquired by our models is necessary to build responsible models. However, limited work has been done to understand the effect of pre-training tasks on the amount of knowledge captured and forgotten by language models during pre-training. Building a better understanding of knowledge acquisition is the goal of this paper. Therefore, we utilize a selection of pre-training tasks to infuse knowledge into our model. In the following steps, we test the model's knowledge retention by measuring its ability to answer factual questions. Our experiments show that masking entities and principled masking of correlated spans based on pointwise mutual information lead to more factual knowledge being retained than masking random tokens. Our findings demonstrate that, like the ability to perform a task, the (factual) knowledge acquired from being trained on that task is forgotten when a model is trained to perform another task (catastrophic forgetting) and how to prevent this phenomenon. To foster reproducibility, the code, as well as the data used in this paper, are openly available.
翻訳日:2023-06-13 14:01:17 公開日:2023-06-12
# Twitter、2022年のイタリア総選挙でロシア・ウクライナ戦争に影響を及ぼす

Twitter Bots Influence on the Russo-Ukrainian War During the 2022 Italian General Elections ( http://arxiv.org/abs/2306.07183v1 )

ライセンス: Link先を確認
Francesco Luigi De Faveri, Luca Cosuti, Pier Paolo Tricomi, Mauro Conti(参考訳) 2022年2月、ロシアはウクライナ侵攻を開始した。 この出来事は、特にヨーロッパ諸国の政治的決定に世界的な影響をもたらした。 予想通り、紛争におけるイタリアの役割は2022年9月25日に行われたイタリア総選挙の大きな選挙問題となった。 政治家は、政治キャンペーン中にtwitterを使ってコミュニケーションを取るが、ボットはしばしば選挙を妨害し、操作しようとする。 したがって、ボットが紛争に関する世論に影響を与えたかどうかを理解するためには選挙が不可欠である。 本研究は,2022年の総選挙前における日露戦争に対するイタリア政治の対応と,ボットが世論を操ったかどうかについて検討するものである。 我々はまず、2022年2月から12月にかけての戦争について6つの主要政党の39,611のツイートを分析した。 そして、選挙前の先月投稿した360,823件のコメントに注目し、コメントの約12%がボットであることを発見した。 彼らの活動を調べることで、選挙前の先月に戦争トピックがどのように扱われ、実際のユーザーに影響を与えるかを歪めたことが明らかとなった。

In February 2022, Russia launched a full-scale invasion of Ukraine. This event had global repercussions, especially on the political decisions of European countries. As expected, the role of Italy in the conflict became a major campaign issue for the Italian General Election held on 25 September 2022. Politicians frequently use Twitter to communicate during political campaigns, but bots often interfere and attempt to manipulate elections. Hence, understanding whether bots influenced public opinion regarding the conflict and, therefore, the elections is essential. In this work, we investigate how Italian politics responded to the Russo-Ukrainian conflict on Twitter and whether bots manipulated public opinion before the 2022 general election. We first analyze 39,611 tweets of six major political Italian parties to understand how they discussed the war during the period February-December 2022. Then, we focus on the 360,823 comments under the last month's posts before the elections, discovering around 12% of the commenters are bots. By examining their activities, it becomes clear they both distorted how war topics were treated and influenced real users during the last month before the elections.
翻訳日:2023-06-13 14:00:58 公開日:2023-06-12
# ブラックボックス最適化のための拡散モデル

Diffusion Models for Black-Box Optimization ( http://arxiv.org/abs/2306.07180v1 )

ライセンス: Link先を確認
Siddarth Krishnamoorthy, Satvik Mehul Mashkaria, Aditya Grover(参考訳) オフラインブラックボックス最適化(BBO)の目的は、関数評価の固定データセットを使用して高価なブラックボックス関数を最適化することである。 先行研究では、ブラックボックス関数へのサロゲートを学ぶ前方のアプローチと、ブラックボックス関数の入力領域内の対応する点に直接関数値をマッピングする逆のアプローチを検討する。 これらのアプローチは、オフラインデータセットの品質と、1対1のマッピングを高次元で学ぶことの難しさによって制限される。 拡散モデルに基づくオフラインブラックボックス最適化のための新しい逆アプローチであるDDOM(Denoising Diffusion Optimization Models)を提案する。 オフラインデータセットが与えられた場合、DDOMは関数値に基づいて条件付き生成モデルをブラックボックス関数のドメイン上で学習する。 DDOMでは,データセットを高機能値に再重み付けしたり,テスト時に分類子フリーガイダンスを使用したりすることで,データセットの最大値を超える関数値への一般化を実現している。 実験により,ddomが最先端のベースラインと競合する結果を達成することを示す。

The goal of offline black-box optimization (BBO) is to optimize an expensive black-box function using a fixed dataset of function evaluations. Prior works consider forward approaches that learn surrogates to the black-box function and inverse approaches that directly map function values to corresponding points in the input domain of the black-box function. These approaches are limited by the quality of the offline dataset and the difficulty in learning one-to-many mappings in high dimensions, respectively. We propose Denoising Diffusion Optimization Models (DDOM), a new inverse approach for offline black-box optimization based on diffusion models. Given an offline dataset, DDOM learns a conditional generative model over the domain of the black-box function conditioned on the function values. We investigate several design choices in DDOM, such as re-weighting the dataset to focus on high function values and the use of classifier-free guidance at test-time to enable generalization to function values that can even exceed the dataset maxima. Empirically, we conduct experiments on the Design-Bench benchmark and show that DDOM achieves results competitive with state-of-the-art baselines.
翻訳日:2023-06-13 14:00:40 公開日:2023-06-12
# 適応コアセット選択による効率的な量子化学習

Efficient Quantization-aware Training with Adaptive Coreset Selection ( http://arxiv.org/abs/2306.07215v1 )

ライセンス: Link先を確認
Xijie Huang, Zechun Liu, Shih-Yang Liu, Kwang-Ting Cheng(参考訳) ディープニューラルネットワーク(DNN)のモデルサイズの拡大と計算により,効率的なモデル展開手法の必要性が高まっている。 量子化対応トレーニング(QAT)は、重みとアクティベーションの冗長性を活用するための代表的なモデル圧縮手法である。 しかし、既存のQAT手法の多くはデータセット全体のエンドツーエンドのトレーニングを必要としており、長いトレーニング時間と高エネルギーコストに悩まされている。 トレーニングデータの冗長性を活用したデータ効率向上を目的としたcoreset選択も,効率的なトレーニングに広く利用されている。 本研究では,量子化学習のトレーニング効率を向上させるために,コアセット選択による新しい角度を提案する。 qatの特徴に基づいて,各サンプルの重要性を定量化するために,誤りベクトルスコアと不一致スコアの2つの指標を提案する。 これら2つの重要な指標から導かれ,現在のトレーニングエポックのデータを選択するために,量子化対応コアセット選択法(ACS)を提案した。 各種ネットワーク(ResNet-18, MobileNetV2)、データセット(CIFAR-100, ImageNet-1K)、および異なる量子化設定下で評価を行った。 従来のコアセット選択法と比較して,本手法はデータセット分数が異なるQAT性能を著しく向上させる。 本手法は,imagenet-1kデータセットにおける4ビット量子化resnet-18の68.39%の精度を,ベースラインと比較して絶対利得4.24%の10%のサブセットで達成できる。

The expanding model size and computation of deep neural networks (DNNs) have increased the demand for efficient model deployment methods. Quantization-aware training (QAT) is a representative model compression method to leverage redundancy in weights and activations. However, most existing QAT methods require end-to-end training on the entire dataset, which suffers from long training time and high energy costs. Coreset selection, aiming to improve data efficiency utilizing the redundancy of training data, has also been widely used for efficient training. In this work, we propose a new angle through the coreset selection to improve the training efficiency of quantization-aware training. Based on the characteristics of QAT, we propose two metrics: error vector score and disagreement score, to quantify the importance of each sample during training. Guided by these two metrics of importance, we proposed a quantization-aware adaptive coreset selection (ACS) method to select the data for the current training epoch. We evaluate our method on various networks (ResNet-18, MobileNetV2), datasets(CIFAR-100, ImageNet-1K), and under different quantization settings. Compared with previous coreset selection methods, our method significantly improves QAT performance with different dataset fractions. Our method can achieve an accuracy of 68.39% of 4-bit quantized ResNet-18 on the ImageNet-1K dataset with only a 10% subset, which has an absolute gain of 4.24% compared to the baseline.
翻訳日:2023-06-13 13:53:36 公開日:2023-06-12
# エッジ分割を用いたReLUネットワークからの多面体複合体抽出

Polyhedral Complex Extraction from ReLU Networks using Edge Subdivision ( http://arxiv.org/abs/2306.07212v1 )

ライセンス: Link先を確認
Arturs Berzins(参考訳) 完全連結層やreluアクティベーションのような分割アフィンビルディングブロックからなるニューラルネットワークは、それ自体が多面体複合体上でサポートされている分割アフィン関数である。 この複合体は以前、ニューラルネットワークの理論的性質を特徴づけるために研究されてきたが、実際は結合の複雑さが高いため、それを抽出することは課題である。 以前の研究で記述された自然な考え方は、各ニューロンによって誘導される超平面との交叉を介して領域を分割することである。 しかし、この考え方は計算冗長性につながると論じる。 領域の代わりに、辺を分割することを提案し、新しい多面体複体抽出法を導出する。 鍵となるのは、複合体の組合せ構造をコードする符号ベクトルである。 このアプローチでは、GPU上で標準的なテンソル操作を使用でき、コンシューマグレードマシン上で数百万のセルに数秒を要します。 神経形状表現への関心の高まりに動機づけられ,本手法の速度と微分性を用いて複合体の幾何学的性質を最適化する。 コードはhttps://github.com/arturs-berzins/relu_edge_subdivisionで入手できる。

A neural network consisting of piecewise affine building blocks, such as fully-connected layers and ReLU activations, is itself a piecewise affine function supported on a polyhedral complex. This complex has been previously studied to characterize theoretical properties of neural networks, but, in practice, extracting it remains a challenge due to its high combinatorial complexity. A natural idea described in previous works is to subdivide the regions via intersections with hyperplanes induced by each neuron. However, we argue that this view leads to computational redundancy. Instead of regions, we propose to subdivide edges, leading to a novel method for polyhedral complex extraction. A key to this are sign-vectors, which encode the combinatorial structure of the complex. Our approach allows to use standard tensor operations on a GPU, taking seconds for millions of cells on a consumer grade machine. Motivated by the growing interest in neural shape representation, we use the speed and differentiability of our method to optimize geometric properties of the complex. The code is available at https://github.com/arturs-berzins/relu_edge_subdivision .
翻訳日:2023-06-13 13:53:10 公開日:2023-06-12
# Data-Copilot: 自律ワークフローを備えた数十億のデータと人間

Data-Copilot: Bridging Billions of Data and Humans with Autonomous Workflow ( http://arxiv.org/abs/2306.07209v1 )

ライセンス: Link先を確認
Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang(参考訳) 金融、気象学、エネルギーといった様々な産業が毎日大量の異種データを生み出している。 人間が効率的にデータを管理、処理、表示することが自然な要求である。 しかしそれは、労働集約的な努力と、これらのデータ関連タスクの高度な専門知識を必要とする。 大規模言語モデル(LLM)が意味理解と推論において有望な能力を誇示していることを考えると,LLMの展開は,人間に親しみやすい方法で表示・相互作用しながら,大量のデータを自律的に管理・処理できると主張している。 この信念に基づき,多種多様なデータソースを一方に接続し,他方の人間の要求に応える,llmベースのシステムであるdata-copilotを提案する。 経験豊富な専門家のように,Data-Copilotは,生データを視覚化結果に自動変換することで,ユーザの意図に最もマッチする。 具体的には、Data-Copilotはデータ管理、処理、予測、視覚化のための汎用インターフェース(ツール)を自律的に設計する。 リアルタイム応答では、ユーザの要求に対してステップバイステップで対応するインターフェースを呼び出すことで、簡潔なワークフローを自動的に展開する。 インターフェース設計とデプロイメントプロセスは、人間の支援なしに、データコパイロット自身によって完全に制御されます。 さらに、さまざまなドメイン(ストック、ファンド、企業、エコノミクス、ライブニュース)の豊富なデータをリンクし、信頼できるaiアシスタントとして、さまざまなリクエストに正確に応答するデータコパイロットのデモを作成します。

Various industries such as finance, meteorology, and energy generate vast amounts of heterogeneous data every day. There is a natural demand for humans to manage, process, and display data efficiently. However, it necessitates labor-intensive efforts and a high level of expertise for these data-related tasks. Considering that large language models (LLMs) have showcased promising capabilities in semantic understanding and reasoning, we advocate that the deployment of LLMs could autonomously manage and process massive amounts of data while displaying and interacting in a human-friendly manner. Based on this belief, we propose Data-Copilot, an LLM-based system that connects numerous data sources on one end and caters to diverse human demands on the other end. Acting like an experienced expert, Data-Copilot autonomously transforms raw data into visualization results that best match the user's intent. Specifically, Data-Copilot autonomously designs versatile interfaces (tools) for data management, processing, prediction, and visualization. In real-time response, it automatically deploys a concise workflow by invoking corresponding interfaces step by step for the user's request. The interface design and deployment processes are fully controlled by Data-Copilot itself, without human assistance. Besides, we create a Data-Copilot demo that links abundant data from different domains (stock, fund, company, economics, and live news) and accurately respond to diverse requests, serving as a reliable AI assistant.
翻訳日:2023-06-13 13:52:52 公開日:2023-06-12
# ハミルトンシミュレーションにおける問題固有古典最適化

Problem specific classical optimization of Hamiltonian simulation ( http://arxiv.org/abs/2306.07208v1 )

ライセンス: Link先を確認
Refik Mansuroglu and Felix Fischer and Michael J. Hartmann(参考訳) 大規模量子システムの非平衡時間発展は、量子優位の強力な候補である。 このタスクのために変分量子アルゴリズムが提案されているが、量子最適化ルーチンは訓練性やサンプリングの問題に悩まされている。 本稿では,摂動環境における厳密な誤差境界を適切な時間ステップで拡張することにより,量子最適化の必要性を回避する,変分ハミルトンシミュレーションのための古典的前処理ルーチンを提案する。 結果として生じるコスト関数は、古典的コンピュータ上で効率よく計算できる。 我々は、常に同じ順序のTrotterシーケンスに対して最適化する可能性があり、コスト値がシミュレーション時間とシステムサイズにおいてTrotterと同じスケーリングを持つことを示す。 古典的な前処理に関する以前の研究とは異なり、この手法は局所性と相互作用長に依存しない任意のハミルトン系に適用できる。 スピン格子モデルの数値実験により,同一資源のトロッター列に対してディジタル量子シミュレーション能力が大幅に向上することがわかった。 短時間で、同じゲート番号のトロッター列と比較して、3桁以上の精度が向上することがわかった。 さらに,所与のゲート数と精度目標に対して,事前最適化により,目標精度0.1%の10倍以上のシミュレーション時間を実現できることがわかった。

Nonequilibrium time evolution of large quantum systems is a strong candidate for quantum advantage. Variational quantum algorithms have been put forward for this task, but their quantum optimization routines suffer from trainability and sampling problems. Here, we present a classical pre-processing routine for variational Hamiltonian simulation that circumvents the need of a quantum optimization by expanding rigorous error bounds in a perturbative regime for suitable time steps. The resulting cost function is efficiently computable on a classical computer. We show that there always exists potential for optimization with respect to a Trotter sequence of the same order and that the cost value has the same scaling as for Trotter in simulation time and system size. Unlike previous work on classical pre-processing, the method is applicable to any Hamiltonian system independent of locality and interaction lengths. Via numerical experiments for spin-lattice models, we find that our approach significantly improves digital quantum simulations capabilities with respect to Trotter sequences for the same resources. For short times, we find accuracy improvements of more than three orders of magnitude for our method as compared to Trotter sequences of the same gate number. Moreover, for a given gate number and accuracy target, we find that the pre-optimization we introduce enables simulation times that are consistently more than 10 times longer for a target accuracy of 0.1%.
翻訳日:2023-06-13 13:52:28 公開日:2023-06-12
# Valley:大きな言語モデルによるビデオアシスタントの強化

Valley: Video Assistant with Large Language model Enhanced abilitY ( http://arxiv.org/abs/2306.07207v1 )

ライセンス: Link先を確認
Ruipu Luo, Ziwang Zhao, Min Yang, Junwei Dong, Minghui Qiu, Pengcheng Lu, Tao Wang, Zhongyu Wei(参考訳) 近年,高度な大規模言語モデル(llms)を用いて印象的なチャット能力を示す多モードモデルが開発されている。 このようなモデルを開発するプロセスは単純だが効果的である。 視覚エンコーダと言語モデルのセマンティクスを調整するために適応モジュールを事前トレーニングし、命令に従うデータの微調整を行う。 しかし、このパイプラインは画像と言語理解において成功しているが、共同ビデオと言語理解における効果は広く研究されていない。 本稿では,一般的な枠組みの中で映像,画像,言語を知覚できる新しいマルチモーダル基盤モデルを開発することを目的とする。 この目標を達成するために、大言語モデル拡張機能付きビデオアシスタントであるValleyを紹介します。 特に,提案するバレーモデルは,映像,画像,言語を橋渡しする単純な投影モジュールで設計され,多言語llmとさらに統合されている。 また,多元視覚テキストペアを収集し,時空間プーリング戦略を採用し,事前学習のための映像と画像入力の統一視覚符号化を得る。 さらに,マルチショットキャプション,ロングビデオ記述,アクション認識,因果関係推論などを含むマルチタスク命令追従ビデオデータを生成する。 命令追従データを得るために,チャットgptを用いて,人間とビデオ間のタスク指向会話の多種多様なラウンドをデザインする。 定性的な例では,提案モデルが複雑な映像理解のシナリオを容易に行える,高効率な多言語ビデオアシスタントとして機能する可能性を実証している。 コード、データ、モデルはhttps://github.com/RupertLuo/Valley.comで入手できる。

Recently, several multi-modal models have been developed for joint image and language understanding, which have demonstrated impressive chat abilities by utilizing advanced large language models (LLMs). The process of developing such models is straightforward yet effective. It involves pre-training an adaptation module to align the semantics of the vision encoder and language model, followed by fine-tuning on the instruction-following data. However, despite the success of this pipeline in image and language understanding, its effectiveness in joint video and language understanding has not been widely explored. In this paper, we aim to develop a novel multi-modal foundation model capable of perceiving video, image, and language within a general framework. To achieve this goal, we introduce Valley: Video Assistant with Large Language model Enhanced ability. Specifically, our proposed Valley model is designed with a simple projection module that bridges video, image, and language modalities, and is further unified with a multi-lingual LLM. We also collect multi-source vision-text pairs and adopt a spatio-temporal pooling strategy to obtain a unified vision encoding of video and image input for pre-training. Furthermore, we generate multi-task instruction-following video data, including multi-shot captions, long video descriptions, action recognition, causal relationship inference, etc. To obtain the instruction-following data, we design diverse rounds of task-oriented conversations between humans and videos, facilitated by ChatGPT. Qualitative examples demonstrate that our proposed model has the potential to function as a highly effective multilingual video assistant that can make complex video understanding scenarios easy. Code, data, and models will be available at https://github.com/RupertLuo/Valley.
翻訳日:2023-06-13 13:52:09 公開日:2023-06-12
# recap: パーソナライズされた対話応答生成のための検索エンハンスドコンテキストアウェアプレフィックスエンコーダ

RECAP: Retrieval-Enhanced Context-Aware Prefix Encoder for Personalized Dialogue Response Generation ( http://arxiv.org/abs/2306.07206v1 )

ライセンス: Link先を確認
Shuai Liu, Hyundong J. Cho, Marjorie Freedman, Xuezhe Ma, Jonathan May(参考訳) チャットボットを一貫したパーソナラで内在させることは、魅力的な会話には不可欠だが、未解決の課題である。 本研究では,パーソナライズされた応答生成のための新しい検索エンハンスド手法を提案する。 具体的には,対話ドメインデータに基づいて学習し,パーソナライズされた検索を行う階層的トランスフォーマーレコーダと,検索情報をより効果的にデコーダに融合するコンテキスト対応プレフィックスエンコーダを設計する。 実世界のデータセットに関する広範囲な実験は、より流動的でパーソナライズされた応答を生成するためのモデルの有効性を示しています。 人的および自動メトリクスの組でモデルの性能を定量的に評価し、英語のReddit会話における最先端のベースラインよりも優れていると判断した。

Endowing chatbots with a consistent persona is essential to an engaging conversation, yet it remains an unresolved challenge. In this work, we propose a new retrieval-enhanced approach for personalized response generation. Specifically, we design a hierarchical transformer retriever trained on dialogue domain data to perform personalized retrieval and a context-aware prefix encoder that fuses the retrieved information to the decoder more effectively. Extensive experiments on a real-world dataset demonstrate the effectiveness of our model at generating more fluent and personalized responses. We quantitatively evaluate our model's performance under a suite of human and automatic metrics and find it to be superior compared to state-of-the-art baselines on English Reddit conversations.
翻訳日:2023-06-13 13:51:41 公開日:2023-06-12
# LTCR:長文中国の噂検出データセット

LTCR: Long-Text Chinese Rumor Detection Dataset ( http://arxiv.org/abs/2306.07201v1 )

ライセンス: Link先を確認
Ziyang Ma, Mengsha Liu, Guian Fang, Ying Shen(参考訳) 提案したLong-Text Chinese Rumor Detection datasetは,噂の検証の文脈における誤認情報の検出に焦点を当てている。 特に現在の新型コロナウイルス(COVID-19)パンデミックの時代には、偽情報がソーシャルメディアプラットフォームに急速に広まり、人々の健康行動や健康状況に対する反応に悪影響を及ぼす可能性がある。 正確な誤情報検出のためのリソースを提供することで、LTCRデータセットはフェイクニュース、特により長く複雑なテキストの識別を改善するリソースを提供する。 データセットは、それぞれ1,729と500のリアルニュースとフェイクニュースで構成されている。 実ニュースと偽ニュースの平均長は約230文字と152文字である。 また,データセット上で最も高い精度(95.85%),偽ニュースリコール(90.91%),f-score(90.60%)を実現する,salience-aware fake news detectionモデルを提案する。 (https://github.com/Enderfga/DoubleCheck)

The Long-Text Chinese Rumor detection dataset we developed is focusing on the identification of misleading information in the context of rumor verification. Especially in the current era of the COVID-19 pandemic, false information spread rapidly on social media platforms and can negatively impact people's health behaviors and responses to health emergencies. By providing a resource for accurate misinformation detection, the LTCR dataset offers a resource for improving the identification of fake news, particularly longer and more complex texts. The dataset consists of 1,729 and 500 pieces of real and fake news, respectively. The average lengths of real and fake news are approximately 230 and 152 characters. We also propose \method, Salience-aware Fake News Detection Model, which achieves the highest accuracy (95.85%), fake news recall (90.91%) and F-score (90.60%) on the dataset.(https://github.com/Enderfga/DoubleCheck)
翻訳日:2023-06-13 13:51:27 公開日:2023-06-12
# fill-up: ロングテールデータと生成モデルとのバランス

Fill-Up: Balancing Long-Tailed Data with Generative Models ( http://arxiv.org/abs/2306.07200v1 )

ライセンス: Link先を確認
Joonghyuk Shin, Minguk Kang, Jaesik Park(参考訳) 現代のテキストから画像への合成モデルは、任意のテキスト記述から高品質の画像を生成するという、例外的なレベルのフォトリアリズムを達成している。 印象的な合成能力に照らして、いくつかの研究は画像認識に生成されたデータを利用する有望な結果を示している。 しかし、実世界のデータ・ハングリーの状況を直接補う(例:数ショットやロングテールのシナリオ)と既存のアプローチは、実際のデータの分布を徹底的に反映することに苦しむため、限界的なパフォーマンス向上をもたらす。 本稿では,テキストインバージョンを用いたロングテール状況のための新しい画像合成パイプラインを提案する。 テキスト反転されたテキストトークンから生成された画像は、実ドメインと効果的に一致し、標準のResNet50バックボーンの認識能力を著しく向上することを示した。 また,不均衡データを合成画像で埋め込むことにより,実世界のデータ不均衡のシナリオを緩和できることを示す。 ロングテール認識の分野における手法と組み合わせることで、スクラッチからトレーニングすると、標準ロングテールベンチマークで最先端の結果が得られる。

Modern text-to-image synthesis models have achieved an exceptional level of photorealism, generating high-quality images from arbitrary text descriptions. In light of the impressive synthesis ability, several studies have exhibited promising results in exploiting generated data for image recognition. However, directly supplementing data-hungry situations in the real-world (e.g. few-shot or long-tailed scenarios) with existing approaches result in marginal performance gains, as they suffer to thoroughly reflect the distribution of the real data. Through extensive experiments, this paper proposes a new image synthesis pipeline for long-tailed situations using Textual Inversion. The study demonstrates that generated images from textual-inverted text tokens effectively aligns with the real domain, significantly enhancing the recognition ability of a standard ResNet50 backbone. We also show that real-world data imbalance scenarios can be successfully mitigated by filling up the imbalanced data with synthetic images. In conjunction with techniques in the area of long-tailed recognition, our method achieves state-of-the-art results on standard long-tailed benchmarks when trained from scratch.
翻訳日:2023-06-13 13:51:11 公開日:2023-06-12
# マルチモーダル機械翻訳のレンズからの視覚言語事前学習に関する調査

A Survey of Vision-Language Pre-training from the Lens of Multimodal Machine Translation ( http://arxiv.org/abs/2306.07198v1 )

ライセンス: Link先を確認
Jeremy Gwinnup and Kevin Duh(参考訳) BERTやGPTシリーズのような大規模言語モデルは、大規模なデータセットで事前トレーニングを行い、タスク固有のデータセットを微調整することで汎用モデルを構築するためのパラダイムシフトを開始した。 現在、自然言語処理とコンピュータビジョンのための訓練済みの大規模なモデルが多数存在する。 近年,clip (radford et al., 2021) のような事前学習されたモデルが,画像キャプションや視覚的質問応答といった下流タスクの改善を実演した,共同視覚言語分野の急速な発展が見られる。 しかし、驚くことに、マルチモーダル機械翻訳のタスクでは、これらのモデルを探索する作業が比較的少なく、テキスト間翻訳で画像/ビデオのモダリティを活用することが目標となっている。 このギャップを埋めるために,マルチモーダル機械翻訳のレンズによる言語とビジョンの事前学習の状況を調査した。 我々は,共通アーキテクチャ,事前学習目標,データセットを文献から要約し,マルチモーダル機械翻訳の進展に何が必要か推測する。

Large language models such as BERT and the GPT series started a paradigm shift that calls for building general-purpose models via pre-training on large datasets, followed by fine-tuning on task-specific datasets. There is now a plethora of large pre-trained models for Natural Language Processing and Computer Vision. Recently, we have seen rapid developments in the joint Vision-Language space as well, where pre-trained models such as CLIP (Radford et al., 2021) have demonstrated improvements in downstream tasks like image captioning and visual question answering. However, surprisingly there is comparatively little work on exploring these models for the task of multimodal machine translation, where the goal is to leverage image/video modality in text-to-text translation. To fill this gap, this paper surveys the landscape of language-and-vision pre-training from the lens of multimodal machine translation. We summarize the common architectures, pre-training objectives, and datasets from literature and conjecture what further is needed to make progress on multimodal machine translation.
翻訳日:2023-06-13 13:50:52 公開日:2023-06-12
# AROID: オンラインインスタンスワイドデータ拡張による対向ロバスト性の向上

AROID: Improving Adversarial Robustness through Online Instance-wise Data Augmentation ( http://arxiv.org/abs/2306.07197v1 )

ライセンス: Link先を確認
Lin Li, Jianing Qiu, Michael Spratling(参考訳) ディープニューラルネットワークは、敵の例に弱い。 対戦訓練(英語: Adversarial Training、AT)は、敵の例に対する効果的な防御である。 しかし、ATは頑丈さを著しく低下させる過度に適合する傾向がある。 近年、データ強化(DA)はAT向けに適切に設計され最適化された場合、堅牢なオーバーフィッティングを緩和するのに有効であることが示されている。 本研究は,atのロバストな一般化を改善するために,オンライン,インスタンス毎,daポリシを自動的に学習する新しい手法を提案する。 脆弱性,親和性,多様性からなる新しい政策学習目標を提案し,ATにおける自動DA生成の実現に十分な効率と効率性を示した。 これにより、より効果的なdaポリシーのための大きな検索空間を効率的に探索し、トレーニングが進むにつれてポリシーを進化させることができる。 実験により,本手法は各種モデルアーキテクチャ (CNN, ViT) およびデータセット (CIFAR10, SVHN, Imagenette) において, 競合するDA手法のすべてより優れ, 適合することを示した。 我々のDAポリシーは、バニラATを、精度と堅牢性の両方の観点から、最先端のATメソッド(ベースラインDAを含む)を上回るように強化しました。 また、先進的なatメソッドと組み合わせることで、ロバスト性をさらに高めることができる。

Deep neural networks are vulnerable to adversarial examples. Adversarial training (AT) is an effective defense against adversarial examples. However, AT is prone to overfitting which degrades robustness substantially. Recently, data augmentation (DA) was shown to be effective in mitigating robust overfitting if appropriately designed and optimized for AT. This work proposes a new method to automatically learn online, instance-wise, DA policies to improve robust generalization for AT. A novel policy learning objective, consisting of Vulnerability, Affinity and Diversity, is proposed and shown to be sufficiently effective and efficient to be practical for automatic DA generation during AT. This allows our method to efficiently explore a large search space for a more effective DA policy and evolve the policy as training progresses. Empirically, our method is shown to outperform or match all competitive DA methods across various model architectures (CNNs and ViTs) and datasets (CIFAR10, SVHN and Imagenette). Our DA policy reinforced vanilla AT to surpass several state-of-the-art AT methods (with baseline DA) in terms of both accuracy and robustness. It can also be combined with those advanced AT methods to produce a further boost in robustness.
翻訳日:2023-06-13 13:50:22 公開日:2023-06-12
# 量子ビット準備・測定シナリオにおける半対称情報完全測定の自己テスト

Self-testing of semisymmetric informationally complete measurements in a qubit prepare-and-measure scenario ( http://arxiv.org/abs/2306.07248v1 )

ライセンス: Link先を確認
G\'abor Dr\'otos (1), K\'aroly F. P\'al (2), Tam\'as V\'ertesi (1) ((1) MTA Atomki Lend\"ulet Quantum Correlations Research Group, Institute for Nuclear Research, Debrecen, Hungary, (2) Institute for Nuclear Research, Debrecen, Hungary)(参考訳) 自己テストは量子システムを検証する強力な方法である。 当初はデバイス非依存(DI)設定で提案されていたが、その後半デバイス非依存(セミDI)設定に緩和された。 本研究では,セミディ準備・測定 (pm) のシナリオを用いて, 1 パラメータ族に属する特定の非射影量子ビット測定の自己テストに焦点をあてる。 興味深いことに,これまでに発見された最も単純なPMシナリオは,4つの準備と4つの測定のみを含む。 この測定は 4-アウトカムな非射影作用素値測度(POVM)であり、Gengらによって導入された半対称情報完備(半SIC)POVMのクラスに該当する。 [Phys. Rev. Lett. 126, 100401 (2021)] そこで我々は,PMシナリオにおけるセミDI自己検査の分析手法を開発した。 我々の結果は、潜在的に最小限の PM シナリオ内で超極小の qubit POVM を自己テストする方法を開拓する。

Self-testing is a powerful method for certifying quantum systems. Initially proposed in the device-independent (DI) setting, self-testing has since been relaxed to the semi-device-independent (semi-DI) setting. In this study, we focus on the self-testing of a specific type of non-projective qubit measurements belonging to a one-parameter family, using the semi-DI prepare-and-measure (PM) scenario. Remarkably, we identify the simplest PM scenario discovered so far, involving only four preparations and four measurements, for self-testing the fourth measurement. This particular measurement is a four-outcome non-projective positive operator-valued measure (POVM) and falls in the class of semisymmetric informationally complete (semi-SIC) POVMs introduced by Geng et al. [Phys. Rev. Lett. 126, 100401 (2021)]. To achieve this, we develop analytical techniques for semi-DI self-testing in the PM scenario. Our results shall pave the way towards self-testing any extremal qubit POVM within a potentially minimal PM scenario.
翻訳日:2023-06-13 13:44:15 公開日:2023-06-12
# ニューラルネットワークを用いたグラフェンの信頼性の高い機械学習ポテンシャル

Reliable machine learning potentials based on artificial neural network for graphene ( http://arxiv.org/abs/2306.07246v1 )

ライセンス: Link先を確認
Akash Singh, Yumeng Li(参考訳) グラフェンは機械的、熱的、電気的性質のユニークな組み合わせにより、最も研究されている2次元の物質の一つである。 グラフェンの特別な2次元構造により、軽量構造材料、多機能コーティング、フレキシブルエレクトロニクスなど、無数の応用に不可欠な高ヤング率、高比強度など、幅広い特異な材料特性を示すことができる。 グラフェン/グラフェン系ナノコンポジットの実験的研究は非常に困難で費用がかかるが、分子動力学(md)シミュレーションのような計算シミュレーションは、その特異な性質の微視的起源を理解するために広く採用されている。 しかし、計算研究、特に様々な経験的原子間ポテンシャルを用いたMDシミュレーションから異なる結果が報告された。 本研究では、グラフェンが第一原理計算に基づいてポテンシャルエネルギー面を表現するために、人工ニューラルネットワークに基づく原子間ポテンシャルを開発した。 開発した機械学習ポテンシャル(mlp)は、ab initio法の精度に近づくために高い忠実度mdシミュレーションを促進するが、計算コストは少ないため、より大きなシミュレーションサイズ/長さが可能となり、グラフェン系新材料の発見/設計が高速化される。 機械学習加速MDシミュレーション(MLMD)を用いて、格子パラメータ、熱膨張係数(CTE)、ヤング率、降伏強度を推定し、実験・第一原理計算と比較した。 MLMDはグラフェンのCTEを支配する支配機構を捉えることができ、格子パラメータや平面リッピングの影響を含む。

Graphene is one of the most researched two dimensional (2D) material due to its unique combination of mechanical, thermal and electrical properties. Special 2D structure of graphene enables it to exhibit a wide range of peculiar material properties like high Young's modulus, high specific strength etc. which are critical for myriad of applications including light weight structural materials, multi-functional coating and flexible electronics. It is quite challenging and costly to experimentally investigate graphene/graphene based nanocomposites, computational simulations such as molecular dynamics (MD) simulations are widely adopted for understanding the microscopic origins of their unique properties. However, disparate results were reported from computational studies, especially MD simulations using various empirical inter-atomic potentials. In this work, an artificial neural network based interatomic potential has been developed for graphene to represent the potential energy surface based on first principle calculations. The developed machine learning potential (MLP) facilitates high fidelity MD simulations to approach the accuracy of ab initio methods but with a fraction of computational cost, which allows larger simulation size/length, and thereby enables accelerated discovery/design of graphene-based novel materials. Lattice parameter, coefficient of thermal expansion (CTE), Young's modulus and yield strength are estimated using machine learning accelerated MD simulations (MLMD), which are compared to experimental/first principle calculations from previous literatures. It is demonstrated that MLMD can capture the dominating mechanism governing CTE of graphene, including effects from lattice parameter and out of plane rippling.
翻訳日:2023-06-13 13:43:56 公開日:2023-06-12
# RB-Dust -- 視覚に基づくダスト除去のための参照ベースデータセット

RB-Dust -- A Reference-based Dataset for Vision-based Dust Removal ( http://arxiv.org/abs/2306.07244v1 )

ライセンス: Link先を確認
Peter Buckel, Timo Oksanen, Thomas Dietmueller(参考訳) 農業の風景におけるダストは重要な課題であり、例えば自律型農業機械の環境認識に影響を及ぼす。 画像強調アルゴリズムはダストを減らすために使用できる。 しかし、これらは検証のために同じ環境のほこりやほこりのない画像を必要とする。 実際、今のところ、この問題に対処するデータセットは存在していません。 そこで本研究では,参照に基づくダスト除去を目的としたagriscapes rb-dustデータセットを提案する。 耕作中に小屋から写真を撮ることは不可能であり、これは画像に変化を引き起こす可能性がある。 これにより、通過トラクタ近傍の静止位置から画像を撮影できる装置を構築した。 テストセットアップは、トラクターが運転できる半側面のゲートに基づいていた。 フィールドテストはドイツのバイエルンにある農場で耕作中に行われた。 フィールド試験では,土壌水分や風速などのパラメータが制御され,塵の発生に大きく影響した。 コントラスト強調と画像デハージングアルゴリズムを用いてデータセットを検証し,移動トラクタからの録音からの一般化性を検討した。 最後に,人物分類などのハイレベルなビジョンタスクに基づくダスト除去の適用例を示す。 実証実験により,農業におけるビジョンベース除塵におけるRB-Dustの有効性が確認された。

Dust in the agricultural landscape is a significant challenge and influences, for example, the environmental perception of autonomous agricultural machines. Image enhancement algorithms can be used to reduce dust. However, these require dusty and dust-free images of the same environment for validation. In fact, to date, there is no dataset that we are aware of that addresses this issue. Therefore, we present the agriscapes RB-Dust dataset, which is named after its purpose of reference-based dust removal. It is not possible to take pictures from the cabin during tillage, as this would cause shifts in the images. Because of this, we built a setup from which it is possible to take images from a stationary position close to the passing tractor. The test setup was based on a half-sided gate through which the tractor could drive. The field tests were carried out on a farm in Bavaria, Germany, during tillage. During the field tests, other parameters such as soil moisture and wind speed were controlled, as these significantly affect dust development. We validated our dataset with contrast enhancement and image dehazing algorithms and analyzed the generalizability from recordings from the moving tractor. Finally, we demonstrate the application of dust removal based on a high-level vision task, such as person classification. Our empirical study confirms the validity of RB-Dust for vision-based dust removal in agriculture.
翻訳日:2023-06-13 13:43:28 公開日:2023-06-12
# 深いガウス混合集合

Deep Gaussian Mixture Ensembles ( http://arxiv.org/abs/2306.07235v1 )

ライセンス: Link先を確認
Yousef El-Laham, Niccol\`o Dalmasso, Elizabeth Fons, Svitlana Vyetrenko(参考訳) この研究は、ディープガウス混合アンサンブル(DGMEs)と呼ばれる新しい確率論的深層学習技術を導入し、てんかんとアレタリックの不確実性の正確な定量化を可能にした。 データ生成過程がガウス混合に従えば、DGMEは重み付き分布やマルチモーダル分布などの複雑な確率分布を近似することができる。 我々の貢献には、モデルパラメータの学習に使用される期待最大化(EM)アルゴリズムの導出が含まれる。 さらに、提案したEMトレーニングでは、アンサンブルでは一般的に行われない混合重量の学習が可能になる。 実験の結果,DGMEは複雑な予測密度を扱う深層学習モデルよりも優れていることがわかった。

This work introduces a novel probabilistic deep learning technique called deep Gaussian mixture ensembles (DGMEs), which enables accurate quantification of both epistemic and aleatoric uncertainty. By assuming the data generating process follows that of a Gaussian mixture, DGMEs are capable of approximating complex probability distributions, such as heavy-tailed or multimodal distributions. Our contributions include the derivation of an expectation-maximization (EM) algorithm used for learning the model parameters, which results in an upper-bound on the log-likelihood of training data over that of standard deep ensembles. Additionally, the proposed EM training procedure allows for learning of mixture weights, which is not commonly done in ensembles. Our experimental results demonstrate that DGMEs outperform state-of-the-art uncertainty quantifying deep learning models in handling complex predictive densities.
翻訳日:2023-06-13 13:43:11 公開日:2023-06-12
# Generative Plug and Play: 逆問題に対する後方サンプリング

Generative Plug and Play: Posterior Sampling for Inverse Problems ( http://arxiv.org/abs/2306.07233v1 )

ライセンス: Link先を確認
Charles A. Bouman and Gregery T. Buzzard(参考訳) 過去10年間で、Plug-and-Play(PnP)は、前方モデルと先行モデルからなるモジュラーフレームワークを使用して、イメージを再構成する一般的な方法となった。 PnPの大きな強みは、イメージデノイザを先行モデルとして使用でき、フォワードモデルはより伝統的な物理ベースのアプローチで実装できることである。 しかし、PnPの制限は、単一の決定論的像のみを再構成することである。 本稿では,PnPの一般化であるGPnP(Generative Plug-and-Play)を紹介する。 PnP と同様に、GPnP は物理ベースのフォワードモデルと事前モデルを示す画像を用いたモジュラーフレームワークを持つ。 しかし、GPnPではこれらのモデルが拡張され、関連する分布からサンプルとなる。 GPnPはこれらの近位発電機を交互に応用し、後部からサンプルを生成する。 BM3Dデノイザを用いた実験シミュレーションを行った。 その結果,GPnP法は頑健であり,実装が容易であり,スパルス補間およびトモグラフィ再構成のために後方から直感的に妥当なサンプルが得られた。 この論文に付随するコードはhttps://github.com/gbuzzard/generative-pnp-allerton で公開されている。

Over the past decade, Plug-and-Play (PnP) has become a popular method for reconstructing images using a modular framework consisting of a forward and prior model. The great strength of PnP is that an image denoiser can be used as a prior model while the forward model can be implemented using more traditional physics-based approaches. However, a limitation of PnP is that it reconstructs only a single deterministic image. In this paper, we introduce Generative Plug-and-Play (GPnP), a generalization of PnP to sample from the posterior distribution. As with PnP, GPnP has a modular framework using a physics-based forward model and an image denoising prior model. However, in GPnP these models are extended to become proximal generators, which sample from associated distributions. GPnP applies these proximal generators in alternation to produce samples from the posterior. We present experimental simulations using the well-known BM3D denoiser. Our results demonstrate that the GPnP method is robust, easy to implement, and produces intuitively reasonable samples from the posterior for sparse interpolation and tomographic reconstruction. Code to accompany this paper is available at https://github.com/gbuzzard/generative-pnp-allerton .
翻訳日:2023-06-13 13:42:54 公開日:2023-06-12
# コード結合による資源効率の高いフォールトトレラントワンウェイ量子リピータ

Resource-efficient fault-tolerant one-way quantum repeater with code concatenation ( http://arxiv.org/abs/2306.07224v1 )

ライセンス: Link先を確認
Kah Jen Wo, Guus Avis, Filip Rozp\k{e}dek, Maria Flors Mor-Ruiz, Gregor Pieplow, Tim Schr\"oder, Liang Jiang, Anders S{\o}ndberg S{\o}rensen and Johannes Borregaard(参考訳) 損失と運用上のエラーが量子エラー訂正符号によって対処される一方通行の量子リピータは、量子ネットワークにおける高速で信頼性の高い量子ビット伝送を保証する。 このようなリピータのリソース要件、例えば、リピータノード当たりのキュービット数と量子エラー訂正操作の複雑さは、近い将来の実装を可能にするために最小限に保たれることが重要である。 そこで本稿では,通信チャネルにおける損失率と運用エラー率の両方を,コード結合を用いた資源効率の高い方法で目標とする一方向量子リピータを提案する。 具体的には、木クラスタコードは、パウリのエラーから保護するために外部の5量子ビットコードと結合した内部ロス耐性コードであると考える。 フラグベースの安定度測定を応用し、各ノードが損失や運用上のエラーの抑制を専門に行うことで、最大1万kmの大陸間距離を最小のリソースオーバーヘッドで橋渡しできることを示す。 我々の研究は、長距離量子通信の実験的な要件をいかに大幅に減らすかを示す。

One-way quantum repeaters where loss and operational errors are counteracted by quantum error correcting codes can ensure fast and reliable qubit transmission in quantum networks. It is crucial that the resource requirements of such repeaters, for example, the number of qubits per repeater node and the complexity of the quantum error correcting operations are kept to a minimum to allow for near-future implementations. To this end, we propose a one-way quantum repeater that targets both the loss and operational error rates in a communication channel in a resource-efficient manner using code concatenation. Specifically, we consider a tree-cluster code as an inner loss-tolerant code concatenated with an outer 5-qubit code for protection against Pauli errors. Adopting flag-based stabilizer measurements, we show that intercontinental distances of up to 10,000 km can be bridged with a minimal resource overhead by interspersing repeater nodes that each specializes in suppressing either loss or operational errors. Our work demonstrates how tailored error-correcting codes can significantly lower the experimental requirements for long-distance quantum communication.
翻訳日:2023-06-13 13:42:33 公開日:2023-06-12
# ワクチンの割り当ての賢明さ

Wise in Vaccine Allocation ( http://arxiv.org/abs/2306.07223v1 )

ライセンス: Link先を確認
Baiqiao Yin, Jiaqing Yuan, Weichen Lv, Jiehui Huang, Guian Fang(参考訳) この論文は、将来のワクチン分布を予測するために機械学習と数学的モデリングを使用し、異なる種類の病院にワクチンを割り当てる問題を解決している。 彼らはデータを収集して分析し、近隣の住民、交通機関、医療従事者など、分布に影響を与える要因を見つけた。 研究チームは、このモデルに基づいて、湖州ゴン州地区とハルビンダオリ地区の中央・地域病院と保健センターにワクチンを投与し、モデルを作成しました。 彼らはそのモデルと結論に基づいてワクチンの分布を説明する。

The paper uses machine learning and mathematical modeling to predict future vaccine distribution and solve the problem of allocating vaccines to different types of hospitals. They collected data and analyzed it, finding factors such as nearby residents, transportation, and medical personnel that impact distribution. They used the results to create a model and allocate vaccines to central and community hospitals and health centers in Hangzhou Gongshu District and Harbin Daoli District based on the model. They provide an explanation for the vaccine distribution based on their model and conclusions.
翻訳日:2023-06-13 13:42:11 公開日:2023-06-12
# 平均場ランゲヴィン力学の収束:時間と空間の離散化、確率勾配、分散還元

Convergence of mean-field Langevin dynamics: Time and space discretization, stochastic gradient, and variance reduction ( http://arxiv.org/abs/2306.07221v1 )

ライセンス: Link先を確認
Taiji Suzuki and Denny Wu and Atsushi Nitanda(参考訳) 平均場ランジュバンダイナミクス(mfld)は分布依存ドリフトを含むランジュバンダイナミクスの非線形一般化であり、(ノイズ)勾配降下による2層ニューラルネットワークの最適化から自然に生じる。 近年の研究では、mfldは測度空間におけるエントロピー正規化凸汎関数をグローバルに最小化することが示されている。 しかし、全ての先行分析は無限粒子または連続時間限界を仮定し、確率的勾配更新を扱えない。 有限粒子近似,時間分散,確率勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を証明するための一般的な枠組みを提供する。 このフレームワークの広範な適用性を示すため、正規化グローバル最適解に対する定量的収束率保証を確立する。 (i)平均場環境におけるニューラルネットワークやmmd最小化といった幅広い学習問題、及び (ii)sgdおよびsvrgを含む異なる勾配推定器。 結果の一般化にもかかわらず、標準ランゲヴィン力学に特化する場合、SGDおよびSVRG設定の収束率が向上する。

The mean-field Langevin dynamics (MFLD) is a nonlinear generalization of the Langevin dynamics that incorporates a distribution-dependent drift, and it naturally arises from the optimization of two-layer neural networks via (noisy) gradient descent. Recent works have shown that MFLD globally minimizes an entropy-regularized convex functional in the space of measures. However, all prior analyses assumed the infinite-particle or continuous-time limit, and cannot handle stochastic gradient updates. We provide an general framework to prove a uniform-in-time propagation of chaos for MFLD that takes into account the errors due to finite-particle approximation, time-discretization, and stochastic gradient approximation. To demonstrate the wide applicability of this framework, we establish quantitative convergence rate guarantees to the regularized global optimal solution under (i) a wide range of learning problems such as neural network in the mean-field regime and MMD minimization, and (ii) different gradient estimators including SGD and SVRG. Despite the generality of our results, we achieve an improved convergence rate in both the SGD and SVRG settings when specialized to the standard Langevin dynamics.
翻訳日:2023-06-13 13:42:04 公開日:2023-06-12
# Strokes2Surface:4Dアーキテクチャ設計から曲線ネットワークを復元

Strokes2Surface: Recovering Curve Networks From 4D Architectural Design Sketches ( http://arxiv.org/abs/2306.07220v1 )

ライセンス: Link先を確認
S. Rasoulzadeh, M. Wimmer, and I. Kovacic(参考訳) Strokes2Surfaceは、4D Sketching Interface(MR.Sketch)上に構築されたオフラインの幾何学的再構成パイプラインである。 パイプラインは設計者が描いたストロークから曲線ネットワークを復元し、設計における概念設計とデジタルモデリングの段階を橋渡しする。 パイプラインへの入力は、3dストロークのポリライン頂点と対応するタイムスタンプ(4次元現在)と、幾何学的およびスタイラスに関連した記録的特性からなる。 スケッチ統合とスケッチベースのモデリング手法にインスパイアされたパイプラインは、そのようなデータを活用し、3つの機械学習(ML)モデル、分類器と2つのクラスタリングモデルを組み合わせる。 特に,設計者が建築設計スケッチに典型的に採用する実践の観察に基づいて,ストロークが境界とエッジを描写しているか,あるいは意図する建築オブジェクトの囲い領域と顔を埋めるために使用されるかという二分分類問題を解く。 2つのクラスタリングモデルに続いて、各タイプのストロークはさらにグループにパースされ、それぞれが1つのエッジまたは1つの顔を表す。 次に、辺を表す群をb-スプライン曲線で近似し、次に、よく連結された曲線ネットワークを形成する曲線間の所望の連結性を同定し固定するトポロジー回復過程を行う。 次に、顔を表す群を用いて曲線ネットワークのパッチ境界の周期を検知し、アーキテクチャ対象の最終的な表面メッシュ形状を導出する。 本研究では,Strokes2Surfaceのユーザビリティをユーザスタディで検証し,代替手法を用いて計算したさまざまな再構成と比較する。 また、コミュニティでさらに使われるように、手動でラベル付けされた4Dアーキテクチャデザインスケッチのデータセットも導入します。

We present Strokes2Surface, an offline geometry-reconstruction pipeline built upon a 4D Sketching Interface, MR.Sketch, targeted at architectural design. The pipeline recovers a curve network from designer-drawn strokes, thus bridging between concept design and digital modeling stages in architectural design. The input to our pipeline consists of 3D strokes' polyline vertices and their corresponding timestamps (as of the fourth dimension), along with additional geometric and stylus-related recorded properties. Inspired by sketch consolidation and sketch-based modeling methods, our pipeline leverages such data and combines three Machine Learning (ML) models; a classifier and two clustering models. In particular, based on observations of practices designers typically employ in architectural design sketches, we solve a binary classification problem to recognize whether a stroke depicts a boundary and edge or is used to fill in the enclosing areas and faces of the intended architectural object. Followed by the two clustering models, strokes of each type are further parsed into groups, each representing either a single edge or a single face. Next, groups representing edges are approximated with B-spline curves, followed by a topology-recovering process identifying and fixing desired connectivities between the curves forming a well-connected curve network. Next, groups representing the faces are employed to detect the cycles bounding patches in the curve network, resulting in the final surface mesh geometry of the architectural object. We confirm the usability of Strokes2Surface via a user study and further validate and compare our results against a range of reconstructions computed using alternative methods. We also introduce our manually labeled dataset of 4D architectural design sketches for further use in the community.
翻訳日:2023-06-13 13:41:42 公開日:2023-06-12
# SHAPの継続的な説明のためのプロトコル

A Protocol for Continual Explanation of SHAP ( http://arxiv.org/abs/2306.07218v1 )

ライセンス: Link先を確認
Andrea Cossu, Francesco Spinnato, Riccardo Guidotti, Davide Bacciu(参考訳) 連続学習は、過去の知識を忘れずに新しい情報を学ぶことを目的として、データのストリームでモデルを訓練する。 このような環境の動的性質を考えると、これらのモデルの予測を説明するのは困難である。 連続学習におけるSHAP値説明の振る舞いについて検討し,授業増分シナリオにおける説明の変化を確実に評価するための評価プロトコルを提案する。 Replay戦略はフィードフォワード/畳み込みモデルにおいてSHAP値の安定性を強制するが、完全にトレーニングされたリカレントモデルではそのようにはできない。 我々は、ランダム化再帰モデルのような別の再帰的アプローチは、時間とともに説明を安定させるのにより効果的であることを示す。

Continual Learning trains models on a stream of data, with the aim of learning new information without forgetting previous knowledge. Given the dynamic nature of such environments, explaining the predictions of these models can be challenging. We study the behavior of SHAP values explanations in Continual Learning and propose an evaluation protocol to robustly assess the change of explanations in Class-Incremental scenarios. We observed that, while Replay strategies enforce the stability of SHAP values in feedforward/convolutional models, they are not able to do the same with fully-trained recurrent models. We show that alternative recurrent approaches, like randomized recurrent models, are more effective in keeping the explanations stable over time.
翻訳日:2023-06-13 13:41:10 公開日:2023-06-12
# テレコム波長における分光多重モード励起状態の生成

Spectrally multimode squeezed states generation at telecom wavelengths ( http://arxiv.org/abs/2306.07267v1 )

ライセンス: Link先を確認
Victor Roman-Rodriguez, David Fainsin, Guilherme L. Zanin, Nicolas Treps, Eleni Diamanti, Valentina Parigi(参考訳) 赤外cバンド上のスペクトルマルチモードの光圧縮状態を生成する光源の実験的実証について報告する。 これは、フェムト秒レーザーの第2高調波で励起される周期的なKTP導波路において、シングルパスのパラメトリックダウン変換(SPDC)プロセスを用いて達成される。 本測定では, 2.5dB以上の周波数モードで有意なスクイーズが認められた。 さらに,8個の周波数帯域にまたがるマルチパーティの絡み合いを,各周波数帯域の共分散行列を計測して示す。 最後に、再構成可能なモード選択ホモダイン検出を用いて、出力を様々な形状のクラスター状態に成形する。 この結果は、通信波長における連続変数量子情報プロトコルの実装方法となり、マルチパーティの絡み合いベースの量子通信と計算に応用される。

We report on the experimental demonstration of a source that generates spectrally multimode squeezed states of light over the infrared C-Band. This is achieved using a single-pass Spontaneous Parametric Down Conversion (SPDC) process in a periodically-poled KTP waveguide that is pumped with the second harmonic of a femtosecond laser. Our measurements show significant squeezing in more than 21 frequency modes, with a maximum squeezing value over 2.5 dB. Moreover, we demonstrate multiparty entanglement across 8 individual frequency bands by measuring the covariance matrix of their quadratures. Finally, we use reconfigurable mode-selective homodyne detection to mold the output into cluster states of various shapes. This result paves the way for the implementation of continuous variable quantum information protocols at telecommunication wavelengths, with applications in multiparty, entanglement-based quantum communication and computation.
翻訳日:2023-06-13 13:32:55 公開日:2023-06-12
# ニューラルネットワークによる演算子学習:一般測地におけるPDE処理

Operator Learning with Neural Fields: Tackling PDEs on General Geometries ( http://arxiv.org/abs/2306.07266v1 )

ライセンス: Link先を確認
Louis Serrano, Lise Le Boudec, Armand Kassa\"i Koupa\"i, Thomas X Wang, Yuan Yin, Jean-No\"el Vittaut, Patrick Gallinari(参考訳) 偏微分方程式の解法には関数空間間の学習写像が必要である。 畳み込みニューラルネットワークやグラフニューラルネットワークは離散関数に制約されるが、ニューラルネットワークは関数を直接マッピングする上で有望なマイルストーンを提供する。 印象的な結果にもかかわらず、ドメインの幾何についてはまだ課題に直面しており、通常はある種の離散化に依存しています。 このような制約を緩和するために,一般測地上でPDEを解くために座標ベースのネットワークを利用する新しい手法であるCORALを提案する。 CoRALは入力メッシュの制約を取り除くように設計されており、任意の空間サンプリングや幾何学に適用できる。 その能力は、PDE解決、時空間予測、幾何学的設計のような逆問題を含む様々な問題領域にまで拡張される。 CoRALは、複数の解像度で堅牢なパフォーマンスを示し、凸領域と非凸領域の両方でよく機能し、最先端のモデルに匹敵するか、あるいは同等に機能する。

Machine learning approaches for solving partial differential equations require learning mappings between function spaces. While convolutional or graph neural networks are constrained to discretized functions, neural operators present a promising milestone toward mapping functions directly. Despite impressive results they still face challenges with respect to the domain geometry and typically rely on some form of discretization. In order to alleviate such limitations, we present CORAL, a new method that leverages coordinate-based networks for solving PDEs on general geometries. CORAL is designed to remove constraints on the input mesh, making it applicable to any spatial sampling and geometry. Its ability extends to diverse problem domains, including PDE solving, spatio-temporal forecasting, and inverse problems like geometric design. CORAL demonstrates robust performance across multiple resolutions and performs well in both convex and non-convex domains, surpassing or performing on par with state-of-the-art models.
翻訳日:2023-06-13 13:32:38 公開日:2023-06-12
# detrex:ベンチマーク検出トランスフォーマー

detrex: Benchmarking Detection Transformers ( http://arxiv.org/abs/2306.07265v1 )

ライセンス: Link先を確認
Tianhe Ren, Shilong Liu, Feng Li, Hao Zhang, Ailing Zeng, Jie Yang, Xingyu Liao, Ding Jia, Hongyang Li, He Cao, Jianan Wang, Zhaoyang Zeng, Xianbiao Qi, Yuhui Yuan, Jianwei Yang, Lei Zhang(参考訳) 検出TR(Detection TRansformer)アルゴリズムは研究コミュニティで注目されており、オブジェクト検出やその他の知覚タスクの主流となるアプローチとして徐々に発展しつつある。 しかし、現在の分野には、DETRベースのモデルに特化された統一的で包括的なベンチマークが欠けている。 この問題に対処するために,Detrexという,オブジェクト検出やセグメンテーション,ポーズ推定など,さまざまな基本的なタスクをカバーする,主要なDETRベースのインスタンス認識アルゴリズムの大部分をサポートする,統一的で高度にモジュール化された軽量なコードベースを開発した。 我々は detrex で広範な実験を行い, detr モデルに対する包括的なベンチマークを行う。 さらに,検出トランスフォーマーの性能向上に寄与し,サポート対象のアルゴリズムに強力なベースラインを提供するとともに,DeTRベースのモデルの評価と比較を行うとともに,DeTRベースのインスタンス認識の深い理解と進歩を促進するために,Detrexが研究コミュニティに標準化された統一プラットフォームを提供することを期待している。 私たちのコードはhttps://github.com/idea-research/detrex.comで利用可能です。 このプロジェクトは現在活発に開発されている。 さらなる開発とコントリビューションのために、コミュニティにdetrexコードベースの使用を推奨しています。

The DEtection TRansformer (DETR) algorithm has received considerable attention in the research community and is gradually emerging as a mainstream approach for object detection and other perception tasks. However, the current field lacks a unified and comprehensive benchmark specifically tailored for DETR-based models. To address this issue, we develop a unified, highly modular, and lightweight codebase called detrex, which supports a majority of the mainstream DETR-based instance recognition algorithms, covering various fundamental tasks, including object detection, segmentation, and pose estimation. We conduct extensive experiments under detrex and perform a comprehensive benchmark for DETR-based models. Moreover, we enhance the performance of detection transformers through the refinement of training hyper-parameters, providing strong baselines for supported algorithms.We hope that detrex could offer research communities a standardized and unified platform to evaluate and compare different DETR-based models while fostering a deeper understanding and driving advancements in DETR-based instance recognition. Our code is available at https://github.com/IDEA-Research/detrex. The project is currently being actively developed. We encourage the community to use detrex codebase for further development and contributions.
翻訳日:2023-06-13 13:32:20 公開日:2023-06-12
# 楕円偏極トラップにおける極性分子の拡張的回転コヒーレンス

Extended rotational coherence of polar molecules in an elliptically polarized trap ( http://arxiv.org/abs/2306.07264v1 )

ライセンス: Link先を確認
Annie J. Park, Lewis R.B. Picard, Gabriel E. Patenotte, Jessie T. Zhang, Till Rosenband, Kang-Kuen Ni(参考訳) 光トラップの運動基底状態における個々の極性分子の長い回転コヒーレンスを示す。 従来未検討の領域では、分子の回転固有状態は静的場ではなくトラップ光によって支配的に定量化され、デコヒーレンスの主な源は微分光シフトである。 NaCs分子の光学的ツイーザアレイにおいて、トラップの偏光を線形から特定の「魔法の」楕円性に変更することにより、差分光シフトの3次減衰を実現する。 スピンエコーパルスでは、回転コヒーレンス時間62(3)ms(1パルス)と250(40)ms(最大72パルス)を計測し、共振双極子-双極子絡みゲートの投影長を1桁超えた。

We demonstrate long rotational coherence of individual polar molecules in the motional ground state of an optical trap. In the present, previously unexplored regime, the rotational eigenstates of molecules are dominantly quantized by trapping light rather than static fields, and the main source of decoherence is differential light shift. In an optical tweezer array of NaCs molecules, we achieve a three-orders-of-magnitude reduction in differential light shift by changing the trap's polarization from linear to a specific "magic" ellipticity. With spin-echo pulses, we measure a rotational coherence time of 62(3) ms (one pulse) and 250(40) ms (up to 72 pulses), surpassing the projected duration of resonant dipole-dipole entangling gates by orders of magnitude.
翻訳日:2023-06-13 13:32:00 公開日:2023-06-12
# アルゴリズム的公平の7年間の未処理

Unprocessing Seven Years of Algorithmic Fairness ( http://arxiv.org/abs/2306.07261v1 )

ライセンス: Link先を確認
Andr\'e F. Cruz, Moritz Hardt(参考訳) 7年前、研究者は異なる集団間でモデルのエラー率を均等化するポストプロセッシング法を提案した。 作業は後処理のベースラインを改善するために数百の論文を発行した。 いくつかの表付きデータセット上で数千のモデル評価を行うことで,これらの主張を実証的に評価する。 ポストプロセッシングによって達成されたフェアネス精度のParetoフロンティアには、評価可能な他の方法がすべて含まれています。 そこで我々は,これまでの観測結果と合致した方法論的誤りを2つ解決した。 1つは、異なる制約のないベースモデルとのメソッドの比較に関するものである。 他の関心事は、異なるレベルの制約緩和を達成する方法である。 私たちの研究の中心は、ポストプロセッシングの逆に対応するアンプロセッシング(unprocessing)と呼ばれる単純なアイデアです。 アンプロセッシングにより、異なるモデルと緩和レベルを使用するメソッドを直接比較することができる。 現在7年前、我々の観測結果を正確に予測した理論的な議論が、広く見過ごされている。

Seven years ago, researchers proposed a postprocessing method to equalize the error rates of a model across different demographic groups. The work launched hundreds of papers purporting to improve over the postprocessing baseline. We empirically evaluate these claims through thousands of model evaluations on several tabular datasets. We find that the fairness-accuracy Pareto frontier achieved by postprocessing contains all other methods we were feasibly able to evaluate. In doing so, we address two common methodological errors that have confounded previous observations. One relates to the comparison of methods with different unconstrained base models. The other concerns methods achieving different levels of constraint relaxation. At the heart of our study is a simple idea we call unprocessing that roughly corresponds to the inverse of postprocessing. Unprocessing allows for a direct comparison of methods using different underlying models and levels of relaxation. Interpreting our findings, we recall a widely overlooked theoretical argument, present seven years ago, that accurately predicted what we observe.
翻訳日:2023-06-13 13:31:43 公開日:2023-06-12
# moviefactory: 言語と画像のための大きな生成モデルを用いたテキストからの映画自動生成

MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images ( http://arxiv.org/abs/2306.07257v1 )

ライセンス: Link先を確認
Junchen Zhu, Huan Yang, Huiguo He, Wenjing Wang, Zixi Tuo, Wen-Huang Cheng, Lianli Gao, Jingkuan Song, Jianlong Fu(参考訳) 本稿では,映画制作のための強力なフレームワークであるMovieFactory(3072$\times$1280),映画風(マルチシーン),マルチモーダリティ(サウンド)映画を自然言語の需要に応じて提示する。 私たちの知識を最大限に活用する最初の完全自動化映画生成モデルとして、このアプローチは、単純なテキスト入力を使ってスムーズなトランジションでキャプティベートな映画を作成可能にする。 そこで我々はChatGPTを利用してユーザが提供するテキストを映画生成のための詳細なシーケンシャルスクリプトに拡張する。 次に,視覚生成と音声検索を通じて視覚および音響にスクリプトをもたらす。 ビデオを生成するには,事前学習したテキストから画像への拡散モデルを2段階のプロセスで拡張する。 まず,事前学習された画像モデルと新たなビデオデータセットとのギャップを埋めるために,空間的微調整を用いる。 次に,物体の動きを捉えるための時間学習を提案する。 音声に関しては,高度な検索モデルを用いて,映像のプロットと映像コンテンツに対応する音声要素の選択と調整を行う。 大規模な実験により、われわれのMovieFactoryはリアルなビジュアル、多様なシーン、シームレスにフィットするオーディオを制作し、ユーザーに新しい没入的な体験を提供する。 生成されたサンプルはYouTubeやBilibili(1080P)で見ることができる。

In this paper, we present MovieFactory, a powerful framework to generate cinematic-picture (3072$\times$1280), film-style (multi-scene), and multi-modality (sounding) movies on the demand of natural languages. As the first fully automated movie generation model to the best of our knowledge, our approach empowers users to create captivating movies with smooth transitions using simple text inputs, surpassing existing methods that produce soundless videos limited to a single scene of modest quality. To facilitate this distinctive functionality, we leverage ChatGPT to expand user-provided text into detailed sequential scripts for movie generation. Then we bring scripts to life visually and acoustically through vision generation and audio retrieval. To generate videos, we extend the capabilities of a pretrained text-to-image diffusion model through a two-stage process. Firstly, we employ spatial finetuning to bridge the gap between the pretrained image model and the new video dataset. Subsequently, we introduce temporal learning to capture object motion. In terms of audio, we leverage sophisticated retrieval models to select and align audio elements that correspond to the plot and visual content of the movie. Extensive experiments demonstrate that our MovieFactory produces movies with realistic visuals, diverse scenes, and seamlessly fitting audio, offering users a novel and immersive experience. Generated samples can be found in YouTube or Bilibili (1080P).
翻訳日:2023-06-13 13:31:30 公開日:2023-06-12
# ガウス図形モデルに対する条件行列フロー

Conditional Matrix Flows for Gaussian Graphical Models ( http://arxiv.org/abs/2306.07255v1 )

ライセンス: Link先を確認
Marcello Massimo Negri, F. Arend Torres and Volker Roth(参考訳) 観測の少ない多くの変数間の条件付き独立構造の研究は難しい課題である。 ガウス図形モデル(GGM)は、$l_p$正規化を$p\leq1$とすることで精度行列のスパーシティを奨励することでこの問題に対処する。 しかし、目的が準l_1$擬似ノルムに対して非常に非凸であるため、ほとんどのアプローチは$l_1$ノルムに依存する。 この場合、頻繁なアプローチは、縮小パラメータ $\lambda$ の関数としてソリューションパスをエレガントに計算することができる。 ペナル化確率を最適化する代わりに、ベイズ式は精度行列に先立ってラプラスを導入する。 しかし、$\lambda$の異なる値に対する後続の推論には、高価なGibbsサンプルの繰り返し実行が必要である。 GGMにおける変分推論のための非常に一般的なフレームワークを提案し、頻繁なフレームワークとベイズ的フレームワークの利点を統一する。 具体的には、対称正定値行列の空間上で定義される行列-変量正規化流れにより後流を近似する。 従来の作業における重要な改善として、非凸部分-$l_1$擬ノルムを含むすべての正規化パラメータ$\lambda$とすべての$l_p$ノルムに対して、スパース回帰モデルの連続性をトレーニングする。 これは、$p>0$と縮小パラメータ$\lambda$でフローを条件付けすることで達成される。 すると1つのモデルにアクセスできます。 (i)任意の$\lambda$と任意の$l_p$ (pseudo-)ノルムに対する後方の進化。 (ii)モデル選択のための辺りの丸太類似性、及び 3) 模擬アニーリングにより得られたMAPとして, 頻繁な解経路を復元することができる。

Studying conditional independence structure among many variables with few observations is a challenging task. Gaussian Graphical Models (GGMs) tackle this problem by encouraging sparsity in the precision matrix through an $l_p$ regularization with $p\leq1$. However, since the objective is highly non-convex for sub-$l_1$ pseudo-norms, most approaches rely on the $l_1$ norm. In this case frequentist approaches allow to elegantly compute the solution path as a function of the shrinkage parameter $\lambda$. Instead of optimizing the penalized likelihood, the Bayesian formulation introduces a Laplace prior on the precision matrix. However, posterior inference for different $\lambda$ values requires repeated runs of expensive Gibbs samplers. We propose a very general framework for variational inference in GGMs that unifies the benefits of frequentist and Bayesian frameworks. Specifically, we propose to approximate the posterior with a matrix-variate Normalizing Flow defined on the space of symmetric positive definite matrices. As a key improvement on previous work, we train a continuum of sparse regression models jointly for all regularization parameters $\lambda$ and all $l_p$ norms, including non-convex sub-$l_1$ pseudo-norms. This is achieved by conditioning the flow on $p>0$ and on the shrinkage parameter $\lambda$. We have then access with one model to (i) the evolution of the posterior for any $\lambda$ and for any $l_p$ (pseudo-) norms, (ii) the marginal log-likelihood for model selection, and (iii) we can recover the frequentist solution paths as the MAP, which is obtained through simulated annealing.
翻訳日:2023-06-13 13:31:05 公開日:2023-06-12
# 共形予測集合の期待サイズについて

On the Expected Size of Conformal Prediction Sets ( http://arxiv.org/abs/2306.07254v1 )

ライセンス: Link先を確認
Guneet S. Dhillon and George Deligiannidis and Tom Rainforth(参考訳) 共形予測器は、その誤差周波数に対する厳密な統計的保証の利点を享受するが、対応する予測セットのサイズは実用上重要である。 残念ながら、現在有限サンプル解析が欠如しており、予測セットのサイズが保証されている。 この不足に対処するために、理論上、分割共形予測フレームワークで設定された予測の期待サイズを定量化する。 この正確な定式化は通常直接計算できないため、より容易に計算できる点推定と高い確率間隔を導出し、テストとキャリブレーションデータの異なる実現可能性にまたがる予測セットサイズを特徴付ける実用的な方法を提供する。 さらに,回帰問題と分類問題の両方に対して,実世界のデータセットを用いた実験を行い,結果の有効性を検証した。

While conformal predictors reap the benefits of rigorous statistical guarantees for their error frequency, the size of their corresponding prediction sets is critical to their practical utility. Unfortunately, there is currently a lack of finite-sample analysis and guarantees for their prediction set sizes. To address this shortfall, we theoretically quantify the expected size of the prediction set under the split conformal prediction framework. As this precise formulation cannot usually be calculated directly, we further derive point estimates and high probability intervals that can be easily computed, providing a practical method for characterizing the expected prediction set size across different possible realizations of the test and calibration data. Additionally, we corroborate the efficacy of our results with experiments on real-world datasets, for both regression and classification problems.
翻訳日:2023-06-13 13:30:40 公開日:2023-06-12
# 非均一サンプリングによるネットワークデータの等角予測の有効性について

On the Validity of Conformal Prediction for Network Data Under Non-Uniform Sampling ( http://arxiv.org/abs/2306.07252v1 )

ライセンス: Link先を確認
Robert Lunde(参考訳) 実例ではよく見られるが,ノードの非表現的なサンプルとなる様々なサンプリングメカニズムの下で,ネットワークデータの共形予測の特性について検討する。 これらのサンプリング機構を,過集団に適用する選択規則として解釈し,適切な選択イベントにおける共形予測条件の有効性について検討する。 選択規則が置換不変性を満たす場合、サンプルされたサブアレイは選択イベント上で交換可能条件であり、その超集団に対して共有交換可能条件が成立することを示す。 以上の結果から,エゴネットワークや雪玉サンプリングに関連する特定の選択事象に対する共形予測の有限サンプルの有効性が示唆された。 また,グラフ上のランダムなウォークでデータをサンプリングすると,重み付き共形予測の変種が個体群から選択したノードに対して漸近的に妥当な予測集合を生成することを示した。

We study the properties of conformal prediction for network data under various sampling mechanisms that commonly arise in practice but often result in a non-representative sample of nodes. We interpret these sampling mechanisms as selection rules applied to a superpopulation and study the validity of conformal prediction conditional on an appropriate selection event. We show that the sampled subarray is exchangeable conditional on the selection event if the selection rule satisfies a permutation invariance property and a joint exchangeability condition holds for the superpopulation. Our result implies the finite-sample validity of conformal prediction for certain selection events related to ego networks and snowball sampling. We also show that when data are sampled via a random walk on a graph, a variant of weighted conformal prediction yields asymptotically valid prediction sets for an independently selected node from the population.
翻訳日:2023-06-13 13:30:24 公開日:2023-06-12
# 量子画像フィルタリングのための重要な高速化

Achieving a significant speedup for quantum image filtering ( http://arxiv.org/abs/2306.07251v1 )

ライセンス: Link先を確認
Zidong Cui and Shan Jin and Akira Sone and Xiaoting Wang(参考訳) 画像処理は、量子アルゴリズムを探求する魅力的な分野である。 しかし、量子速度を上げることは大きな課題であることがわかった。 本研究では,画像フィルタリングに焦点をあて,相当なスピードアップを達成可能な画像のクラスを同定する。 量子状態として効率よく符号化できる画像に対して、量子ビット数の観点から多項式複雑性でフィルタリングアルゴリズムを構築することができることを示す。 このアルゴリズムは量子フーリエ変換と振幅増幅法を組み合わせたものである。 提案手法の利点を示すために,3つの典型的なフィルタリング問題に適用する。 さらに,効率良くエンコードできない画像に対しては,量子アドバンテージが低下することを示すことで,効率的なエンコーディングの重要性を強調した。 我々の研究は、量子画像フィルタリングの潜在的な利点の理解に寄与し、かなりのスピードアップを達成することのできる画像の種類についての洞察を提供する。

Image processing is a fascinating field for exploring quantum algorithms. However, achieving quantum speedups turns out to be a significant challenge. In this work, we focus on image filtering to identify a class of images that can achieve a substantial speedup. We show that for images that can be efficiently encoded as quantum states, a filtering algorithm can be constructed with a polynomial complexity in terms of the qubit number. Our algorithm combines the quantum Fourier transform with the amplitude amplification technique. To demonstrate the advantages of our approach, we apply it to three typical filtering problems. Furthermore, we highlight the importance of efficient encoding by illustrating that for images that cannot be efficiently encoded, the quantum advantage will diminish. Our work contributes to the understanding of the potential benefits of quantum image filtering and provides insights into the types of images that can achieve a substantial speedup.
翻訳日:2023-06-13 13:30:09 公開日:2023-06-12
# No Free Lunch:異常検出における過剰表現の危険性

No Free Lunch: The Hazards of Over-Expressive Representations in Anomaly Detection ( http://arxiv.org/abs/2306.07284v1 )

ライセンス: Link先を確認
Tal Reiss, Niv Cohen, Yedid Hoshen(参考訳) ディープラーニングを利用した異常検出手法は, 主に表現の改善により, 最近大きな進歩を遂げている。 ネットワークの規模を拡大することで異常検出が無限に改善し、表現がより表現力のあるものになると仮定する傾向にある。 本稿では,その逆の理論的および実証的な証拠を提供する。 実際、よく研究された対象中心のデータセットを超えて評価すると、非常に表現力のある表現が単純な異常も検出できないケースを実証的に示す。 この現象を調べるために,まず,異常検出性能のための新しい理論玩具モデルを導入する。 このモデルは表現満足度と過剰表現率の基本的なトレードオフを明らかにする。 これは、表現表現率の増加が最終的に性能劣化をもたらすという異常検出におけるノーランチ定理の証拠を提供する。 代わりに、関心の異常に関連する属性の表現に集中するためのガイダンスを提供する必要がある。 我々は、最先端の表現が過剰な表現に苦しむことが多く、多くの種類の異常を検知できないことを証明する広範な実証調査を行う。 本研究は,この過度表現率による画像異常検出の実態を実証するものである。 我々はこの問題を緩和するための今後の方向で結論づける。

Anomaly detection methods, powered by deep learning, have recently been making significant progress, mostly due to improved representations. It is tempting to hypothesize that anomaly detection can improve indefinitely by increasing the scale of our networks, making their representations more expressive. In this paper, we provide theoretical and empirical evidence to the contrary. In fact, we empirically show cases where very expressive representations fail to detect even simple anomalies when evaluated beyond the well-studied object-centric datasets. To investigate this phenomenon, we begin by introducing a novel theoretical toy model for anomaly detection performance. The model uncovers a fundamental trade-off between representation sufficiency and over-expressivity. It provides evidence for a no-free-lunch theorem in anomaly detection stating that increasing representation expressivity will eventually result in performance degradation. Instead, guidance must be provided to focus the representation on the attributes relevant to the anomalies of interest. We conduct an extensive empirical investigation demonstrating that state-of-the-art representations often suffer from over-expressivity, failing to detect many types of anomalies. Our investigation demonstrates how this over-expressivity impairs image anomaly detection in practical settings. We conclude with future directions for mitigating this issue.
翻訳日:2023-06-13 13:24:38 公開日:2023-06-12
# パフォーマンスのためのワッフル:ランダムワードと広義概念を用いた視覚的分類

Waffling around for Performance: Visual Classification with Random Words and Broad Concepts ( http://arxiv.org/abs/2306.07282v1 )

ライセンス: Link先を確認
Karsten Roth, Jae Myung Kim, A. Sophia Koepke, Oriol Vinyals, Cordelia Schmid, Zeynep Akata(参考訳) CLIPのような視覚言語モデルの視覚的分類性能は、GPT-3のような大きな言語モデル(LLM)を介して追加の意味知識の恩恵を受けることができる。 LLMの生成したクラス記述子(例えば ``waffle, \textit{which has a round shape}'' など)でさらに拡張されたクラス名や、複数の記述子に対する検索スコアの平均化は、一般化性能を向上させることが示されている。 そこで本研究では,LLM生成記述子をランダムな文字と単語記述子に置き換えることによって,多数の視覚的分類タスクにおいて同様のパフォーマンス向上を実現する,ゼロショット視覚分類のためのフレームワークである‘texttt{Waffle}CLIPを提案する。 これらの結果は、LLM生成記述子を介して導入された追加のセマンティックスの影響と欠点に関する広範な実験的研究により拡張され、LLMを高レベルな概念に問合せし、潜在的なクラス名の曖昧さを共同解決することで、セマンティックコンテキストがいかに優れているかを示す。 コードベースへのリンク:https://github.com/ExplainableML/WaffleCLIP。

The visual classification performance of vision-language models such as CLIP can benefit from additional semantic knowledge, e.g. via large language models (LLMs) such as GPT-3. Further extending classnames with LLM-generated class descriptors, e.g. ``waffle, \textit{which has a round shape}'', or averaging retrieval scores over multiple such descriptors, has been shown to improve generalization performance. In this work, we study this behavior in detail and propose \texttt{Waffle}CLIP, a framework for zero-shot visual classification which achieves similar performance gains on a large number of visual classification tasks by simply replacing LLM-generated descriptors with random character and word descriptors \textbf{without} querying external models. We extend these results with an extensive experimental study on the impact and shortcomings of additional semantics introduced via LLM-generated descriptors, and showcase how semantic context is better leveraged by automatically querying LLMs for high-level concepts, while jointly resolving potential class name ambiguities. Link to the codebase: https://github.com/ExplainableML/WaffleCLIP.
翻訳日:2023-06-13 13:24:19 公開日:2023-06-12
# 直交微調整によるテキストから画像への拡散制御

Controlling Text-to-Image Diffusion by Orthogonal Finetuning ( http://arxiv.org/abs/2306.07280v1 )

ライセンス: Link先を確認
Zeju Qiu, Weiyang Liu, Haiwen Feng, Yuxuan Xue, Yao Feng, Zhen Liu, Dan Zhang, Adrian Weller, Bernhard Sch\"olkopf(参考訳) 大きなテキストから画像への拡散モデルでは、テキストプロンプトからフォトリアリスティックな画像を生成することができる。 異なる下流タスクを実行するためにこれらの強力なモデルを効果的にガイドし、制御する方法は、重要なオープンな問題である。 そこで本研究では,テキストから画像への拡散モデルを下流タスクに適応させるための原理的微調整法である直交微調整法(oft)を提案する。 既存の方法とは異なり、OFTは単位超球上の対のニューロン関係を特徴付ける超球面エネルギーを確実に保存することができる。 テキストから画像への拡散モデルのセマンティック生成能力を維持するためには,この特性が重要である。 微調整安定性を向上させるため,超球面に新たな半径制限を課す制約付き直交微調整(COFT)を提案する。 具体的には、対象の少数の画像とテキストプロンプトが与えられた被験者固有の画像を生成することを目的とする主観駆動生成と、モデルが追加の制御信号を入力できるようにすることを目標とする制御可能な生成である。 我々のOFTフレームワークは、生成品質と収束速度において既存の手法よりも優れていることを実証的に示す。

Large text-to-image diffusion models have impressive capabilities in generating photorealistic images from text prompts. How to effectively guide or control these powerful models to perform different downstream tasks becomes an important open problem. To tackle this challenge, we introduce a principled finetuning method -- Orthogonal Finetuning (OFT), for adapting text-to-image diffusion models to downstream tasks. Unlike existing methods, OFT can provably preserve hyperspherical energy which characterizes the pairwise neuron relationship on the unit hypersphere. We find that this property is crucial for preserving the semantic generation ability of text-to-image diffusion models. To improve finetuning stability, we further propose Constrained Orthogonal Finetuning (COFT) which imposes an additional radius constraint to the hypersphere. Specifically, we consider two important finetuning text-to-image tasks: subject-driven generation where the goal is to generate subject-specific images given a few images of a subject and a text prompt, and controllable generation where the goal is to enable the model to take in additional control signals. We empirically show that our OFT framework outperforms existing methods in generation quality and convergence speed.
翻訳日:2023-06-13 13:23:53 公開日:2023-06-12
# 事前学習モデルによるスケーラブルな3次元キャプション

Scalable 3D Captioning with Pretrained Models ( http://arxiv.org/abs/2306.07279v1 )

ライセンス: Link先を確認
Tiange Luo, Chris Rockwell, Honglak Lee, Justin Johnson(参考訳) 3dオブジェクト用の記述テキストを生成する自動アプローチであるcap3dを紹介する。 このアプローチは、画像キャプション、画像テキストアライメント、LLMからの事前学習モデルを用いて、3Dアセットの複数のビューからキャプションを統合することで、手動アノテーションの時間的・コスト的なプロセスを完全にサイドステッピングする。 我々は最近導入された大規模3DデータセットObjaverseにCap3Dを適用する。 同じデータセットから41kのヒューマンアノテーションを用いて実施した評価結果から,cap3dは品質,コスト,速度の面で人間による記述を上回っていることが示された。 効果的なプロンプトエンジニアリングを通じて、Cap3DはABOデータセットから収集された17kのアノテーションの幾何学的記述を生成する際に、人間のパフォーマンスと競合する。 最後に、Cap3Dと人間のキャプションでText-to-3Dモデルを微調整し、Cap3Dのパフォーマンスを示し、Point-E、Shape-E、DreamFusionを含むSOTAをベンチマークする。

We introduce Cap3D, an automatic approach for generating descriptive text for 3D objects. This approach utilizes pretrained models from image captioning, image-text alignment, and LLM to consolidate captions from multiple views of a 3D asset, completely side-stepping the time-consuming and costly process of manual annotation. We apply Cap3D to the recently introduced large-scale 3D dataset, Objaverse, resulting in 660k 3D-text pairs. Our evaluation, conducted using 41k human annotations from the same dataset, demonstrates that Cap3D surpasses human-authored descriptions in terms of quality, cost, and speed. Through effective prompt engineering, Cap3D rivals human performance in generating geometric descriptions on 17k collected annotations from the ABO dataset. Finally, we finetune Text-to-3D models on Cap3D and human captions, and show Cap3D outperforms; and benchmark the SOTA including Point-E, Shape-E, and DreamFusion.
翻訳日:2023-06-13 13:23:31 公開日:2023-06-12
# マシンインテリジェンスを用いた数理予想生成

Mathematical conjecture generation using machine intelligence ( http://arxiv.org/abs/2306.07277v1 )

ライセンス: Link先を確認
Challenger Mishra, Subhayan Roy Moulik, Rahul Sarkar(参考訳) 概念は歴史的に純粋数学の発展に重要な役割を果たしてきた。 本研究では,機械学習を用いて数学的不等式に関する予想を生成するために,数学的データに抽象的パターンを求める体系的手法を提案する。 f < g 型の厳密な不等式に注目し、それらをベクトル空間と関連付ける。 予想空間と呼ばれるこの空間を測位することにより、この空間がバナッハ多様体に同型であることを証明できる。 この多様体の線型自己同型を研究することによって、この予想空間の構造的理解を発展させ、この空間がいくつかの自由群作用を持つことを示す。 これらの知見に基づいて,幾何勾配降下を用いた新しい予想を生成するアルゴリズムパイプラインを提案する。 概念の証明として、非可換単純群のケイリーグラフの素数関数と直径に関する新しい予想を生成するためのトイアルゴリズムを与える。 また、いくつかの予想が証明された同僚とのプライベートコミュニケーションを報告し、この手順を用いて生成された予想がまだ証明されていないことを強調した。 最後に、この分野における数学的発見のパイプラインを提案し、このパイプラインにおけるドメイン専門知識の重要性を強調する。

Conjectures have historically played an important role in the development of pure mathematics. We propose a systematic approach to finding abstract patterns in mathematical data, in order to generate conjectures about mathematical inequalities, using machine intelligence. We focus on strict inequalities of type f < g and associate them with a vector space. By geometerising this space, which we refer to as a conjecture space, we prove that this space is isomorphic to a Banach manifold. We develop a structural understanding of this conjecture space by studying linear automorphisms of this manifold and show that this space admits several free group actions. Based on these insights, we propose an algorithmic pipeline to generate novel conjectures using geometric gradient descent, where the metric is informed by the invariances of the conjecture space. As proof of concept, we give a toy algorithm to generate novel conjectures about the prime counting function and diameters of Cayley graphs of non-abelian simple groups. We also report private communications with colleagues in which some conjectures were proved, and highlight that some conjectures generated using this procedure are still unproven. Finally, we propose a pipeline of mathematical discovery in this space and highlight the importance of domain expertise in this pipeline.
翻訳日:2023-06-13 13:23:13 公開日:2023-06-12
# プランナーの超越観念:自律運転計画の観点からの知覚の評価

Transcendental Idealism of Planner: Evaluating Perception from Planning Perspective for Autonomous Driving ( http://arxiv.org/abs/2306.07276v1 )

ライセンス: Link先を確認
Wei-Xin Li, Xiaodong Yang(参考訳) 自律運転における知覚モジュールの性能評価は、複雑なインテリジェントシステムを開発する上で最も重要な課題の一つである。 従来のコンピュータビジョンタスクから採用されているモジュールレベルの単体テストメトリクスはある程度は実現可能だが、自動運転車の運転品質に対する知覚ノイズの影響を、一貫した総合的な方法で測定することは、まだ研究されていない。 本研究では,知覚モジュールにおける誤りが車両を実際に制御する自律エージェントの計画に与える影響を,一貫性を持って体系的に理解する枠組みを提案する。 具体的には、上流モジュールからの全ての入力信号が協調して世界状態記述を提供する予測ユーティリティ最大化として計画プロセスが策定され、計画者は、世界状態と行動の両方によって決定される期待ユーティリティを最大化して最適な行動を求める。 実条件下では、客観的関数は世界状態記述とヒルベルト空間の効用関数の間の内積として表現できることを示す。 この幾何学的解釈により、世界状態推定におけるノイズの影響を新しい方法で分析し、知覚を評価するための普遍的な指標へと導くことができる。 この枠組みは古典哲学文学における超越的理想主義(transcendental idealism)の考え方に似ており、私たちのアプローチにその名前を与えている。

Evaluating the performance of perception modules in autonomous driving is one of the most critical tasks in developing the complex intelligent system. While module-level unit test metrics adopted from traditional computer vision tasks are feasible to some extent, it remains far less explored to measure the impact of perceptual noise on the driving quality of autonomous vehicles in a consistent and holistic manner. In this work, we propose a principled framework that provides a coherent and systematic understanding of the impact an error in the perception module imposes on an autonomous agent's planning that actually controls the vehicle. Specifically, the planning process is formulated as expected utility maximisation, where all input signals from upstream modules jointly provide a world state description, and the planner strives for the optimal action by maximising the expected utility determined by both world states and actions. We show that, under practical conditions, the objective function can be represented as an inner product between the world state description and the utility function in a Hilbert space. This geometric interpretation enables a novel way to analyse the impact of noise in world state estimation on planning and leads to a universal metric for evaluating perception. The whole framework resembles the idea of transcendental idealism in the classical philosophical literature, which gives the name to our approach.
翻訳日:2023-06-13 13:22:56 公開日:2023-06-12
# 高分子鎖への分解による不均一Cryo-EM分子構造再構築

Reconstructing Heterogeneous Cryo-EM Molecular Structures by Decomposing Them into Polymer Chains ( http://arxiv.org/abs/2306.07274v1 )

ライセンス: Link先を確認
Bongjin Koo, Julien Martel, Ariana Peck, Axel Levy, Fr\'ed\'eric Poitevin, Nina Miolane(参考訳) 低温電子顕微鏡(cryo-EM)は、3次元の生体分子構造を原子に近い分解能まで再構成することで構造生物学を変容させた。 しかし、3D画像取得は低信号-雑音比に悩まされており、処理に要する非常に大きなデータセットを取得する必要がある。 現在の再構成法は精度は高いが、計算コストは高く、より速いが、大きな分子形状の物理的モデルが欠如している。 このギャップを埋めるために, 高分子インスタンス(鎖)の剛体変換により, 生体分子の大きな変形を符号化するCryoChainsを提案する。 ヒト$\text{GABA}_{\text{B}}$および熱ショックタンパク質の合成データ実験により、CryoChainsは生体分子の不均一な構造を生化学的に定量化するとともに、3次元分子構造を現在の高速で解釈可能な深層学習法と比較して再構築した。

Cryogenic electron microscopy (cryo-EM) has transformed structural biology by allowing to reconstruct 3D biomolecular structures up to near-atomic resolution. However, the 3D reconstruction process remains challenging, as the 3D structures may exhibit substantial shape variations, while the 2D image acquisition suffers from a low signal-to-noise ratio, requiring to acquire very large datasets that are time-consuming to process. Current reconstruction methods are precise but computationally expensive, or faster but lack a physically-plausible model of large molecular shape variations. To fill this gap, we propose CryoChains that encodes large deformations of biomolecules via rigid body transformation of their polymer instances (chains), while representing their finer shape variations with the normal mode analysis framework of biophysics. Our synthetic data experiments on the human $\text{GABA}_{\text{B}}$ and heat shock protein show that CryoChains gives a biophysically-grounded quantification of the heterogeneous conformations of biomolecules, while reconstructing their 3D molecular structures at an improved resolution compared to the current fastest, interpretable deep learning method.
翻訳日:2023-06-13 13:22:31 公開日:2023-06-12
# ガウス会員推定プライバシー

Gaussian Membership Inference Privacy ( http://arxiv.org/abs/2306.07273v1 )

ライセンス: Link先を確認
Tobias Leemann, Martin Pawelczyk, Gjergji Kasneci(参考訳) 我々は、会員推論攻撃モデルの下で現実的な敵の能力を明確に検討する、$f$-Membership Inference Privacy(f$-MIP)と呼ばれる新しいプライバシー概念を提案する。 そうすることで、$f$-MIPは解釈可能なプライバシー保証と実用性(例えば、より良い分類精度)を提供する。 雑音下の確率的勾配降下(sgd)に対する確率比に基づくメンバシップ推論攻撃に関する新しい理論的解析により、f$-mipのパラメトリックファミリーが得られ、それは「$\mu$-gaussian member inference privacy」($\mu$-gmip)と呼ばれている。 さらに,分析結果から,これまでのアプローチと異なるメリットを提供する分析的メンバシップ推論攻撃も生み出す。 第一に、既存の方法とは異なり、我々の攻撃は確率比を近似するために数百の影モデルを訓練する必要がない。 第2に、我々の分析攻撃はプライバシー概念の簡単な監査を可能にする。 最後に,ハイパーパラメータ(バッチサイズ,モデルパラメータ数など)や,攻撃者がトレーニングセットに与えられたポイントのメンバシップを確実に推測する上での成功を制御するためのデータ固有特性など,さまざまな要因の重要性を強調した。 視覚と表のデータセット間で学習したモデルに対して,本手法の有効性を示す。

We propose a new privacy notion called $f$-Membership Inference Privacy ($f$-MIP), which explicitly considers the capabilities of realistic adversaries under the membership inference attack threat model. By doing so $f$-MIP offers interpretable privacy guarantees and improved utility (e.g., better classification accuracy). Our novel theoretical analysis of likelihood ratio-based membership inference attacks on noisy stochastic gradient descent (SGD) results in a parametric family of $f$-MIP guarantees that we refer to as $\mu$-Gaussian Membership Inference Privacy ($\mu$-GMIP). Our analysis additionally yields an analytical membership inference attack that offers distinct advantages over previous approaches. First, unlike existing methods, our attack does not require training hundreds of shadow models to approximate the likelihood ratio. Second, our analytical attack enables straightforward auditing of our privacy notion $f$-MIP. Finally, our analysis emphasizes the importance of various factors, such as hyperparameters (e.g., batch size, number of model parameters) and data specific characteristics in controlling an attacker's success in reliably inferring a given point's membership to the training set. We demonstrate the effectiveness of our method on models trained across vision and tabular datasets.
翻訳日:2023-06-13 13:22:09 公開日:2023-06-12
# ゼロショット合成テキスト画像検索

Zero-shot Composed Text-Image Retrieval ( http://arxiv.org/abs/2306.07272v1 )

ライセンス: Link先を確認
Yikun Liu and Jiangchao Yao and Ya Zhang and Yanfeng Wang and Weidi Xie(参考訳) 本稿では,合成画像検索(CIR)の問題を考えるとともに,テキストや画像などのマルチモーダル情報を融合し,クエリにマッチする画像を正確に検索し,ユーザの表現能力を拡張できるモデルを訓練することを目的とする。 私たちは次のような貢献をします i) LAION-5Bのサブセットなど、画像テキストペアの大規模データセットを単純に活用することで、CIRモデルをトレーニングするためのデータセットを自動的に構築するスケーラブルなパイプラインを開始する。 二) 単純かつ効率的な融合機構を用いたトランスフォーマティブ・アダプティブ・アグリゲーション・モデルであるtransaggを導入し、多様なモダリティからの情報を適応的に結合する。 iii)我々は,提案するデータ構築手法の有用性とtransaggにおけるコアコンポーネントの有効性を検討するため,広範なアブレーション研究を行っている。 (iv)ゼロショットのシナリオ、すなわち自動構築されたデータセットのトレーニングに基づいて公開のbenckmarksを評価する場合、cirrやfashioniqといった下流のデータセットの推論を直接行う場合、提案手法は、既存のstate-of-the-art(sota)モデルと同等か、大幅に比較する。 プロジェクトページ: https://code-kun.github.io/ZS-CIR/

In this paper, we consider the problem of composed image retrieval (CIR), it aims to train a model that can fuse multi-modal information, e.g., text and images, to accurately retrieve images that match the query, extending the user's expression ability. We make the following contributions: (i) we initiate a scalable pipeline to automatically construct datasets for training CIR model, by simply exploiting a large-scale dataset of image-text pairs, e.g., a subset of LAION-5B; (ii) we introduce a transformer-based adaptive aggregation model, TransAgg, which employs a simple yet efficient fusion mechanism, to adaptively combine information from diverse modalities; (iii) we conduct extensive ablation studies to investigate the usefulness of our proposed data construction procedure, and the effectiveness of core components in TransAgg; (iv) when evaluating on the publicly available benckmarks under the zero-shot scenario, i.e., training on the automatically constructed datasets, then directly conduct inference on target downstream datasets, e.g., CIRR and FashionIQ, our proposed approach either performs on par with or significantly outperforms the existing state-of-the-art (SOTA) models. Project page: https://code-kunkun.github.io/ZS-CIR/
翻訳日:2023-06-13 13:21:44 公開日:2023-06-12
# 騒音下における断熱プロトコルの最適制御場

Optimizing control fields for adiabatic protocols in the presence of noise ( http://arxiv.org/abs/2306.07269v1 )

ライセンス: Link先を確認
Marllos E. F. Fernandes, Emanuel F. de Lima, and Leonardo K. Castelano(参考訳) 雑音の存在下で断熱量子コンピューティングを行うために量子制御技術が用いられる。 まず,2つの量子ビットに対するアディバティックエンタングルメントプロトコル(AEP)を解析する。 この場合、このプロトコルはノイズに対して非常に堅牢であることがわかった。 この事実の背景には、初期ハミルトニアンの基底状態がノイズの影響を受けない選択されたハミルトニアンが関係している。 この場合の最適制御解は、システムを基底状態に置いて、時間発展の終わりに量子ビットを絡めるために高速パルスを適用することである。 第2に,第1量子ビットから第3量子ビットへのテレポートを目標とする3量子ビットからなるシステムを探索する。 この場合、システムの基底状態は、AEPの場合と同様のノイズに対する堅牢性を共有しない。 雑音に対するロバスト性を改善するため,他の状態と比較してより頑健な中間状態にシステムを駆動できる局所制御場を提案する。 目標状態は、最終時刻の高速パルスによっても達成される。 このアプローチは忠実度に大きな向上をもたらし、近日中にいわゆるノイズ型中間スケール量子(nisq)デバイスにおける断熱量子コンピューティングを改善することができることがわかった。

Quantum control techniques are employed to perform adiabatic quantum computing in the presence of noise. First, we analyze the adiabatic entanglement protocol (AEP) for two qubits. In this case, we found that this protocol is very robust against noise. The reason behind this fact is related to the chosen Hamiltonians, where the ground state of the initial Hamiltonian is not affected by the noise. The optimal control solution, in this case, is to leave the system in its ground state and apply a fast pulse to entangle the qubits at the end of the time evolution. Secondly, we probe a system composed of three qubits, where the goal is to teleport the first qubit to the third qubit. In this case, the ground state of the system does not share the same robustness against noise as in the case of AEP. To improve the robustness against noise, we propose the inclusion of a local control field that can drive the system to an intermediate state, which is more robust against noise in comparison to other states. The target state is also achieved by a fast pulse at the final time. We found that this approach provides a significant gain in the fidelity and can improve the adiabatic quantum computing in the so-called Noisy Intermediate-Scale Quantum (NISQ) devices in a near future.
翻訳日:2023-06-13 13:21:22 公開日:2023-06-12
# Spawrious:Spurious correlation Biasesの微妙な制御のためのベンチマーク

Spawrious: A Benchmark for Fine Control of Spurious Correlation Biases ( http://arxiv.org/abs/2303.05470v3 )

ライセンス: Link先を確認
Aengus Lynch, Gb\`etondji J-S Dovonon, Jean Kaddour, Ricardo Silva(参考訳) スプリアス相関(英語版) (SC) の問題は、分類器がトレーニングデータのラベルと相関する非予測的特徴に依存するときに生じる。 例えば、分類器は、犬の画像の背景に基づいて犬種を誤分類することができる。 これは、バックグラウンドがトレーニングデータ内の他の品種と相関している場合に起こり、テスト時間中に誤分類が発生する。 以前のベンチマークデータセットでは、オーバー飽和や1対1(O2O)のSCのみを含むようなさまざまな問題に悩まされていたが、スプリアス属性とクラスのグループ間で発生する多対多(M2M)のSCは存在しない。 本稿では,クラスと背景の素早い相関関係を含む画像分類ベンチマークスイートである,benchmark-\{O2O, M2M\}-\{Easy, Medium, Hard\}を提案する。 このデータセットの作成には,テキスト・ツー・イメージモデルを用いて写真実写画像の生成と,不適切な画像のフィルタリングを行う画像キャプションモデルを用いる。 得られたデータセットは高品質で、約152kの画像を含んでいる。 実験の結果,imagenet で事前トレーニングされた resnet50 を用いて最も難しい分割に対して 70 % 以上の精度を得られず,特にハードスプリットにおいて,最先端のグループロバストネス手法が \benchmark に支障をきたすことが判明した。 モデルの誤分類を調べることで、スプリアスな背景に依存することを検出し、データセットが大きな課題をもたらすことを実証する。

The problem of spurious correlations (SCs) arises when a classifier relies on non-predictive features that happen to be correlated with the labels in the training data. For example, a classifier may misclassify dog breeds based on the background of dog images. This happens when the backgrounds are correlated with other breeds in the training data, leading to misclassifications during test time. Previous SC benchmark datasets suffer from varying issues, e.g., over-saturation or only containing one-to-one (O2O) SCs, but no many-to-many (M2M) SCs arising between groups of spurious attributes and classes. In this paper, we present \benchmark-\{O2O, M2M\}-\{Easy, Medium, Hard\}, an image classification benchmark suite containing spurious correlations between classes and backgrounds. To create this dataset, we employ a text-to-image model to generate photo-realistic images and an image captioning model to filter out unsuitable ones. The resulting dataset is of high quality and contains approximately 152k images. Our experimental results demonstrate that state-of-the-art group robustness methods struggle with \benchmark, most notably on the Hard-splits with none of them getting over $70\%$ accuracy on the hardest split using a ResNet50 pretrained on ImageNet. By examining model misclassifications, we detect reliances on spurious backgrounds, demonstrating that our dataset provides a significant challenge.
翻訳日:2023-06-13 11:35:07 公開日:2023-06-12
# ニューラルネットワークを用いた連合学習における重み付きアグリゲーションの再検討

Revisiting Weighted Aggregation in Federated Learning with Neural Networks ( http://arxiv.org/abs/2302.10911v4 )

ライセンス: Link先を確認
Zexi Li, Tao Lin, Xinyi Shang, Chao Wu(参考訳) 連合学習(fl)では、局所モデルの重み付き集計を行い、大域モデルを生成し、重み付け重みを正規化し(重みの和は1である)、局所データサイズに比例する。 本稿では,重み付け集約プロセスを再検討し,flのトレーニングダイナミクスに関する新たな知見を得る。 まず,重みの総和が1より小さくなり,大域的な重み縮小効果(重み減少と類似)が生じ,一般化が改善されることが判明した。 クライアントのデータ不均一性と局所的エポックに最適な縮小係数がどう影響するかを検討する。 次に、クライアント間の相対的な集約重みを掘り下げて、クライアントの重要性を説明します。 学習のダイナミクスを研究するためにクライアントコヒーレンスを開発し,その重要な点を見出す。 臨界点に入る前に、よりコヒーレントなクライアントは一般化においてより重要な役割を果たす。 以上の知見に基づいて,FedLAWと命名された学習可能な集約重み付きフェデレート学習の効果的な方法を提案する。 広範な実験により,本手法が異なるデータセットとモデルに対して大きなマージンでグローバルモデルの一般化を改善できることが確かめられた。

In federated learning (FL), weighted aggregation of local models is conducted to generate a global model, and the aggregation weights are normalized (the sum of weights is 1) and proportional to the local data sizes. In this paper, we revisit the weighted aggregation process and gain new insights into the training dynamics of FL. First, we find that the sum of weights can be smaller than 1, causing global weight shrinking effect (analogous to weight decay) and improving generalization. We explore how the optimal shrinking factor is affected by clients' data heterogeneity and local epochs. Second, we dive into the relative aggregation weights among clients to depict the clients' importance. We develop client coherence to study the learning dynamics and find a critical point that exists. Before entering the critical point, more coherent clients play more essential roles in generalization. Based on the above insights, we propose an effective method for Federated Learning with Learnable Aggregation Weights, named as FedLAW. Extensive experiments verify that our method can improve the generalization of the global model by a large margin on different datasets and models.
翻訳日:2023-06-13 11:34:38 公開日:2023-06-12
# 量子場論におけるクリロフ複素性

Krylov Complexity in Quantum Field Theory ( http://arxiv.org/abs/2204.02250v4 )

ライセンス: Link先を確認
Kiran Adhikari, Sayantan Choudhury, Abhishek Roy(参考訳) 本稿では,量子場論におけるクリロフ複雑性を考察し,ホログラフィックな「複雑度は体積と等しい」予想に関連付ける。 クリロフ基底がフォック基底と一致するとき、いくつかの興味深い設定のために、クリロフ複雑性は体積とともに複雑性がスケールすることを示す平均粒子数と等しいことを観測する。 同様の形式を用いて、自由スカラー場理論のクリロフ複雑性を計算し、ホログラフィと驚くべき類似性を見つける。 また、反転発振器が自然に現れる場理論のこの枠組みを拡張し、そのカオス的振る舞いを探求する。

In this paper, we study the Krylov complexity in quantum field theory and make a connection with the holographic "Complexity equals Volume" conjecture. When Krylov basis matches with Fock basis, for several interesting settings, we observe that the Krylov complexity equals the average particle number showing that complexity scales with volume. Using similar formalism, we compute the Krylov complexity for free scalar field theory and find surprising similarities with holography. We also extend this framework for field theory where an inverted oscillator appears naturally and explore its chaotic behavior.
翻訳日:2023-06-13 11:34:19 公開日:2023-06-12
# システム・社会における生成型AIシステムの社会的影響評価

Evaluating the Social Impact of Generative AI Systems in Systems and Society ( http://arxiv.org/abs/2306.05949v2 )

ライセンス: Link先を確認
Irene Solaiman, Zeerak Talat, William Agnew, Lama Ahmad, Dylan Baker, Su Lin Blodgett, Hal Daum\'e III, Jesse Dodge, Ellie Evans, Sara Hooker, Yacine Jernite, Alexandra Sasha Luccioni, Alberto Lusoli, Margaret Mitchell, Jessica Newman, Marie-Therese Png, Andrew Strait, Apostol Vassilev(参考訳) テキスト、画像、オーディオ、ビデオなど、さまざまなモダリティにわたる生成AIシステムは、幅広い社会的影響を持つが、これらの影響を評価するための公式な標準は存在しない。 我々は,任意のモダリティに対する生成型aiシステムを評価するための標準的アプローチに目を向ける。2つの包括的なカテゴリ: 所定のアプリケーションを持たないベースシステムで何が評価可能か,社会で何が評価可能か。 本稿では、特定の社会的影響カテゴリと、基礎技術システム、次に人間と社会における評価へのアプローチと実行方法について述べる。 ベースシステムのためのフレームワークは,社会影響の7つのカテゴリを定義している。バイアス,ステレオタイプ,表現的損害,文化的価値とセンシティブなコンテンツ,異種パフォーマンス,プライバシとデータ保護,財務コスト,環境コスト,データとコンテンツモデレーション労働コストである。 提案手法は全ての形態に適用され、既存の評価の限界の分析が将来の評価に必要な投資の出発点となる。 社会で評価できるものは5つあり、それぞれに信頼と自律性、不平等、限界化、暴力、権威の集中、労働と創造性、エコシステムと環境というカテゴリがある。 各サブカテゴリは、害を緩和するためのレコメンデーションを含んでいる。 我々は、与えられたカテゴリに沿って既存の評価に貢献するために、AI研究コミュニティのための評価リポジトリを同時に構築しています。 このバージョンは、ACM FAccT 2023のCRAFTセッションに続いて更新される。

Generative AI systems across modalities, ranging from text, image, audio, and video, have broad social impacts, but there exists no official standard for means of evaluating those impacts and which impacts should be evaluated. We move toward a standard approach in evaluating a generative AI system for any modality, in two overarching categories: what is able to be evaluated in a base system that has no predetermined application and what is able to be evaluated in society. We describe specific social impact categories and how to approach and conduct evaluations in the base technical system, then in people and society. Our framework for a base system defines seven categories of social impact: bias, stereotypes, and representational harms; cultural values and sensitive content; disparate performance; privacy and data protection; financial costs; environmental costs; and data and content moderation labor costs. Suggested methods for evaluation apply to all modalities and analyses of the limitations of existing evaluations serve as a starting point for necessary investment in future evaluations. We offer five overarching categories for what is able to be evaluated in society, each with their own subcategories: trustworthiness and autonomy; inequality, marginalization, and violence; concentration of authority; labor and creativity; and ecosystem and environment. Each subcategory includes recommendations for mitigating harm. We are concurrently crafting an evaluation repository for the AI research community to contribute existing evaluations along the given categories. This version will be updated following a CRAFT session at ACM FAccT 2023.
翻訳日:2023-06-13 11:29:43 公開日:2023-06-12
# インプットニューラル表現を用いたインプットと予測のための時系列連続モデリング

Time Series Continuous Modeling for Imputation and Forecasting with Implicit Neural Representations ( http://arxiv.org/abs/2306.05880v2 )

ライセンス: Link先を確認
Etienne Le Naour, Louis Serrano, L\'eon Migus, Yuan Yin, Ghislain Agoua, Nicolas Baskiotis, Patrick Gallinari, Vincent Guigue(参考訳) 広く研究されているが、時系列モデリングは現実世界のデータに直面すると大きな課題に遭遇し続けている。 Inlicit Neural Representation (INR) を利用した新しいモデリング手法を提案する。 提案手法により,時系列の連続的な側面を効果的に把握し,欠落データ処理,不規則サンプリング処理,複数センサからの非整合観測などのモデリング問題に対する自然な解決策を提供する。 inrパラメータの条件付き変調を導入し,メタラーニング技術を活用することで,未知のサンプルと時間窓シフトの両方に対する一般化の問題に対処する。 大規模な実験を通じて,本モデルでは予測および計算タスクにおける最先端の性能を実証するとともに,競合するモデルでは不可能な幅広い難解シナリオを扱う柔軟性を示す。

Although widely explored, time series modeling continues to encounter significant challenges when confronted with real-world data. We propose a novel modeling approach leveraging Implicit Neural Representations (INR). This approach enables us to effectively capture the continuous aspect of time series and provides a natural solution to recurring modeling issues such as handling missing data, dealing with irregular sampling, or unaligned observations from multiple sensors. By introducing conditional modulation of INR parameters and leveraging meta-learning techniques, we address the issue of generalization to both unseen samples and time window shifts. Through extensive experimentation, our model demonstrates state-of-the-art performance in forecasting and imputation tasks, while exhibiting flexibility in handling a wide range of challenging scenarios that competing models cannot.
翻訳日:2023-06-13 11:29:17 公開日:2023-06-12
# Neural Haircut:前ガイド型ストランドベースヘアコンストラクション

Neural Haircut: Prior-Guided Strand-Based Hair Reconstruction ( http://arxiv.org/abs/2306.05872v2 )

ライセンス: Link先を確認
Vanessa Sklyarova, Jenya Chelishev, Andreea Dogaru, Igor Medvedev, Victor Lempitsky, Egor Zakharov(参考訳) 画像や映像データを用いたリアルな3d再構成は,様々なコミュニケーションやエンタテインメントアプリケーションにおいて不可欠である。 既存の手法は体と顔の領域で印象的な結果を得たが、機械的な複雑さのため、現実的な髪型モデリングは依然として困難である。 本研究は,無制御照明条件で撮影された単眼映像や多視点画像からストランドレベルで正確な毛髪形状再構成を可能にする手法を提案する。 提案手法は2段階であり,第1段階は暗黙の容積表現を用いた粗い毛髪とバスト形状と毛髪方向の関節再建を行った。 第2段階では、合成データから得られた毛髪ストランドと髪型プリエントとの粗い容積制約を単一の最適化プロセスで調整することにより、鎖レベルの毛髪再構成を推定する。 復元精度をさらに高めるため,新たな微分可能レンダラを用いて画像ベースロスをフィッティングプロセスに組み込む。 この組み合わせシステムはニューラルヘアカット(neural haircut)と呼ばれ、再構成されたヘアスタイルを高いリアリズムとパーソナライズを達成する。

Generating realistic human 3D reconstructions using image or video data is essential for various communication and entertainment applications. While existing methods achieved impressive results for body and facial regions, realistic hair modeling still remains challenging due to its high mechanical complexity. This work proposes an approach capable of accurate hair geometry reconstruction at a strand level from a monocular video or multi-view images captured in uncontrolled lighting conditions. Our method has two stages, with the first stage performing joint reconstruction of coarse hair and bust shapes and hair orientation using implicit volumetric representations. The second stage then estimates a strand-level hair reconstruction by reconciling in a single optimization process the coarse volumetric constraints with hair strand and hairstyle priors learned from the synthetic data. To further increase the reconstruction fidelity, we incorporate image-based losses into the fitting process using a new differentiable renderer. The combined system, named Neural Haircut, achieves high realism and personalization of the reconstructed hairstyles.
翻訳日:2023-06-13 11:28:48 公開日:2023-06-12
# 大規模言語モデルからレコメンダシステムにどのようなメリットがあるか:調査

How Can Recommender Systems Benefit from Large Language Models: A Survey ( http://arxiv.org/abs/2306.05817v2 )

ライセンス: Link先を確認
Jianghao Lin, Xinyi Dai, Yunjia Xi, Weiwen Liu, Bo Chen, Xiangyang Li, Chenxu Zhu, Huifeng Guo, Yong Yu, Ruiming Tang, Weinan Zhang(参考訳) インターネットアプリケーションにおいて,レコメンダシステム(RS)はユーザの情報要求に合わせて重要な役割を果たす。 自然言語処理(nlp)領域では、大規模言語モデル(llm)は驚くべき創発的能力(例えば命令追従、推論)を示しており、llmをrsに適用してパフォーマンスの向上とユーザエクスペリエンスの改善を行う有望な研究方向を生み出している。 本稿では,本研究の方向性をアプリケーション指向の観点から総合的に調査する。 まず, LLM を RS に適用する方法という2つの直交的な視点から, 既存の研究成果を要約する。 where"という質問に対して、我々は、レコメンデーションパイプラインのさまざまなステージでllmが果たすことができる役割、すなわち、機能工学、特徴エンコーダ、スコアリング/ランキング関数、パイプラインコントローラについて論じる。 how"問題に対しては、トレーニングと推論の戦略を調査し、llmをチューニングするか否か、推論に従来の推奨モデル(crm)を関与させるかどうかという2つの詳細な分類基準を導出する。 いずれの質問にも詳細な分析と一般的な開発軌跡が提供される。 次に,3つの側面,すなわち効率性,有効性,倫理性から,LSMをRSに適用する上での課題を強調した。 最後に,調査の概要と今後の展望について考察する。 また、この上昇方向において、論文やその他の関連リソースのためのgithubリポジトリを積極的に維持している。

Recommender systems (RS) play important roles to match users' information needs for Internet applications. In natural language processing (NLP) domains, large language model (LLM) has shown astonishing emergent abilities (e.g., instruction following, reasoning), thus giving rise to the promising research direction of adapting LLM to RS for performance enhancements and user experience improvements. In this paper, we conduct a comprehensive survey on this research direction from an application-oriented view. We first summarize existing research works from two orthogonal perspectives: where and how to adapt LLM to RS. For the "WHERE" question, we discuss the roles that LLM could play in different stages of the recommendation pipeline, i.e., feature engineering, feature encoder, scoring/ranking function, and pipeline controller. For the "HOW" question, we investigate the training and inference strategies, resulting in two fine-grained taxonomy criteria, i.e., whether to tune LLMs or not, and whether to involve conventional recommendation model (CRM) for inference. Detailed analysis and general development trajectories are provided for both questions, respectively. Then, we highlight key challenges in adapting LLM to RS from three aspects, i.e., efficiency, effectiveness, and ethics. Finally, we summarize the survey and discuss the future prospects. We also actively maintain a GitHub repository for papers and other related resources in this rising direction: https://github.com/CHIANGEL/Awesome-LLM-for-RecSys.
翻訳日:2023-06-13 11:28:29 公開日:2023-06-12
# 重み凍結:脳波分類における応用による完全連結層に対する正則化アプローチ

Weight Freezing: A Regularization Approach for Fully Connected Layers with an Application in EEG Classification ( http://arxiv.org/abs/2306.05775v2 )

ライセンス: Link先を確認
Zhengqing Miao and Meirong Zhao(参考訳) 脳波デコーディングの分野では、人工知能ニューラルネットワーク(ANN)の性能向上が大きな可能性を秘めている。 この研究は、ANN正則化と神経科学の事前知識の原理に根ざした「軽量凍結」と呼ばれる新しいアプローチを導入する。 重み凍結の概念は、バックプロパゲーションの過程において、全連結層内の特定の重みを凍結することにより、特定の脳波タスクの意思決定プロセスに対するニューロンの影響を減少させるという考えに基づいている。 これはマスクマトリクスと閾値を使用して、バックプロパゲーション中に凍結すべき重量の比率を決定することで実現される。 さらに,マスク付き重みをゼロにすることで,全連結層を分類器とするネットワークにおける疎結合を実現するだけでなく,全連結層の効率的な正規化手法としても機能する。 3つの異なるANNアーキテクチャと3つの広く認識されているEEGデータセットを含む実験を通して、重量凍結の有効性を検証する。 本手法は,全データセットの分類精度において,過去のピーク性能を大幅に上回っている。 補足的制御実験は, 重量凍結前後の性能差に関する知見を提供し, 重量凍結過程における閾値の影響を検証した。 本研究は,脳波特徴分類タスクにおける従来の完全連結ネットワークと比較して,重み凍結の優れた効果を強調する。 その効果が証明されたことにより、この革新的なアプローチは、脳波デコード研究における将来の進歩に寄与する大きな可能性を秘めている。

In the realm of EEG decoding, enhancing the performance of artificial neural networks (ANNs) carries significant potential. This study introduces a novel approach, termed "weight freezing", that is anchored on the principles of ANN regularization and neuroscience prior knowledge. The concept of weight freezing revolves around the idea of reducing certain neurons' influence on the decision-making process for a specific EEG task by freezing specific weights in the fully connected layer during the backpropagation process. This is actualized through the use of a mask matrix and a threshold to determine the proportion of weights to be frozen during backpropagation. Moreover, by setting the masked weights to zero, weight freezing can not only realize sparse connections in networks with a fully connected layer as the classifier but also function as an efficacious regularization method for fully connected layers. Through experiments involving three distinct ANN architectures and three widely recognized EEG datasets, we validate the potency of weight freezing. Our method significantly surpasses previous peak performances in classification accuracy across all examined datasets. Supplementary control experiments offer insights into performance differences pre and post weight freezing implementation and scrutinize the influence of the threshold in the weight freezing process. Our study underscores the superior efficacy of weight freezing compared to traditional fully connected networks for EEG feature classification tasks. With its proven effectiveness, this innovative approach holds substantial promise for contributing to future strides in EEG decoding research.
翻訳日:2023-06-13 11:28:03 公開日:2023-06-12
# ビデオにおけるボールアクションスポッティングの強化モデル:CVPR'23サッカーネットチャレンジにおけるランナーアップソリューション

A Boosted Model Ensembling Approach to Ball Action Spotting in Videos: The Runner-Up Solution to CVPR'23 SoccerNet Challenge ( http://arxiv.org/abs/2306.05772v2 )

ライセンス: Link先を確認
Luping Wang, Hao Guo, Bin Liu(参考訳) 本技術報告では,ビデオにおけるボールアクションスポッティングの解決策について述べる。 CVPR'23 SoccerNet Challengeで2位となった。 この課題の詳細はhttps://www.soccer-net.org/tasks/ball-action-spottingにある。 提案手法は,コンペティションの主催者によるE2E-Spotと呼ばれるベースラインモデルに基づいて開発されている。 E2E-Spotモデルのいくつかの変種を最初に生成し、候補モデルセットを得た。 次に,この集合から適切なモデルメンバを選択し,各モデルに適切な重みを割り当てる戦略を提案する。 この戦略の目的は、結果のモデルアンサンブルのパフォーマンスを高めることである。 したがって、我々のアプローチをBoosted Model Ensembling (BME)と呼ぶ。 私たちのコードはhttps://github.com/ZJLAB-AMMI/E2E-Spot-MBSで公開されています。

This technical report presents our solution to Ball Action Spotting in videos. Our method reached second place in the CVPR'23 SoccerNet Challenge. Details of this challenge can be found at https://www.soccer-net.org/tasks/ball-action-spotting. Our approach is developed based on a baseline model termed E2E-Spot, which was provided by the organizer of this competition. We first generated several variants of the E2E-Spot model, resulting in a candidate model set. We then proposed a strategy for selecting appropriate model members from this set and assigning an appropriate weight to each model. The aim of this strategy is to boost the performance of the resulting model ensemble. Therefore, we call our approach Boosted Model Ensembling (BME). Our code is available at https://github.com/ZJLAB-AMMI/E2E-Spot-MBS.
翻訳日:2023-06-13 11:27:37 公開日:2023-06-12
# DocAligner:簡単に写真を撮って実世界の写真ドキュメント画像に注釈をつける

DocAligner: Annotating Real-world Photographic Document Images by Simply Taking Pictures ( http://arxiv.org/abs/2306.05749v2 )

ライセンス: Link先を確認
Jiaxin Zhang, Bangdong Chen, Hiuyi Cheng, Fengjun Guo, Kai Ding, Lianwen Jin(参考訳) 近年,写真シナリオにおける文書画像解析と認識に関する研究への関心が高まっている。 しかし、この新たな課題に対するラベル付きデータセットの欠如は、手動のアノテーションが時間がかかり実用的でないため、大きな障害となる。 そこで本稿では,手作業によるアノテーション処理を簡易な撮影手順に合理化する新しい手法であるdocalignerを提案する。 DocAlignerは、写真用文書画像とそのクリーンなものとの密接な対応を確立することで、これを実現する。 クリーンな文書画像から写真への既存のアノテーションの自動転送を可能にし、手動ラベリングによって利用できないラベルを自動的に取得するのに役立つ。 ドキュメントイメージの特徴を考えると、DocAlignerはいくつかの革新的な特徴を取り入れている。 まず,文書のエッジに基づく非厳密な事前アライメント手法を提案し,文書画像に現れる大きなグローバルシフトや反復パターンによる干渉を効果的に除去する。 第2に,大きなシフトを処理し,高い精度を確保するために,グローバル層とローカル層を組み合わせた階層的アライメント手法を導入する。 さらに,文書画像における細粒度要素の重要性を考慮し,高解像度空間における出力を高めるための細部再帰改善モジュールを提案する。 DocAlignerを訓練するために、合成データセットを構築し、実世界のデータに対する堅牢性を高めるための自己教師付き学習アプローチを導入する。 大規模な実験を通じて、DocAlignerと取得したデータセットの有効性を示す。 データセットとコードは公開されます。

Recently, there has been a growing interest in research concerning document image analysis and recognition in photographic scenarios. However, the lack of labeled datasets for this emerging challenge poses a significant obstacle, as manual annotation can be time-consuming and impractical. To tackle this issue, we present DocAligner, a novel method that streamlines the manual annotation process to a simple step of taking pictures. DocAligner achieves this by establishing dense correspondence between photographic document images and their clean counterparts. It enables the automatic transfer of existing annotations in clean document images to photographic ones and helps to automatically acquire labels that are unavailable through manual labeling. Considering the distinctive characteristics of document images, DocAligner incorporates several innovative features. First, we propose a non-rigid pre-alignment technique based on the document's edges, which effectively eliminates interference caused by significant global shifts and repetitive patterns present in document images. Second, to handle large shifts and ensure high accuracy, we introduce a hierarchical aligning approach that combines global and local correlation layers. Furthermore, considering the importance of fine-grained elements in document images, we present a details recurrent refinement module to enhance the output in a high-resolution space. To train DocAligner, we construct a synthetic dataset and introduce a self-supervised learning approach to enhance its robustness for real-world data. Through extensive experiments, we demonstrate the effectiveness of DocAligner and the acquired dataset. Datasets and codes will be publicly available.
翻訳日:2023-06-13 11:27:23 公開日:2023-06-12
# 線形拡散を用いた高速・高品質音声合成

Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion ( http://arxiv.org/abs/2306.05708v2 )

ライセンス: Link先を確認
Haogeng Liu, Tao Wang, Jie Cao, Ran He, Jianhua Tao(参考訳) 拡散確率モデルが様々な生成タスクに異常な能力を示した。 しかし、その速度は遅いため、音声合成では実用的ではない。 本稿では,通常の微分方程式に基づく線形拡散モデル(lindiff)を提案する。 まず, 目標と雑音の線形補間を行い, 訓練のための拡散列の設計を行ったが, 従来, 目標と雑音をつなぐ拡散経路は曲線セグメントであった。 サンプリングステップの数(つまり、経路に合うために使用される線分数)を減らすと、曲線と比較して直線の嵌合が簡単になるので、ランダムノイズからより少ないイテレーションで高品質なサンプルを生成することができる。 第二に、計算複雑性を減らし、雑音の多い音声の効果的なグローバルモデリングを実現するために、LinDiffは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。 パッチワイズトークンは、グローバル情報の効果的なモデリングにトランスフォーマーアーキテクチャを利用する。 逆行訓練はサンプリングステップを減らしてサンプル品質をさらに向上するために用いられる。 音響特徴量(メルスペクトログラム)に基づく音声合成による提案手法をテストした。 実験により,1つの拡散ステップだけで高品質な音声を合成できることを確認した。 主観的・客観的評価はともに, 合成速度(3拡散ステップ)が速い自己回帰モデルに匹敵する品質の音声を合成できることを実証する。

Denoising Diffusion Probabilistic Models have shown extraordinary ability on various generative tasks. However, their slow inference speed renders them impractical in speech synthesis. This paper proposes a linear diffusion model (LinDiff) based on an ordinary differential equation to simultaneously reach fast inference and high sample quality. Firstly, we employ linear interpolation between the target and noise to design a diffusion sequence for training, while previously the diffusion path that links the noise and target is a curved segment. When decreasing the number of sampling steps (i.e., the number of line segments used to fit the path), the ease of fitting straight lines compared to curves allows us to generate higher quality samples from a random noise with fewer iterations. Secondly, to reduce computational complexity and achieve effective global modeling of noisy speech, LinDiff employs a patch-based processing approach that partitions the input signal into small patches. The patch-wise token leverages Transformer architecture for effective modeling of global information. Adversarial training is used to further improve the sample quality with decreased sampling steps. We test proposed method with speech synthesis conditioned on acoustic feature (Mel-spectrograms). Experimental results verify that our model can synthesize high-quality speech even with only one diffusion step. Both subjective and objective evaluations demonstrate that our model can synthesize speech of a quality comparable to that of autoregressive models with faster synthesis speed (3 diffusion steps).
翻訳日:2023-06-13 11:26:58 公開日:2023-06-12
# 2プレイヤーゼロサムマルコフゲームにおけるミニマックスQラーニングの有限時間解析:スイッチングシステムアプローチ

Finite-Time Analysis of Minimax Q-Learning for Two-Player Zero-Sum Markov Games: Switching System Approach ( http://arxiv.org/abs/2306.05700v2 )

ライセンス: Link先を確認
Donghwan Lee(参考訳) 本稿では,2人のゼロサムマルコフゲームに適用したqラーニングアルゴリズムの有限時間解析について検討する。 具体的には,ミニマックスQ-ラーニングアルゴリズムと対応する値反復法の両方を有限時間で解析する。 価値反復とq学習の両方の分析を強化するため、minimax q-learningのスイッチングシステムモデルと関連する価値反復を用いる。 このアプローチは、ミニマックスQ学習に関するさらなる洞察を与え、より単純で洞察に富んだ収束分析を促進する。 これらの追加的な洞察の導入は、制御理論と強化学習コミュニティの分野における概念間の新しいつながりを解明し、協調を促進する可能性を期待する。

The objective of this paper is to investigate the finite-time analysis of a Q-learning algorithm applied to two-player zero-sum Markov games. Specifically, we establish a finite-time analysis of both the minimax Q-learning algorithm and the corresponding value iteration method. To enhance the analysis of both value iteration and Q-learning, we employ the switching system model of minimax Q-learning and the associated value iteration. This approach provides further insights into minimax Q-learning and facilitates a more straightforward and insightful convergence analysis. We anticipate that the introduction of these additional insights has the potential to uncover novel connections and foster collaboration between concepts in the fields of control theory and reinforcement learning communities.
翻訳日:2023-06-13 11:26:38 公開日:2023-06-12