このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230814となっている論文です。

PDF登録状況(公開日: 20230814)

TitleAuthorsAbstract論文公表日・翻訳日
# 自己適応と機械学習を用いた人口分割によるA/Bテストパイプラインの自動化

Automating Pipelines of A/B Tests with Population Split Using Self-Adaptation and Machine Learning ( http://arxiv.org/abs/2306.01407v2 )

ライセンス: Link先を確認
Federico Quin, Danny Weyns(参考訳) A/Bテストは、新しい機能の導入や既存のソフトウェアの変更を通じてイノベーションを促進するために、業界でよく使われるアプローチである。 伝統的に、A/Bテストは順次実施され、各実験は対応するアプリケーションの全人口を対象としている。 このアプローチは、特に実験が人口全体に関連していない場合、時間と費用がかかる可能性がある。 そこで,本研究では,自己適応を用いたa/bテストの自動化パイプラインに不足するautopabsと呼ばれる新しい自己適応アプローチを導入し,(1)a/bテストのパイプライン実行を自動化し,(2)人口を複数のa/bテストに分割するためのパイプライン内の人口の分割をサポートし,機械学習を活用する。 我々は,AutoPABSの表記とインフラの評価を調査するため,小規模な調査から評価を開始した。 次に、SEAByTEアーティファクトの拡張を用いて、自動A/Bテストパイプラインに集団分割を適用して得られる利得を測定するための一連のテストを行った。 その結果,A/Bテストパイプラインの自動化と人口分割の有用性が示唆された。 実験の結果,A/Bテストのパイプラインを集団分割で自動的に実行することにより,A/Bテストの並列実行実験の統計的に有意な結果の同定が促進されることがわかった。

A/B testing is a common approach used in industry to facilitate innovation through the introduction of new features or the modification of existing software. Traditionally, A/B tests are conducted sequentially, with each experiment targeting the entire population of the corresponding application. This approach can be time-consuming and costly, particularly when the experiments are not relevant to the entire population. To tackle these problems, we introduce a new self-adaptive approach called AutoPABS, short for Automated Pipelines of A/B tests using Self-adaptation, that (1) automates the execution of pipelines of A/B tests, and (2) supports a split of the population in the pipeline to divide the population into multiple A/B tests according to user-based criteria, leveraging machine learning. We started the evaluation with a small survey to probe the appraisal of the notation and infrastructure of AutoPABS. Then we performed a series of tests to measure the gains obtained by applying a population split in an automated A/B testing pipeline, using an extension of the SEAByTE artifact. The survey results show that the participants express the usefulness of automating A/B testing pipelines and population split. The tests show that automatically executing pipelines of A/B tests with a population split accelerates the identification of statistically significant results of the parallel executed experiments of A/B tests compared to a traditional approach that performs the experiments sequentially.
翻訳日:2023-10-24 04:44:40 公開日:2023-08-14
# 物理シミュレーションエンジン「PHYFU」

PHYFU: Fuzzing Modern Physics Simulation Engines ( http://arxiv.org/abs/2307.10818v2 )

ライセンス: Link先を確認
Dongwei Xiao, Zhibo Liu, and Shuai Wang(参考訳) 物理シミュレーションエンジン (PSE) は、物理環境やオブジェクトをシミュレートするソフトウェアシステムである。 現代のPSEは前向きと後向きの両方のシミュレーションを特徴とし、前向きのフェーズは模擬システムの振る舞いを予測し、後向きのフェーズは、アイテムをフェッチするロボットアームのような学習ベースの制御タスクのための勾配(ガイダンス)を提供する。 このように、現代のPSEは学習に基づく制御方法の有望なサポートを示す。 これまでpseは、ゲーム、映画、仮想現実(vr)、ロボティクスなど、さまざまな高収益な商用アプリケーションで広く使われてきた。 学界やGoogleやNVIDIAなどの工業メーカーによるPSEの普及と利用にもかかわらず、PSEは不正なシミュレーションを生み出す可能性があり、エンターテイメントにおけるユーザエクスペリエンスの低下からロボティクス関連の製造や外科手術における事故に至るまで、否定的な結果をもたらす可能性がある。 本稿では,pss用に設計されたファジングフレームワークであるphyfuについて紹介する。 PHYFU は初期状態を変化させ、テスト中の PSE が基本物理法則 (PL) に対して一貫して振る舞うことを主張する。 さらに,フィードバック駆動テスト入力スケジューリングを用いて,エラーの探索を誘導し,高速化する。 PSEの4つの研究は、主要な産業ベンダー(GoogleとNVIDIA)と学術製品を対象としています。 PSEのソフトウェアスタック全体にまたがる不正確なシミュレーション結果を生成する5K以上のエラートリガ入力をうまく発見する。

A physical simulation engine (PSE) is a software system that simulates physical environments and objects. Modern PSEs feature both forward and backward simulations, where the forward phase predicts the behavior of a simulated system, and the backward phase provides gradients (guidance) for learning-based control tasks, such as a robot arm learning to fetch items. This way, modern PSEs show promising support for learning-based control methods. To date, PSEs have been largely used in various high-profitable, commercial applications, such as games, movies, virtual reality (VR), and robotics. Despite the prosperous development and usage of PSEs by academia and industrial manufacturers such as Google and NVIDIA, PSEs may produce incorrect simulations, which may lead to negative results, from poor user experience in entertainment to accidents in robotics-involved manufacturing and surgical operations. This paper introduces PHYFU, a fuzzing framework designed specifically for PSEs to uncover errors in both forward and backward simulation phases. PHYFU mutates initial states and asserts if the PSE under test behaves consistently with respect to basic Physics Laws (PLs). We further use feedback-driven test input scheduling to guide and accelerate the search for errors. Our study of four PSEs covers mainstream industrial vendors (Google and NVIDIA) as well as academic products. We successfully uncover over 5K error-triggering inputs that generate incorrect simulation results spanning across the whole software stack of PSEs.
翻訳日:2023-10-23 17:04:50 公開日:2023-08-14
# モバイルアプリケーション開発教育におけるユーザエクスペリエンスとユーザ中心設計ソフトウェアプロセスの適用

Applying User Experience and User-Centered Design Software Processes in Undergraduate Mobile Application Development Teaching ( http://arxiv.org/abs/2308.07494v1 )

ライセンス: Link先を確認
Manuel Ignacio Castillo L\'opez, Ana Libia Eslava Cervantes and Gustavo de la Cruz Mart\'inez(参考訳) 学部のコースにおけるアジャイルメソッドは、業界とプロのプロファイルのギャップを埋めようとしているさまざまな著者によって調査されている。 私たちは、教育ソフトウェアツールの開発に適したアジャイルプロセスに基づいて、Androidアプリケーション開発コースを構築しました。 このプロセスは、ユーザエクスペリエンス(UX)とユーザ中心設計(UCD)のアプローチを組み合わせたスクラムとエクストリームプログラミングの両方に基づいています。 コースの前半はアジャイルとモバイルアプリケーション開発に関する理論を提示し、後半は学生が実際のクライアントのために開発するワークショップとして管理される。 アジャイルプロセスから期待される利害関係者との密接な関係を活用したUXとUDDの導入は、Quality in Use機能を強化します。 2019年以降、2つのプロジェクトがクライアントと学生の間で合意のもと拡張されている。 学生、クライアント、ユーザーは生成した製品に価値を見出した。

Agile methods in undergraduate courses have been explored by various authors looking to close the gap between industry and professional profiles. We have structured an Android application development course based on a tailored agile process for development of educational software tools. This process is based on both Scrum and Extreme Programming in combination with User Experience (UX) and User-Centered Design (UCD) approaches. The course is executed in two phases: the first half of the course's semester presents theory on agile and mobile applications development, the latter half is managed as a workshop where students develop for an actual client. The introduction of UX and UCD exploiting the close relationship with stakeholders expected from an agile process can enhance Quality in Use features. Since 2019 two of the projects have been extended in agreement between the client and students. Students, clients and users have found value in the generated products.
翻訳日:2023-10-23 14:31:08 公開日:2023-08-14
# nip it in the bud: オープンソースプロジェクトにおけるモデレーション戦略とボットの役割

Nip it in the Bud: Moderation Strategies in Open Source Software Projects and the Role of Bots ( http://arxiv.org/abs/2308.07427v1 )

ライセンス: Link先を確認
Jane Hsieh, Joselyn Kim, Laura Dabbish, Haiyi Zhu(参考訳) 現代のデジタルインフラストラクチャの多くは、オープンソースソフトウェアに依存しています。 このサイバーインフラストラクチャ構築を担当するコミュニティには、メンテナンスとモデレーションが必要であり、ボランティア活動によって支援されることが多い。 非技術的労働形態としてのモデレーションは、OSSプロジェクト周辺のコミュニティを維持するために、保守担当者が取り組む必要はあるものの、しばしば見過ごされる作業である。 本研究では,コミュニティモデレーションを支援する様々な構造と規範を検討し,モデレーターが紛争を軽減するために使用する戦略を説明し,ボットがこれらのプロセスを支援する上でどのような役割を果たすかを評価する。 私たちは14人の実践者にインタビューを行い、既存のモデレーションのプラクティスと自動化が支援してくれる方法を説明しました。 私たちの主な貢献は、OSSプロジェクトにおける適度なコンテンツの評価、モデレーション技術、モデレーションタスクの自動化を改善するための認識とレコメンデーションなどです。 これらの調査結果が,オープンソースコミュニティにおけるより効果的なモデレーションプラクティスの実装に反映されることを願っています。

Much of our modern digital infrastructure relies critically upon open sourced software. The communities responsible for building this cyberinfrastructure require maintenance and moderation, which is often supported by volunteer efforts. Moderation, as a non-technical form of labor, is a necessary but often overlooked task that maintainers undertake to sustain the community around an OSS project. This study examines the various structures and norms that support community moderation, describes the strategies moderators use to mitigate conflicts, and assesses how bots can play a role in assisting these processes. We interviewed 14 practitioners to uncover existing moderation practices and ways that automation can provide assistance. Our main contributions include a characterization of moderated content in OSS projects, moderation techniques, as well as perceptions of and recommendations for improving the automation of moderation tasks. We hope that these findings will inform the implementation of more effective moderation practices in open source communities.
翻訳日:2023-10-23 14:22:10 公開日:2023-08-14
# 視覚的なプッシュダウン言語に基づくプッシュダウンリアクティブシステムのコンフォーマンスチェック

Conformance Checking for Pushdown Reactive Systems based on Visibly Pushdown Languages ( http://arxiv.org/abs/2308.07177v1 )

ライセンス: Link先を確認
Adilson Luiz Bonifacio(参考訳) プッシュダウンリアクティブシステムをテストすることは、正確で堅牢なソフトウェア開発プロセスを保証する上で重要であると考えられている。 通常、このようなシステムはIOVPTS(Input/Output Visible Pushdown Labeled Transition System)の形式によって指定され、環境とのインタラクションはプッシュダウンメモリによって制御される。 したがって、適切な適合関係を用いて、実装が仕様に準拠しているかどうかを検査プロセスで検証することができる。 本研究では,システムの望ましい動作と望ましくない動作の集合をモデル化できる,visible pushdown language (vpls) に基づく新奇な適合関係を確立する。 さらに,この整合性関係を用いて完全な障害カバレッジを持つテストスイートを,プッシュダウンリアクティブシステムに生成可能であることを示す。

Testing pushdown reactive systems is deemed important to guarantee a precise and robust software development process. Usually, such systems can be specified by the formalism of Input/Output Visibly Pushdown Labeled Transition System (IOVPTS), where the interaction with the environment is regulated by a pushdown memory. Hence a conformance checking can be applied in a testing process to verify whether an implementation is in compliance to a specification using an appropriate conformance relation. In this work we establish a novelty conformance relation based on Visibly Pushdown Languages (VPLs) that can model sets of desirable and undesirable behaviors of systems. Further, we show that test suites with a complete fault coverage can be generated using this conformance relation for pushdown reactive systems.
翻訳日:2023-10-23 14:21:53 公開日:2023-08-14
# Hue: ハイブリッドログのためのユーザ適応パーザ

Hue: A User-Adaptive Parser for Hybrid Logs ( http://arxiv.org/abs/2308.07085v1 )

ライセンス: Link先を確認
Junjielong Xu, Qiuai Fu, Zhouruixing Zhu, Yutong Cheng, Zhijing Li, Yuchi Ma, Pinjia He(参考訳) ログ解析は、半構造化ログからログテンプレートを抽出するもので、構造化ログを生成する。 既存のログパーサは良好な結果を得たが、設計上の2つの大きな制限に苦しんでいる。 まず、シングルラインログとマルチラインログ(\eg Java ExceptionとHadoop Counters)の両方からなるハイブリッドログをネイティブにサポートしていない。 第二に、解析におけるドメイン知識の統合に不足しているため、ログ内のあいまいなトークンを特定するのが難しくなる。 本稿では,従来のログ解析タスクのスーパーセットとして,新しい研究課題である‘textit{hybrid log parsing} を定義し,ユーザ適応方式によるハイブリッドログ解析の最初の試みである‘textit{Hue} を提案する。 具体的には、各ログメッセージをキーキャスティングテーブルを用いて特殊ワイルドカード列に変換し、行集約とパターン抽出を通じてログタイプを決定する。 さらにHueは,新たなマージ・リジェクト戦略を通じてユーザフィードバックを効果的に活用することで,複雑なログテンプレートへの迅速な適応を可能にする。 3つのハイブリッドログデータセットと16の広く使用されているシングルラインログデータセット(\ie loghub)でhueを評価した。 その結果,Hue はハイブリッドログ上で平均 0.845 のグルーピング精度を達成し,既存のパーサーで得られる最高の結果 (0.563 %) よりも優れていた。 Hueはまた、シングルラインログデータセット上でのSOTAパフォーマンスも示す。 さらにHueは、日々のハイブリッドログ解析のために、実運用環境でのデプロイに成功した。

Log parsing, which extracts log templates from semi-structured logs and produces structured logs, is the first and the most critical step in automated log analysis. While existing log parsers have achieved decent results, they suffer from two major limitations by design. First, they do not natively support hybrid logs that consist of both single-line logs and multi-line logs (\eg Java Exception and Hadoop Counters). Second, they fall short in integrating domain knowledge in parsing, making it hard to identify ambiguous tokens in logs. This paper defines a new research problem, \textit{hybrid log parsing}, as a superset of traditional log parsing tasks, and proposes \textit{Hue}, the first attempt for hybrid log parsing via a user-adaptive manner. Specifically, Hue converts each log message to a sequence of special wildcards using a key casting table and determines the log types via line aggregating and pattern extracting. In addition, Hue can effectively utilize user feedback via a novel merge-reject strategy, making it possible to quickly adapt to complex and changing log templates. We evaluated Hue on three hybrid log datasets and sixteen widely-used single-line log datasets (\ie Loghub). The results show that Hue achieves an average grouping accuracy of 0.845 on hybrid logs, which largely outperforms the best results (0.563 on average) obtained by existing parsers. Hue also exhibits SOTA performance on single-line log datasets. Furthermore, Hue has been successfully deployed in a real production environment for daily hybrid log parsing.
翻訳日:2023-10-23 14:21:38 公開日:2023-08-14
# RobotKube: KubernetesとROSによる大規模協調型マルチロボットシステムのオーケストレーション

RobotKube: Orchestrating Large-Scale Cooperative Multi-Robot Systems with Kubernetes and ROS ( http://arxiv.org/abs/2308.07053v1 )

ライセンス: Link先を確認
Bastian Lampe, Lennart Reiher, Lukas Zanger, Timo Woopen, Raphael van Kempen, Lutz Eckstein(参考訳) 協調インテリジェントトランスポートシステム(C-ITS)のような現代のサイバー物理システム(CPS)は、これらのシステムを操作するソフトウェアによってますます定義される。 実際には、ロボットで構成されたクラスタ内で動作し、インフラストラクチャをサポートするコンテナ化されたマイクロサービスで構成されるマイクロサービスアーキテクチャを採用することができる。 これらのマイクロサービスは、システムに課される要件の変化に応じて、動的にオーケストレーションされる必要がある。 さらにこれらのシステムは、cpsコンポーネントとシステム全体の機能を継続的に更新し、アップグレードすることを目的としたdevopsプロセスに組み込まれている。 本稿では,Kubernetesをベースとした大規模協調型マルチロボットCPSのためのコンテナマイクロサービスオーケストレーションアプローチであるRobotKubeを提案する。 我々は、CPS全体にわたるソフトウェアのオーケストレーションの自動化方法を説明し、関連する蓄積データを監視および選択的に保存する機能を含む。 このコンテキストでは、追加アプリケーションのデプロイを要求できるイベント検出と、Kubernetesクラスタで必要な変更を自動的に設定可能なアプリケーションマネージャという、システムの主要な2つのコンポーネントを提示します。 広く採用されているKubernetesプラットフォームとRobot Operating System(ROS)を組み合わせることで、C-ITSでマイクロサービスを開発、デプロイ、スケーリング、監視するための標準ツールとプラクティスの使用が可能になります。 私たちはrobotkubeを例示的で再現可能なユースケースとして、https://github.com/ika-rwth-aachen/robotkubeで公開しています。

Modern cyber-physical systems (CPS) such as Cooperative Intelligent Transport Systems (C-ITS) are increasingly defined by the software which operates these systems. In practice, microservice architectures can be employed, which may consist of containerized microservices running in a cluster comprised of robots and supporting infrastructure. These microservices need to be orchestrated dynamically according to ever changing requirements posed at the system. Additionally, these systems are embedded in DevOps processes aiming at continually updating and upgrading both the capabilities of CPS components and of the system as a whole. In this paper, we present RobotKube, an approach to orchestrating containerized microservices for large-scale cooperative multi-robot CPS based on Kubernetes. We describe how to automate the orchestration of software across a CPS, and include the possibility to monitor and selectively store relevant accruing data. In this context, we present two main components of such a system: an event detector capable of, e.g., requesting the deployment of additional applications, and an application manager capable of automatically configuring the required changes in the Kubernetes cluster. By combining the widely adopted Kubernetes platform with the Robot Operating System (ROS), we enable the use of standard tools and practices for developing, deploying, scaling, and monitoring microservices in C-ITS. We demonstrate and evaluate RobotKube in an exemplary and reproducible use case that we make publicly available at https://github.com/ika-rwth-aachen/robotkube .
翻訳日:2023-10-23 14:20:43 公開日:2023-08-14
# 半コンクリートシナリオとパラメータサンプリングを用いたsofif対応シナリオ生成

SOTIF-Compliant Scenario Generation Using Semi-Concrete Scenarios and Parameter Sampling ( http://arxiv.org/abs/2308.07025v1 )

ライセンス: Link先を確認
Lukas Birkemeyer, Julian Fuchs, Alessio Gambi, Ina Schaefer(参考訳) SOTIF標準(ISO 21448)は、高度な運転支援システムと自動運転システムを検証するためのシナリオベースのテストを必要とするが、それを効果的かつ効率的に行うための実践的な方法を提案していない。 既存のシナリオ生成アプローチは、シナリオ空間の探索または活用に重点を置いている。 これは一般的に、多くの既知のケースをカバーするが、潜在的にエッジケースを見逃すテストスイートや、効果的だがより多様なシナリオを含む集中テストスイートにつながる。 そこで本研究では,SOTIFに準拠したテストスイートを作成し,より高いカバレッジを実現し,より多くの障害を見つけるために,半一致シナリオを提案し,パラメータサンプリングと組み合わせてシナリオ空間探索とエクスプロイトを適切にバランスさせる。 半一致シナリオはシナリオ空間を体系的に探索する組合せシナリオ生成技術を可能にし、パラメータサンプリングは連続パラメータの活用を可能にする。 実験の結果,提案手法は最先端のカバレッジベースサンプリングよりも効果的なテストスイートを生成できることがわかった。 さらに,パラメータサンプリングを駆動するフィードバック機構を含めることで,テストスイートの有効性をさらに高めることを示す。

The SOTIF standard (ISO 21448) requires scenario-based testing to verify and validate Advanced Driver Assistance Systems and Automated Driving Systems but does not suggest any practical way to do so effectively and efficiently. Existing scenario generation approaches either focus on exploring or exploiting the scenario space. This generally leads to test suites that cover many known cases but potentially miss edge cases or focused test suites that are effective but also contain less diverse scenarios. To generate SOTIF-compliant test suites that achieve higher coverage and find more faults, this paper proposes semi-concrete scenarios and combines them with parameter sampling to adequately balance scenario space exploration and exploitation. Semi-concrete scenarios enable combinatorial scenario generation techniques that systematically explore the scenario space, while parameter sampling allows for the exploitation of continuous parameters. Our experimental results show that the proposed concept can generate more effective test suites than state-of-the-art coverage-based sampling. Moreover, our results show that including a feedback mechanism to drive parameter sampling further increases test suites' effectiveness.
翻訳日:2023-10-23 14:20:20 公開日:2023-08-14
# CupCleaner: コメント更新のためのデータクリーニングアプローチ

CupCleaner: A Data Cleaning Approach for Comment Updating ( http://arxiv.org/abs/2308.06898v1 )

ライセンス: Link先を確認
Qingyuan Liang, Zeyu Sun, Qihao Zhu, Junhao Hu, Yifan Zhao, Lu Zhang(参考訳) 近年,ディープラーニング技術は,ソフトウェア工学に関連する様々なタスクにおいて,有望な性能を示している。 これらの学習ベースアプローチがうまく機能するためには、高品質なデータを取得することが基本的で重要な問題である。 コメント更新タスクは、ソースコードの変更に基づいて対応するコメントを自動的に更新することを目的とした、新しいソフトウェアエンジニアリングタスクである。 しかしながら、コメント更新タスクのデータセットは通常、コメントの品質管理の欠如があるGitHubなどのオープンソースソフトウェアリポジトリのコミットバージョンからクロールされる。 本稿では,ソフトウェア開発におけるコメント更新プロセスの特性を考慮し,既存のコメント更新データセットのクリーニングに着目する。 この目的を達成するために,CupCleaner (Comment UPdating's CLEANER) という意味的かつ重なり合うアプローチを提案する。 具体的には、コードとコメントのセマンティクスと重なり合う情報に基づいてスコアを計算する。 スコアの分布に基づいて、分布の尾部にある低いスコアでデータをフィルタリングして、可能な不潔なデータを排除する。 我々はまず,CupCleanerが同定したノイズデータと高品質データについて人間による評価を行った。 その結果、CupCleanerが同定したノイズデータの人間の評価は著しく低かった。 そして、既存の3つのコメント更新データセットのトレーニングと検証セットに対して、テストセットを変更せずにデータクリーニングアプローチを適用した。 実験の結果,cupcleanerを用いて30%以上のデータをフィルタリングした後でも,すべてのパフォーマンス指標が改善されていることがわかった。 クリーニングされたテストセットの実験結果は、CupCleanerが関連するタスクを更新するためのデータセットを構築するのに役立つことを示唆している。

Recently, deep learning-based techniques have shown promising performance on various tasks related to software engineering. For these learning-based approaches to perform well, obtaining high-quality data is one fundamental and crucial issue. The comment updating task is an emerging software engineering task aiming at automatically updating the corresponding comments based on changes in source code. However, datasets for the comment updating tasks are usually crawled from committed versions in open source software repositories such as GitHub, where there is lack of quality control of comments. In this paper, we focus on cleaning existing comment updating datasets with considering some properties of the comment updating process in software development. We propose a semantic and overlapping-aware approach named CupCleaner (Comment UPdating's CLEANER) to achieve this purpose. Specifically, we calculate a score based on semantics and overlapping information of the code and comments. Based on the distribution of the scores, we filter out the data with low scores in the tail of the distribution to get rid of possible unclean data. We first conducted a human evaluation on the noise data and high-quality data identified by CupCleaner. The results show that the human ratings of the noise data identified by CupCleaner are significantly lower. Then, we applied our data cleaning approach to the training and validation sets of three existing comment updating datasets while keeping the test set unchanged. Our experimental results show that even after filtering out over 30\% of the data using CupCleaner, there is still an improvement in all performance metrics. The experimental results on the cleaned test set also suggest that CupCleaner may provide help for constructing datasets for updating-related tasks.
翻訳日:2023-10-23 14:19:59 公開日:2023-08-14
# Occ$^2$Net: Occluded領域の3次元占有率推定に基づくロバスト画像マッチング

Occ$^2$Net: Robust Image Matching Based on 3D Occupancy Estimation for Occluded Regions ( http://arxiv.org/abs/2308.16160v1 )

ライセンス: Link先を確認
Miao Fan, Mingrui Chen, Chen Hu, Shuchang Zhou(参考訳) 画像マッチングは、同時ローカライゼーションとマッピング(slam)や、正確なポーズ推定を必要とする画像検索など、様々な視覚アプリケーションにおいて、基本的かつ重要なタスクである。 しかし,既存の手法ではカメラの動きとシーン構造の関係は無視されている。 本稿では,3次元占有率を用いて咬合関係をモデル化し,閉塞領域におけるマッチング点を推定する新しい画像マッチング手法であるocc$^2$netを提案する。 occupancy estimation (oe)モジュールにエンコードされた帰納的バイアスのおかげで、複数のビューからの情報を統合できるマルチビューの一貫性のある3d表現のブートストラップが大幅に簡単になる。 Occlusion-Aware (OA)モジュールと組み合わせて、注意層と回転アライメントを組み込んで、閉塞点と可視点のマッチングを可能にする。 提案手法は実世界およびシミュレーションデータセットの両方で評価し,いくつかの指標,特に閉塞シナリオにおける最先端手法よりも優れた性能を示す。

Image matching is a fundamental and critical task in various visual applications, such as Simultaneous Localization and Mapping (SLAM) and image retrieval, which require accurate pose estimation. However, most existing methods ignore the occlusion relations between objects caused by camera motion and scene structure. In this paper, we propose Occ$^2$Net, a novel image matching method that models occlusion relations using 3D occupancy and infers matching points in occluded regions. Thanks to the inductive bias encoded in the Occupancy Estimation (OE) module, it greatly simplifies bootstrapping of a multi-view consistent 3D representation that can then integrate information from multiple views. Together with an Occlusion-Aware (OA) module, it incorporates attention layers and rotation alignment to enable matching between occluded and visible points. We evaluate our method on both real-world and simulated datasets and demonstrate its superior performance over state-of-the-art methods on several metrics, especially in occlusion scenarios.
翻訳日:2023-09-03 21:22:25 公開日:2023-08-14
# 薬物発見の未来:量子ベースの機械学習シミュレーション(qmls)

Implementation of The Future of Drug Discovery: QuantumBased Machine Learning Simulation (QMLS) ( http://arxiv.org/abs/2308.08561v1 )

ライセンス: Link先を確認
Yew Kee Wong, Yifan Zhou, Yan Shing Liang, Haichuan Qiu, Yu Xi Wu, Bin He(参考訳) 研究開発段階(research & development, r&d)は長くコストのかかるプロセスである。 このプロセスに革命をもたらすため、我々は新たなコンセプトQMLSを導入し、R&Dフェーズ全体を3~6ヶ月に短縮し、コストを5~8万USDに短縮する。 ヒット生成のために、機械学習分子生成(mlmg)はターゲットタンパク質の分子構造に応じてヒットを発生させ、量子シミュレーション(qs)はターゲットタンパク質との反応と結合効果に基づいて一次エッセイから分子をフィルタリングする。 次に、リード最適化のために、mlmgおよびqsから生成およびフィルタリングされた結果分子を比較し、両方のプロセスの結果として現れる分子を、機械学習分子変異(mlmv)を介して数十の分子変動にし、他の分子はいくつかのバリエーションにのみ変換する。 最後に、全ての最適化された分子は、反応効率と安全性の基準の高いQSフィルターを複数回実施し、数十個の前臨床薬を合成する。 本論文は、量子シミュレーションと組み合わせた機械学習の概念を売り込んだ最初の論文に基づいている。 本稿では、MLMG、MLMV、QSを含むQMLSの詳細な設計とフレームワークについて述べる。

The Research & Development (R&D) phase of drug development is a lengthy and costly process. To revolutionize this process, we introduce our new concept QMLS to shorten the whole R&D phase to three to six months and decrease the cost to merely fifty to eighty thousand USD. For Hit Generation, Machine Learning Molecule Generation (MLMG) generates possible hits according to the molecular structure of the target protein while the Quantum Simulation (QS) filters molecules from the primary essay based on the reaction and binding effectiveness with the target protein. Then, For Lead Optimization, the resultant molecules generated and filtered from MLMG and QS are compared, and molecules that appear as a result of both processes will be made into dozens of molecular variations through Machine Learning Molecule Variation (MLMV), while others will only be made into a few variations. Lastly, all optimized molecules would undergo multiple rounds of QS filtering with a high standard for reaction effectiveness and safety, creating a few dozen pre-clinical-trail-ready drugs. This paper is based on our first paper, where we pitched the concept of machine learning combined with quantum simulations. In this paper we will go over the detailed design and framework of QMLS, including MLMG, MLMV, and QS.
翻訳日:2023-08-27 05:26:22 公開日:2023-08-14
# BIRP:マルチモーダルパターンマッチングに基づくBitcoin情報検索予測モデル

BIRP: Bitcoin Information Retrieval Prediction Model Based on Multimodal Pattern Matching ( http://arxiv.org/abs/2308.08558v1 )

ライセンス: Link先を確認
Minsuk Kim, Byungchul Kim, Junyeong Yong, Jeongwoo Park and Gyeongmin Kim(参考訳) 金融時系列は歴史的にランダムウォーク仮説の下でマーチンゲール過程であると仮定されてきた。 原価だけで投資決定を行う代わりに、金融市場における微妙に隠された繰り返しパターンを検出するために、様々なマルチモーダルパターンマッチングアルゴリズムが開発された。 チャートベースのパターンマッチングツールの多くは、現在のチャート(CC)パターンから与えられた同様の過去のチャート(PC)パターンのみを取得し、解釈的および予測的分析全体、すなわち最終的な投資決定を投資家に残します。 本稿では、CC情報から類似したPCの動きをランク付けする手法を提案し、これを付加的な特徴として活用することで、モデルの方向性予測能力を向上させることを示す。 当社のランキングと方向予測モデリング手法をビットコインに適用するのは、その非常に不安定な価格のため、今後の動きを予測するのが難しくなるからです。

Financial time series have historically been assumed to be a martingale process under the Random Walk hypothesis. Instead of making investment decisions using the raw prices alone, various multimodal pattern matching algorithms have been developed to help detect subtly hidden repeatable patterns within the financial market. Many of the chart-based pattern matching tools only retrieve similar past chart (PC) patterns given the current chart (CC) pattern, and leaves the entire interpretive and predictive analysis, thus ultimately the final investment decision, to the investors. In this paper, we propose an approach of ranking similar PC movements given the CC information and show that exploiting this as additional features improves the directional prediction capacity of our model. We apply our ranking and directional prediction modeling methodologies on Bitcoin due to its highly volatile prices that make it challenging to predict its future movements.
翻訳日:2023-08-27 05:26:00 公開日:2023-08-14
# 位置埋め込み型事前学習モデルに基づく新しいehanced move recognitionアルゴリズム

A Novel Ehanced Move Recognition Algorithm Based on Pre-trained Models with Positional Embeddings ( http://arxiv.org/abs/2308.10822v1 )

ライセンス: Link先を確認
Hao Wen, Jie Wang, Xiaodong Qiao(参考訳) 要約の認識は、内容の特定と記事の明確化に不可欠である。 既存の移動認識アルゴリズムは、単語の位置情報を学習して文脈意味論を得る能力がない。 本稿では,中国の科学技術論文の非構造化要約のための注意機構を備えた,事前学習モデルとゲートネットワークを改良した新しい拡張移動認識アルゴリズムを提案する。 提案アルゴリズムは,まず要約データセグメンテーションと語彙訓練を行う。 ep-ernie$\_$at-gruフレームワークは、単語の位置情報を組み込むことで、深い意味学習とターゲット機能抽出を促進する。 実験の結果,提案アルゴリズムは分割データセットの精度が元のデータセットよりも13.37$\%高いこと,基本比較モデルよりも7.55$\%高い精度が得られた。

The recognition of abstracts is crucial for effectively locating the content and clarifying the article. Existing move recognition algorithms lack the ability to learn word position information to obtain contextual semantics. This paper proposes a novel enhanced move recognition algorithm with an improved pre-trained model and a gated network with attention mechanism for unstructured abstracts of Chinese scientific and technological papers. The proposed algorithm first performs summary data segmentation and vocabulary training. The EP-ERNIE$\_$AT-GRU framework is leveraged to incorporate word positional information, facilitating deep semantic learning and targeted feature extraction. Experimental results demonstrate that the proposed algorithm achieves 13.37$\%$ higher accuracy on the split dataset than on the original dataset and a 7.55$\%$ improvement in accuracy over the basic comparison model.
翻訳日:2023-08-27 05:05:54 公開日:2023-08-14
# SPEGTI:効率的な生成テキスト画像モデルの構造化予測

SPEGTI: Structured Prediction for Efficient Generative Text-to-Image Models ( http://arxiv.org/abs/2308.10997v1 )

ライセンス: Link先を確認
Sadeep Jayasumana, Daniel Glasner, Srikumar Ramalingam, Andreas Veit, Ayan Chakrabarti, Sanjiv Kumar(参考訳) 現代のテキスト画像生成モデルは、テキストプロンプトに忠実でフォトリアリスティックな高品質な画像を生成する。 これらのモデルのほとんどは反復的であり、大規模なモデルで何度も推論を実行する必要がある。 この反復プロセスは、画像の異なる領域がテキストプロンプトと一致しているだけでなく、互いに互換性があることを保証するために必要である。 本研究では,マルコフランダム場(MRF)モデルを用いて,画像の異なる領域間の互換性を実現するための軽量なアプローチを提案する。 この方法は、最近提案されたMuseモデルと連動して動作する。 MRFは、異なる空間位置における画像トークン間の互換性を符号化し、Muse予測ステップの必要回数を大幅に削減する。 MRFによる推論は非常に安価であり、そのパラメータは、MRF推論を微分可能なニューラルネットワーク層としてモデル化することで、バックプロパゲーションを通じて迅速に学習することができる。 我々のフルモデルであるSPEGTIは、提案したMRFモデルを用いて、出力画像の品質を損なうことなく、Museを1.5倍高速化する。

Modern text-to-image generation models produce high-quality images that are both photorealistic and faithful to the text prompts. However, this quality comes at significant computational cost: nearly all of these models are iterative and require running inference multiple times with large models. This iterative process is needed to ensure that different regions of the image are not only aligned with the text prompt, but also compatible with each other. In this work, we propose a light-weight approach to achieving this compatibility between different regions of an image, using a Markov Random Field (MRF) model. This method is shown to work in conjunction with the recently proposed Muse model. The MRF encodes the compatibility among image tokens at different spatial locations and enables us to significantly reduce the required number of Muse prediction steps. Inference with the MRF is significantly cheaper, and its parameters can be quickly learned through back-propagation by modeling MRF inference as a differentiable neural-network layer. Our full model, SPEGTI, uses this proposed MRF model to speed up Muse by 1.5X with no loss in output image quality.
翻訳日:2023-08-27 04:56:30 公開日:2023-08-14
# フェデレーション学習によるBCI性能向上のための固有情報の集約

Aggregating Intrinsic Information to Enhance BCI Performance through Federated Learning ( http://arxiv.org/abs/2308.11636v1 )

ライセンス: Link先を確認
Rui Liu, Yuanyuan Chen, Anran Li, Yi Ding, Han Yu, Cuntai Guan(参考訳) 不十分なデータは、高性能なディープラーニングモデルを構築するためのBCI(Brain-Computer Interface)にとって長年の課題である。 多くの研究グループや機関が同じBCIタスクのために多数のEEGデータセットを収集しているが、デバイスの不均一性のため、複数のサイトのEEGデータを共有することは依然として困難である。 モデルのロバスト性育成におけるデータ多様性の重要な役割を考えると、この課題の重要性を誇張することはできない。 しかし、既存の作品はこの問題をほとんど議論せず、主に単一のデータセット内のモデルトレーニング、しばしばサブジェクト間またはセッション間設定のコンテキストに焦点をあてている。 本研究では,FLEEG(Federated Learning EEG decoding)フレームワークを階層的にパーソナライズし,この課題を克服する。 この革新的なフレームワークは、bciの新しい学習パラダイムを具現化し、異なるデータフォーマットを持つデータセットがモデルトレーニングプロセスで協調できるようにする。 各クライアントには特定のデータセットが割り当てられ、階層的なパーソナライズされたモデルを使用して、さまざまなデータフォーマットを管理し、情報交換を容易にする。 一方、サーバはトレーニング手順を調整し、すべてのデータセットから取得した知識を活用する。 このフレームワークは、異なるデバイスで収集された9つのEEGデータセットを使用して、Motor Imagery (MI)分類で評価されている。 提案したフレームは,複数のデータセット間の知識共有を可能にすることにより,分類性能を最大16.7%向上させることができる。 可視化の結果,提案フレームワークは,タスク関連領域に安定した焦点をあてることにより,パフォーマンスの向上を図っている。 私たちの知る限りでは、これはこの重要な課題に対処する最初のエンドツーエンドソリューションです。

Insufficient data is a long-standing challenge for Brain-Computer Interface (BCI) to build a high-performance deep learning model. Though numerous research groups and institutes collect a multitude of EEG datasets for the same BCI task, sharing EEG data from multiple sites is still challenging due to the heterogeneity of devices. The significance of this challenge cannot be overstated, given the critical role of data diversity in fostering model robustness. However, existing works rarely discuss this issue, predominantly centering their attention on model training within a single dataset, often in the context of inter-subject or inter-session settings. In this work, we propose a hierarchical personalized Federated Learning EEG decoding (FLEEG) framework to surmount this challenge. This innovative framework heralds a new learning paradigm for BCI, enabling datasets with disparate data formats to collaborate in the model training process. Each client is assigned a specific dataset and trains a hierarchical personalized model to manage diverse data formats and facilitate information exchange. Meanwhile, the server coordinates the training procedure to harness knowledge gleaned from all datasets, thus elevating overall performance. The framework has been evaluated in Motor Imagery (MI) classification with nine EEG datasets collected by different devices but implementing the same MI task. Results demonstrate that the proposed frame can boost classification performance up to 16.7% by enabling knowledge sharing between multiple datasets, especially for smaller datasets. Visualization results also indicate that the proposed framework can empower the local models to put a stable focus on task-related areas, yielding better performance. To the best of our knowledge, this is the first end-to-end solution to address this important challenge.
翻訳日:2023-08-27 04:46:59 公開日:2023-08-14
# GNNを用いたNP-Hardマルチエージェントアサインメント計画の学習:ランダムグラフと予測可能なオークション適合Q-ラーニングに基づく推論

Learning NP-Hard Multi-Agent Assignment Planning using GNN: Inference on a Random Graph and Provable Auction-Fitted Q-learning ( http://arxiv.org/abs/1905.12204v4 )

ライセンス: Link先を確認
Hyunwook Kang, Taehwan Kwon, Jinkyoo Park, James R. Morrison(参考訳) 本稿では,学習に基づくアルゴリズムを用いて,時間依存報酬を用いたマルチエージェント・マルチタスクNPハードプランニング問題をほぼ最適に解決する可能性について検討する。 特に,マルチロボット報酬収集問題(MRRC)と呼ばれるロボット/機械スケジューリング問題について考察する。 このようなMRRCは、ライドシェアリング、ピックアップ・アンド・デリバリ、および様々な関連する問題をモデル化する。 MRRC問題を逐次決定問題として表現することで、各状態が確率的グラフィカルモデル(PGM)の拡張として表現可能であることを観察する。 次に、ランダムなPGMに対する平均場推定法を開発する。 次に,(1)次数変換可能なQ関数推定器を提案し,(2)次数変換可能なオークションを提案し,多項式時間で共同代入を選択する。 その結果、少なくとも1-1/e$の最適性を持つ強化学習フレームワークが生まれます。 MRRC問題を解く実験結果は,提案手法のほぼ最適性と伝達性を明らかにする。 また,同一並列マシンスケジューリング問題 (IPMS) とミニマックス複数走行セールスマン問題 (minimax-mTSP) についても検討する。

This paper explores the possibility of near-optimally solving multi-agent, multi-task NP-hard planning problems with time-dependent rewards using a learning-based algorithm. In particular, we consider a class of robot/machine scheduling problems called the multi-robot reward collection problem (MRRC). Such MRRC problems well model ride-sharing, pickup-and-delivery, and a variety of related problems. In representing the MRRC problem as a sequential decision-making problem, we observe that each state can be represented as an extension of probabilistic graphical models (PGMs), which we refer to as random PGMs. We then develop a mean-field inference method for random PGMs. We then propose (1) an order-transferable Q-function estimator and (2) an order-transferability-enabled auction to select a joint assignment in polynomial time. These result in a reinforcement learning framework with at least $1-1/e$ optimality. Experimental results on solving MRRC problems highlight the near-optimality and transferability of the proposed methods. We also consider identical parallel machine scheduling problems (IPMS) and minimax multiple traveling salesman problems (minimax-mTSP).
翻訳日:2023-08-20 16:45:32 公開日:2023-08-14
# GNNとルールによる帰納的知識グラフの補完:分析

Inductive Knowledge Graph Completion with GNNs and Rules: An Analysis ( http://arxiv.org/abs/2308.07942v1 )

ライセンス: Link先を確認
Akash Anil, V\'ictor Guti\'errez-Basulto, Yazm\'in Iba\~n\'ez-Garc\'ia, Steven Schockaert(参考訳) 帰納的知識グラフ完成のタスクでは、モデルがトレーニンググラフから推論パターンを学習する必要がある。 ルールベースの手法はこのタスクに適しているように見えるが、実際にはNBFNetのようなグラフニューラルネットワーク(GNN)に基づく最先端の手法を著しく過小評価している。 我々は,ルールベース手法の過小評価は2つの要因によると仮定する。 (i)不可解な実体が全くランク付けされていないこと 2)所定のリンク予測回答の信頼度を決定する際に、最も情報性の高い経路のみを考慮する。 これらの要因の影響を分析するために,上記の問題に対処することを目的としたルールベースのアプローチのバリエーションについて検討する。 その結果,NBFNetに近い性能が得られることがわかった。 重要な点として、考慮されている変種は、NBFNetが依存している証拠のごく一部しか使用していない。 さらに、完全なKGに目を向けたさらなる変種が、一貫してNBFNetを上回っていることを示す。

The task of inductive knowledge graph completion requires models to learn inference patterns from a training graph, which can then be used to make predictions on a disjoint test graph. Rule-based methods seem like a natural fit for this task, but in practice they significantly underperform state-of-the-art methods based on Graph Neural Networks (GNNs), such as NBFNet. We hypothesise that the underperformance of rule-based methods is due to two factors: (i) implausible entities are not ranked at all and (ii) only the most informative path is taken into account when determining the confidence in a given link prediction answer. To analyse the impact of these factors, we study a number of variants of a rule-based approach, which are specifically aimed at addressing the aforementioned issues. We find that the resulting models can achieve a performance which is close to that of NBFNet. Crucially, the considered variants only use a small fraction of the evidence that NBFNet relies on, which means that they largely keep the interpretability advantage of rule-based methods. Moreover, we show that a further variant, which does look at the full KG, consistently outperforms NBFNet.
翻訳日:2023-08-17 16:03:31 公開日:2023-08-14
# 時空間データをスクラッチから訓練したgpt-2を用いた個々の軌道生成

Generating Individual Trajectories Using GPT-2 Trained from Scratch on Encoded Spatiotemporal Data ( http://arxiv.org/abs/2308.07940v1 )

ライセンス: Link先を確認
Taizo Horikomi, Shouji Fujimoto, Atushi Ishikawa, Takayuki Mizuno(参考訳) 水野、藤本、石川の研究(第2022報)に続いて、緯度と経度で表される地理的座標を、様々な空間スケールで位置を具現化する特異な位置トークンに変換する。 位置トークンにユニークな時間間隔トークンを追加することにより、個々の日程をトークンのシーケンスとしてカプセル化する。 自己回帰言語モデルGPT-2のアーキテクチャを用いて,このトークン列をスクラッチからトレーニングし,個々の日常的軌跡を逐次生成する深層学習モデルを構築する。 気象条件や性別や年齢などの個々の属性といった環境要因は、独特の特別なトークンによって象徴され、これらのトークンや軌道をgpt-2アーキテクチャ上で訓練することで、環境要因と個々の属性の両方に影響された軌道を生成することができる。

Following Mizuno, Fujimoto, and Ishikawa's research (Front. Phys. 2022), we transpose geographical coordinates expressed in latitude and longitude into distinctive location tokens that embody positions across varied spatial scales. We encapsulate an individual daily trajectory as a sequence of tokens by adding unique time interval tokens to the location tokens. Using the architecture of an autoregressive language model, GPT-2, this sequence of tokens is trained from scratch, allowing us to construct a deep learning model that sequentially generates an individual daily trajectory. Environmental factors such as meteorological conditions and individual attributes such as gender and age are symbolized by unique special tokens, and by training these tokens and trajectories on the GPT-2 architecture, we can generate trajectories that are influenced by both environmental factors and individual attributes.
翻訳日:2023-08-17 16:02:59 公開日:2023-08-14
# ada-qpacknet -- ビット幅削減による適応プルーニング--忘れずに効率的な連続学習法

Ada-QPacknet -- adaptive pruning with bit width reduction as an efficient continual learning method without forgetting ( http://arxiv.org/abs/2308.07939v1 )

ライセンス: Link先を確認
Marcin Pietro\'n, Dominik \.Zurek, Kamil Faber, Roberto Corizzo(参考訳) 連続学習(continual learning、cl)は、人間とディープラーニングモデルの効率の間には依然として大きなギャップがあるプロセスである。 近年、多くのCLアルゴリズムが設計された。 その多くは、動的で複雑な環境での学習に多くの問題を抱えています。 本稿では,新しいアーキテクチャベースアプローチであるada-qpacknetについて述べる。 タスクごとにサブネットワークを抽出するプルーニングが組み込まれている。 アーキテクチャベースのCLメソッドにおける重要な側面は、そのキャパシティである。 提案手法では, 効率的な線形および非線形量子化法により, モデルのサイズを小さくする。 この方法はウェイトフォーマットのビット幅を削減する。 その結果、ハイブリッド8ビットと4ビットの量子化は、よく知られたCLシナリオ上の浮動小数点サブネットワークと同様の精度で実現できることを示した。 我々の知る限り、タスクサブネットワークを生成するための圧縮技術と量子化の両方を取り入れた最初のCL戦略である。 提案アルゴリズムは、よく知られたエピソードの組み合わせを用いてテストし、最も一般的なアルゴリズムと比較した。 その結果,提案手法はタスクおよびクラスインクリメンタルシナリオにおいてCL戦略の大部分を上回っていることがわかった。

Continual Learning (CL) is a process in which there is still huge gap between human and deep learning model efficiency. Recently, many CL algorithms were designed. Most of them have many problems with learning in dynamic and complex environments. In this work new architecture based approach Ada-QPacknet is described. It incorporates the pruning for extracting the sub-network for each task. The crucial aspect in architecture based CL methods is theirs capacity. In presented method the size of the model is reduced by efficient linear and nonlinear quantisation approach. The method reduces the bit-width of the weights format. The presented results shows that hybrid 8 and 4-bit quantisation achieves similar accuracy as floating-point sub-network on a well-know CL scenarios. To our knowledge it is the first CL strategy which incorporates both compression techniques pruning and quantisation for generating task sub-networks. The presented algorithm was tested on well-known episode combinations and compared with most popular algorithms. Results show that proposed approach outperforms most of the CL strategies in task and class incremental scenarios.
翻訳日:2023-08-17 16:02:43 公開日:2023-08-14
# 電子関数型プログラミング試験のためのコンピュータ支援設計と評価

Computer Aided Design and Grading for an Electronic Functional Programming Exam ( http://arxiv.org/abs/2308.07938v1 )

ライセンス: Link先を確認
Ole L\"ubke (TUHH), Konrad Fuger (TUHH), Fin Hendrik Bahnsen (UK-Essen), Katrin Billerbeck (TUHH), Sibylle Schupp (TUHH)(参考訳) 電子試験(e-exams)は、自動化による試験実施に必要な労力を大幅に削減する可能性がある。 しかし、タスクの複雑さや建設的なアライメントを犠牲にしたり、自動化に賛成する公平さを損なわないよう注意しなければならない。 To advance automation in the design and fair grading of (functional programming) e-exams, we introduce the following: A novel algorithm to check Proof Puzzles based on finding correct sequences of proof lines that improves fairness compared to an existing, edit distance based algorithm; an open-source static analysis tool to check source code for task relevant features by traversing the abstract syntax tree; a higher-level language and open-source tool to specify regular expressions that makes creating complex regular expressions less error-prone. 本研究は,e-examに紙試験を変換した経験報告に埋め込まれた。 結果のe-examを評価し,評価プロセスの自動化度を分析し,学生に意見を求め,自身の経験を批判的にレビューした。 ほぼ全てのタスクは、少なくとも部分的には自動的に段階付けできる(正しい解法は、ほぼ常に検出できる)が、学生は、e-examはコースに適合する試験形式であるが、紙試験と比較して、どのように自分の考えを表現できるかが分かれていることに同意し、試験結果のポイント分布が紙試験とほぼ同じであるのに対して、試験者はより時間効率のよい段階付けプロセスを楽しむ。

Electronic exams (e-exams) have the potential to substantially reduce the effort required for conducting an exam through automation. Yet, care must be taken to sacrifice neither task complexity nor constructive alignment nor grading fairness in favor of automation. To advance automation in the design and fair grading of (functional programming) e-exams, we introduce the following: A novel algorithm to check Proof Puzzles based on finding correct sequences of proof lines that improves fairness compared to an existing, edit distance based algorithm; an open-source static analysis tool to check source code for task relevant features by traversing the abstract syntax tree; a higher-level language and open-source tool to specify regular expressions that makes creating complex regular expressions less error-prone. Our findings are embedded in a complete experience report on transforming a paper exam to an e-exam. We evaluated the resulting e-exam by analyzing the degree of automation in the grading process, asking students for their opinion, and critically reviewing our own experiences. Almost all tasks can be graded automatically at least in part (correct solutions can almost always be detected as such), the students agree that an e-exam is a fitting examination format for the course but are split on how well they can express their thoughts compared to a paper exam, and examiners enjoy a more time-efficient grading process while the point distribution in the exam results was almost exactly the same compared to a paper exam.
翻訳日:2023-08-17 16:02:27 公開日:2023-08-14
# 名前付きエンティティ認識システムの自動テストと改善

Automated Testing and Improvement of Named Entity Recognition Systems ( http://arxiv.org/abs/2308.07937v1 )

ライセンス: Link先を確認
Boxi Yu, Yiyan Hu, Qiuyang Mang, Wenhan Hu, Pinjia He(参考訳) 名前付きエンティティ認識(NER)システムは、ディープニューラルネットワークの開発により近年急速に進歩している。 これらのシステムは、情報抽出、質問応答、感情分析など、様々な自然言語処理アプリケーションで広く使われている。 しかし、ディープニューラルネットワークの複雑さと難解さは、ある状況下でNERシステムを信頼できないものにし、誤った予測をもたらす。 例えば、NERシステムは女性の名前を化学薬品と誤識別したり、少数派の名前の認識に失敗したりして、ユーザの不満を招きかねない。 この問題に対処するために,様々なNERシステムの自動テストと修復のための新しい,広く適用可能なアプローチであるTINを導入する。 自動テストの鍵となる考え方は、同じ名前のエンティティの同じコンテキスト下でのNER予測が同一であることである。 自動修復の基本的な考え方は、同じコンテキスト下で、同じ名前のエンティティが同じNER予測を持つことである。 2つのSOTA NERモデルと2つの商用NER API、すなわちAzure NERとAWS NERをテストするためにTINを使用します。 我々はTINが報告した疑わしい問題の784を手作業で検証し、702は誤問題であり、NERエラーの4つのカテゴリ(省略、オーバーラベル、誤分類、レンジエラー)に高い精度(85.0%-93.4%)をもたらす。 自動修理では、TINは試験中の4つのシステムに対して高いエラー低減率(26.8%-50.6%)を達成し、1,877件のNERエラーのうち1,056件の修復に成功した。

Named entity recognition (NER) systems have seen rapid progress in recent years due to the development of deep neural networks. These systems are widely used in various natural language processing applications, such as information extraction, question answering, and sentiment analysis. However, the complexity and intractability of deep neural networks can make NER systems unreliable in certain circumstances, resulting in incorrect predictions. For example, NER systems may misidentify female names as chemicals or fail to recognize the names of minority groups, leading to user dissatisfaction. To tackle this problem, we introduce TIN, a novel, widely applicable approach for automatically testing and repairing various NER systems. The key idea for automated testing is that the NER predictions of the same named entities under similar contexts should be identical. The core idea for automated repairing is that similar named entities should have the same NER prediction under the same context. We use TIN to test two SOTA NER models and two commercial NER APIs, i.e., Azure NER and AWS NER. We manually verify 784 of the suspicious issues reported by TIN and find that 702 are erroneous issues, leading to high precision (85.0%-93.4%) across four categories of NER errors: omission, over-labeling, incorrect category, and range error. For automated repairing, TIN achieves a high error reduction rate (26.8%-50.6%) over the four systems under test, which successfully repairs 1,056 out of the 1,877 reported NER errors.
翻訳日:2023-08-17 16:02:02 公開日:2023-08-14
# シーケンスレコメンデーションのための知識プロンプトチューニング

Knowledge Prompt-tuning for Sequential Recommendation ( http://arxiv.org/abs/2308.08459v1 )

ライセンス: Link先を確認
Jianyang Zhai, Xiawu Zheng, Chang-Dong Wang, Hui Li, and Yonghong Tian(参考訳) プレトレーニング言語モデル(PLM)は、一般的な知識を抽出するために使用される逐次レコメンデーション(SR)において、強い性能を示す。 しかし、既存の手法にはドメインの知識が欠けており、ユーザーの細かい好みを捉えるのに苦労している。 一方、多くの従来のSR手法では、情報損失に悩まされながらサイド情報を統合することでこの問題を改善する。 要約すると、優れたレコメンデーションシステムは、一般知識とドメイン知識の両方を同時に活用すべきである。 そこで,外部知識ベースを導入し,逐次推薦のための知識プロンプトチューニングを提案する(\textbf{kp4sr})。 具体的には,関係テンプレートのセットを構築し,構造化知識グラフ(kg)を知識プロンプトに変換し,意味的ギャップの問題を解決する。 しかし、知識は元のデータ構造を妨害し、かなりの量のノイズをもたらす。 さらに,知識木を構築し,マスマトリクス形式でデータ構造を復元する知識木マスクを提案し,ノイズ問題を緩和する。 我々は,KP4SRを実世界の3つのデータセットで評価し,実験結果から,複数の評価指標における最先端手法よりも優れた結果を得た。 特に、plmベースの方法と比較して、本手法は、本書データセット上の \textcolor{red}{40.65\%} と \textcolor{red}{36.42\%} と、音楽データセット上の \textcolor{red}{11.17\%} と \textcolor{red}{11.47\%} と、映画データセット上の \textcolor{red}{22.17\%} と \textcolor{red}{19.14\%} によってndcg@5 と hr@5 を改善する。 私たちのコードはリンクで公開されています。 \href{https://github.com/zhaijianyang/KP4SR}{\textcolor{blue}{https://github.com/zhaijianyang/KP4SR}。 }

Pre-trained language models (PLMs) have demonstrated strong performance in sequential recommendation (SR), which are utilized to extract general knowledge. However, existing methods still lack domain knowledge and struggle to capture users' fine-grained preferences. Meanwhile, many traditional SR methods improve this issue by integrating side information while suffering from information loss. To summarize, we believe that a good recommendation system should utilize both general and domain knowledge simultaneously. Therefore, we introduce an external knowledge base and propose Knowledge Prompt-tuning for Sequential Recommendation (\textbf{KP4SR}). Specifically, we construct a set of relationship templates and transform a structured knowledge graph (KG) into knowledge prompts to solve the problem of the semantic gap. However, knowledge prompts disrupt the original data structure and introduce a significant amount of noise. We further construct a knowledge tree and propose a knowledge tree mask, which restores the data structure in a mask matrix form, thus mitigating the noise problem. We evaluate KP4SR on three real-world datasets, and experimental results show that our approach outperforms state-of-the-art methods on multiple evaluation metrics. Specifically, compared with PLM-based methods, our method improves NDCG@5 and HR@5 by \textcolor{red}{40.65\%} and \textcolor{red}{36.42\%} on the books dataset, \textcolor{red}{11.17\%} and \textcolor{red}{11.47\%} on the music dataset, and \textcolor{red}{22.17\%} and \textcolor{red}{19.14\%} on the movies dataset, respectively. Our code is publicly available at the link: \href{https://github.com/zhaijianyang/KP4SR}{\textcolor{blue}{https://github.com/zhaijianyang/KP4SR}.}
翻訳日:2023-08-17 12:43:38 公開日:2023-08-14
# 中国におけるAIGCの現状と今後の展望

AIGC In China: Current Developments And Future Outlook ( http://arxiv.org/abs/2308.08451v1 )

ライセンス: Link先を確認
Xiangyu Li, Yuqing Fan, Shenghui Cheng(参考訳) AI生成コンテンツ(AIGC)への注目が高まり、日常生活、工業生産、学術分野の様々な側面に大きな影響を与えている。 本研究は,AIGC開発における国際的動向と競争性を認識し,中国の現状の分析を目的とする。 調査はAIGCの基礎技術と現在の応用の概要から始まる。 その後、中国におけるAIGCの市場状況、政策状況、開発軌跡を考察し、関連する学術論文の特定にキーワード検索を利用した。 さらに,本論文は,AIGCの生態学的構成を強調するとともに,AIGC製品とその対応するエコシステムを包括的に調査する。 最後に,AIGC産業が直面する課題とリスクについて論じるとともに,AIGCの競争的洞察に基づく業界の将来に対する先見的な展望を示す。

The increasing attention given to AI Generated Content (AIGC) has brought a profound impact on various aspects of daily life, industrial manufacturing, and the academic sector. Recognizing the global trends and competitiveness in AIGC development, this study aims to analyze China's current status in the field. The investigation begins with an overview of the foundational technologies and current applications of AIGC. Subsequently, the study delves into the market status, policy landscape, and development trajectory of AIGC in China, utilizing keyword searches to identify relevant scholarly papers. Furthermore, the paper provides a comprehensive examination of AIGC products and their corresponding ecosystem, emphasizing the ecological construction of AIGC. Finally, this paper discusses the challenges and risks faced by the AIGC industry while presenting a forward-looking perspective on the industry's future based on competitive insights in AIGC.
翻訳日:2023-08-17 12:42:41 公開日:2023-08-14
# HyperBandit: ストリームレコメンデーションにおける時間変化ユーザ優先のためのHypernewtork付きコンテキストバンド

HyperBandit: Contextual Bandit with Hypernewtork for Time-Varying User Preferences in Streaming Recommendation ( http://arxiv.org/abs/2308.08497v1 )

ライセンス: Link先を確認
Chenglei Shen, Xiao Zhang, Wei Wei, Jun Xu(参考訳) 実世界のストリーミングレコメンデーションシステムでは、ユーザの好みはしばしば時間とともに動的に変化する(例えば、平日と週末にユーザが異なる好みを持つ)。 既存のbanditベースのストリーミングレコメンデーションモデルは、時間変数とユーザの好みの関係を明示的にモデル化することなく、タイムスタンプとしてのみ時間を考慮する。 これにより、動的シナリオに迅速に適応できないレコメンデーションモデルが生まれます。 この問題に対処するために,HyperBanditと呼ばれるハイパーネットワークを用いたコンテキスト的帯域幅アプローチを提案する。 具体的には、HyperBanditは、時間的特徴とユーザの好みの相関を考慮して、時間的変化の報酬を推定するためのパラメータを生成することができるニューラルネットワークを維持している。 推定された時間変動報酬を使用して、潜在アイテムコンテキストを学習してオンラインレコメンデーションを作成するために、バンディットポリシーが使用される。 ストリーミングレコメンデーションシナリオにおけるリアルタイム要求を満たすために,パラメータ行列における低ランク構造の存在を検証し,効率的なトレーニングに低ランク分解を利用する。 理論的には、最善策に対するサブリニアな後悔の上限を示す。 実世界のデータセットに関する広範囲な実験により、提案されたhyperbanditは、累積報酬の点で最先端のベースラインを一貫して上回っていることが示された。

In real-world streaming recommender systems, user preferences often dynamically change over time (e.g., a user may have different preferences during weekdays and weekends). Existing bandit-based streaming recommendation models only consider time as a timestamp, without explicitly modeling the relationship between time variables and time-varying user preferences. This leads to recommendation models that cannot quickly adapt to dynamic scenarios. To address this issue, we propose a contextual bandit approach using hypernetwork, called HyperBandit, which takes time features as input and dynamically adjusts the recommendation model for time-varying user preferences. Specifically, HyperBandit maintains a neural network capable of generating the parameters for estimating time-varying rewards, taking into account the correlation between time features and user preferences. Using the estimated time-varying rewards, a bandit policy is employed to make online recommendations by learning the latent item contexts. To meet the real-time requirements in streaming recommendation scenarios, we have verified the existence of a low-rank structure in the parameter matrix and utilize low-rank factorization for efficient training. Theoretically, we demonstrate a sublinear regret upper bound against the best policy. Extensive experiments on real-world datasets show that the proposed HyperBandit consistently outperforms the state-of-the-art baselines in terms of accumulated rewards.
翻訳日:2023-08-17 12:37:24 公開日:2023-08-14
# リップサブワード相関に基づく視覚前訓練とクロスモーダルフュージョンエンコーダによる音声認識の改善

Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder ( http://arxiv.org/abs/2308.08488v1 )

ライセンス: Link先を確認
Yusheng Dai, Hang Chen, Jun Du, Xiaofei Ding, Ning Ding, Feijun Jiang, Chin-Hui Lee(参考訳) 近年,低品質ビデオを用いたエンド・ツー・エンドの音声認識システムから音声・視覚音声認識システムへの性能改善がみられた。 音声と視覚モダリティ間の収束率と特殊入力表現の一致が問題の原因と考えられる。 本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善する2つの新しい手法を提案する。 まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。 これにより、visual model pre-trainingとcross-modal fusionの間、ビデオとオーディオストリームの正確なアライメントが可能になる。 次に,マルチモーダルアテンション層に対する主トレーニングパラメータを利用して,モーダル相補性を完全に活用する,オーディオ誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。 MISP2021-AVSRデータセットの実験により,提案手法の有効性が示された。 同時に、比較的少量のトレーニングデータのみを使用して、最終システムは、より複雑なフロントエンドとバックエンドを持つ最先端システムよりも優れたパフォーマンスを達成する。

In recent research, slight performance improvement is observed from automatic speech recognition systems to audio-visual speech recognition systems in the end-to-end framework with low-quality videos. Unmatching convergence rates and specialized input representations between audio and visual modalities are considered to cause the problem. In this paper, we propose two novel techniques to improve audio-visual speech recognition (AVSR) under a pre-training and fine-tuning training framework. First, we explore the correlation between lip shapes and syllable-level subword units in Mandarin to establish good frame-level syllable boundaries from lip shapes. This enables accurate alignment of video and audio streams during visual model pre-training and cross-modal fusion. Next, we propose an audio-guided cross-modal fusion encoder (CMFE) neural network to utilize main training parameters for multiple cross-modal attention layers to make full use of modality complementarity. Experiments on the MISP2021-AVSR data set show the effectiveness of the two proposed techniques. Together, using only a relatively small amount of training data, the final system achieves better performances than state-of-the-art systems with more complex front-ends and back-ends.
翻訳日:2023-08-17 12:36:07 公開日:2023-08-14
# モノのソーシャルインターネットのためのコンテキスト対応サービス推薦システム

Context-Aware Service Recommendation System for the Social Internet of Things ( http://arxiv.org/abs/2308.08499v1 )

ライセンス: Link先を確認
Amar Khelloufi, Huansheng Ning, Abdelkarim Ben Sada, Abdenacer Naouri and Sahraoui Dhelim(参考訳) Social Internet of Things(SIoT)は、相互接続されたスマートデバイスがデータとサービスを共有することを可能にし、パーソナライズされたサービスレコメンデーションの機会を開放する。 しかしながら、既存の研究は、SIoTコンテキストにおけるレコメンデーションの正確性と関連性を高める重要な側面をしばしば見落としている。 具体的には、既存の技術はデバイス間の社会的関係の抽出を考慮し、サービスレビューの文脈的提示を無視する傾向にある。 本研究は,各デバイス・サービスペアのコンテキスト表現を探索することで,これらのギャップに対処することを目的とする。 まず、SIoT内のデバイスデバイス間の関係を集約することにより、潜在機能インタラクションをキャプチャできる潜在機能の組み合わせ手法を提案する。 次に、Facterization Machinesを利用して、各SIoTデバイスサービスに特有の高次機能インタラクションをモデル化し、正確なレーティング予測を行う。 最後に、レビューアグリゲーションと特徴学習プロセスに基づくSIoTのためのサービスレコメンデーションフレームワークを提案する。 実験的評価は、サービス推薦の精度と妥当性を改善するためのフレームワークの有効性を示す。

The Social Internet of Things (SIoT) enables interconnected smart devices to share data and services, opening up opportunities for personalized service recommendations. However, existing research often overlooks crucial aspects that can enhance the accuracy and relevance of recommendations in the SIoT context. Specifically, existing techniques tend to consider the extraction of social relationships between devices and neglect the contextual presentation of service reviews. This study aims to address these gaps by exploring the contextual representation of each device-service pair. Firstly, we propose a latent features combination technique that can capture latent feature interactions, by aggregating the device-device relationships within the SIoT. Then, we leverage Factorization Machines to model higher-order feature interactions specific to each SIoT device-service pair to accomplish accurate rating prediction. Finally, we propose a service recommendation framework for SIoT based on review aggregation and feature learning processes. The experimental evaluation demonstrates the framework's effectiveness in improving service recommendation accuracy and relevance.
翻訳日:2023-08-17 12:23:06 公開日:2023-08-14
# 医用画像における教師なし異常検出とセグメンテーションのための自己教師付き疑似マルチクラス事前学習

Self-supervised Pseudo Multi-class Pre-training for Unsupervised Anomaly Detection and Segmentation in Medical Images ( http://arxiv.org/abs/2109.01303v3 )

ライセンス: Link先を確認
Yu Tian and Fengbei Liu and Guansong Pang and Yuanhong Chen and Yuyuan Liu and Johan W. Verjans and Rajvinder Singh and Gustavo Carneiro(参考訳) 教師なし異常検出(UAD)法は、正常な(または健康な)画像のみを用いて訓練されるが、試験中は正常で異常な(または病気)画像を分類することができる。 UADは、疾患スクリーニング問題に適用される重要な医療画像解析(MIA)手法である。 しかし、通常の画像への排他的依存は、大きさ、外観、形状の異常な病変を検出・分断するのに十分な感度の低い非効率な低次元画像表現の学習をもたらす可能性がある。 コンピュータビジョン技術に基づく自己教師型学習によるUADの事前学習は、この課題を軽減することができるが、それらはプレテキストタスクを設計するためのドメイン知識を探索せず、その対照的な学習損失は通常の訓練画像のクラスタ化を試みず、その結果、異常検出に有効でない正常画像のスパース分布をもたらす可能性があるため、準最適である。 本稿では,Pseudo Multi-class Strong Augmentation via Contrastive Learning (PMSACL) という,MIA UADアプリケーションのための自己指導型事前学習手法を提案する。 PMSACLは、通常の画像クラスと合成された複数の異常画像の擬似クラスを対比する新しい最適化法と、特徴空間に密集クラスタを形成するために各クラスを強制する。 実験では, PMSACLプレトレーニングにより, 大腸内視鏡, 根底検診, Covid-19 Chest X-ray データセットを用いた多くのMIAベンチマークにおけるSOTA UAD法の精度が向上することを示した。 コードはhttps://github.com/tianyu0207/PMSACLで公開されている。

Unsupervised anomaly detection (UAD) methods are trained with normal (or healthy) images only, but during testing, they are able to classify normal and abnormal (or disease) images. UAD is an important medical image analysis (MIA) method to be applied in disease screening problems because the training sets available for those problems usually contain only normal images. However, the exclusive reliance on normal images may result in the learning of ineffective low-dimensional image representations that are not sensitive enough to detect and segment unseen abnormal lesions of varying size, appearance, and shape. Pre-training UAD methods with self-supervised learning, based on computer vision techniques, can mitigate this challenge, but they are sub-optimal because they do not explore domain knowledge for designing the pretext tasks, and their contrastive learning losses do not try to cluster the normal training images, which may result in a sparse distribution of normal images that is ineffective for anomaly detection. In this paper, we propose a new self-supervised pre-training method for MIA UAD applications, named Pseudo Multi-class Strong Augmentation via Contrastive Learning (PMSACL). PMSACL consists of a novel optimisation method that contrasts a normal image class from multiple pseudo classes of synthesised abnormal images, with each class enforced to form a dense cluster in the feature space. In the experiments, we show that our PMSACL pre-training improves the accuracy of SOTA UAD methods on many MIA benchmarks using colonoscopy, fundus screening and Covid-19 Chest X-ray datasets. The code is made publicly available via https://github.com/tianyu0207/PMSACL.
翻訳日:2023-08-16 17:57:35 公開日:2023-08-14
# 任意弱フォトニック非線形性を用いた無条件フォック状態生成

Unconditional Fock state generation using arbitrarily weak photonic nonlinearities ( http://arxiv.org/abs/2103.12041v3 )

ライセンス: Link先を確認
Andrew Lingenfelter, David Roberts, A. A. Clerk(参考訳) 本稿では,単一駆動キャビティ内の極端に弱いカー型非線形性を利用して,単一フォトンフォック状態,より一般的なフォトンブロック状態を生成する新しい機構を提案する。 本手法は,光子損失よりも桁違いに小さい非線形性においても有効である。 また、生成した状態は非ガウス的であり、光子数分布に鋭いカットオフを示し、単光子フォック状態に任意に近づくことができるため、いわゆる非伝統的な光子遮断機構とは全く異なる。 我々のアイデアは標準線形およびパラメトリックドライブのみを必要とするため、様々なフォトニックプラットフォームと互換性がある。

We present a new mechanism that harnesses extremely weak Kerr-type nonlinearities in a single driven cavity to deterministically generate single photon Fock states, and more general photon-blockaded states. Our method is effective even for nonlinearities that are orders-of-magnitude smaller than photonic loss. It is also completely distinct from so-called unconventional photon blockade mechanisms, as the generated states are non-Gaussian, exhibit a sharp cut-off in their photon number distribution, and can be arbitrary close to a single-photon Fock state. Our ideas require only standard linear and parametric drives, and is hence compatible with a variety of different photonic platforms.
翻訳日:2023-08-16 17:56:40 公開日:2023-08-14
# 公平さの尺度と誤測定

The Measure and Mismeasure of Fairness ( http://arxiv.org/abs/1808.00023v3 )

ライセンス: Link先を確認
Sam Corbett-Davies, Johann D. Gaebler, Hamed Nilforoshan, Ravi Shroff, and Sharad Goel(参考訳) 公平な機械学習の分野は、アルゴリズムによって導かれる決定が公平であることを保証することを目的としている。 過去10年間で、フォーマルで数学的にフェアネスの定義が有名になった。 ここでは、まず、これらの定義を、(1)格差に対する決定の影響を制限するもの、(2)人種や性別といった法的に保護された特徴が決定に与える影響を制限するもの、の2つに分類する。 次に、分析的かつ実証的に、どちらの定義の家族も、通常、パレートが決定政策を強く支配する結果をもたらすことを示した。 例えば、大学入学の場合、フェアネスという一般的なフォーマルな概念に固執すると、望ましい結果を達成するために入学政策を明示的に調整することで達成できることと比べ、生徒の多様性が低下し、学術的に準備されていないクラスになる。 この意味では、これらの公正の定義が保持されることは、それらを保護するように設計されたグループを、逆に損なうことができる。 公正性の公理的概念とは対照的に、アルゴリズムの等式設計は、ポリシーの等式設計に類似した文脈特異的な結果に対応する必要があると論じる。 我々は、公正な機械学習におけるいくつかのオープンな課題を列挙し、アルゴリズムがポリシーの目標に合うようにするための戦略を提供する。

The field of fair machine learning aims to ensure that decisions guided by algorithms are equitable. Over the last decade, several formal, mathematical definitions of fairness have gained prominence. Here we first assemble and categorize these definitions into two broad families: (1) those that constrain the effects of decisions on disparities; and (2) those that constrain the effects of legally protected characteristics, like race and gender, on decisions. We then show, analytically and empirically, that both families of definitions typically result in strongly Pareto dominated decision policies. For example, in the case of college admissions, adhering to popular formal conceptions of fairness would simultaneously result in lower student-body diversity and a less academically prepared class, relative to what one could achieve by explicitly tailoring admissions policies to achieve desired outcomes. In this sense, requiring that these fairness definitions hold can, perversely, harm the very groups they were designed to protect. In contrast to axiomatic notions of fairness, we argue that the equitable design of algorithms requires grappling with their context-specific consequences, akin to the equitable design of policy. We conclude by listing several open challenges in fair machine learning and offering strategies to ensure algorithms are better aligned with policy goals.
翻訳日:2023-08-16 17:55:52 公開日:2023-08-14
# NISQデバイス以降におけるトロタライゼーション適応化とエネルギー自己補正

Making Trotterization adaptive and energy-self-correcting for NISQ devices and beyond ( http://arxiv.org/abs/2209.12653v3 )

ライセンス: Link先を確認
Hongzheng Zhao, Marin Bukov, Markus Heyl, and Roderich Moessner(参考訳) 連続時間進化のシミュレーションは、古典コンピュータと量子コンピュータの両方で時間離散化を必要とする。 より細かい時間ステップはシミュレーションの精度を向上させるが、必然的に計算労力が増加する。 これは、今日のノイズの多い中間スケール量子コンピュータにとって特にコストがかかり、有名なゲートの不完全さは、与えられた精度で実行可能な回路の深さを制限する。 古典的適応解法は数値計算時間を節約するためによく開発されている。 しかしながら、適応時間ステップによって利用可能な量子リソースを最適に利用することは、依然として際立った課題である。 本稿では,局所観測器の量子多体ダイナミクスの制御解を提供するため,この問題を解決する量子アルゴリズムを提案する。 提案アルゴリズムの鍵となる概念要素は、時間ステップを適応させることでシミュレーションエラーを自己修正するフィードバックループであり、これにより、従来のトロッタースキームを基本レベルで大幅に上回り、回路深さを減少させる。 さらには、通常のトロッタライズドダイナミクスが困難に直面している、制御された漸近的長時間エラーも可能にします。 我々の量子アルゴリズムのもう1つの重要な利点は、望ましい保存則を自己修正フィードバックループに含めることができることである。 我々は、格子ゲージ理論の忠実で長期にわたる量子シミュレーションに不可欠なゲージ不変性を強制することによって、その能力を実証する。 このアルゴリズムは、例えば、時間発展ブロックデシメーション法に基づく数値的アプローチなど、時間的離散化が関与する場合には、より一般的なレベルで有用である可能性がある。

Simulation of continuous time evolution requires time discretization on both classical and quantum computers. A finer time step improves simulation precision, but it inevitably leads to increased computational efforts. This is particularly costly for today's noisy intermediate scale quantum computers, where notable gate imperfections limit the circuit depth that can be executed at a given accuracy. Classical adaptive solvers are well-developed to save numerical computation times. However, it remains an outstanding challenge to make optimal usage of the available quantum resources by means of adaptive time steps. Here, we introduce a quantum algorithm to solve this problem, providing a controlled solution of the quantum many-body dynamics of local observables. The key conceptual element of our algorithm is a feedback loop which self-corrects the simulation errors by adapting time steps, thereby significantly outperforming conventional Trotter schemes on a fundamental level and reducing the circuit depth. It even allows for a controlled asymptotic long-time error, where usual Trotterized dynamics is facing difficulties. Another key advantage of our quantum algorithm is that any desired conservation law can be included in the self-correcting feedback loop, which has potentially a wide range of applicability. We demonstrate the capabilities by enforcing gauge invariance which is crucial for a faithful and long-sought quantum simulation of lattice gauge theories. Our algorithm can be potentially useful on a more general level whenever time discretization is involved concerning, for instance, also numerical approaches based on time-evolving block decimation methods.
翻訳日:2023-08-16 17:48:08 公開日:2023-08-14
# SegPGD: セグメンテーションロバストネスの評価と強化のための効果的で効率的な敵攻撃

SegPGD: An Effective and Efficient Adversarial Attack for Evaluating and Boosting Segmentation Robustness ( http://arxiv.org/abs/2207.12391v3 )

ライセンス: Link先を確認
Jindong Gu, Hengshuang Zhao, Volker Tresp, Philip Torr(参考訳) ディープニューラルネットワークに基づく画像分類は、敵の摂動に弱い。 入力画像に人工的小・知覚不能な摂動を加えることで、画像分類を容易に騙すことができる。 最も効果的な防衛戦略の1つとして、訓練中のトレーニングデータに敵の例を作成して注入する分類モデルの脆弱性に対処するために、敵の訓練が提案された。 分類モデルの攻撃と防御は近年,集中的に研究されている。 分類の拡張としてのセマンティックセグメンテーションも近年注目されている。 最近の研究は、セグメント化モデルを騙すための効果的な敵例を作成するために、多数の攻撃イテレーションが必要であることを示している。 この観察により, セグメンテーションモデルにおけるロバストネス評価と対角トレーニングの両方が困難となる。 本研究では,SegPGDと呼ばれる効果的かつ効率的なセグメンテーション攻撃手法を提案する。 さらに,提案したSegPGDが,同じ回数の攻撃繰り返しでPGDよりも効果的な敵例を生成できることを示す収束解析も提供する。 さらに,SegPGDをセグメンテーション対戦訓練の基盤となる攻撃法として適用することを提案する。 SegPGDはより効果的な敵の例を生成することができるため、SegPGDを用いた敵の訓練はセグメントモデルの堅牢性を高めることができる。 本提案は,一般的なセグメンテーションモデルアーキテクチャと標準セグメンテーションデータセットの実験でも検証されている。

Deep neural network-based image classifications are vulnerable to adversarial perturbations. The image classifications can be easily fooled by adding artificial small and imperceptible perturbations to input images. As one of the most effective defense strategies, adversarial training was proposed to address the vulnerability of classification models, where the adversarial examples are created and injected into training data during training. The attack and defense of classification models have been intensively studied in past years. Semantic segmentation, as an extension of classifications, has also received great attention recently. Recent work shows a large number of attack iterations are required to create effective adversarial examples to fool segmentation models. The observation makes both robustness evaluation and adversarial training on segmentation models challenging. In this work, we propose an effective and efficient segmentation attack method, dubbed SegPGD. Besides, we provide a convergence analysis to show the proposed SegPGD can create more effective adversarial examples than PGD under the same number of attack iterations. Furthermore, we propose to apply our SegPGD as the underlying attack method for segmentation adversarial training. Since SegPGD can create more effective adversarial examples, the adversarial training with our SegPGD can boost the robustness of segmentation models. Our proposals are also verified with experiments on popular Segmentation model architectures and standard segmentation datasets.
翻訳日:2023-08-16 17:47:07 公開日:2023-08-14
# 量子カーネルに基づく代理モデルを用いた高速変動量子アルゴリズム

Faster variational quantum algorithms with quantum kernel-based surrogate models ( http://arxiv.org/abs/2211.01134v2 )

ライセンス: Link先を確認
Alistair W. R. Smith, A. J. Paige, M. S. Kim(参考訳) 本稿では,従来の量子カーネルを用いたガウス過程サロゲートモデルを用いた雑音下近距離量子プロセッサにおける小中規模変分アルゴリズムの新しい最適化手法を提案する。 変分アルゴリズムは一般に勾配に基づくアプローチで最適化されるが、現在のノイズの多いデバイスでは実装が困難であり、多数の目的関数評価を必要とする。 提案手法は,これらのハイブリッドアルゴリズムの古典的オプティマイザコンポーネントに計算負荷をシフトさせ,量子プロセッサへのクエリ数を大幅に削減する。 本稿では,変分量子固有解法(VQE)アルゴリズムに着目し,そのような代理モデルがアルゴリズムの目的関数に特に適していることを示す。 次に、ノイズのないvqeシミュレーションとノイズのないvqeシミュレーションの両方にこれらのモデルを適用し、最終的な精度と収束速度の観点から、広く使われている古典カーネルよりも優れた性能を示すことを示す。 VQAsの常用確率勾配差法と比較して、我々の量子カーネルベースのアプローチは、桁違いの量子回路評価を必要とせず、確実に高い精度を達成できる。 本稿では,量子カーネルモデルの性能を,カーネルが誘導する特徴空間の観点から分析し,特徴マップを明示的に構築する。 最後に、入力状態の古典的に効率的なテンソルネットワーク表現を用いて、最高の量子カーネルを近似する手法を説明し、これらの手法を大規模システムに拡張するための経路を提供する。

We present a new optimization method for small-to-intermediate scale variational algorithms on noisy near-term quantum processors which uses a Gaussian process surrogate model equipped with a classically-evaluated quantum kernel. Variational algorithms are typically optimized using gradient-based approaches however these are difficult to implement on current noisy devices, requiring large numbers of objective function evaluations. Our scheme shifts this computational burden onto the classical optimizer component of these hybrid algorithms, greatly reducing the number of queries to the quantum processor. We focus on the variational quantum eigensolver (VQE) algorithm and demonstrate numerically that such surrogate models are particularly well suited to the algorithm's objective function. Next, we apply these models to both noiseless and noisy VQE simulations and show that they exhibit better performance than widely-used classical kernels in terms of final accuracy and convergence speed. Compared to the typically-used stochastic gradient-descent approach for VQAs, our quantum kernel-based approach is found to consistently achieve significantly higher accuracy while requiring less than an order of magnitude fewer quantum circuit evaluations. We analyse the performance of the quantum kernel-based models in terms of the kernels' induced feature spaces and explicitly construct their feature maps. Finally, we describe a scheme for approximating the best-performing quantum kernel using a classically-efficient tensor network representation of its input state and so provide a pathway for scaling these methods to larger systems.
翻訳日:2023-08-16 17:38:12 公開日:2023-08-14
# サンプリングのための出生死ダイナミクス:グローバル収束、近似とその漸近

Birth-death dynamics for sampling: Global convergence, approximations and their asymptotics ( http://arxiv.org/abs/2211.00450v3 )

ライセンス: Link先を確認
Yulong Lu, Dejan Slep\v{c}ev, Lihan Wang(参考訳) 非凸ポテンシャルを持つgibbs法をサンプリングすることの難しさに動機づけられ,連続死ダイナミクスの研究を行った。 先行研究 [51,57] の結果を改善し,kullback-leibler 発散あるいは $\chi^2$ 発散がgibbs 平衡測度に指数関数的に収束し,潜在的な障壁とは無関係な普遍的な速度で出生死の確率密度が低下する仮説を提示する。 純出生-死力学に基づく実用的な数値スプライマーを構築するために, 勾配流構造と古典的なフォッカー・プランク方程式に触発された相互作用粒子系を考察し, 測度のカーネルに基づく近似に依存する。 勾配流の$\gamma$-convergenceの手法を用いて、核化ダイナミクスのトーラス、滑らか、有界な正の解は有限時間間隔で収束し、カーネル帯域幅がゼロになるにつれて純出生-死のダイナミクスとなることを示す。 さらに,核化ダイナミクスに対応するエネルギーの最小値のバイアスを定量的に推定する。 最後に、Gibs測度に対する核化されたダイナミクスの漸近状態の収束について、長時間の漸近結果を証明する。

Motivated by the challenge of sampling Gibbs measures with nonconvex potentials, we study a continuum birth-death dynamics. We improve results in previous works [51,57] and provide weaker hypotheses under which the probability density of the birth-death governed by Kullback-Leibler divergence or by $\chi^2$ divergence converge exponentially fast to the Gibbs equilibrium measure, with a universal rate that is independent of the potential barrier. To build a practical numerical sampler based on the pure birth-death dynamics, we consider an interacting particle system, which is inspired by the gradient flow structure and the classical Fokker-Planck equation and relies on kernel-based approximations of the measure. Using the technique of $\Gamma$-convergence of gradient flows, we show that on the torus, smooth and bounded positive solutions of the kernelized dynamics converge on finite time intervals, to the pure birth-death dynamics as the kernel bandwidth shrinks to zero. Moreover we provide quantitative estimates on the bias of minimizers of the energy corresponding to the kernelized dynamics. Finally we prove the long-time asymptotic results on the convergence of the asymptotic states of the kernelized dynamics towards the Gibbs measure.
翻訳日:2023-08-16 17:37:47 公開日:2023-08-14
# Nesterovがオプティミズムと出会う: レート最適の分離可能なミニマックス最適化

Nesterov Meets Optimism: Rate-Optimal Separable Minimax Optimization ( http://arxiv.org/abs/2210.17550v2 )

ライセンス: Link先を確認
Chris Junchi Li, Angela Yuan, Gauthier Gidel, Quanquan Gu, Michael I. Jordan(参考訳) 分離可能な凸凸ミニマックス最適化のための新しい一階最適化アルゴリズム(ag-og)を提案する。 提案アルゴリズムの主な考え方は,ミニマックス問題の構造を慎重に利用し,個々の成分に対してネステロフ加速度,結合成分に対する楽観的な勾配を実行することである。 適切な再起動を施したAG-OGは,双線形に結合した強凸凸凸凹極小最適化(bi-SC-SC),双線形に結合した凸凸凹極小最適化(bi-C-SC),双線形ゲームなど,様々な設定に対して最適収束率(定数まで)を達成することを示す。 また,アルゴリズムを確率的設定に拡張し,bi-SC-SCとbi-C-SCの両方で最適収束率を達成する。 AG-OGは、双線形結合ミニマックス最適化問題に対する決定論的および確率的設定の両方において最適な収束率を持つ最初の単一コールアルゴリズムである。

We propose a new first-order optimization algorithm -- AcceleratedGradient-OptimisticGradient (AG-OG) Descent Ascent -- for separable convex-concave minimax optimization. The main idea of our algorithm is to carefully leverage the structure of the minimax problem, performing Nesterov acceleration on the individual component and optimistic gradient on the coupling component. Equipped with proper restarting, we show that AG-OG achieves the optimal convergence rate (up to a constant) for a variety of settings, including bilinearly coupled strongly convex-strongly concave minimax optimization (bi-SC-SC), bilinearly coupled convex-strongly concave minimax optimization (bi-C-SC), and bilinear games. We also extend our algorithm to the stochastic setting and achieve the optimal convergence rate in both bi-SC-SC and bi-C-SC settings. AG-OG is the first single-call algorithm with optimal convergence rates in both deterministic and stochastic settings for bilinearly coupled minimax optimization problems.
翻訳日:2023-08-16 17:37:21 公開日:2023-08-14
# MotionDeltaCNN:移動カメラ映像におけるフレーム差のスパースCNN推論

MotionDeltaCNN: Sparse CNN Inference of Frame Differences in Moving Camera Videos ( http://arxiv.org/abs/2210.09887v5 )

ライセンス: Link先を確認
Mathias Parger, Chengcheng Tang, Thomas Neff, Christopher D. Twigg, Cem Keskin, Robert Wang, Markus Steinberger(参考訳) ビデオ入力における畳み込みニューラルネットワーク推論は計算コストが高く、高いメモリ帯域幅を必要とする。 最近、DeltaCNNは、前のフレームで大幅に更新されたピクセルのみを処理することで、コストを削減した。 しかし、DeltaCNNは静的カメラ入力に依存している。 移動カメラは、メモリオーバーヘッドを増大させることなく、将来のフレームのカメラ外在を知らずに、既に処理済みの領域を効率的に融合して更新率を最小化するための新しい課題を新たにもたらす。 本研究では,移動カメラをサポートするスパースCNN推論フレームワークであるMotionDeltaCNNを提案する。 球状バッファとパッド状畳み込みを導入し、メモリフットプリントを増大させることなく、新しく公開されたリージョンと前処理されたリージョンのシームレスな融合を可能にする。 評価の結果,動画の移動ではDeltaCNNを最大90%上回りました。

Convolutional neural network inference on video input is computationally expensive and requires high memory bandwidth. Recently, DeltaCNN managed to reduce the cost by only processing pixels with significant updates over the previous frame. However, DeltaCNN relies on static camera input. Moving cameras add new challenges in how to fuse newly unveiled image regions with already processed regions efficiently to minimize the update rate - without increasing memory overhead and without knowing the camera extrinsics of future frames. In this work, we propose MotionDeltaCNN, a sparse CNN inference framework that supports moving cameras. We introduce spherical buffers and padded convolutions to enable seamless fusion of newly unveiled regions and previously processed regions -- without increasing memory footprint. Our evaluation shows that we outperform DeltaCNN by up to 90% for moving camera videos.
翻訳日:2023-08-16 17:36:46 公開日:2023-08-14
# MonoNeRF:モノクロビデオから一般化可能な動的放射場を学習する

MonoNeRF: Learning a Generalizable Dynamic Radiance Field from Monocular Videos ( http://arxiv.org/abs/2212.13056v3 )

ライセンス: Link先を確認
Fengrui Tian, Shaoyi Du, Yueqi Duan(参考訳) 本稿では,単眼映像から一般化可能な動的放射能場を学習する問題を対象とする。 複数のビューに基づく既存のnerfメソッドと異なり、単眼ビデオは各タイムスタンプで1つのビューしか含んでおらず、ポイント特徴やシーンフローの推定において、ビュー方向に沿ってあいまいさに苦しむ。 DynNeRFのような従来の研究では、位置符号化による不明瞭な点の特徴は伝達不可能であり、一般化能力を著しく制限している。 結果として、これらの手法は各シーンの独立したモデルを訓練し、実世界のアプリケーションで単眼ビデオの増加に適用する場合、計算コストがかかる。 これに対処するために,モノナーフでは,ポイントの軌跡とフレーム間の特徴対応制約により,ポイントの特徴とシーンフローを同時に学習する。 より具体的には、時間的特徴から点軌道を推定するために暗黙の速度場を学習し、その後にフローベースの特徴集約モジュールが続き、点軌道に沿った空間的特徴を得る。 時間的特徴と空間的特徴をエンドツーエンドで共同で最適化する。 実験の結果、MonoNeRFは複数のシーンから学習でき、シーン編集、見えないフレーム合成、高速な新規シーン適応などの新しいアプリケーションをサポートしています。 コードはhttps://github.com/tianfr/mononerfで入手できる。

In this paper, we target at the problem of learning a generalizable dynamic radiance field from monocular videos. Different from most existing NeRF methods that are based on multiple views, monocular videos only contain one view at each timestamp, thereby suffering from ambiguity along the view direction in estimating point features and scene flows. Previous studies such as DynNeRF disambiguate point features by positional encoding, which is not transferable and severely limits the generalization ability. As a result, these methods have to train one independent model for each scene and suffer from heavy computational costs when applying to increasing monocular videos in real-world applications. To address this, We propose MonoNeRF to simultaneously learn point features and scene flows with point trajectory and feature correspondence constraints across frames. More specifically, we learn an implicit velocity field to estimate point trajectory from temporal features with Neural ODE, which is followed by a flow-based feature aggregation module to obtain spatial features along the point trajectory. We jointly optimize temporal and spatial features in an end-to-end manner. Experiments show that our MonoNeRF is able to learn from multiple scenes and support new applications such as scene editing, unseen frame synthesis, and fast novel scene adaptation. Codes are available at https://github.com/tianfr/MonoNeRF.
翻訳日:2023-08-16 17:27:18 公開日:2023-08-14
# 分子・結晶特性の解釈可能な予測のためのエンドツーエンドAIフレームワーク

End-to-end AI framework for interpretable prediction of molecular and crystal properties ( http://arxiv.org/abs/2212.11317v2 )

ライセンス: Link先を確認
Hyun Park, Ruijie Zhu, E. A. Huerta, Santanu Chaudhuri, Emad Tajkhorshid, Donny Cooper(参考訳) 本稿では,DeepHyperライブラリを用いたハイパーパラメータ最適化,モデルトレーニングの高速化,AI推論の解釈が可能なエンドツーエンドの計算フレームワークを提案する。 このフレームワークは、CGCNN、PhysNet、SchNet、MPNN、MPNN-transformer、TorchMD-NETといった最先端AIモデルに基づいている。 これらのAIモデルとベンチマークQM9、hMOF、MD17データセットを使用して、モデルがモダンなコンピューティング環境でユーザ指定の材料特性を予測できることを示す。 本研究は, 小分子, 無機結晶, ナノ多孔性金属有機フレームワークのモデリングにおける移動可能な応用を実証する。 我々は、このフレームワークをargonne leadership computing facilityのthetagpuスーパーコンピュータとnational center for supercomputing applicationsのdeltaスーパーコンピュータにデプロイしてテストしました。 これらのデジタル資産をgitlabのオープンソース科学ソフトウェアとして、google colabのjupyterノートブックとしてリリースします。

We introduce an end-to-end computational framework that allows for hyperparameter optimization using the DeepHyper library, accelerated model training, and interpretable AI inference. The framework is based on state-of-the-art AI models including CGCNN, PhysNet, SchNet, MPNN, MPNN-transformer, and TorchMD-NET. We employ these AI models along with the benchmark QM9, hMOF, and MD17 datasets to showcase how the models can predict user-specified material properties within modern computing environments. We demonstrate transferable applications in the modeling of small molecules, inorganic crystals and nanoporous metal organic frameworks with a unified, standalone framework. We have deployed and tested this framework in the ThetaGPU supercomputer at the Argonne Leadership Computing Facility, and in the Delta supercomputer at the National Center for Supercomputing Applications to provide researchers with modern tools to conduct accelerated AI-driven discovery in leadership-class computing environments. We release these digital assets as open source scientific software in GitLab, and ready-to-use Jupyter notebooks in Google Colab.
翻訳日:2023-08-16 17:26:33 公開日:2023-08-14
# ベイズ最適化のためのロバストな期待改善

Robust expected improvement for Bayesian optimization ( http://arxiv.org/abs/2302.08612v2 )

ライセンス: Link先を確認
Ryan B. Christianson, Robert B. Gramacy(参考訳) ベイズ最適化 (bo) はガウス過程 (gp) をサロゲートし、費用対評価ブラックボックス関数を最適化する。 例えば、期待改善(ei)やバランス探索、グローバルなソリューション提供のための活用といった、厳格な評価予算の下での設計ヒューリスティックやいわゆる獲得関数などです。 しかし、それらはロバスト・オプティマ(英語版)を解くときに不足し、より広いアトラクション領域における解の好みを意味する。 ロバストな解は、入力が不正確に指定されたり、一連の解が望まれる場合に有用である。 そのような設定における一般的な数学的プログラミング手法は、逆の目的を含み、局所解法を ``sharp''' のトラフから偏らせる。 本稿では,頑健な予測改善(REI)と呼ばれる代理モデルとアクティブな学習手法を提案し,その手法をBO/GPフレームワークに移植する。 この方法を説明した後、ベンチマーク合成エクササイズと様々な複雑さの実際の問題において、いくつかの競合相手と比較し、比較する。

Bayesian Optimization (BO) links Gaussian Process (GP) surrogates with sequential design toward optimizing expensive-to-evaluate black-box functions. Example design heuristics, or so-called acquisition functions, like expected improvement (EI), balance exploration and exploitation to furnish global solutions under stringent evaluation budgets. However, they fall short when solving for robust optima, meaning a preference for solutions in a wider domain of attraction. Robust solutions are useful when inputs are imprecisely specified, or where a series of solutions is desired. A common mathematical programming technique in such settings involves an adversarial objective, biasing a local solver away from ``sharp'' troughs. Here we propose a surrogate modeling and active learning technique called robust expected improvement (REI) that ports adversarial methodology into the BO/GP framework. After describing the methods, we illustrate and draw comparisons to several competitors on benchmark synthetic exercises and real problems of varying complexity.
翻訳日:2023-08-16 17:19:18 公開日:2023-08-14
# 最小相補エネルギー原理を用いた固体力学の深い相補エネルギー法

A deep complementary energy method for solid mechanics using minimum complementary energy principle ( http://arxiv.org/abs/2302.01538v4 )

ライセンス: Link先を確認
Yizheng Wang, Jia Sun, Timon Rabczuk, Pipi Hu, Yinghua Liu(参考訳) 近年、ディープラーニングの急速な進歩は、特に固体力学における偏微分方程式(PDE)の解法において様々な分野に大きな影響を与え、ニューラルネットワークの顕著な近似能力の恩恵を受けている。 PDEの解決において、物理情報ニューラルネットワーク(PINN)とDeep Energy Method(DEM)が注目されている。 最小ポテンシャルエネルギーと相補エネルギーの原理は、固体力学における2つの重要な変分原理である。 しかし、DEMは最小ポテンシャルエネルギーの原理に基づいているが、最小補完エネルギーの重要な形態を欠いている。 このギャップを埋めるために、最小補間エネルギーの原理に基づく深部補間エネルギー法(DCEM)を提案する。 DCEMの出力関数は応力関数である。 我々はDCEMをDCEM-Plus(DCEM-P)に拡張し、偏微分方程式を満たす項を追加する。 さらに,演算子学習と物理方程式を組み合わせることで,Deep complementary energy operator method (DCEM-O)を提案する。 我々は既存の高忠実度数値結果と相補エネルギーを用いてDCEM-Oを訓練する。 本稿では,Prandtl と Airy の応力関数を用いて数値計算を行い,機械的問題をモデル化する際,DCEM と既存の PINN と DEM を比較した。 以上の結果から,DCEMは応力精度と効率においてDEMより優れており,複雑な変位境界条件に対処する上で有利であることが示された。 DCEM-PとDCEM-OはDCEMの精度と効率をさらに高める。 まとめると、提案したDCEMは、補完エネルギーがエネルギーベースの物理インフォームドニューラルネットワークに拡張され、固体力学においてDEMに必須の補足エネルギー形態が提供され、計算力学における有望な研究展望を提供する。

In recent years, the rapid advancement of deep learning has significantly impacted various fields, particularly in solving partial differential equations (PDEs) in solid mechanics, benefiting greatly from the remarkable approximation capabilities of neural networks. In solving PDEs, Physics-Informed Neural Networks (PINNs) and the Deep Energy Method (DEM) have garnered substantial attention. The principle of minimum potential energy and complementary energy are two important variational principles in solid mechanics. However,DEM is based on the principle of minimum potential energy, but it lacks the important form of minimum complementary energy. To bridge this gap, we propose the deep complementary energy method (DCEM) based on the principle of minimum complementary energy. The output function of DCEM is the stress function. We extend DCEM to DCEM-Plus (DCEM-P), adding terms that satisfy partial differential equations. Furthermore, we propose a deep complementary energy operator method (DCEM-O) by combining operator learning with physical equations. We train DCEM-O using existing high-fidelity numerical results and the complementary energy together. We present numerical results using the Prandtl and Airy stress functions and compare DCEM with existing PINNs and DEM when modeling representative mechanical problems. The results demonstrate that DCEM outperforms DEM in terms of stress accuracy and efficiency and has an advantage in dealing with complex displacement boundary conditions. DCEM-P and DCEM-O further enhance the accuracy and efficiency of DCEM. In summary, our proposed DCEM marks the first time that complementary energy is extended to the energy-based physics-informed neural network and provides an essential supplementary energy form to the DEM in solid mechanics, offering promising research prospects in computational mechanics.
翻訳日:2023-08-16 17:18:09 公開日:2023-08-14
# 可観測性の測定によるエネルギー測定

Measuring energy by measuring any other observable ( http://arxiv.org/abs/2301.10428v3 )

ライセンス: Link先を確認
Dominik \v{S}afr\'anek, Dario Rosa(参考訳) 本稿では,量子可観測値,平均値,高次モーメントの確率を,他の可観測値を測定することによって推定する手法を提案する。 この方法は一般であり、任意の量子系に適用できる。 孤立系の平均エネルギーを推定する場合、異なる時間で観測可能な他の観測値を測定することにより、推定をさらに改善することができる。 直感的には、測定された可観測性、推定可観測性、およびシステムの状態の間の相互作用と相関を用いる。 1つはより緩く、分析的に計算可能で、もう1つはよりきついが、非凸最適化の問題を解決する必要がある。 この手法は、高度に絡み合った測定を行うのが困難な設定において、温度や作業などの期待値や関連する量の推定に使用することができ、最先端の量子シミュレータでの使用を見つけることができる。 実演として, ハイゼンベルクおよびイジングにおいて, 2量子ビット測定を行った場合, 基底状態エネルギーを推定する場合のエネルギー範囲の97.5%と96.7%をそれぞれ除いた。

We present a method to estimate the probabilities of outcomes of a quantum observable, its mean value, and higher moments by measuring any other observable. This method is general and can be applied to any quantum system. In the case of estimating the mean energy of an isolated system, the estimate can be further improved by measuring the other observable at different times. Intuitively, this method uses interplay and correlations between the measured observable, the estimated observable, and the state of the system. We provide two bounds: one that is looser but analytically computable and one that is tighter but requires solving a non-convex optimization problem. The method can be used to estimate expectation values and related quantities such as temperature and work in setups where performing measurements in a highly entangled basis is difficult, finding use in state-of-the-art quantum simulators. As a demonstration, we show that in Heisenberg and Ising models of ten sites in the localized phase, performing two-qubit measurements excludes 97.5% and 96.7% of the possible range of energies, respectively, when estimating the ground state energy.
翻訳日:2023-08-16 17:17:20 公開日:2023-08-14
# DIME-FM: マルチモーダルおよび効率的な基礎モデルの蒸留

DIME-FM: DIstilling Multimodal and Efficient Foundation Models ( http://arxiv.org/abs/2303.18232v2 )

ライセンス: Link先を確認
Ximeng Sun, Pengchuan Zhang, Peizhao Zhang, Hardik Shah, Kate Saenko, Xide Xia(参考訳) clip,aligned,florenceといった大規模な視覚言語基盤モデル(vlfm)は,イメージキャプチャペアの大規模データセットでトレーニングされ,ダウンストリームタスクの転送性と堅牢性が向上するが,大規模で高レイテンシ,アーキテクチャが固定されているため,実用的なアプリケーションでは使用が困難である。 残念なことに、リソース制限されたアプリケーションのための小さなカスタムVLFMのトレーニングは、現在、パブリックデータと小規模データを使用して非常に難しい。 本稿では,大容量VLFMに含まれる知識を,比較的少量の安価な未使用画像と文を用いて,より小型でカスタマイズされた基礎モデルに転送できる新しい蒸留機構(DIME-FM)を提案する。 プリトレーニングされたclip-vitl/14モデルからvit-b/32モデルに知識を転送した。 結果として得られたモデル "Distill-ViT-B/32" は、プライベートWiTデータセット(400Mイメージテキストペア)で事前トレーニングされたCLIP-ViT-B/32モデルと競合する。 また、ImageNetから自然な分散シフトを持つ5つのデータセットで評価した場合、同等の堅牢性を示す。

Large Vision-Language Foundation Models (VLFM), such as CLIP, ALIGN and Florence, are trained on large-scale datasets of image-caption pairs and achieve superior transferability and robustness on downstream tasks, but they are difficult to use in many practical applications due to their large size, high latency and fixed architectures. Unfortunately, recent work shows training a small custom VLFM for resource-limited applications is currently very difficult using public and smaller-scale data. In this paper, we introduce a new distillation mechanism (DIME-FM) that allows us to transfer the knowledge contained in large VLFMs to smaller, customized foundation models using a relatively small amount of inexpensive, unpaired images and sentences. We transfer the knowledge from the pre-trained CLIP-ViTL/14 model to a ViT-B/32 model, with only 40M public images and 28.4M unpaired public sentences. The resulting model "Distill-ViT-B/32" rivals the CLIP-ViT-B/32 model pre-trained on its private WiT dataset (400M image-text pairs): Distill-ViT-B/32 achieves similar results in terms of zero-shot and linear-probing performance on both ImageNet and the ELEVATER (20 image classification tasks) benchmarks. It also displays comparable robustness when evaluated on five datasets with natural distribution shifts from ImageNet.
翻訳日:2023-08-16 16:58:46 公開日:2023-08-14
# Adaptive Experimentation at Scale: 柔軟なバッチのための計算フレームワーク

Adaptive Experimentation at Scale: A Computational Framework for Flexible Batches ( http://arxiv.org/abs/2303.11582v4 )

ライセンス: Link先を確認
Ethan Che, Hongseok Namkoong(参考訳) 計測努力の継続的な再配置を仮定する標準的なバンディットアルゴリズムは、遅延したフィードバックとインフラ/組織的困難のために実装が困難である。 結果がバッチで測定される少数の再配置時代の実例に動機づけられて,バッチ処理を柔軟に処理可能な計算駆動型適応実験フレームワークを開発した。 我々の主な観察は、統計的推論において普遍的な正規近似は適応アルゴリズムの設計を導くことができることである。 ガウスの逐次実験を導出することにより,先行情報を平均報酬に活用できる動的プログラムを定式化する。 一般的な理論駆動のパラダイムの代わりに、計算ツールと経験的ベンチマークをアルゴリズム開発に活用する。 特に,経験的解析では,確率的勾配降下を用いて計画問題を反復的に解く,単純かつ効果的なアルゴリズムである残留地平線最適化を強調する。 我々の手法は、個々の報酬の完全な分布的知識を必要とするベイズ帯域幅アルゴリズム(例えばトンプソンサンプリング)と比較しても、標準手法よりも統計的パワーを著しく向上させる。 全体として,適応性,信号対雑音比の低さ,未知報酬分布など,標準手法では難しい設定に適応実験の範囲を広げる。

Standard bandit algorithms that assume continual reallocation of measurement effort are challenging to implement due to delayed feedback and infrastructural/organizational difficulties. Motivated by practical instances involving a handful of reallocation epochs in which outcomes are measured in batches, we develop a computation-driven adaptive experimentation framework that can flexibly handle batching. Our main observation is that normal approximations, which are universal in statistical inference, can also guide the design of adaptive algorithms. By deriving a Gaussian sequential experiment, we formulate a dynamic program that can leverage prior information on average rewards. Instead of the typical theory-driven paradigm, we leverage computational tools and empirical benchmarking for algorithm development. In particular, our empirical analysis highlights a simple yet effective algorithm, Residual Horizon Optimization, which iteratively solves a planning problem using stochastic gradient descent. Our approach significantly improves statistical power over standard methods, even when compared to Bayesian bandit algorithms (e.g., Thompson sampling) that require full distributional knowledge of individual rewards. Overall, we expand the scope of adaptive experimentation to settings that are difficult for standard methods, involving limited adaptivity, low signal-to-noise ratio, and unknown reward distributions.
翻訳日:2023-08-16 16:57:13 公開日:2023-08-14
# マルチタスク視覚シーン理解のための効率的な計算共有

Efficient Computation Sharing for Multi-Task Visual Scene Understanding ( http://arxiv.org/abs/2303.09663v2 )

ライセンス: Link先を確認
Sara Shoouri, Mingyu Yang, Zichen Fan, Hun-Seok Kim(参考訳) 個々のモデルを使って複数の視覚的タスクを解くことはリソース集約的であり、マルチタスク学習は異なるタスク間で知識を共有することでリソースを保存することができる。 マルチタスク学習の利点にもかかわらず、これらのテクニックは各タスクの損失のバランスに苦慮し、潜在的なパフォーマンス低下につながる。 本稿では,個別に学習した単一タスク変換器を用いて,効率と精度のバランスをとる新しい計算・パラメータ共有フレームワークを提案する。 提案手法は,所望の性能を維持しつつ計算コストとパラメータストレージコストを削減するために,転送学習方式に動機づけられている。 提案手法では,タスクをベースタスクと他のサブタスクに分割し,タスク間の冗長性を低減し,知識共有を高めるために,ベースタスクとサブタスク間でアクティベーションとパラメータ/重みのかなりの部分を共有する。 NYUD-v2 と PASCAL-context データセットを用いて評価した結果,提案手法は,高精度で計算資源の削減が可能な,最先端のトランスフォーマーベースマルチタスク学習技術よりも優れていることがわかった。 さらに,提案手法をビデオストリーム入力に拡張し,時間領域とタスク領域の情報を効率的に共有することにより,計算コストをさらに削減する。 私たちのコードとモデルは公開されます。

Solving multiple visual tasks using individual models can be resource-intensive, while multi-task learning can conserve resources by sharing knowledge across different tasks. Despite the benefits of multi-task learning, such techniques can struggle with balancing the loss for each task, leading to potential performance degradation. We present a novel computation- and parameter-sharing framework that balances efficiency and accuracy to perform multiple visual tasks utilizing individually-trained single-task transformers. Our method is motivated by transfer learning schemes to reduce computational and parameter storage costs while maintaining the desired performance. Our approach involves splitting the tasks into a base task and the other sub-tasks, and sharing a significant portion of activations and parameters/weights between the base and sub-tasks to decrease inter-task redundancies and enhance knowledge sharing. The evaluation conducted on NYUD-v2 and PASCAL-context datasets shows that our method is superior to the state-of-the-art transformer-based multi-task learning techniques with higher accuracy and reduced computational resources. Moreover, our method is extended to video stream inputs, further reducing computational costs by efficiently sharing information across the temporal domain as well as the task domain. Our codes and models will be publicly available.
翻訳日:2023-08-16 16:56:53 公開日:2023-08-14
# OmniLabel: 言語ベースのオブジェクト検出のためのベンチマーク

OmniLabel: A Challenging Benchmark for Language-Based Object Detection ( http://arxiv.org/abs/2304.11463v2 )

ライセンス: Link先を確認
Samuel Schulter, Vijay Kumar B G, Yumin Suh, Konstantinos M. Dafnis, Zhixing Zhang, Shiyu Zhao, Dimitris Metaxas(参考訳) 言語に基づくオブジェクト検出は、通常のカテゴリ名を超えて、画像内のオブジェクトを記述する自然なインターフェースを構築するための有望な方向である。 近年の手法はその方向への大きな進歩を示しているが、適切な評価は不十分である。 OmniLabelでは,新しいタスク定義,データセット,評価指標を提案する。 このタスクは、標準およびオープン語彙の検出と参照式を仮定する。 25K以上のイメージに28K以上のユニークなオブジェクト記述があるOmniLabelは、自然にオープンな語彙設定で、多種多様な複雑なオブジェクト記述を伴う挑戦的なベンチマークを提供する。 さらに、既存のベンチマークとの主な違いは、オブジェクト記述が1つ、複数、あるいは全くオブジェクトを参照できるため、自由形式のテキストで否定的な例を提供するということです。 提案手法では,大きなラベル空間を処理し,強固な言語ベースラインの評価により検証する修正平均精度指標を用いて性能を判断する。 OmniLabelは言語ベースの検出に関する将来の研究に挑戦的なテストベッドを提供する。

Language-based object detection is a promising direction towards building a natural interface to describe objects in images that goes far beyond plain category names. While recent methods show great progress in that direction, proper evaluation is lacking. With OmniLabel, we propose a novel task definition, dataset, and evaluation metric. The task subsumes standard- and open-vocabulary detection as well as referring expressions. With more than 28K unique object descriptions on over 25K images, OmniLabel provides a challenging benchmark with diverse and complex object descriptions in a naturally open-vocabulary setting. Moreover, a key differentiation to existing benchmarks is that our object descriptions can refer to one, multiple or even no object, hence, providing negative examples in free-form text. The proposed evaluation handles the large label space and judges performance via a modified average precision metric, which we validate by evaluating strong language-based baselines. OmniLabel indeed provides a challenging test bed for future research on language-based detection.
翻訳日:2023-08-16 16:48:08 公開日:2023-08-14
# LeafAI:人間のプログラマと競合する臨床コホート発見のためのクエリジェネレータ

LeafAI: query generator for clinical cohort discovery rivaling a human programmer ( http://arxiv.org/abs/2304.06203v2 )

ライセンス: Link先を確認
Nicholas J Dobbins, Bin Han, Weipeng Zhou, Kristine Lan, H. Nina Kim, Robert Harrington, Ozlem Uzuner, Meliha Yetisgen(参考訳) 目的:臨床データベースにおける研究対象の特定は臨床研究における重要なステップである。 しかしながら、正確なクエリ設計は通常、広範な技術的および生物医学的専門知識を必要とする。 そこで我々は,データモデルに依存しない問合せを生成できるシステムの構築と,複雑な臨床試験の資格基準に対する論理的推論機能の提供を試みた。 資料と方法: 適格性基準からのクエリ作成のタスクは、名前付きエンティティ認識と関係抽出、シーケンスからシーケンスへの変換、正規化、推論など、いくつかのテキスト処理問題を解決する必要がある。 これらには,統合医療言語システム(umls)とリンクオントロジーの知識ベースと同様に,ハイブリッドなディープラーニングとルールベースモジュールが組み込まれている。 データモデルに依存しないクエリ生成を可能にするために,umls概念を用いたデータベーススキーマ要素のタグ付け手法を提案する。 LeafAIと呼ばれるシステムを評価するために,本施設で実施した8つの臨床試験に登録された患者を特定するために,LeafAIを人間データベースプログラマと比較した。 実登録患者数を生成クエリで一致させた結果から評価した。 結果: LeafAIは8つの臨床試験で27,225人の登録患者の平均43%と一致した。 人間のプログラマは26時間、LeafAIの数分と比べてクエリを作成しました。 結論:我々の研究は,知識ベースを用いた条件付き推論が可能な最先端のデータモデル非依存クエリ生成システムに貢献している。 そこで我々は, LeafAIが経験豊富なプログラマと競合し,臨床治験の資格のある患者を見つけることを実証した。

Objective: Identifying study-eligible patients within clinical databases is a critical step in clinical research. However, accurate query design typically requires extensive technical and biomedical expertise. We sought to create a system capable of generating data model-agnostic queries while also providing novel logical reasoning capabilities for complex clinical trial eligibility criteria. Materials and Methods: The task of query creation from eligibility criteria requires solving several text-processing problems, including named entity recognition and relation extraction, sequence-to-sequence transformation, normalization, and reasoning. We incorporated hybrid deep learning and rule-based modules for these, as well as a knowledge base of the Unified Medical Language System (UMLS) and linked ontologies. To enable data-model agnostic query creation, we introduce a novel method for tagging database schema elements using UMLS concepts. To evaluate our system, called LeafAI, we compared the capability of LeafAI to a human database programmer to identify patients who had been enrolled in 8 clinical trials conducted at our institution. We measured performance by the number of actual enrolled patients matched by generated queries. Results: LeafAI matched a mean 43% of enrolled patients with 27,225 eligible across 8 clinical trials, compared to 27% matched and 14,587 eligible in queries by a human database programmer. The human programmer spent 26 total hours crafting queries compared to several minutes by LeafAI. Conclusions: Our work contributes a state-of-the-art data model-agnostic query generation system capable of conditional reasoning using a knowledge base. We demonstrate that LeafAI can rival an experienced human programmer in finding patients eligible for clinical trials.
翻訳日:2023-08-16 16:46:32 公開日:2023-08-14
# ソーシャルロボットナビゲーションアルゴリズムの評価のための原則とガイドライン

Principles and Guidelines for Evaluating Social Robot Navigation Algorithms ( http://arxiv.org/abs/2306.16740v2 )

ライセンス: Link先を確認
Anthony Francis (1), Claudia Perez-D'Arpino (2), Chengshu Li (3), Fei Xia (4), Alexandre Alahi (5), Rachid Alami (15), Aniket Bera (6), Abhijat Biswas (7), Joydeep Biswas (8), Rohan Chandra (8), Hao-Tien Lewis Chiang (4), Michael Everett (10), Sehoon Ha (11), Justin Hart (8), Jonathan P. How (9), Haresh Karnan (8), Tsang-Wei Edward Lee (4), Luis J. Manso (12), Reuth Mirksy (13), Soeren Pirk (14), Phani Teja Singamaneni (15), Peter Stone (8,16), Ada V. Taylor (7), Peter Trautman (17), Nathan Tsoi (18), Marynel Vazquez (18), Xuesu Xiao (19), Peng Xu (4), Naoki Yokoyama (11), Alexander Toshev (20), Roberto Martin-Martin (8) ((1) Logical Robotics, (2) NVIDIA, (3) Stanford, (4) Google, (5) EPFL, (6) Purdue, (7) CMU, (8) UT Austin, (9) MIT, (10) Northeastern, (11) Georgia Tech, (12) Aston, (13) Bar Ilan, (14) Adobe, (15) LAAS-CNRS, Universite de Toulouse, (16) Sony AI, (17) Honda, (18) Yale, (19) GMU, (20) Apple)(参考訳) ロボットを広く展開する上での最大の課題は、人間の居住環境におけるナビゲーションである。 社会ナビゲーションの分野は近年飛躍的に進歩しているが、静的な環境で動くロボットエージェントだけでなく、ダイナミックな人間エージェントや、ロボットの行動の適切性に対する認識を含むため、社会ナビゲーションに取り組むアルゴリズムの公正な評価は依然として難しいままである。 対照的に、明確で繰り返し可能なベンチマークは、コンピュータビジョン、自然言語処理、従来のロボットナビゲーションといった分野の進歩を加速し、研究者はアルゴリズムを公平に比較し、既存のソリューションの限界を明らかにし、将来有望な新しい方向性を示す。 同じアプローチがソーシャルナビゲーションに有効だと信じています。 本稿では,ソーシャルロボットのナビゲーションを評価するために,共通で広くアクセス可能な,反復可能なベンチマーク基準への道を開く。 私たちの貢献には (a)安全、快適、適性、礼儀正しさ、社会的能力、エージェントの理解、活動性、文脈に対する応答性の原則を尊重するものとしての社会的ナビゲーティングロボットの定義 (b)ソーシャルナビゲーションを評価するためのメトリクスの使用、シナリオの開発、ベンチマーク、データセット、シミュレータに関するガイドライン (c) 異なるシミュレータ、ロボット、データセットの結果の比較を容易にするソーシャルナビゲーションメトリクスフレームワークの設計。

A major challenge to deploying robots widely is navigation in human-populated environments, commonly referred to as social robot navigation. While the field of social navigation has advanced tremendously in recent years, the fair evaluation of algorithms that tackle social navigation remains hard because it involves not just robotic agents moving in static environments but also dynamic human agents and their perceptions of the appropriateness of robot behavior. In contrast, clear, repeatable, and accessible benchmarks have accelerated progress in fields like computer vision, natural language processing and traditional robot navigation by enabling researchers to fairly compare algorithms, revealing limitations of existing solutions and illuminating promising new directions. We believe the same approach can benefit social navigation. In this paper, we pave the road towards common, widely accessible, and repeatable benchmarking criteria to evaluate social robot navigation. Our contributions include (a) a definition of a socially navigating robot as one that respects the principles of safety, comfort, legibility, politeness, social competency, agent understanding, proactivity, and responsiveness to context, (b) guidelines for the use of metrics, development of scenarios, benchmarks, datasets, and simulators to evaluate social navigation, and (c) a design of a social navigation metrics framework to make it easier to compare results from different simulators, robots and datasets.
翻訳日:2023-08-16 16:19:57 公開日:2023-08-14
# 経時劣化気象下における空中画像の連続領域適応

Continual Domain Adaptation on Aerial Images under Gradually Degrading Weather ( http://arxiv.org/abs/2308.00924v2 )

ライセンス: Link先を確認
Chowdhury Sadman Jahan and Andreas Savakis(参考訳) ドメイン適応(DA)は、モデルをトレーニングするソースドメインと、モデルをデプロイするターゲットドメインとの間のドメインギャップを軽減するために努力します。 深層学習モデルが空中プラットフォームに展開されると、運用中の気象条件が徐々に悪化し、トレーニングデータと遭遇した評価データとの間の領域ギャップが拡大する可能性がある。 既存の2つの航空画像データセットから、実際の画像の気象条件を徐々に悪化させ、合計4つのベンチマークデータセットを生成する。 連続的、あるいはテスト時間適応設定の下で、ベースライン標準DAモデルと2つの連続DAモデルという3つのDAモデルをデータセット上で評価する。 このような設定では、モデルが一度に1つの小さな部分または1つのターゲットデータにしかアクセスできず、適応は継続的に行われ、データの1つのエポック以上である。 連続的な適応の制約と徐々に悪化する気象条件の組み合わせは、空中展開の実践的なDAシナリオを提供する。 評価モデルのうち,コンボリューションアーキテクチャとトランスフォーマーアーキテクチャの比較を行った。 既存のバッファフィード連続DA法に適応する際の安定性問題を発見し、トレーニング不安定性を抑えるための簡単な解として勾配正規化を提供する。

Domain adaptation (DA) strives to mitigate the domain gap between the source domain where a model is trained, and the target domain where the model is deployed. When a deep learning model is deployed on an aerial platform, it may face gradually degrading weather conditions during operation, leading to widening domain gaps between the training data and the encountered evaluation data. We synthesize two such gradually worsening weather conditions on real images from two existing aerial imagery datasets, generating a total of four benchmark datasets. Under the continual, or test-time adaptation setting, we evaluate three DA models on our datasets: a baseline standard DA model and two continual DA models. In such setting, the models can access only one small portion, or one batch of the target data at a time, and adaptation takes place continually, and over only one epoch of the data. The combination of the constraints of continual adaptation, and gradually deteriorating weather conditions provide the practical DA scenario for aerial deployment. Among the evaluated models, we consider both convolutional and transformer architectures for comparison. We discover stability issues during adaptation for existing buffer-fed continual DA methods, and offer gradient normalization as a simple solution to curb training instability.
翻訳日:2023-08-16 15:59:22 公開日:2023-08-14
# 退化症例におけるウィリアムソンのシンプレクティック対角化について

On Williamson's Symplectic Diagonalization in the Degenerate Case ( http://arxiv.org/abs/2308.00601v2 )

ライセンス: Link先を確認
Rudra Kamat(参考訳) ウィリアムソンの正規形式は対称正定行列でよく知られている。 本稿では、対称正半定値行列に対するウィリアムソンの正規形式の拡張を検討し、H\"ormander"の結果の初等証明を与える。

Williamson's normal form is well known for symmetric positive-definite matrices. In this paper, we consider an extension of Williamson's normal form for symmetric positive-semi definite matrices, and give an elementary proof of a result of H\"ormander.
翻訳日:2023-08-16 15:59:02 公開日:2023-08-14
# 多段クロススケール注意による視覚バックボーン強化

Vision Backbone Enhancement via Multi-Stage Cross-Scale Attention ( http://arxiv.org/abs/2308.05872v2 )

ライセンス: Link先を確認
Liang Shang, Yanli Liu, Zhengyang Lou, Shuxue Quan, Nagesh Adluru, Bochen Guan, William A. Sethares(参考訳) 畳み込みニューラルネットワーク(cnns)と視覚トランスフォーマー(vits)は、様々な視覚タスクで顕著な成功を収めている。 しかし、多くのアーキテクチャは異なるステージとスケールのフィーチャマップ間の相互作用を考慮せず、パフォーマンスを制限している。 本研究では,マルチステージおよびクロススケールインタラクションによってこれらの制限を克服する,シンプルなアドオンアテンションモジュールを提案する。 特に,提案する多段クロススケールアテンション (mscsa) モジュールは,多段インタラクションを実現するために異なるステージからの特徴マップを取り,多段特徴マップに基づいて異なるスケールでの自己アテンションを計算することにより,多段インタラクションを実現する。 いくつかのダウンストリームタスクに対する実験により、MSCSAは、控えめなFLOPとランタイムで大幅なパフォーマンス向上を提供することが示された。

Convolutional neural networks (CNNs) and vision transformers (ViTs) have achieved remarkable success in various vision tasks. However, many architectures do not consider interactions between feature maps from different stages and scales, which may limit their performance. In this work, we propose a simple add-on attention module to overcome these limitations via multi-stage and cross-scale interactions. Specifically, the proposed Multi-Stage Cross-Scale Attention (MSCSA) module takes feature maps from different stages to enable multi-stage interactions and achieves cross-scale interactions by computing self-attention at different scales based on the multi-stage feature maps. Our experiments on several downstream tasks show that MSCSA provides a significant performance boost with modest additional FLOPs and runtime.
翻訳日:2023-08-16 15:48:45 公開日:2023-08-14
# Wolfram AlphaおよびCode Interpreterプラグインを用いたGPT-4のテスト

Testing GPT-4 with Wolfram Alpha and Code Interpreter plug-ins on math and science problems ( http://arxiv.org/abs/2308.05713v2 )

ライセンス: Link先を確認
Ernest Davis and Scott Aaronson(参考訳) 本報告では,2023年6月から8月にかけて行われた,理科・数学における105のオリジナル問題に対する,Wolfram Alpha と Code Interpreter プラグインを用いた大規模言語モデル GPT-4 のテストについて述べる。 以上の結果から,プラグインはGPTの問題解決能力を大幅に向上させる可能性が示唆された。 つまり、GPTは、プラグインから有用な回答を導き出す方法で、問題を定式化するのに苦労することが多いのです。 これらのインターフェースの障害を修正することは、GPTを大学レベルの計算問題に対する信頼性の高いツールにする上で、中心的な課題であるように思える。

This report describes a test of the large language model GPT-4 with the Wolfram Alpha and the Code Interpreter plug-ins on 105 original problems in science and math, at the high school and college levels, carried out in June-August 2023. Our tests suggest that the plug-ins significantly enhance GPT's ability to solve these problems. Having said that, there are still often "interface" failures; that is, GPT often has trouble formulating problems in a way that elicits useful answers from the plug-ins. Fixing these interface failures seems like a central challenge in making GPT a reliable tool for college-level calculation problems.
翻訳日:2023-08-16 15:48:29 公開日:2023-08-14
# 重力波波形推定のためのholevo cram\'er-raoバウンド

Holevo Cram\'er-Rao Bound for waveform estimation of gravitational waves ( http://arxiv.org/abs/2308.06253v2 )

ライセンス: Link先を確認
James W. Gardner, Tuvia Gefen, Simon A. Haine, Joseph J. Hope, and Yanbei Chen(参考訳) 中性子星と中性子星の融合後の残骸からキロヘルツ重力波を検出することで、極端物質の理解を深めることができた。 この検出を可能にするため、重力波干渉計を変形させてキロヘルツ感度を高めることができる。 しかし、デチューテッド干渉計や他のキャビティベースの量子センサーの精度限界はよく理解されていない。 標準変分読み出し方式の感度は、波形推定量子Cram\'er-Rao境界に達しない。 我々は、信号のコサインと正弦相の「5」推定の不整合性を特定することにより、基本精度限界、波形推定のホレボ・クラム・ラオバウンドを確立する。 位相間の等重み付けについては、標準スキームが本当に最適であることを示す。 しかし, 不等度重みに対しては, 感度を著しく向上させる新しい測定手法を実験的に実現することを提案する。 このスキームはキロヘルツ重力波天文学を助長し、空洞型量子計測に広く応用することができる。

Detecting kilohertz gravitational waves from the post-merger remnants of binary neutron-star mergers could enhance our understanding of extreme matter. To enable this detection, a gravitational-wave interferometer can be detuned to increase its kilohertz sensitivity. The precision limits of detuned interferometers and other cavity--based quantum sensors, however, are not well understood. The sensitivity of the standard variational readout scheme does not reach the waveform-estimation Quantum Cram\'er-Rao Bound. We establish the fundamental precision limit, the waveform-estimation Holevo Cram\'er-Rao Bound, by identifying the incompatibility of the na\"ive estimates of the signal's cosine and sine phases. For an equal weighting between the phases, we prove that the standard scheme is indeed optimal. For unequal weights, however, we propose an experimental realisation of a new measurement scheme to significantly improve the sensitivity. This scheme could facilitate kilohertz gravitational-wave astronomy and has broader applications to detuned cavity--based quantum metrology.
翻訳日:2023-08-16 15:38:05 公開日:2023-08-14
# 公開データを用いた私的流通学習 : サンプル圧縮の視点から

Private Distribution Learning with Public Data: The View from Sample Compression ( http://arxiv.org/abs/2308.06239v2 )

ライセンス: Link先を確認
Shai Ben-David, Alex Bie, Cl\'ement L. Canonne, Gautam Kamath, Vikrant Singhal(参考訳) 公共データへのアクセスによる個人分布学習の課題について検討する。 パブリック・プライベート・ラーニング(public-private learning)と呼ぶこの設定では、学習者は、非公開のサンプルに対してのみプライバシの制約(ここでは純粋な差分プライバシー)に固執しながら、クラス$\mathcal q$に属する未知のディストリビューション$p$から、パブリックとプライベートのサンプルを与えられる。 クラス $\mathcal q$ のパブリック・プライベート学習性は、$\mathcal q$ のサンプル圧縮スキームの存在と、我々がリスト学習と呼ぶ中間概念と関連していることを示す。 この接続を利用すると、(1)$\mathbb R^d$, (2)ガウスの以前の結果を約回復し、(2)ガウスの任意の$k$-mixturesに対するサンプル複雑性上限を$\mathbb R^d$, result for agnostic and distribution-shift resistant learners, and also closure properties for public-private learnability under takes and product of distributions。 最後に、リスト学習への接続を通して、$\mathbb R^d$のガウスにとって、少なくとも$d$公開サンプルは、既知の$d+1$公開サンプルの上限に近い、プライベートな学習性に必要であることを示す。

We study the problem of private distribution learning with access to public data. In this setup, which we refer to as public-private learning, the learner is given public and private samples drawn from an unknown distribution $p$ belonging to a class $\mathcal Q$, with the goal of outputting an estimate of $p$ while adhering to privacy constraints (here, pure differential privacy) only with respect to the private samples. We show that the public-private learnability of a class $\mathcal Q$ is connected to the existence of a sample compression scheme for $\mathcal Q$, as well as to an intermediate notion we refer to as list learning. Leveraging this connection: (1) approximately recovers previous results on Gaussians over $\mathbb R^d$; and (2) leads to new ones, including sample complexity upper bounds for arbitrary $k$-mixtures of Gaussians over $\mathbb R^d$, results for agnostic and distribution-shift resistant learners, as well as closure properties for public-private learnability under taking mixtures and products of distributions. Finally, via the connection to list learning, we show that for Gaussians in $\mathbb R^d$, at least $d$ public samples are necessary for private learnability, which is close to the known upper bound of $d+1$ public samples.
翻訳日:2023-08-16 15:37:48 公開日:2023-08-14
# cornetのデモ:例によってスプレッドシートのフォーマットルールを学ぶシステム

Demonstration of CORNET: A System For Learning Spreadsheet Formatting Rules By Example ( http://arxiv.org/abs/2308.07357v1 )

ライセンス: Link先を確認
Mukul Singh, Jose Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Gust Verbruggen(参考訳) データ管理と分析はスプレッドシートソフトウェアを使って行われることが多い。 ほとんどのスプレッドシートプラットフォームで人気のある機能は、データ依存のフォーマットルールを定義する機能である。 これらのルールは、"ネガティブな列のすべてのエントリを赤く塗る"、"エラーやエラーを含まないすべての行を無効にする"といったアクションを表現できる。 残念ながら、この機能を使いたいユーザーは、手動で条件付きフォーマット(cf)ルールを書く必要がある。 本稿では,ユーザ例から条件付きフォーマットルールを自動的に学習するシステムであるCORNETを紹介する。 CORNETは、帰納的プログラム合成からインスピレーションを得て、半教師付きクラスタリングと反復的決定木学習に基づくシンボリックルール列挙とニューラルネットワークローダを組み合わせて、正確な条件付きフォーマッティングルールを生成する。 このデモでは、Microsoft ExcelのシンプルなアドインとしてCORNETが動作していることを示す。 ユーザが1つまたは2つのフォーマットされたセルを例に挙げると、CORNETはスプレッドシートに適用するためのフォーマットルールの提案を生成する。

Data management and analysis tasks are often carried out using spreadsheet software. A popular feature in most spreadsheet platforms is the ability to define data-dependent formatting rules. These rules can express actions such as "color red all entries in a column that are negative" or "bold all rows not containing error or failure." Unfortunately, users who want to exercise this functionality need to manually write these conditional formatting (CF) rules. We introduce CORNET, a system that automatically learns such conditional formatting rules from user examples. CORNET takes inspiration from inductive program synthesis and combines symbolic rule enumeration, based on semi-supervised clustering and iterative decision tree learning, with a neural ranker to produce accurate conditional formatting rules. In this demonstration, we show CORNET in action as a simple add-in to Microsoft Excel. After the user provides one or two formatted cells as examples, CORNET generates formatting rule suggestions for the user to apply to the spreadsheet.
翻訳日:2023-08-16 15:20:36 公開日:2023-08-14
# ASDにおける形態的結合パターンの年齢差:sMRIと機械学習によるアプローチ

Age-Stratified Differences in Morphological Connectivity Patterns in ASD: An sMRI and Machine Learning Approach ( http://arxiv.org/abs/2308.07356v1 )

ライセンス: Link先を確認
Gokul Manoj, Sandeep Singh Sengar, Jac Fredo Agastinose Ronickom(参考訳) 目的: ASD の診断において,年齢バイアスが重要な要因として認識されている。 本研究の目的は,形態的特徴 (MF) と形態的接続性 (MCF) を用いたASD分類における年齢群の影響を比較することである。 方法: ABIDE-I と ABIDE-II の2つの公開データベースから,この研究のための構造磁気共鳴画像(sMRI)データを得た。 分析では,6歳から11歳,11歳,18歳,18歳という3つの年齢群を検討した。 sMRIデータは標準パイプラインを使用して前処理され、Destrieux atlasによると148の異なる領域に解析された。 次に,各領域について,面積,厚さ,体積,平均曲率情報を抽出し,各被験者について合計592mfと10,878mcfを作成した。 統計的t-test (p<0.05) を用いて有意な特徴を同定し, ランダム森林分類器 (RF) を訓練した。 結果: MF, MCFともに6歳から11歳までの成績が最も高かったのに対し, MF, MCFともに6歳から18歳までの成績が高かった。 6歳児群と11歳児群でRFを併用したMCFは、他の群より分類が優れ、それぞれ75.8%、83.1%、86%、80.4%の精度でF1スコア、リコール、精度が得られた。 結論: 本研究は, 形態的接続性および年齢関連診断モデルが, ASD の識別に有効であることを示す。

Purpose: Age biases have been identified as an essential factor in the diagnosis of ASD. The objective of this study was to compare the effect of different age groups in classifying ASD using morphological features (MF) and morphological connectivity features (MCF). Methods: The structural magnetic resonance imaging (sMRI) data for the study was obtained from the two publicly available databases, ABIDE-I and ABIDE-II. We considered three age groups, 6 to 11, 11 to 18, and 6 to 18, for our analysis. The sMRI data was pre-processed using a standard pipeline and was then parcellated into 148 different regions according to the Destrieux atlas. The area, thickness, volume, and mean curvature information was then extracted for each region which was used to create a total of 592 MF and 10,878 MCF for each subject. Significant features were identified using a statistical t-test (p<0.05) which was then used to train a random forest (RF) classifier. Results: The results of our study suggested that the performance of the 6 to 11 age group was the highest, followed by the 6 to 18 and 11 to 18 ages in both MF and MCF. Overall, the MCF with RF in the 6 to 11 age group performed better in the classification than the other groups and produced an accuracy, F1 score, recall, and precision of 75.8%, 83.1%, 86%, and 80.4%, respectively. Conclusion: Our study thus demonstrates that morphological connectivity and age-related diagnostic model could be an effective approach to discriminating ASD.
翻訳日:2023-08-16 15:20:17 公開日:2023-08-14
# ソリトニック系の量子情報エントロピー

Quantum information entropies for solitonic systems ( http://arxiv.org/abs/2308.07353v1 )

ライセンス: Link先を確認
Ramkumar Radhakrishnan, Mariyah Ughradar, Vikash Kumar Ojha(参考訳) 位置依存質量を持つ粒子は、半導体物理学の文脈で有用な概念である。 我々は、ソリトニック質量分布を持つ粒子を、クォートポテンシャルと対称ポテンシャルの2つの異なる形のポテンシャルで研究する。 zhu-kroemer方程式から波動関数を得ることにより,これら2つのシナリオにおいて粒子の基底状態に関連するシャノンエントロピーとフィッシャー情報を推定する。 それぞれの場合の粒子の基底状態はビリニツキ・ビラ・ミセルスキーの不等式を満たす。 検討中の4つのモデルすべてを比較すると、シャノンエントロピーは、クォートポテンシャルを受けるとソリトニック質量分布に対して大きいことが観察された。

Particle with position-dependent mass is a useful concept in the context of semiconductor physics. We study a particle with the solitonic mass distribution in two different forms of potential: the quartic and the symmetric potential. We estimate the Shannon entropy and Fisher information associated with the ground state of particle in these two scenarioes by obtaining the wave-function from Zhu-Kroemer equation. The ground state of the particle in each case satisfies the Bialynicki-Birula-Mycielski inequality. Upon comparing all four models under consideration, we have observed that the Shannon entropy is greater for the solitonic mass distribution when it is subjected to a quartic potential.
翻訳日:2023-08-16 15:19:46 公開日:2023-08-14
# ベイズ物理インフォームドニューラルネットワークによる汚染帯水層におけるナノ粒子移動の前方および逆シミュレーション

Bayesian Physics-Informed Neural Network for the Forward and Inverse Simulation of Engineered Nano-particles Mobility in a Contaminated Aquifer ( http://arxiv.org/abs/2308.07352v1 )

ライセンス: Link先を確認
Shikhar Nilabh and Fidel Grandia(参考訳) 世界規模では、地域の生態系と環境の回復のために活発な修復計画を必要とする地下水の汚染地が多数存在する。 工業用ナノ粒子(ENPs)は地下水中の汚染物質のその場分解に有効な反応剤であることが証明されている。 これらのENPの性能は実験室規模で高い評価を得てきたが、実現場での応用は依然として限られている。 ENPの複雑な輸送と保持機構は、効率的な修復戦略の開発を妨げる。 したがって, ENPの輸送と保持行動を理解するための予測ツールが必要である。 文献中の既存のツールは、スパースデータセットと帯水層の不均質性の存在下での柔軟性と正確性に乏しい数値シミュレータに支配されている。 この研究はB-PINN(Bayesian Physics-Informed Neural Network)フレームワークを用いて、帯水層内のナノ粒子移動をモデル化する。 フォワードモデルから得られた結果は, ENPsモビリティを正確に予測し, 不確実性を定量化するB-PINNの有効性を示す。 次に、逆モデル出力を用いて、小規模帯水層におけるENPsモビリティの制御パラメータを予測する。 この研究は、効率的な地下水浄化戦略を開発するための予測的洞察を提供するツールの能力を示している。

Globally, there are many polluted groundwater sites that need an active remediation plan for the restoration of local ecosystem and environment. Engineered nanoparticles (ENPs) have proven to be an effective reactive agent for the in-situ degradation of pollutants in groundwater. While the performance of these ENPs has been highly promising on the laboratory scale, their application in real field case conditions is still limited. The complex transport and retention mechanisms of ENPs hinder the development of an efficient remediation strategy. Therefore, a predictive tool to comprehend the transport and retention behavior of ENPs is highly required. The existing tools in the literature are dominated with numerical simulators, which have limited flexibility and accuracy in the presence of sparse datasets and the aquifer heterogeneity. This work uses a Bayesian Physics-Informed Neural Network (B-PINN) framework to model the nano-particles mobility within an aquifer. The result from the forward model demonstrates the effective capability of B-PINN in accurately predicting the ENPs mobility and quantifying the uncertainty. The inverse model output is then used to predict the governing parameters for the ENPs mobility in a small-scale aquifer. The research demonstrates the capability of the tool to provide predictive insights for developing an efficient groundwater remediation strategy.
翻訳日:2023-08-16 15:19:37 公開日:2023-08-14
# iob:マルチポリシー再利用のための最適化転送と振舞い転送の統合

IOB: Integrating Optimization Transfer and Behavior Transfer for Multi-Policy Reuse ( http://arxiv.org/abs/2308.07351v1 )

ライセンス: Link先を確認
Siyuan Li, Hao Li, Jin Zhang, Zhen Wang, Peng Liu, Chongjie Zhang(参考訳) 人間は、学習済みのポリシーを再利用して新しいタスクを迅速に解決し、強化学習(RL)エージェントは、ソースポリシーから関連するターゲットタスクに知識を移すことで、同じことができる。 転送RL法は、ポリシー最適化目標(最適化転送)を再構築したり、ソースポリシーを使用して行動ポリシー(行動伝達)に影響を与えることができる。 しかし、対象とする政策学習を導くためのサンプルを限定した適切なソースポリシーの選択が課題となっている。 以前の手法では、階層的なポリシーやソースポリシーの価値関数の推定といった追加のコンポーネントを導入し、非定常ポリシー最適化や大量のサンプリングコストにつながる可能性があるため、転送効率が低下する。 この課題に対処するため、我々は、余分なコンポーネントを訓練することなくソースポリシーを選択する新しい転送RL法を提案する。 提案手法は,アクタ・クリティカル・フレームワークのQ関数を用いて政策選択を誘導し,現在の目標政策よりも最大の1段階改善を施したソースポリシーを選択する。 我々は,学習方針を規則化し,指導方針を模倣し,それらを行動方針として組み合わせることで,最適化伝達と行動伝達(iob)を統合する。 この統合は、転送効率を大幅に向上し、ベンチマークタスクにおける最先端の転送RLベースラインを超越し、継続的な学習シナリオにおける最終的なパフォーマンスと知識伝達性を向上させる。 さらに,本手法は目標政策学習を改善するためにも有効であることを示す。

Humans have the ability to reuse previously learned policies to solve new tasks quickly, and reinforcement learning (RL) agents can do the same by transferring knowledge from source policies to a related target task. Transfer RL methods can reshape the policy optimization objective (optimization transfer) or influence the behavior policy (behavior transfer) using source policies. However, selecting the appropriate source policy with limited samples to guide target policy learning has been a challenge. Previous methods introduce additional components, such as hierarchical policies or estimations of source policies' value functions, which can lead to non-stationary policy optimization or heavy sampling costs, diminishing transfer effectiveness. To address this challenge, we propose a novel transfer RL method that selects the source policy without training extra components. Our method utilizes the Q function in the actor-critic framework to guide policy selection, choosing the source policy with the largest one-step improvement over the current target policy. We integrate optimization transfer and behavior transfer (IOB) by regularizing the learned policy to mimic the guidance policy and combining them as the behavior policy. This integration significantly enhances transfer effectiveness, surpasses state-of-the-art transfer RL baselines in benchmark tasks, and improves final performance and knowledge transferability in continual learning scenarios. Additionally, we show that our optimization transfer technique is guaranteed to improve target policy learning.
翻訳日:2023-08-16 15:19:15 公開日:2023-08-14
# 量子化学習を用いた高能率PDEソルバ

Efficient Neural PDE-Solvers using Quantization Aware Training ( http://arxiv.org/abs/2308.07350v1 )

ライセンス: Link先を確認
Winfried van den Dool, Tijmen Blankevoort, Max Welling, Yuki M. Asano(参考訳) 近年、偏微分方程式の解法として古典的数値解法に代わるニューラルネットワークの応用が、この1世紀の数学分野における潜在的なパラダイムシフトとして現れてきた。 しかし、実用性という点では、計算コストはかなりのボトルネックのままである。 古典的なアプローチは、PDEが定義される空間分解能を制限することで、この課題を緩和しようとする。 ここでは,計算コスト削減のための最先端量子化手法の可能性について検討する。 ネットワークの重みとアクティベーションを定量化することで,性能を維持しつつ推論の計算コストを低減できることを示す。 4つの標準PDEデータセットと3つのネットワークアーキテクチャの結果、量子化対応のトレーニングは、設定と3桁のFLOPで機能することがわかった。 最後に、計算コスト対性能のパレート最適性はほとんど常に量子化を組み込むことで達成されることを示す。

In the past years, the application of neural networks as an alternative to classical numerical methods to solve Partial Differential Equations has emerged as a potential paradigm shift in this century-old mathematical field. However, in terms of practical applicability, computational cost remains a substantial bottleneck. Classical approaches try to mitigate this challenge by limiting the spatial resolution on which the PDEs are defined. For neural PDE solvers, we can do better: Here, we investigate the potential of state-of-the-art quantization methods on reducing computational costs. We show that quantizing the network weights and activations can successfully lower the computational cost of inference while maintaining performance. Our results on four standard PDE datasets and three network architectures show that quantization-aware training works across settings and three orders of FLOPs magnitudes. Finally, we empirically demonstrate that Pareto-optimality of computational cost vs performance is almost always achieved only by incorporating quantization.
翻訳日:2023-08-16 15:18:49 公開日:2023-08-14
# 音声モデルにおける大文字化とターンテイク予測のためのテキストインジェクション

Text Injection for Capitalization and Turn-Taking Prediction in Speech Models ( http://arxiv.org/abs/2308.07395v1 )

ライセンス: Link先を確認
Shaan Bijwadia, Shuo-yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang, Tara N. Sainath(参考訳) 自動音声認識(ASR)のためのテキストインジェクションでは、ペア化された音声テキストデータを補うために、未ペアのテキストオンリーのデータを使用する。 本研究では,E2Eモデルでしばしば実行される非ASRタスクである補助タスクに対するテキストインジェクションの利用について検討する。 本研究では,2つの補助タスクを実行するASRモデルをトレーニングするために,テキストインジェクションアルゴリズムとして,エンドツーエンドと内部言語モデルトレーニング(JEIT)を併用する。 1つ目は資本化であり、非正規化タスクである。 第二にターンテイク予測(ターンテイク予測)は、ユーザがデジタルアシスタントのインタラクションで会話を完了したかどうかを識別しようとするものだ。 テキストインジェクション法により,長期データに対するキャピタライゼーション性能が向上し,ターンテイク検出リコールが向上することを示す。

Text injection for automatic speech recognition (ASR), wherein unpaired text-only data is used to supplement paired audio-text data, has shown promising improvements for word error rate. This study examines the use of text injection for auxiliary tasks, which are the non-ASR tasks often performed by an E2E model. In this work, we use joint end-to-end and internal language model training (JEIT) as our text injection algorithm to train an ASR model which performs two auxiliary tasks. The first is capitalization, which is a de-normalization task. The second is turn-taking prediction, which attempts to identify whether a user has completed their conversation turn in a digital assistant interaction. We show results demonstrating that our text injection method boosts capitalization performance for long-tail data, and improves turn-taking detection recall.
翻訳日:2023-08-16 15:10:19 公開日:2023-08-14
# テキストインジェクションを用いた音声認識における個人識別精度の向上

Using Text Injection to Improve Recognition of Personal Identifiers in Speech ( http://arxiv.org/abs/2308.07393v1 )

ライセンス: Link先を確認
Yochai Blau, Rohan Agrawal, Lior Madmony, Gary Wang, Andrew Rosenberg, Zhehuai Chen, Zorik Gekhman, Genady Beryozkin, Parisa Haghani, Bhuvana Ramabhadran(参考訳) 人名、日付、その他の識別子などの特定のカテゴリの正確な認識は多くの自動音声認識(ASR)アプリケーションにおいて重要である。 これらのカテゴリは個人情報を表すため、収集、転写、訓練、評価を含むこのデータの倫理的利用は特別なケアを必要とする。 個人のセキュリティとプライバシを確保する一つの方法は、PII(Personally Identible Information)を完全に収集することである。 しかし、この結果、これらのカテゴリの認識精度が低い傾向にあるASRモデルが得られる。 我々はテキストインジェクションを用いて、テキストインジェクション法を用いたトレーニングデータに、PIIカテゴリの偽テキスト置換を組み込むことにより、PIIカテゴリの認識を改善する。 WERを総合的に改善しつつ、医療ノートに名前と日付のリコールを大幅に改善した。 数値桁列に対して文字誤り率と文精度の改善を示す。

Accurate recognition of specific categories, such as persons' names, dates or other identifiers is critical in many Automatic Speech Recognition (ASR) applications. As these categories represent personal information, ethical use of this data including collection, transcription, training and evaluation demands special care. One way of ensuring the security and privacy of individuals is to redact or eliminate Personally Identifiable Information (PII) from collection altogether. However, this results in ASR models that tend to have lower recognition accuracy of these categories. We use text-injection to improve the recognition of PII categories by including fake textual substitutes of PII categories in the training data using a text injection method. We demonstrate substantial improvement to Recall of Names and Dates in medical notes while improving overall WER. For alphanumeric digit sequences we show improvements to Character Error Rate and Sentence Accuracy.
翻訳日:2023-08-16 15:10:03 公開日:2023-08-14
# camouflagedインスタンスセグメンテーションのための統一クエリベースパラダイム

A Unified Query-based Paradigm for Camouflaged Instance Segmentation ( http://arxiv.org/abs/2308.07392v1 )

ライセンス: Link先を確認
Do Dong, Jialun Pei, Rongrong Gao, Tian-Zhu Xiang, Shuo Wang, Huan Xiong(参考訳) Camouflagedインスタンスとバックグラウンドの類似性が高いため、最近提案されたCamouflagedインスタンスセグメンテーション(CIS)は、正確なローカライゼーションとインスタンスセグメンテーションの課題に直面している。 この目的のために、クエリベースのトランスフォーマに触発されて、迷彩インスタンスセグメンテーションのための統一クエリベースのマルチタスク学習フレームワーク、uqformerを提案する。これは、マスククエリの集合と境界クエリの集合を構築し、共有構成されたクエリ表現を学習し、迷彩シナリオにおけるインスタンスセグメンテーションとインスタンス境界検出を同時に行うために、グローバルな迷彩オブジェクト領域と境界手がかりを効率的に統合する。 具体的には、多スケール統合学習変換器デコーダの設計において、マスククエリと境界クエリの相互アテンション相互作用により、オブジェクト領域と境界特徴をキャプチャする共有表現を学習する合成クエリ学習パラダイムを設計する。 そして,学習した合成クエリ表現に基づいて,同時カモフラージュされたインスタンスセグメンテーションとカモフラージュされたインスタンス境界検出のためのトランスフォーマーベースのマルチタスク学習フレームワークを提案する。 特に,本モデルでは,インスタンスセグメンテーションをクエリに基づく直接セット予測問題とみなす。 UQFormerは、14の最先端アプローチと比較して、camouflagedインスタンスセグメンテーションのパフォーマンスを大幅に改善します。 私たちのコードはhttps://github.com/dongbo811/uqformerで利用可能です。

Due to the high similarity between camouflaged instances and the background, the recently proposed camouflaged instance segmentation (CIS) faces challenges in accurate localization and instance segmentation. To this end, inspired by query-based transformers, we propose a unified query-based multi-task learning framework for camouflaged instance segmentation, termed UQFormer, which builds a set of mask queries and a set of boundary queries to learn a shared composed query representation and efficiently integrates global camouflaged object region and boundary cues, for simultaneous instance segmentation and instance boundary detection in camouflaged scenarios. Specifically, we design a composed query learning paradigm that learns a shared representation to capture object region and boundary features by the cross-attention interaction of mask queries and boundary queries in the designed multi-scale unified learning transformer decoder. Then, we present a transformer-based multi-task learning framework for simultaneous camouflaged instance segmentation and camouflaged instance boundary detection based on the learned composed query representation, which also forces the model to learn a strong instance-level query representation. Notably, our model views the instance segmentation as a query-based direct set prediction problem, without other post-processing such as non-maximal suppression. Compared with 14 state-of-the-art approaches, our UQFormer significantly improves the performance of camouflaged instance segmentation. Our code will be available at https://github.com/dongbo811/UQFormer.
翻訳日:2023-08-16 15:09:50 公開日:2023-08-14
# PARIS:人工物体の部分的再構成と運動解析

PARIS: Part-level Reconstruction and Motion Analysis for Articulated Objects ( http://arxiv.org/abs/2308.07391v1 )

ライセンス: Link先を確認
Jiayi Liu, Ali Mahdavi-Amiri, Manolis Savva(参考訳) 本研究は,調音対象に対する同時部分レベル再構成と動きパラメータ推定の課題に対処する。 2つの静的調音状態の物体の2組の多視点画像が与えられると、可動部を静的部分から切り離し、動きパラメータを予測しながら形状と外観を再構築する。 この問題を解決するために,パートレベルの暗黙的形状と外観モデルを学習し,3次元の監督や動作,意味的アノテーションを使わずに動作パラメータを協調的に最適化する,自己監督型エンドツーエンドアーキテクチャPARISを提案する。 実験の結果,本手法はオブジェクトカテゴリ全体にわたって一般化され,入力として3次元点雲を与えるベースラインや先行作業よりも優れていた。 本手法は,オブジェクトのシャムファーl1距離を3.94 (45.2%) ,部品の26.79 (84.5%) に削減し,動作推定のための5%の誤差率を10のカテゴリで達成した。 ビデオ概要: https://youtu.be/tdsrropcguc

We address the task of simultaneous part-level reconstruction and motion parameter estimation for articulated objects. Given two sets of multi-view images of an object in two static articulation states, we decouple the movable part from the static part and reconstruct shape and appearance while predicting the motion parameters. To tackle this problem, we present PARIS: a self-supervised, end-to-end architecture that learns part-level implicit shape and appearance models and optimizes motion parameters jointly without any 3D supervision, motion, or semantic annotation. Our experiments show that our method generalizes better across object categories, and outperforms baselines and prior work that are given 3D point clouds as input. Our approach improves reconstruction relative to state-of-the-art baselines with a Chamfer-L1 distance reduction of 3.94 (45.2%) for objects and 26.79 (84.5%) for parts, and achieves 5% error rate for motion estimation across 10 object categories. Video summary at: https://youtu.be/tDSrROPCgUc
翻訳日:2023-08-16 15:09:17 公開日:2023-08-14
# パラ軸波方程式に基づく量子シミュレータ

Quantum Simulator Based on the Paraxial Wave Equation ( http://arxiv.org/abs/2308.07388v1 )

ライセンス: Link先を確認
Micheline B. Soley and Deniz D. Yavuz(参考訳) 広帯域光ファイバーやメタマテリアルのみを必要とするパラ軸量子シミュレータを提案する。 このようなシミュレータは、特別な技術なしでコスト効率の良い量子シミュレーションを促進するだろう。 提案手法は,非線形光学素子を用いた多体系への拡張と,量子計算と量子パリティ時間反転(\mathcal{PT}$)対称技術の試作を目的とした同軸量子シミュレータの実装により,実例系における量子力学と量子効果を正確にシミュレートする。

We propose a paraxial quantum simulator that requires only widely available optical fibers or metamaterials. Such a simulator would facilitate cost-effective quantum simulation without specialized techniques. We show theoretically that the method accurately simulates quantum dynamics and quantum effects for an example system, which invites extension of the method to many-body systems using nonlinear optical elements and implementation of the paraxial quantum simulator to extend access to quantum computation and prototype quantum parity-time reversal ($\mathcal{PT}$) symmetric technologies.
翻訳日:2023-08-16 15:08:54 公開日:2023-08-14
# DISBELIEVE: クライアントモデル間の距離は、効果的なローカルモデル中毒攻撃に極めて重要である

DISBELIEVE: Distance Between Client Models is Very Essential for Effective Local Model Poisoning Attacks ( http://arxiv.org/abs/2308.07387v1 )

ライセンス: Link先を確認
Indu Joshi, Priyank Upadhya, Gaurav Kumar Nayak, Peter Sch\"uffler and Nassir Navab(参考訳) フェデレーション学習は、患者の機密データを共有することに関連するプライバシー問題に取り組むための有望な方向である。 しばしば、医療画像分析領域の連合システムは、参加するローカルクライアントが \textit{honest} であると仮定する。 いくつかの研究は、フェデレートされた設定を害し、グローバルモデルの性能を阻害する悪意のあるクライアントのセットを導入できるメカニズムを報告している。 これを克服するために,これらの攻撃を防御するロバストアグリゲーション手法が提案されている。 我々は,最先端のロバストアグリゲーション手法のほとんどが,悪意のあるクライアントと良性クライアントのパラメータや勾配の距離に大きく依存しており,悪意のあるクライアントと良性クライアントのパラメータや勾配が近い場合,ローカルモデルの毒殺攻撃を起こしやすいことを観察する。 これを活用することで,クライアントの良性パラメータや勾配との距離がそれぞれ低いような悪質なパラメータや勾配を生成するローカルモデル中毒攻撃であるdisbelieveを導入すると同時に,グローバルモデルのパフォーマンスに対する悪影響も高い。 医用画像解析のための最先端のtextit{robust aggregate} 手法の性能を著しく低下させるため, 提案した DISBELIEVE 攻撃の有効性を示す3つの医用画像データセットの実験を行った。 さらに、現在最先端の局所モデル中毒攻撃と比較して、DISBELIEVE攻撃は、ベンチマークデータセットCIFAR-10におけるグローバルモデルの分類性能の大幅な低下を観察する自然画像にも有効である。

Federated learning is a promising direction to tackle the privacy issues related to sharing patients' sensitive data. Often, federated systems in the medical image analysis domain assume that the participating local clients are \textit{honest}. Several studies report mechanisms through which a set of malicious clients can be introduced that can poison the federated setup, hampering the performance of the global model. To overcome this, robust aggregation methods have been proposed that defend against those attacks. We observe that most of the state-of-the-art robust aggregation methods are heavily dependent on the distance between the parameters or gradients of malicious clients and benign clients, which makes them prone to local model poisoning attacks when the parameters or gradients of malicious and benign clients are close. Leveraging this, we introduce DISBELIEVE, a local model poisoning attack that creates malicious parameters or gradients such that their distance to benign clients' parameters or gradients is low respectively but at the same time their adverse effect on the global model's performance is high. Experiments on three publicly available medical image datasets demonstrate the efficacy of the proposed DISBELIEVE attack as it significantly lowers the performance of the state-of-the-art \textit{robust aggregation} methods for medical image analysis. Furthermore, compared to state-of-the-art local model poisoning attacks, DISBELIEVE attack is also effective on natural images where we observe a severe drop in classification performance of the global model for multi-class classification on benchmark dataset CIFAR-10.
翻訳日:2023-08-16 15:08:44 公開日:2023-08-14
# the devil in the details: 単純で効果的な光フロー合成データ生成

The Devil in the Details: Simple and Effective Optical Flow Synthetic Data Generation ( http://arxiv.org/abs/2308.07378v1 )

ライセンス: Link先を確認
Kwon Byung-Ki, Kim Sung-Bin, Tae-Hyun Oh(参考訳) 近年の高密度光流の研究は、主に大量のラベル付きデータを必要とする教師あり学習方法において顕著な進展を示している。 大規模な実世界のデータを得るコストが高いため、コンピュータグラフィックスは一般的にデータセットの構築に利用される。 しかし、合成と実の領域ギャップが一般化を現実の場面に限定するという考えが一般的である。 本稿では,光学フローデータセットの要求特性が比較的単純であることを示し,基本操作の合成によってある種の現実性を実現する簡易な合成データ生成法を提案する。 2次元モーションベースデータセットを用いて,合成データセットを生成するための最も単純かつ重要な要素を体系的に解析する。 さらに,隠蔽マスクを教師付き手法で活用する新しい手法を提案し,隠蔽領域の勾配の抑制がカリキュラム学習における強力な初期状態となることを観察する。 RAFTネットワークは、私たちのデータセットでトレーニングされた最初のRAFTよりも、MPI SintelとKITTI 2015の2つの最も難しいオンラインベンチマークでパフォーマンスが向上した。

Recent work on dense optical flow has shown significant progress, primarily in a supervised learning manner requiring a large amount of labeled data. Due to the expensiveness of obtaining large scale real-world data, computer graphics are typically leveraged for constructing datasets. However, there is a common belief that synthetic-to-real domain gaps limit generalization to real scenes. In this paper, we show that the required characteristics in an optical flow dataset are rather simple and present a simpler synthetic data generation method that achieves a certain level of realism with compositions of elementary operations. With 2D motion-based datasets, we systematically analyze the simplest yet critical factors for generating synthetic datasets. Furthermore, we propose a novel method of utilizing occlusion masks in a supervised method and observe that suppressing gradients on occluded regions serves as a powerful initial state in the curriculum learning sense. The RAFT network initially trained on our dataset outperforms the original RAFT on the two most challenging online benchmarks, MPI Sintel and KITTI 2015.
翻訳日:2023-08-16 15:08:17 公開日:2023-08-14
# 量子力学におけるポストニュートン補正のための結合処方

A coupling prescription for post-Newtonian corrections in Quantum Mechanics ( http://arxiv.org/abs/2308.07373v1 )

ライセンス: Link先を確認
Jelle Hartong, Emil Have, Niels A. Obers, Igor Pikovski(参考訳) 量子論と一般相対性理論の相互作用は現代物理学の主要な課題の1つである。 低エネルギー限界に対する新たな関心は、このインターフェースを探究する新しい実験の展望によって引き起こされる。 ここでは、ローレンツ幾何学の 1/c^2$ 拡大に基づく任意の重力背景上のシュル=オディンガー方程式に対するニュートン後補正を表現する共変フレームワークを開発し、ここでは $c$ が光の速度である。 我々のフレームワークは、ニュートン重力と一般相対性理論の間の中間状態において有効であり、幾何に焦点をあてる量子系の一般的な結合式を提供する。 1/c^2$の各順序において、この順序の量子系が結合する非相対論的幾何を生成する。 非相対論的幾何学のゲージ対称性と複素クライン-ゴルドン場の1/c^2$展開の両方を考慮することにより、シュリンガー方程式と1/c^2$の重力背景秩序に対するポストニュートン補正を導出できる処方則を考案する。 また、これらの結果は複素クライン-ゴルドン・ラグランジアンの1/c^2$展開から得られることを示した。 我々は、カー計量の1/c^2$拡張を$\mathcal{O}(c^{-2})$にすることで、ハートル-ソーン計量の特別な場合をもたらす方法を説明する。 関連するシュリンガー方程式は、新しく潜在的に測定可能な効果を捉える。

The interplay between quantum theory and general relativity remains one of the main challenges of modern physics. A renewed interest in the low-energy limit is driven by the prospect of new experiments that could probe this interface. Here we develop a covariant framework for expressing post-Newtonian corrections to Schr\"odinger's equation on arbitrary gravitational backgrounds based on a $1/c^2$ expansion of Lorentzian geometry, where $c$ is the speed of light. Our framework provides a generic coupling prescription of quantum systems to gravity that is valid in the intermediate regime between Newtonian gravity and General Relativity, and that retains the focus on geometry. At each order in $1/c^2$ this produces a nonrelativistic geometry to which quantum systems at that order couple. By considering the gauge symmetries of both the nonrelativistic geometries and the $1/c^2$ expansion of the complex Klein--Gordon field, we devise a prescription that allows us to derive the Schr\"odinger equation and its post-Newtonian corrections on a gravitational background order-by-order in $1/c^2$. We also demonstrate that these results can be obtained from a $1/c^2$ expansion of the complex Klein--Gordon Lagrangian. We illustrate our methods by performing the $1/c^2$ expansion of the Kerr metric up to $\mathcal{O}(c^{-2})$, which leads to a special case of the Hartle--Thorne metric. The associated Schr\"odinger equation captures novel and potentially measurable effects.
翻訳日:2023-08-16 15:08:01 公開日:2023-08-14
# コンコビディティの多様性を考慮したICDに基づく意味的類似性の改善

Improving ICD-based semantic similarity by accounting for varying degrees of comorbidity ( http://arxiv.org/abs/2308.07359v1 )

ライセンス: Link先を確認
Jan Janosch Schneider and Marius Adler and Christoph Ammer-Herrmenau and Alexander Otto K\"onig and Ulrich Sax and Jonas H\"ugel(参考訳) 類似した患者を見つけることは、治療結果の評価と臨床判断支援を促進する、精密医療の共通の目的である。 患者の特徴と類似性計算のための適切な数学的方法を選択することが重要である。 international statistical classification of disease and related health problems (icd) codesは世界中で病気をエンコードするために使われ、ほぼすべての患者で利用可能である。 一次診断と二次診断からなる集合として集約され、コンプレビディティの程度を示し、コンプレビディティパターンを明らかにすることができる。 意味的類似性アルゴリズムを用いて、ICDコードに基づく患者の類似性を計算することができる。 これらのアルゴリズムは伝統的に、長期のエキスパート評価データセットを用いて評価されてきた。 しかし、実語患者データは、しばしば、アルゴリズムのパフォーマンスを損なう可能性のある、文書化されたコモビディティの様々な度合いを示す。 そこで本稿では,文書化の相違を考慮に入れた尺度を提示する。 本研究では,icd符号集合に基づく意味的類似性の観点から,確立されたアルゴリズムの80組合せの性能を比較した。 これらのセットは、C25.X(膵臓癌)の初診患者から抽出され、様々なICDコードの組み合わせを提供する。 スケールの用語を使って、レベルベースの情報コンテンツ、leacock & chodorowのコンセプトの類似性と、0.75に到達した集合の類似性に対する2部グラフマッチングを組み合わせることで、最高の結果を得ることができました。 本研究は,現在の意味的類似性アルゴリズムの性能を実証しながら,同義性分散の計算の重要性を浮き彫りにした。

Finding similar patients is a common objective in precision medicine, facilitating treatment outcome assessment and clinical decision support. Choosing widely-available patient features and appropriate mathematical methods for similarity calculations is crucial. International Statistical Classification of Diseases and Related Health Problems (ICD) codes are used worldwide to encode diseases and are available for nearly all patients. Aggregated as sets consisting of primary and secondary diagnoses they can display a degree of comorbidity and reveal comorbidity patterns. It is possible to compute the similarity of patients based on their ICD codes by using semantic similarity algorithms. These algorithms have been traditionally evaluated using a single-term expert rated data set. However, real-word patient data often display varying degrees of documented comorbidities that might impair algorithm performance. To account for this, we present a scale term that considers documented comorbidity-variance. In this work, we compared the performance of 80 combinations of established algorithms in terms of semantic similarity based on ICD-code sets. The sets have been extracted from patients with a C25.X (pancreatic cancer) primary diagnosis and provide a variety of different combinations of ICD-codes. Using our scale term we yielded the best results with a combination of level-based information content, Leacock & Chodorow concept similarity and bipartite graph matching for the set similarities reaching a correlation of 0.75 with our expert's ground truth. Our results highlight the importance of accounting for comorbidity variance while demonstrating how well current semantic similarity algorithms perform.
翻訳日:2023-08-16 15:07:34 公開日:2023-08-14
# グラフニューラルネットワークを用いたエキスパート誘導メッシュの共形予測

Conformal Predictions Enhanced Expert-guided Meshing with Graph Neural Networks ( http://arxiv.org/abs/2308.07358v1 )

ライセンス: Link先を確認
Amin Heyrani Nobari, Justin Rey, Suhas Kodali, Matthew Jones, Faez Ahmed(参考訳) 計算流体力学(CFD)は様々な工学分野において広く用いられているが、正確なシミュレーションはシミュレーション領域の適切なメッシュ化に依存する。 高度に洗練されたメッシュは精度を確保できるが、計算コストが高い。 同様に、適応リメッシング技術は複数のシミュレーションを必要とし、計算コストが大きい。 これは、メッシュ処理が専門家の知識と長年の経験に依存していることを意味する。 メッシュ生成の自動化は、大幅な時間と労力を節約し、より高速で効率的な設計プロセスにつながる。 本稿では,GNN(Graph Neural Networks)とエキスパートガイダンスを用いて,航空機モデルのためのCFDメッシュの自動生成を行う機械学習方式を提案する。 本稿では,表面分類のための2つの最先端モデルであるpointnet++とpointmlpに勝る3次元セグメンテーションアルゴリズムを提案する。 また, 3次元メッシュセグメンテーションモデルからcad面へのプロジェクト予測への新しいアプローチとして, 辺縁統計の保証とロバストな不確かさの定量化とハンドリングを提供するconformal predictions法を提案する。 本研究では, 整合予測の追加により, 弱い精度のモデルであっても, CFDメッシュにおける過小評価を効果的に回避できることを示す。 最後に,本手法の有効性を実世界のケーススタディで実証し,自動生成メッシュがエキスパート生成メッシュに匹敵する品質であることを示し,解答者が収束し,正確な結果が得られることを示す。 さらに,本手法を適応リメッシングの代替手法と比較したところ,シミュレーション全体の5倍高速であることがわかった。 このプロジェクトのコードとデータはhttps://github.com/ahnobari/AutoSurf.comで公開されている。

Computational Fluid Dynamics (CFD) is widely used in different engineering fields, but accurate simulations are dependent upon proper meshing of the simulation domain. While highly refined meshes may ensure precision, they come with high computational costs. Similarly, adaptive remeshing techniques require multiple simulations and come at a great computational cost. This means that the meshing process is reliant upon expert knowledge and years of experience. Automating mesh generation can save significant time and effort and lead to a faster and more efficient design process. This paper presents a machine learning-based scheme that utilizes Graph Neural Networks (GNN) and expert guidance to automatically generate CFD meshes for aircraft models. In this work, we introduce a new 3D segmentation algorithm that outperforms two state-of-the-art models, PointNet++ and PointMLP, for surface classification. We also present a novel approach to project predictions from 3D mesh segmentation models to CAD surfaces using the conformal predictions method, which provides marginal statistical guarantees and robust uncertainty quantification and handling. We demonstrate that the addition of conformal predictions effectively enables the model to avoid under-refinement, hence failure, in CFD meshing even for weak and less accurate models. Finally, we demonstrate the efficacy of our approach through a real-world case study that demonstrates that our automatically generated mesh is comparable in quality to expert-generated meshes and enables the solver to converge and produce accurate results. Furthermore, we compare our approach to the alternative of adaptive remeshing in the same case study and find that our method is 5 times faster in the overall process of simulation. The code and data for this project are made publicly available at https://github.com/ahnobari/AutoSurf.
翻訳日:2023-08-16 15:07:11 公開日:2023-08-14
# unibrain:ヒト脳活動からの1つの拡散モデルにおける画像再構成とキャプションの統一

UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion Model from Human Brain Activity ( http://arxiv.org/abs/2308.07428v1 )

ライセンス: Link先を確認
Weijian Mai, Zhijun Zhang(参考訳) 視覚刺激によって誘発される脳活動からの画像再構成とキャプションにより、研究者は人間の脳と視覚知覚システムとの関係をさらに理解することができる。 近年、深層生成モデルが採用されているが、低レベルな細部と高い意味的忠実度を持つリアルなキャプションや画像の再構築は依然として難しい課題である。 本研究では,UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion Model from Human Brain Activityを提案する。 視覚誘発機能磁気共鳴画像(fmri)から画像再構成とキャプションのキャプションを,汎用拡散と呼ばれる潜在拡散モデルを通じて初めて統一した。 具体的には,低レベル情報のためのfmriボクセルをテキストに変換し,クリップから派生したfmriベースの画像とテキスト条件を通じて後方拡散過程をガイドし,現実的なキャプションや画像を生成する。 UniBrainは、画像再構成における現在の手法を質的にも定量的にも上回り、Natural Scenes Dataset (NSD)データセットで初めて画像キャプションの結果を報告する。 さらに、アブレーション実験と機能的関心領域(ROI)分析は、UniBrainの優位性をさらに示し、視覚誘発脳復号のための包括的な洞察を提供する。

Image reconstruction and captioning from brain activity evoked by visual stimuli allow researchers to further understand the connection between the human brain and the visual perception system. While deep generative models have recently been employed in this field, reconstructing realistic captions and images with both low-level details and high semantic fidelity is still a challenging problem. In this work, we propose UniBrain: Unify Image Reconstruction and Captioning All in One Diffusion Model from Human Brain Activity. For the first time, we unify image reconstruction and captioning from visual-evoked functional magnetic resonance imaging (fMRI) through a latent diffusion model termed Versatile Diffusion. Specifically, we transform fMRI voxels into text and image latent for low-level information and guide the backward diffusion process through fMRI-based image and text conditions derived from CLIP to generate realistic captions and images. UniBrain outperforms current methods both qualitatively and quantitatively in terms of image reconstruction and reports image captioning results for the first time on the Natural Scenes Dataset (NSD) dataset. Moreover, the ablation experiments and functional region-of-interest (ROI) analysis further exhibit the superiority of UniBrain and provide comprehensive insight for visual-evoked brain decoding.
翻訳日:2023-08-16 15:00:44 公開日:2023-08-14
# 指数的傾きによるrtb市場の分布変化への対応

Addressing Distribution Shift in RTB Markets via Exponential Tilting ( http://arxiv.org/abs/2308.07424v1 )

ライセンス: Link先を確認
Minji Kim, Seong Jin Lee, Bumsik Kim(参考訳) 機械学習モデルにおける分散シフトは、パフォーマンス劣化の主な原因である。 本稿では,RTB(Real-Time Bidding)市場モデルを中心に,これらのシフトの特徴を考察する。 我々は,クラス不均衡とサンプル選択バイアスによって引き起こされる課題を強調した。 本稿では,データ分散シフトに対応するために,Marty et al. (2023) が提案した Exponential Tilt Reweighting Alignment (ExTRA) アルゴリズムを提案する。 ExTRA法は、重み付きソースとターゲットデータセット間のKLばらつきを最小限に抑え、ソースデータに対する重み付けの重要度を決定するように設計されている。 この手法の顕著な利点は、ラベル付きソースデータとラベルなしターゲットデータを使って操作できることである。 実世界のシミュレーションデータを用いて分布シフトの性質を調査し,提案モデルの適用性を評価する。

Distribution shift in machine learning models can be a primary cause of performance degradation. This paper delves into the characteristics of these shifts, primarily motivated by Real-Time Bidding (RTB) market models. We emphasize the challenges posed by class imbalance and sample selection bias, both potent instigators of distribution shifts. This paper introduces the Exponential Tilt Reweighting Alignment (ExTRA) algorithm, as proposed by Marty et al. (2023), to address distribution shifts in data. The ExTRA method is designed to determine the importance weights on the source data, aiming to minimize the KL divergence between the weighted source and target datasets. A notable advantage of this method is its ability to operate using labeled source data and unlabeled target data. Through simulated real-world data, we investigate the nature of distribution shift and evaluate the applicacy of the proposed model.
翻訳日:2023-08-16 15:00:18 公開日:2023-08-14
# uターン拡散

U-Turn Diffusion ( http://arxiv.org/abs/2308.07421v1 )

ライセンス: Link先を確認
Hamidreza Behjoo, Michael Chertkov(参考訳) 本稿では,合成画像生成のためのaiのスコアベース拡散モデルの包括的検討を行う。 これらのモデルは確率微分方程式によって駆動される動的補助時間機構にヒンジし、入力画像からスコア関数を取得する。 生成過程のパワーは、逆/逆ノイズ化フェーズにおいて高速な相関を分解する能力に依存する。 生成した合成画像の品質を向上させるために,「uターン拡散」という手法を導入する。 U-Turn拡散法は標準の前方拡散プロセスから始まり、従来の設定に比べて凝縮期間が長い。 その後、私たちは標準リバースダイナミクスを実行し、フォワードプロセスからコンクショディング設定で初期化します。 前方、Uターン、逆過程を組み合わせたU-Turn拡散法は、入力サンプルを介して暗黙的に記述された確率分布から独立で同一に分布した(d)サンプルを近似する合成画像を生成する。 関連する時間スケールを分析するには,自動相関解析,スコア関数解析の重み付けノルム,Kolmogorov-Smirnov Gaussianity testなど,さまざまな分析ツールを用いる。 このツールは, 実データと合成試料の品質を比較した指標であるカーネル区間距離が, 最適なUターン時間で最小化されていることを示すのに役立つ。

We present a comprehensive examination of score-based diffusion models of AI for generating synthetic images. These models hinge upon a dynamic auxiliary time mechanism driven by stochastic differential equations, wherein the score function is acquired from input images. Our investigation unveils a criterion for evaluating efficiency of the score-based diffusion models: the power of the generative process depends on the ability to de-construct fast correlations during the reverse/de-noising phase. To improve the quality of the produced synthetic images, we introduce an approach coined "U-Turn Diffusion". The U-Turn Diffusion technique starts with the standard forward diffusion process, albeit with a condensed duration compared to conventional settings. Subsequently, we execute the standard reverse dynamics, initialized with the concluding configuration from the forward process. This U-Turn Diffusion procedure, combining forward, U-turn, and reverse processes, creates a synthetic image approximating an independent and identically distributed (i.i.d.) sample from the probability distribution implicitly described via input samples. To analyze relevant time scales we employ various analytical tools, including auto-correlation analysis, weighted norm of the score-function analysis, and Kolmogorov-Smirnov Gaussianity test. The tools guide us to establishing that the Kernel Intersection Distance, a metric comparing the quality of synthetic samples with real data samples, is minimized at the optimal U-turn time.
翻訳日:2023-08-16 15:00:03 公開日:2023-08-14
# 局所適応型および微分可能な回帰

Locally Adaptive and Differentiable Regression ( http://arxiv.org/abs/2308.07418v1 )

ライセンス: Link先を確認
Mingxuan Han, Varun Shankar, Jeff M Phillips, Chenglong Ye(参考訳) ディープネットやランダムフォレストのような過剰パラメータモデルが、機械学習で非常に人気になっています。 しかし、回帰モデルでよく見られる連続性と微分可能性の自然な目標は、現代の過パラメータ、局所適応モデルでは無視されることが多い。 本研究では,局所学習モデルの重み付け平均値に基づくグローバル連続・微分可能モデルを構築するための汎用的枠組みを提案する。 このモデルは、異なる局所領域の関数値の密度やスケールの異なるデータを扱うことで競争力がある。 局所モデルでカーネルリッジと多項式回帰項を混合し,それらを連続的に縫合すると,理論上より高速な統計的収束が達成され,様々な実用的条件下での性能が向上することを示した。

Over-parameterized models like deep nets and random forests have become very popular in machine learning. However, the natural goals of continuity and differentiability, common in regression models, are now often ignored in modern overparametrized, locally-adaptive models. We propose a general framework to construct a global continuous and differentiable model based on a weighted average of locally learned models in corresponding local regions. This model is competitive in dealing with data with different densities or scales of function values in different local regions. We demonstrate that when we mix kernel ridge and polynomial regression terms in the local models, and stitch them together continuously, we achieve faster statistical convergence in theory and improved performance in various practical settings.
翻訳日:2023-08-16 14:59:39 公開日:2023-08-14
# 核融合の量子制御のための超高速レーザーアーキテクチャ

Ultrafast laser architectures for quantum control of nuclear fusion ( http://arxiv.org/abs/2308.07417v1 )

ライセンス: Link先を確認
Jake Levitt(参考訳) 核融合の量子制御は、クーロン障壁を通るトンネルを加速するために核波束内の量子コヒーレンスを工学的に制御し、長距離の反応性捕獲を容易にするために$\textit{S}$-matrixの分析構造を変更する。 量子制御に有効な3体核融合反応を提案する。 この調査の主な成果は、超高速レーザーアーキテクチャの具現化されたクラス [Levitt $\textit{et al] の発見である。 アメリカ合衆国特許出願番号 17/855,476 (2022)] は、[Saha $\textit{et al] で示されるような論理的に一貫した方法でシュリンガー方程式の解を実現する。 とmolは言う。 Phys $\textbf{110}$, 9-10 (2012)] さらに、ここでは光設計を用いて、電力生産に必要な(必ずしも十分ではない)条件を提示する。

Quantum control of nuclear fusion involves engineering quantum coherences in a nuclear wavepacket to accelerate tunneling through the Coulomb barrier and modifying the analytic structure of the $\textit{S}$-matrix to facilitate long-range reactive capture. We present a three-body fusion reaction which is amenable to quantum control. The main result of the present inquiry is the discovery of an embodied class of ultrafast laser architectures [Levitt $\textit{et al.}$, U.S. Patent Application No. 17/855,476 (2022)] which realize solutions to the Schr\"odinger equation in a logically consistent manner as to that presented in [Saha $\textit{et al.}$, Mol. Phys. $\textbf{110}$, 9-10 (2012)]. Further, we provide some necessary (but not necessarily sufficient) conditions for net electrical power production using the optical designs here.
翻訳日:2023-08-16 14:59:27 公開日:2023-08-14
# Semantify: CLIPによる3Dモーフィブルモデルの制御の簡易化

Semantify: Simplifying the Control of 3D Morphable Models using CLIP ( http://arxiv.org/abs/2308.07415v1 )

ライセンス: Link先を確認
Omer Gralnik, Guy Gafni, Ariel Shamir(参考訳) 本稿では,CLIP言語ビジョン基盤モデルのセマンティフィケーション力を利用して3次元形態素モデルの制御を簡素化する自己教師型手法Semantifyを提案する。 パラメトリックモデルが与えられた場合、モデルのパラメータをランダムにサンプリングし、さまざまな形状を作成してレンダリングすることで、トレーニングデータを生成する。 出力画像と単語記述子の集合との類似性はクリップの潜在空間で計算される。 私たちのキーとなるアイデアは、まず3DMMの特徴を特徴づける意味論的に有意で不整合な記述子の小さなセットを選択し、次に、このセットから与えられた3DMMのパラメトリック係数への非線形マッピングを学習することです。 非線形マッピングは、人間のループなしでニューラルネットワークをトレーニングすることによって定義される。 身体形状モデル,顔形状モデル,表情モデル,動物形状モデルなど,多数の3DMMについて検討した。 本手法は,直感的モデリングのためのシンプルなスライダインタフェースを定義する方法を示し,そのマッピングを用いて3dパラメトリックな物体形状を野生画像に即応させる方法を示す。

We present Semantify: a self-supervised method that utilizes the semantic power of CLIP language-vision foundation model to simplify the control of 3D morphable models. Given a parametric model, training data is created by randomly sampling the model's parameters, creating various shapes and rendering them. The similarity between the output images and a set of word descriptors is calculated in CLIP's latent space. Our key idea is first to choose a small set of semantically meaningful and disentangled descriptors that characterize the 3DMM, and then learn a non-linear mapping from scores across this set to the parametric coefficients of the given 3DMM. The non-linear mapping is defined by training a neural network without a human-in-the-loop. We present results on numerous 3DMMs: body shape models, face shape and expression models, as well as animal shapes. We demonstrate how our method defines a simple slider interface for intuitive modeling, and show how the mapping can be used to instantly fit a 3D parametric body shape to in-the-wild images.
翻訳日:2023-08-16 14:59:11 公開日:2023-08-14
# エンタングルフェルミオン対の崩壊とポストセレクション

Decay of entangled fermion pairs with post-selection ( http://arxiv.org/abs/2308.07412v1 )

ライセンス: Link先を確認
J. A. Aguilar-Saavedra(参考訳) スピンエンタングル状態における1対の不安定フェルミオンを考える。 あるフェルミオン上のスピン測定は、スターン・ゲルラッハの実験または同様の方法で、既に崩壊したとしても、そのパートナーのスピン状態を決定する。 この後選択効果は、スカラー粒子の崩壊または広い角度での衝突によって生じる、最大エンタングル状態のミューオン対を用いて実験的にアクセスすることができる。

We consider a pair of unstable fermions in a spin-entangled state. A spin measurement on one fermion, with a Stern-Gerlach experiment or similar, determines the spin state of its partner - even if it already has decayed. This post-selection effect would be experimentally accessible using muon pairs in a maximally-entangled state, produced either in the decay of a scalar particle, or in $e^+ e^-$ collisions at wide angles.
翻訳日:2023-08-16 14:58:50 公開日:2023-08-14
# プロンプトエンジニアリングによる大規模言語モデルとエージェントベースモデリングの交点を探る

Exploring the Intersection of Large Language Models and Agent-Based Modeling via Prompt Engineering ( http://arxiv.org/abs/2308.07411v1 )

ライセンス: Link先を確認
Edward Junprung(参考訳) シミュレーションの最終的なフロンティアは、複雑な現実世界の社会システムの正確な表現である。 エージェント・ベース・モデリング(ABM)は、より大きなシステム内のエージェントの振る舞いと相互作用を研究するが、人間主導の振る舞いの完全な複雑さを忠実に捉えることはできない。 chatgptのような大規模言語モデル(llm)は、研究者がこれまで想像できなかった方法で人間主導のインタラクションを探索できるようにすることで、このボトルネックの潜在的な解決策として浮上した。 LLMを用いたヒューマンインタラクションのシミュレーションについて検討した。 また,Park et al. (2023) にインスパイアされた即時エンジニアリングを通じて,人間行動の可能なプロキシの2つのシミュレーション,すなわち2エージェント交渉と6エージェント殺人ミステリーゲームを提示した。

The final frontier for simulation is the accurate representation of complex, real-world social systems. While agent-based modeling (ABM) seeks to study the behavior and interactions of agents within a larger system, it is unable to faithfully capture the full complexity of human-driven behavior. Large language models (LLMs), like ChatGPT, have emerged as a potential solution to this bottleneck by enabling researchers to explore human-driven interactions in previously unimaginable ways. Our research investigates simulations of human interactions using LLMs. Through prompt engineering, inspired by Park et al. (2023), we present two simulations of believable proxies of human behavior: a two-agent negotiation and a six-agent murder mystery game.
翻訳日:2023-08-16 14:58:41 公開日:2023-08-14
# 産後ムード・不安障害に対する3つのチャットボットの開発と評価

Development and Evaluation of Three Chatbots for Postpartum Mood and Anxiety Disorders ( http://arxiv.org/abs/2308.07407v1 )

ライセンス: Link先を確認
Xuewen Yao, Miriam Mikhelson, S. Craig Watkins, Eunsol Choi, Edison Thomaz, Kaya de Barbaro(参考訳) ポストパートム・サポート・インターナショナル(psi)と共同で、ポストパートム・ムードと不安障害を持つ介護者を支援するために、3つのチャットボットを開発し、ルールベースと生成モデルの両方を活用して、ポストパートムの介護者に対してコンテキスト固有の共感支援を行った。 我々は,機械による測定と人間によるアンケートの両方を用いて,チャットボットの性能評価を行った。 総じて、我々のルールベースのモデルは最高のパフォーマンスを達成し、その出力は真実に近いものであり、最も高いレベルの共感を含んでいる。 人間ユーザーは、コンテキスト固有の人間的な応答に対して、生成型チャットボットよりもルールベースのチャットボットを好む。 生成型チャットボットは共感的応答も生成し,人間ユーザからはエンゲージメントと表現された。 しかし、トレーニングデータセットの制限は、しばしば混乱または非感覚的な応答をもたらす。 最後に、メンタルヘルス課題に対する個人支援のためのルールベースとジェネレーティブモデルの実用的利益について論じる。 近年のChatGPTとBARDの増加を踏まえ、デジタルメンタルヘルスにおける大規模言語モデルの可能性と落とし穴についても論じる。

In collaboration with Postpartum Support International (PSI), a non-profit organization dedicated to supporting caregivers with postpartum mood and anxiety disorders, we developed three chatbots to provide context-specific empathetic support to postpartum caregivers, leveraging both rule-based and generative models. We present and evaluate the performance of our chatbots using both machine-based metrics and human-based questionnaires. Overall, our rule-based model achieves the best performance, with outputs that are close to ground truth reference and contain the highest levels of empathy. Human users prefer the rule-based chatbot over the generative chatbot for its context-specific and human-like replies. Our generative chatbot also produced empathetic responses and was described by human users as engaging. However, limitations in the training dataset often result in confusing or nonsensical responses. We conclude by discussing practical benefits of rule-based vs. generative models for supporting individuals with mental health challenges. In light of the recent surge of ChatGPT and BARD, we also discuss the possibilities and pitfalls of large language models for digital mental healthcare.
翻訳日:2023-08-16 14:58:27 公開日:2023-08-14
# 量子状態ベクトルシミュレーションのスケールでのエネルギー効率

Energy Efficiency of Quantum Statevector Simulation at Scale ( http://arxiv.org/abs/2308.07402v1 )

ライセンス: Link先を確認
Jakub Adamski and James Richings and Oliver Thomson Brown(参考訳) 古典シミュレーションは量子コンピューティングの発展に不可欠であり、その指数関数的スケーリングは現代のスーパーコンピュータを簡単に満たすことができる。 本稿では,大容量量子フーリエ変換 (QFT) シミュレーションの性能とエネルギー消費を,QuEST ツールキットを用いたイギリスのスーパーコンピュータサービス ARCHER2 上で行うことを検討する。 cpuのクロック周波数とノードのメモリサイズを考慮し、キャッシュブロッキングを使って回路を再構成し、通信を最小化する。 2.25GHzの代わりに2.00GHzを使用すると、実行時の5%の増加で25%のエネルギーを節約できることがわかった。 高いノードメモリは、より効率が良く、ユーザがCUを少なくする可能性があるが、実行時のペナルティが高い。 最後に,必要な通信を必要としないキャッシュブロッキングqft回路を提案する。 その結果、4,096のARCHER2ノード上で44量子ビットシミュレーションを行い、40%高速なシミュレーションと35%の省エネを実現した。

Classical simulations are essential for the development of quantum computing, and their exponential scaling can easily fill any modern supercomputer. In this paper we consider the performance and energy consumption of large Quantum Fourier Transform (QFT) simulations run on ARCHER2, the UK's National Supercomputing Service, with QuEST toolkit. We take into account CPU clock frequency and node memory size, and use cache-blocking to rearrange the circuit, which minimises communications. We find that using 2.00GHz instead of 2.25GHz can save as much as 25% of energy at 5% increase in runtime. Higher node memory also has the potential to be more efficient, and cost the user fewer CUs, but at higher runtime penalty. Finally, we present a cache-blocking QFT circuit, which halves the required communication. All our optimisations combined result in 40% faster simulations and 35% energy savings in 44 qubit simulations on 4,096 ARCHER2 nodes.
翻訳日:2023-08-16 14:58:11 公開日:2023-08-14
# 弱量子化重力場によって誘起される複合粒子の非コヒーレンス

Decoherence of a composite particle induced by a weak quantized gravitational field ( http://arxiv.org/abs/2308.07454v1 )

ライセンス: Link先を確認
Thiago Henrique Moreira and Lucas Chibebe C\'eleri(参考訳) 弦理論やループ量子重力のような重力の量子論に関するいくつかの提案があるにもかかわらず、これらの理論を裏付ける実験的な証拠は存在しない。 実際、重力場の量子的記述が本当に必要な方向を示す実験的な証拠は存在しない。 このシナリオでは、プランクスケールから遠く離れた量子重力効果を実験的に研究するためのいくつかの提案が最近文献に現れている。 これらのアプローチの重要な問題は、考慮中の系だけでなく、重力場自体からも量子の性質によってもたらされる非一貫性である。 ここでは、ファインマン・ヴァーノンの影響関数を用いて、量子化された重力場とそれ自身の量子の性質によって引き起こされる量子系のデコヒーレンスを研究する。 この結果は、重力時間拡大、量子参照系、量子同値原理などによって引き起こされる多くの現象をよりよく理解する上で重要である。

Despite the fact that we have some proposals for the quantum theory of gravity like string theory or loop quantum gravity, we do not have any experimental evidence supporting any of these theories. Actually, we do not have experimental evidence pointing in the direction that we really need a quantum description of the gravitational field. In this scenario, several proposals for experimentally investigating quantum gravitational effects far from Plank scale have recently appear in literature, like gravitationally induced entanglement, for instance. An important issue of theses approaches is the decoherence introduced by the quantum nature not only of the system under consideration, but also from the gravitational field itself. Here, by means of the Feynman-Vernon influence functional we study the decoherence of a quantum system induced by the quantized gravitational field and by its own quantum nature. Our results may be important in providing a better understanding of many phenomena like the decoherence induced by the gravitational time-dilation, the quantum reference frames and the quantum equivalence principle.
翻訳日:2023-08-16 14:51:03 公開日:2023-08-14
# GRU-D-Weibull:新しいリアルタイム個別エンドポイント予測

GRU-D-Weibull: A Novel Real-Time Individualized Endpoint Prediction ( http://arxiv.org/abs/2308.07452v1 )

ライセンス: Link先を確認
Xiaoyang Ruan, Liwei Wang, Charat Thongprayoon, Wisit Cheungpasitporn, Hongfang Liu(参考訳) 個別のエンドポイントとエンドポイントの正確な予測モデルは、臨床実践において不可欠である。 本研究では,ゲートリカレント単位と崩壊(gru-d)を結合し,ワイブル分布をモデル化する新しいアプローチ gru-d-weibull を提案する。 本手法は,リアルタイムの個別化エンドポイント予測と集団レベルのリスク管理を可能にする。 4期慢性腎臓病(CKD4)6,879例のコホートを用いて,GRU-D-Weibullの終末予測成績を検討した。 GRU-D-WeibullのC-インデックスは指数日時点で ~0.7 であり、無作為生存林と同様の4.3年後には ~0.77 に増加した。 提案手法はCKD4指数において絶対L1-loss ~1.1年 (SD 0.95) を達成し,4年後のSD0.3 を最小0.45年 (SD0.3) とした。 GRU-D-Weibullは、フォローアップ期間を通じて他のモデルと比較して、より小さく、より固定された範囲でイベント発生時の予測生存確率を一貫して制限した。 点推定誤差と指標日における入力特徴の欠落率(0.1~0.3の相関)との間に有意な相関関係がみられ,より多くのデータが利用可能になるにつれて1年以内に減少していた。 トレーニング後の再調整により,複数の予測地平線にまたがって予測・観測された生存確率をフォローアップ中に一致させた。 以上の結果から,gru-d-weibullはエンドポイントリスク管理のための次世代アーキテクチャとして,臨床データを用いたリアルタイムモニタリングのために様々なエンドポイント推定を生成できる可能性が示唆された。

Accurate prediction models for individual-level endpoints and time-to-endpoints are crucial in clinical practice. In this study, we propose a novel approach, GRU-D-Weibull, which combines gated recurrent units with decay (GRU-D) to model the Weibull distribution. Our method enables real-time individualized endpoint prediction and population-level risk management. Using a cohort of 6,879 patients with stage 4 chronic kidney disease (CKD4), we evaluated the performance of GRU-D-Weibull in endpoint prediction. The C-index of GRU-D-Weibull was ~0.7 at the index date and increased to ~0.77 after 4.3 years of follow-up, similar to random survival forest. Our approach achieved an absolute L1-loss of ~1.1 years (SD 0.95) at the CKD4 index date and a minimum of ~0.45 years (SD0.3) at 4 years of follow-up, outperforming competing methods significantly. GRU-D-Weibull consistently constrained the predicted survival probability at the time of an event within a smaller and more fixed range compared to other models throughout the follow-up period. We observed significant correlations between the error in point estimates and missing proportions of input features at the index date (correlations from ~0.1 to ~0.3), which diminished within 1 year as more data became available. By post-training recalibration, we successfully aligned the predicted and observed survival probabilities across multiple prediction horizons at different time points during follow-up. Our findings demonstrate the considerable potential of GRU-D-Weibull as the next-generation architecture for endpoint risk management, capable of generating various endpoint estimates for real-time monitoring using clinical data.
翻訳日:2023-08-16 14:50:45 公開日:2023-08-14
# クラスタデータを用いたアンサンブルを用いたオープンセット顔認識

Open-set Face Recognition using Ensembles trained on Clustered Data ( http://arxiv.org/abs/2308.07445v1 )

ライセンス: Link先を確認
Rafael Henrique Vareto and William Robson Schwartz(参考訳) オープンセット顔認識は、トレーニング段階で見えない未知の被験者がテスト時間に現れるシナリオを記述している。 興味のある個人を正確に識別する手法だけでなく、知らない顔を効果的に扱うアプローチも必要です。 この研究は、数百から数千の主題からなるギャラリーに対して、スケーラブルなオープンセットの顔識別アプローチを詳述している。 クラスタリングとバイナリ学習アルゴリズムのアンサンブルで構成されており、クエリフェイスサンプルがface galleryに属することを推定し、それらの正しいidを取得する。 このアプローチは最も適したギャラリーの主題を選び、アンサンブルを使って予測性能を改善する。 我々は、よく知られたLFWおよびYTFベンチマークで実験を行う。 その結果,スケーラビリティを目標とする場合でも,競争性能が達成可能であることがわかった。

Open-set face recognition describes a scenario where unknown subjects, unseen during the training stage, appear on test time. Not only it requires methods that accurately identify individuals of interest, but also demands approaches that effectively deal with unfamiliar faces. This work details a scalable open-set face identification approach to galleries composed of hundreds and thousands of subjects. It is composed of clustering and an ensemble of binary learning algorithms that estimates when query face samples belong to the face gallery and then retrieves their correct identity. The approach selects the most suitable gallery subjects and uses the ensemble to improve prediction performance. We carry out experiments on well-known LFW and YTF benchmarks. Results show that competitive performance can be achieved even when targeting scalability.
翻訳日:2023-08-16 14:50:14 公開日:2023-08-14
# 医療行為に翻訳されない伝達性指標の性能

The Performance of Transferability Metrics does not Translate to Medical Tasks ( http://arxiv.org/abs/2308.07444v1 )

ライセンス: Link先を確認
Levy Chaves, Alceu Bissoto, Eduardo Valle, Sandra Avila(参考訳) 転送学習は、大きなデータセットから得られる知識を通じて、小さなデータセット上での深層学習(DL)を可能にすることにより、医用画像解析の性能を高める。 DLアーキテクチャの数が爆発するにつれて、すべての候補を徹底的に試すことは不可能になり、それを選択するためのより安価な選択肢を動機付けます。 転送可能性スコアリングメソッドはエンチリングソリューションとして登場し、任意のターゲットデータセットのアーキテクチャ精度と相関するスコアを効率的に計算する。 しかし, 医療データではトランスファビリティスコアが評価されていないため, この文脈での使用状況は不透明であり, 実践者の利益を損なうことはない。 このギャップを埋め、アウトオブディストリビューションシナリオを含む3つの医療アプリケーションで、7つのトランスファー可能性スコアを徹底的に評価します。 汎用データセットの有望な結果にもかかわらず,医療現場における目標性能を確実かつ一貫した評価が得られず,さらなる作業が促されることが示唆された。

Transfer learning boosts the performance of medical image analysis by enabling deep learning (DL) on small datasets through the knowledge acquired from large ones. As the number of DL architectures explodes, exhaustively attempting all candidates becomes unfeasible, motivating cheaper alternatives for choosing them. Transferability scoring methods emerge as an enticing solution, allowing to efficiently calculate a score that correlates with the architecture accuracy on any target dataset. However, since transferability scores have not been evaluated on medical datasets, their use in this context remains uncertain, preventing them from benefiting practitioners. We fill that gap in this work, thoroughly evaluating seven transferability scores in three medical applications, including out-of-distribution scenarios. Despite promising results in general-purpose datasets, our results show that no transferability score can reliably and consistently estimate target performance in medical contexts, inviting further work in that direction.
翻訳日:2023-08-16 14:50:02 公開日:2023-08-14
# 窒素酸化物の合同予測におけるバイアス低減のための物理インフォームド深層学習

Physics-Informed Deep Learning to Reduce the Bias in Joint Prediction of Nitrogen Oxides ( http://arxiv.org/abs/2308.07441v1 )

ライセンス: Link先を確認
Lianfa Li, Roxana Khalili, Frederick Lurmann, Nathan Pavlovic, Jun Wu, Yan Xu, Yisi Liu, Karl O'Sharkey, Beate Ritz, Luke Oman, Meredith Franklin, Theresa Bastain, Shohreh F. Farzan, Carrie Breton, Rima Habre(参考訳) 主に燃料燃焼による窒素酸化物(NOx)は、急性で慢性的な健康と環境効果を認識している。 機械学習(ML)法は,高時空間分解能で地上レベルのNOx濃度を予測する能力を大幅に向上させたが,大気汚染の物理的および化学的知識が欠如しているため,高い推定バイアスを被る可能性がある。 化学輸送モデル(CTM)はこの知識を活用するが、地上レベルの濃度の正確な予測は通常、大規模な校正後を必要とする。 本稿では,NO2 と NOx を共同で予測し,ML モデルのバイアスを 21-42% 削減するために,拡散拡散機構と流体力学の制約を符号化した物理インフォームドディープラーニングフレームワークを提案する。 提案手法は,NO2とNOxの微細輸送を捕捉し,頑健な空間外挿を発生させ,明確な不確かさを推定する。 この枠組みは、CTMの知識駆動の物理化学的原理と、大気汚染、健康、政策適用のためのMLの予測力とを融合させる。 提案手法は純粋にデータ駆動型ML法よりも大幅に改善され,NO2およびNOx予測における前例のないバイアス低減を実現している。

Atmospheric nitrogen oxides (NOx) primarily from fuel combustion have recognized acute and chronic health and environmental effects. Machine learning (ML) methods have significantly enhanced our capacity to predict NOx concentrations at ground-level with high spatiotemporal resolution but may suffer from high estimation bias since they lack physical and chemical knowledge about air pollution dynamics. Chemical transport models (CTMs) leverage this knowledge; however, accurate predictions of ground-level concentrations typically necessitate extensive post-calibration. Here, we present a physics-informed deep learning framework that encodes advection-diffusion mechanisms and fluid dynamics constraints to jointly predict NO2 and NOx and reduce ML model bias by 21-42%. Our approach captures fine-scale transport of NO2 and NOx, generates robust spatial extrapolation, and provides explicit uncertainty estimation. The framework fuses knowledge-driven physicochemical principles of CTMs with the predictive power of ML for air quality exposure, health, and policy applications. Our approach offers significant improvements over purely data-driven ML methods and has unprecedented bias reduction in joint NO2 and NOx prediction.
翻訳日:2023-08-16 14:49:44 公開日:2023-08-14
# 量子確率と誕生アンサンブル

Quantum Probability and the Born Ensemble ( http://arxiv.org/abs/2308.07440v1 )

ライセンス: Link先を確認
Themis Matsoukas(参考訳) 我々は、独立な2状態確率モデルと、生来の統計量を生み出し、関連するハミルトニアン行列の下でシュロディンガー方程式の確率を再現する基本規則を定式化する。 我々は、ある状態、古典的または量子的状態の観測確率を、その状態における事象の数に比例して定義する。 量子確率過程は、量子ウォーカーが一対の量子ビットであり、それぞれが観測点までの全ての可能な経路を通して独立に伝達され、その再結合によって正または負の事象が生じるという古典的な過程とは異なる。 我々は、再結合事象の正方行列を介してウォーカーの状態を表し、この行列の回転としてキュービット状態の不確定性を解釈し、ボルンの規則が全回転上不変なこの行列上の数要素を数えていることを示す。

We formulate a discrete two-state stochastic model with elementary rules that give rise to Born statistics and reproduce the probabilities of the Schrodinger equation under an associated Hamiltonian matrix, which we identify. We define the probability to observe a state, classical or quantum, in proportion to the number of events at that state--number of ways the walker may materialize at a point of observation at time t, starting from known initial state at t=0. The quantum stochastic process differs from its classical counterpart in that the quantum walker is a pair of qubits, each transmitted independently through all possible paths to a point of observation, and whose recombination may produce a positive or negative event. We represent the state of the walker via a square matrix of recombination events, interpret the indeterminacy of the qubit state as rotations of this matrix, and show that the Born rule counts the number elements on this matrix that remain invariant over a full rotation.
翻訳日:2023-08-16 14:49:22 公開日:2023-08-14
# 時間グラフニューラルネットワークを用いた対話型パーソナライズド自動車軌道予測

Interaction-Aware Personalized Vehicle Trajectory Prediction Using Temporal Graph Neural Networks ( http://arxiv.org/abs/2308.07439v1 )

ライセンス: Link先を確認
Amr Abdelraouf, Rohit Gupta, Kyungtae Han(参考訳) 車両軌道の正確な予測は、先進運転支援システムや自動運転車にとって不可欠である。 既存の手法は主に、個々のドライバーのパーソナライズされた運転パターンを見渡すために、大きなデータセットから派生した一般的な軌道予測に依存している。 このギャップに対処するために,時間グラフニューラルネットワークを組み込んだ対話型自動車軌道予測手法を提案する。 本稿では,グラフ畳み込みネットワーク(GCN)とLong Short-Term Memory(LSTM)を用いて,車両とその周辺交通の時空間相互作用をモデル化する。 予測をパーソナライズするために、トランスファー学習を利用するパイプラインを確立する。まず、モデルは大規模な軌道データセットで事前トレーニングされ、その後、それぞれの運転者に特定の運転データを使用して微調整される。 ループ内人間シミュレーションを用いて,パーソナライズされた自然走行軌跡とその周辺車両軌跡を収集する。 実験により, パーソナライズされたGCN-LSTMモデルの性能は, 汎用モデルと比較して, より長い予測地平線に対して優れていることが示された。 さらに、パーソナライズされたモデルは事前トレーニングなしで作成した個々のモデルよりも優れており、オーバーフィッティングを避けるために大規模なデータセットで事前トレーニングを行うことの重要性を強調している。 パーソナライゼーションの導入により, 軌道予測精度が向上する。

Accurate prediction of vehicle trajectories is vital for advanced driver assistance systems and autonomous vehicles. Existing methods mainly rely on generic trajectory predictions derived from large datasets, overlooking the personalized driving patterns of individual drivers. To address this gap, we propose an approach for interaction-aware personalized vehicle trajectory prediction that incorporates temporal graph neural networks. Our method utilizes Graph Convolution Networks (GCN) and Long Short-Term Memory (LSTM) to model the spatio-temporal interactions between target vehicles and their surrounding traffic. To personalize the predictions, we establish a pipeline that leverages transfer learning: the model is initially pre-trained on a large-scale trajectory dataset and then fine-tuned for each driver using their specific driving data. We employ human-in-the-loop simulation to collect personalized naturalistic driving trajectories and corresponding surrounding vehicle trajectories. Experimental results demonstrate the superior performance of our personalized GCN-LSTM model, particularly for longer prediction horizons, compared to its generic counterpart. Moreover, the personalized model outperforms individual models created without pre-training, emphasizing the significance of pre-training on a large dataset to avoid overfitting. By incorporating personalization, our approach enhances trajectory prediction accuracy.
翻訳日:2023-08-16 14:49:04 公開日:2023-08-14
# 静止状態脳波信号を用いたパーキンソン病診断のためのハイブリッド深部時空間注意モデル

A Hybrid Deep Spatio-Temporal Attention-Based Model for Parkinson's Disease Diagnosis Using Resting State EEG Signals ( http://arxiv.org/abs/2308.07436v1 )

ライセンス: Link先を確認
Niloufar Delfan, Mohammadreza Shahsavari, Sadiq Hussain, Robertas Dama\v{s}evi\v{c}ius, U. Rajendra Acharya(参考訳) パーキンソン病(英: Parkinson's disease、PD)は、重症で進歩的な神経疾患である。 PDの効果的な治療と管理には,正確な早期診断が不可欠である。 本研究では,安静時脳波(eeg)信号を用いたpd診断のための深層学習モデルを提案する。 本研究の目的は,脳波から複雑な隠れ非線形特徴を抽出し,その一般化可能性を示す自動モデルを開発することである。 このモデルは、畳み込みニューラルネットワーク(CNN)、双方向ゲートリカレントユニット(Bi-GRU)、アテンションメカニズムからなるハイブリッドモデルを用いて設計されている。 提案手法は3つのパブリックデータセット(Uc San Diego Dataset, PreD-CT, アイオワ大学(UI)データセット)で評価され, トレーニングに1つのデータセット, 評価に2つのデータセットが使用される。 その結果,提案モデルでは,トレーニングとホールドアウトの両方でPDを高精度に診断できることがわかった。 入力情報の一部が欠落している場合でも、モデルも良好に機能する。 この研究の結果は、患者の治療やパーキンソン病の早期発見に関する継続的な調査に重要な意味を持つ。 提案モデルは、安静時脳波を用いたPD早期検出のための非侵襲的で信頼性の高い手法として期待できる。

Parkinson's disease (PD), a severe and progressive neurological illness, affects millions of individuals worldwide. For effective treatment and management of PD, an accurate and early diagnosis is crucial. This study presents a deep learning-based model for the diagnosis of PD using resting state electroencephalogram (EEG) signal. The objective of the study is to develop an automated model that can extract complex hidden nonlinear features from EEG and demonstrate its generalizability on unseen data. The model is designed using a hybrid model, consists of convolutional neural network (CNN), bidirectional gated recurrent unit (Bi-GRU), and attention mechanism. The proposed method is evaluated on three public datasets (Uc San Diego Dataset, PRED-CT, and University of Iowa (UI) dataset), with one dataset used for training and the other two for evaluation. The results show that the proposed model can accurately diagnose PD with high performance on both the training and hold-out datasets. The model also performs well even when some part of the input information is missing. The results of this work have significant implications for patient treatment and for ongoing investigations into the early detection of Parkinson's disease. The suggested model holds promise as a non-invasive and reliable technique for PD early detection utilizing resting state EEG.
翻訳日:2023-08-16 14:48:42 公開日:2023-08-14
# 多体量子雪崩モデルと超音波ランダム行列モデルとの類似性

Similarity between a many-body quantum avalanche model and the ultrametric random matrix model ( http://arxiv.org/abs/2308.07431v1 )

ライセンス: Link先を確認
Jan \v{S}untajs, Miroslav Hopjan, Wojciech De Roeck, Lev Vidmar(参考訳) エルゴディディティ破砕相の分野では、量子雪崩は幅広い障害強度で多体局在を不安定にすることができることが認識されている。 これは、しばしば単に'avalanche model' あるいは'quantum sun model' (Phys. Rev. Lett. 129, 060602 (2022)) と呼ばれる、完全に局在した物質に結合したエルゴード種からなる玩具モデルの数値的研究によって証明されている。 本稿では,この玩具モデルとランダム行列理論におけるよく研究されたモデル,超計量アンサンブルを接続する。 モデルは以下の特徴を共有していると推測する。 1)臨界点の位置は分析によって急激に予測される。 2) 局所化部位では, 両モデルともフォック空間の局在を示す。 3) 臨界点の多様体が存在する。 臨界多様体上では、固有ベクトルは多様体上で動くことで調整できる非自明な多フラクタル挙動を示す。 4) スペクトル統計量はポアソン統計とランダム行列統計の中間であり、臨界多様体上でも調整可能である。 これらの特性を数値的に確認する。

In the field of ergodicity-breaking phases, it has been recognized that quantum avalanches can destabilize many-body localization at a wide range of disorder strengths. This has in particular been demonstrated by the numerical study of a toy model, sometimes simply called the ''avalanche model'' or the ''quantum sun model'' [Phys. Rev. Lett. 129, 060602 (2022)], which consists of an ergodic seed coupled to a perfectly localized material. In this paper, we connect this toy model to a well-studied model in random matrix theory, the ultrametric ensemble. We conjecture that the models share the following features. 1) The location of the critical point is predicted sharply by analytics. 2) On the localized site, both models exhibit Fock space localization. 3) There is a manifold of critical points. On the critical manifold, the eigenvectors exhibit nontrivial multifractal behaviour that can be tuned by moving on the manifold. 4) The spectral statistics is intermediate between Poisson statistics and random matrix statistics, also tunable on the critical manifold. We confirm numerically these properties.
翻訳日:2023-08-16 14:48:00 公開日:2023-08-14
# ニューラルソースコード要約のための意味的類似性損失

Semantic Similarity Loss for Neural Source Code Summarization ( http://arxiv.org/abs/2308.07429v1 )

ライセンス: Link先を確認
Chia-Yi Su and Collin McMillan(参考訳) 本稿では,ニューラルネットワークの要約における損失関数の改善について述べる。 コード要約は、ソースコードの自然言語記述を記述するタスクである。 ニューラルコード要約(neural code summarization)は、ニューラルネットワークを使用してこれらの記述を生成する自動化技術である。 現在のほとんどのアプローチは、ニューラルネットワークをスタンドアロンモデルまたはGPT、Codex、LLaMAなどの事前訓練された大規模言語モデルの一部として含む。 しかし、ほとんどの場合、ネットワーク最適化にカテゴリクロスエントロピー(CCE)損失関数を使用する。 CCEの2つの問題は 1)全文を評価するのではなく,各単語を1対1で予測する損失を計算する。 2) 完全予測が必要であり、同義語の部分的信用の余地は残っていない。 この問題を緩和するための損失関数を提案し,評価する。 そこで本研究では,各単語に対する損失ではなく,訓練バッチ毎の出力文予測全体の損失を計算するための意味的類似度指標を提案する。 また,学習過程をベースラインと比較し,学習過程の合理化を図るため,各単語に対する従来のCCEと組み合わせることを提案する。 我々は,いくつかのベースラインに対するアプローチを評価し,ほとんどの条件の改善を報告した。

This paper presents an improved loss function for neural source code summarization. Code summarization is the task of writing natural language descriptions of source code. Neural code summarization refers to automated techniques for generating these descriptions using neural networks. Almost all current approaches involve neural networks as either standalone models or as part of a pretrained large language models e.g., GPT, Codex, LLaMA. Yet almost all also use a categorical cross-entropy (CCE) loss function for network optimization. Two problems with CCE are that 1) it computes loss over each word prediction one-at-a-time, rather than evaluating a whole sentence, and 2) it requires a perfect prediction, leaving no room for partial credit for synonyms. We propose and evaluate a loss function to alleviate this problem. In essence, we propose to use a semantic similarity metric to calculate loss over the whole output sentence prediction per training batch, rather than just loss for each word. We also propose to combine our loss with traditional CCE for each word, which streamlines the training process compared to baselines. We evaluate our approach over several baselines and report an improvement in the vast majority of conditions.
翻訳日:2023-08-16 14:47:31 公開日:2023-08-14
# O-1: Oracleによる自己学習と1-best仮説

O-1: Self-training with Oracle and 1-best Hypothesis ( http://arxiv.org/abs/2308.07486v1 )

ライセンス: Link先を確認
Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Kartik Audhkhasi(参考訳) 学習バイアスを低減し,音声認識のための訓練・評価指標を統一した,新しい自己学習目標であるo-1を提案する。 O-1 は期待最小ベイズリスク (EMBR) のより高速な変種であり、オラクル仮説を促進し、教師なしデータと教師なしデータの両方に対応できる。 提案手法の有効性を,公開されているSpeechStewデータセットと大規模社内データセットの認識の観点から実証する。 Speechstew では,O-1 の目標は,そのギャップを 43 % に橋渡しする EMBR と比較して,実際の性能とオラクル性能のギャップを 80 % 縮める。 o-1 は speechstew が構成する様々なデータセット上の embr に対する 13\% から 25\% の相対的改善を達成し、社内データセットでの embr トレーニングに対する oracle wer に対する 12\% の相対的ギャップ削減を達成している。 全体として、O-1 は EMBR よりも WER が 9 % 向上する結果となり、大規模なデータセットに対して提案された目的のスケーラビリティに言及する。

We introduce O-1, a new self-training objective to reduce training bias and unify training and evaluation metrics for speech recognition. O-1 is a faster variant of Expected Minimum Bayes Risk (EMBR), that boosts the oracle hypothesis and can accommodate both supervised and unsupervised data. We demonstrate the effectiveness of our approach in terms of recognition on publicly available SpeechStew datasets and a large-scale, in-house data set. On Speechstew, the O-1 objective closes the gap between the actual and oracle performance by 80\% relative compared to EMBR which bridges the gap by 43\% relative. O-1 achieves 13\% to 25\% relative improvement over EMBR on the various datasets that SpeechStew comprises of, and a 12\% relative gap reduction with respect to the oracle WER over EMBR training on the in-house dataset. Overall, O-1 results in a 9\% relative improvement in WER over EMBR, thereby speaking to the scalability of the proposed objective for large-scale datasets.
翻訳日:2023-08-16 14:41:37 公開日:2023-08-14
# ハイパースペクトル材料分析による宇宙物体の同定と分類

Space Object Identification and Classification from Hyperspectral Material Analysis ( http://arxiv.org/abs/2308.07481v1 )

ライセンス: Link先を確認
Massimiliano Vasile, Lewis Walker, Andrew Campbell, Simao Marto, Paul Murray, Stephen Marshall, and Vasili Savitski(参考訳) 本稿では,未知空間オブジェクトのハイパースペクトルシグネチャから情報を抽出するデータ処理パイプラインを提案する。 本稿では,単一画素画像から空間オブジェクトの物質組成を決定する手法を提案する。 素材の識別と分類には2つの手法が用いられており、1つは機械学習に基づいており、もう1つは既知のスペクトルのライブラリーと最小の正方形マッチングに基づいている。 この情報から、教師付き機械学習アルゴリズムを用いて、オブジェクト上の材料の検出に基づいて、オブジェクトを複数のカテゴリの1つに分類する。 非理想的条件下での材料分類手法の挙動を調査し, 風化物質の影響を判定し, 観測対象に存在する物質を学習図書館が欠落した場合の挙動について検討した。 最後に,空間オブジェクトの同定と分類に関する予備的な結果について述べる。

This paper presents a data processing pipeline designed to extract information from the hyperspectral signature of unknown space objects. The methodology proposed in this paper determines the material composition of space objects from single pixel images. Two techniques are used for material identification and classification: one based on machine learning and the other based on a least square match with a library of known spectra. From this information, a supervised machine learning algorithm is used to classify the object into one of several categories based on the detection of materials on the object. The behaviour of the material classification methods is investigated under non-ideal circumstances, to determine the effect of weathered materials, and the behaviour when the training library is missing a material that is present in the object being observed. Finally the paper will present some preliminary results on the identification and classification of space objects.
翻訳日:2023-08-16 14:41:16 公開日:2023-08-14
# ocdaf:自己回帰フローによる順序因果発見

OCDaf: Ordered Causal Discovery with Autoregressive Flows ( http://arxiv.org/abs/2308.07480v1 )

ライセンス: Link先を確認
Hamidreza Kamkari, Vahid Zehtab, Vahid Balazadeh, Rahul G. Krishnan(参考訳) OCDafは観測データから因果グラフを学習するための新しい順序に基づく手法である。 非定常雑音分散を可能にする付加雑音モデルの一般化である多変量ヘテロシドスティックノイズモデルにおける因果グラフの同定可能性を確立する。 これらのモデルとアフィン自己回帰正規化フローの構造的類似性に基づき,因果構造を見つけるための連続探索アルゴリズムを提案する。 本実験は, 構造ハミング距離 (SHD) と構造干渉距離 (SID) において, Sachs および SynTReN ベンチマークの最先端性能を示す。 さらに, 種々のパラメトリックおよび非パラメトリック合成データセットの識別可能性理論を検証し, 既存のベースラインと比較して優れた性能を示す。

We propose OCDaf, a novel order-based method for learning causal graphs from observational data. We establish the identifiability of causal graphs within multivariate heteroscedastic noise models, a generalization of additive noise models that allow for non-constant noise variances. Drawing upon the structural similarities between these models and affine autoregressive normalizing flows, we introduce a continuous search algorithm to find causal structures. Our experiments demonstrate state-of-the-art performance across the Sachs and SynTReN benchmarks in Structural Hamming Distance (SHD) and Structural Intervention Distance (SID). Furthermore, we validate our identifiability theory across various parametric and nonparametric synthetic datasets and showcase superior performance compared to existing baselines.
翻訳日:2023-08-16 14:41:03 公開日:2023-08-14
# 確率的MIMO U-Net: 画素回帰の効率的かつ高精度不確かさ推定

Probabilistic MIMO U-Net: Efficient and Accurate Uncertainty Estimation for Pixel-wise Regression ( http://arxiv.org/abs/2308.07477v1 )

ライセンス: Link先を確認
Anton Baumann, Thomas Ro{\ss}berg, Michael Schmitt(参考訳) 機械学習における不確実性推定は、予測モデルの信頼性と解釈可能性を高めるための最重要である。 多くの手法が利用可能であるにもかかわらず、不確実性推定の品質と計算効率のトレードオフを引き起こすことが多い。 この課題に対処するために、深層ニューラルネットワークの過度パラメータ化を利用するアプローチであるMultiple-Input Multiple-Output (MIMO)フレームワークをピクセルワイド回帰タスクに適用する。 我々のMIMOは、単純な画像分類からより広いコンピュータビジョン領域へのアプローチの適用性を拡大する。 その目的のために、U-Netアーキテクチャを1つのモデル内で複数のサブネットワークをトレーニングするために適用し、ディープニューラルネットワークのオーバーパラメータ化を利用した。 さらに,MIMOフレームワーク内でサブネットワーク性能を同期する新しい手法を提案する。 2つの直交データセットにおけるmimo u-netの包括的評価により、既存のモデルと同等の精度、分散データに対する優れたキャリブレーション、ロバストな分散検出能力、パラメータサイズと推論時間の大幅な改善が示された。 github.com/antonbaumann/MIMO-Unetで利用可能なコード

Uncertainty estimation in machine learning is paramount for enhancing the reliability and interpretability of predictive models, especially in high-stakes real-world scenarios. Despite the availability of numerous methods, they often pose a trade-off between the quality of uncertainty estimation and computational efficiency. Addressing this challenge, we present an adaptation of the Multiple-Input Multiple-Output (MIMO) framework -- an approach exploiting the overparameterization of deep neural networks -- for pixel-wise regression tasks. Our MIMO variant expands the applicability of the approach from simple image classification to broader computer vision domains. For that purpose, we adapted the U-Net architecture to train multiple subnetworks within a single model, harnessing the overparameterization in deep neural networks. Additionally, we introduce a novel procedure for synchronizing subnetwork performance within the MIMO framework. Our comprehensive evaluations of the resulting MIMO U-Net on two orthogonal datasets demonstrate comparable accuracy to existing models, superior calibration on in-distribution data, robust out-of-distribution detection capabilities, and considerable improvements in parameter size and inference time. Code available at github.com/antonbaumann/MIMO-Unet
翻訳日:2023-08-16 14:40:48 公開日:2023-08-14
# 交響曲:集中オーケストレーションを用いた最適化モデル実行

Symphony: Optimized Model Serving using Centralized Orchestration ( http://arxiv.org/abs/2308.07470v1 )

ライセンス: Link先を確認
Lequn Chen, Weixin Deng, Anirudh Canumalla, Yu Xin, Matthai Philipose, Arvind Krishnamurthy(参考訳) GPUクラスタ上でのディープニューラルネットワーク(DNN)モデル推論のオーケストレーションは、レイテンシサービスレベル目標(SLO)を満たしている間、モデル推論のバッチ特性を考慮し、高いアクセラレータ効率を達成すること、短期的変動と長期的リソース割り当ての両方の観点からワークロードの変化に適応すること、という2つの大きな課題を示す。 これらの課題に対処するため、Symphonyは、毎秒数百万のリクエストにスケールでき、数万のGPUをコーディネートできる集中型スケジューリングシステムである。 本システムは,高バッチ効率を実現するとともに,堅牢な自動スケーリングを実現することができる非保守型スケジューリングアルゴリズムを利用する。 さらに,モデルの計算とメモリ要求に基づいて,サブクラスタにモデルを割り当てるエポックスケールアルゴリズムを開発した。 広範な実験を通じて、交響楽は最大4.7倍の精度で以前のシステムを上回ることを実証する。

The orchestration of deep neural network (DNN) model inference on GPU clusters presents two significant challenges: achieving high accelerator efficiency given the batching properties of model inference while meeting latency service level objectives (SLOs), and adapting to workload changes both in terms of short-term fluctuations and long-term resource allocation. To address these challenges, we propose Symphony, a centralized scheduling system that can scale to millions of requests per second and coordinate tens of thousands of GPUs. Our system utilizes a non-work-conserving scheduling algorithm capable of achieving high batch efficiency while also enabling robust autoscaling. Additionally, we developed an epoch-scale algorithm that allocates models to sub-clusters based on the compute and memory needs of the models. Through extensive experiments, we demonstrate that Symphony outperforms prior systems by up to 4.7x higher goodput.
翻訳日:2023-08-16 14:40:26 公開日:2023-08-14
# オメガレギュラー報酬機

Omega-Regular Reward Machines ( http://arxiv.org/abs/2308.07469v1 )

ライセンス: Link先を確認
Ernst Moritz Hahn, Mateo Perez, Sven Schewe, Fabio Somenzi, Ashutosh Trivedi, Dominik Wojtczak(参考訳) 強化学習(Reinforcement Learning, RL)は、訓練エージェントがタスクを実行するための強力なアプローチであるが、適切な報酬メカニズムを設計することは、その成功に不可欠である。 しかし、多くの場合、学習目的の複雑さはマルコフの仮定の能力を超え、より洗練された報酬機構を必要とする。 逆機械(Reward machine)とオメガ正則言語(omega-regular language)は、量的目的と定性的目的に対する非マルコフ的報酬を表現するために用いられる2つの形式主義である。 本稿では,報酬機械とオメガレギュラー言語を統合し,rlの表現力と効果的な報酬機構を実現するオメガレギュラー報酬機を提案する。 本稿では,オメガエグジュラル報酬機に対するエプシロン最適戦略を計算し,実験により提案アルゴリズムの有効性を評価するためのモデルフリーなRLアルゴリズムを提案する。

Reinforcement learning (RL) is a powerful approach for training agents to perform tasks, but designing an appropriate reward mechanism is critical to its success. However, in many cases, the complexity of the learning objectives goes beyond the capabilities of the Markovian assumption, necessitating a more sophisticated reward mechanism. Reward machines and omega-regular languages are two formalisms used to express non-Markovian rewards for quantitative and qualitative objectives, respectively. This paper introduces omega-regular reward machines, which integrate reward machines with omega-regular languages to enable an expressive and effective reward mechanism for RL. We present a model-free RL algorithm to compute epsilon-optimal strategies against omega-egular reward machines and evaluate the effectiveness of the proposed algorithm through experiments.
翻訳日:2023-08-16 14:40:07 公開日:2023-08-14
# 深いkoopman演算子制約による3次元歩行認識のためのトレーニング要求の低減

Reducing Training Demands for 3D Gait Recognition with Deep Koopman Operator Constraints ( http://arxiv.org/abs/2308.07468v1 )

ライセンス: Link先を確認
Cole Hill, Mauricio Pamplona Segundo, Sudeep Sarkar(参考訳) ディープラーニングの研究により、多くの生体認証ソリューションが実現可能になったが、現実世界の一般化を達成するには膨大なトレーニングデータが必要である。 顔や耳などの他の生体特性とは異なり、歩行サンプルはウェブから簡単にクロールして膨大な制約のないデータセットを形成することはできない。 人体は様々なデジタル応用のために広範囲に研究されているため、データの不足を克服するために事前形状の知識に頼ることができる。 この研究は、ディープニューラルネットワークを用いた3次元変形可能なボディモデルを歩行ビデオに適合させ、各フレームの絡み合い形状とポーズ表現を得る最近のトレンドに従っている。 ネットワークの時間的一貫性を強制するために,新しい線形力学系 (lds) モジュールとクープマン作用素理論に基づく損失を導入し,歩行の周期的性質に対する教師なし運動正規化と,歩行系列の拡張のための予測能力を提供する。 ldsを従来の敵対的トレーニング手法と比較し,usf humanid と casia-b データセットを用いて,より少ないトレーニングデータで精度が得られることを示す。 また,私たちの3dモデリング手法は他の3d歩行法よりも,正常,バッグキャリー,衣料品交換条件下での視点変動を克服する上ではるかに優れていることも示しています。

Deep learning research has made many biometric recognition solution viable, but it requires vast training data to achieve real-world generalization. Unlike other biometric traits, such as face and ear, gait samples cannot be easily crawled from the web to form massive unconstrained datasets. As the human body has been extensively studied for different digital applications, one can rely on prior shape knowledge to overcome data scarcity. This work follows the recent trend of fitting a 3D deformable body model into gait videos using deep neural networks to obtain disentangled shape and pose representations for each frame. To enforce temporal consistency in the network, we introduce a new Linear Dynamical Systems (LDS) module and loss based on Koopman operator theory, which provides an unsupervised motion regularization for the periodic nature of gait, as well as a predictive capacity for extending gait sequences. We compare LDS to the traditional adversarial training approach and use the USF HumanID and CASIA-B datasets to show that LDS can obtain better accuracy with less training data. Finally, we also show that our 3D modeling approach is much better than other 3D gait approaches in overcoming viewpoint variation under normal, bag-carrying and clothing change conditions.
翻訳日:2023-08-16 14:39:51 公開日:2023-08-14
# デジタルアートの歴史があります

There Is a Digital Art History ( http://arxiv.org/abs/2308.07464v1 )

ライセンス: Link先を確認
Leonardo Impett and Fabian Offert(参考訳) 本稿では、大規模なトランスフォーマーベースの視覚モデルが出現する中で、Johanna Drucker氏の質問「デジタルアートの歴史は存在するか?」を再考する。 より伝統的なタイプのニューラルネットワークは、デジタルアートの歴史の一部であり、デジタルヒューマニティのプロジェクトは、最近トランスフォーマーモデルの使用を開始したが、その認識論的意味と方法論的余裕はまだ体系的に分析されていない。 我々は,Druckerが持つ「デジタル」美術史へのパラダイムシフトを示唆する2つの主要な側面に着目した分析を行った。 一方,大規模視覚モデルで新たに符号化された視覚文化レパートリーは,デジタル美術史に大きな影響を与えている。 多数の非フォトグラフィック画像を含むことで、異なる形式のビジュアルロジックの抽出と自動化が可能になる。 大規模視覚モデルは、ネットの視覚文化を媒介とする西洋の視覚キヤノンの大部分を「知覚」しており、デジタル生活のあらゆる面においてすでに広く使われている応用を通じて、キヤノンを連続的に強化し、具現化している。 一方,同時代の大規模視覚モデルを用いた2つの技術的ケーススタディに基づいて,芸術史・都市主義の分野からの基本的疑問を考察し,モデルとその応用の疫学的な絡み合いを考慮に入れた新たな批判的方法論が必要であることを示唆する。 この新たな方法論は、ニューラルネットワークのトレーニングデータを通じてコーパスを読み、その逆も、研究データセットとトレーニングデータセットの視覚的イデオロギーが絡み合うようになる。

In this paper, we revisit Johanna Drucker's question, "Is there a digital art history?" -- posed exactly a decade ago -- in the light of the emergence of large-scale, transformer-based vision models. While more traditional types of neural networks have long been part of digital art history, and digital humanities projects have recently begun to use transformer models, their epistemic implications and methodological affordances have not yet been systematically analyzed. We focus our analysis on two main aspects that, together, seem to suggest a coming paradigm shift towards a "digital" art history in Drucker's sense. On the one hand, the visual-cultural repertoire newly encoded in large-scale vision models has an outsized effect on digital art history. The inclusion of significant numbers of non-photographic images allows for the extraction and automation of different forms of visual logics. Large-scale vision models have "seen" large parts of the Western visual canon mediated by Net visual culture, and they continuously solidify and concretize this canon through their already widespread application in all aspects of digital life. On the other hand, based on two technical case studies of utilizing a contemporary large-scale visual model to investigate basic questions from the fields of art history and urbanism, we suggest that such systems require a new critical methodology that takes into account the epistemic entanglement of a model and its applications. This new methodology reads its corpora through a neural model's training data, and vice versa: the visual ideologies of research datasets and training datasets become entangled.
翻訳日:2023-08-16 14:39:28 公開日:2023-08-14
# 言葉遊び:ChatGPTと人間における語彙と語彙の富度の比較

Playing with Words: Comparing the Vocabulary and Lexical Richness of ChatGPT and Humans ( http://arxiv.org/abs/2308.07462v1 )

ライセンス: Link先を確認
Pedro Reviriego, Javier Conde, Elena Merino-G\'omez, Gonzalo Mart\'inez, Jos\'e Alberto Hern\'andez(参考訳) GPT(Generative Pre-trained Transformer)のような人工知能(AI)生成言語モデルの導入と、ChatGPTのようなツールが、テキストの生成方法を変える革命を引き起こした。 例えば、AI生成されたテキストが多くの分野においてテキストのかなりの部分を占めるようになると、これは読者の言語能力や、新しいAIツールのトレーニングに影響を及ぼすだろうか? 言語の進化に影響を与えますか? 単語;chatgptのようなツールの使用は、特定のテキストを書く際に使用される語彙や語彙の豊かさ(文章や口頭で使われる異なる単語の数と解釈される)を増加または減少させるだろうか? これは、AI生成コンテンツに含まれないコンテンツは、人気が減り、最終的には失われる傾向があるため、言葉に影響を及ぼす。 そこで本研究では,ChatGPTとヒトの語彙と語彙の富度を,同じタスクを行う場合の初期比較を行った。 より詳しくは、chatgptと人間によって回答された異なる種類の質問に対する回答を含む2つのデータセットを使用し、分析により、chatgptは、人間よりも明確な単語が少なく、語彙豊かさが低い傾向があることが示されている。 これらの結果は極めて予備的であり、追加のデータセットとChatGPT構成はより一般的な結論を抽出するために評価されなければならない。 したがって、ChatGPTやより広範囲に生成するAIツールの使用が、異なるタイプのテキストや言語における語彙や語彙の豊かさにどのように影響するかを理解するためには、さらなる研究が必要である。

The introduction of Artificial Intelligence (AI) generative language models such as GPT (Generative Pre-trained Transformer) and tools such as ChatGPT has triggered a revolution that can transform how text is generated. This has many implications, for example, as AI-generated text becomes a significant fraction of the text in many disciplines, would this have an effect on the language capabilities of readers and also on the training of newer AI tools? Would it affect the evolution of languages? Focusing on one specific aspect of the language: words; will the use of tools such as ChatGPT increase or reduce the vocabulary used or the lexical richness (understood as the number of different words used in a written or oral production) when writing a given text? This has implications for words, as those not included in AI-generated content will tend to be less and less popular and may eventually be lost. In this work, we perform an initial comparison of the vocabulary and lexical richness of ChatGPT and humans when performing the same tasks. In more detail, two datasets containing the answers to different types of questions answered by ChatGPT and humans are used, and the analysis shows that ChatGPT tends to use fewer distinct words and lower lexical richness than humans. These results are very preliminary and additional datasets and ChatGPT configurations have to be evaluated to extract more general conclusions. Therefore, further research is needed to understand how the use of ChatGPT and more broadly generative AI tools will affect the vocabulary and lexical richness in different types of text and languages.
翻訳日:2023-08-16 14:39:01 公開日:2023-08-14
# スマートトランスポーテーションのための人工知能

Artificial Intelligence for Smart Transportation ( http://arxiv.org/abs/2308.07457v1 )

ライセンス: Link先を確認
Michael Wilbur, Amutheezan Sivagnanam, Afiya Ayman, Samitha Samaranayeke, Abhishek Dubey, Aron Laszka(参考訳) 米国には7000以上の公共交通機関があり(さらに多くの民間機関)、同時に年間600億マイルの旅客を運行している。 十分に機能する交通システムは、事業の成長と拡大を促進し、社会と経済の利益を分配し、コミュニティメンバーの能力を結びつけ、社会として達成できるものを強化する。 安価な公共交通サービスが多くのコミュニティのバックボーンであるため、この研究は、交通機関の観点から人工知能(AI)が効率を向上し、利用率を高める方法を調査する。 本章では,AI駆動型スマートトランスポートシステムの設計に関する要件,目的,課題について論じる。 主なトピックは3つです。 まず、データソースとデータについて論じる。 第2に、輸送に焦点を当てたAIが意思決定にどう役立つかの概要を提供する。 最後に、交通分野における計算問題とこれらの問題に対するaiアプローチについて論じる。

There are more than 7,000 public transit agencies in the U.S. (and many more private agencies), and together, they are responsible for serving 60 billion passenger miles each year. A well-functioning transit system fosters the growth and expansion of businesses, distributes social and economic benefits, and links the capabilities of community members, thereby enhancing what they can accomplish as a society. Since affordable public transit services are the backbones of many communities, this work investigates ways in which Artificial Intelligence (AI) can improve efficiency and increase utilization from the perspective of transit agencies. This book chapter discusses the primary requirements, objectives, and challenges related to the design of AI-driven smart transportation systems. We focus on three major topics. First, we discuss data sources and data. Second, we provide an overview of how AI can aid decision-making with a focus on transportation. Lastly, we discuss computational problems in the transportation domain and AI approaches to these problems.
翻訳日:2023-08-16 14:38:34 公開日:2023-08-14
# SpecTracle:目立たない周辺カメラの顔の動き追跡機能

SpecTracle: Wearable Facial Motion Tracking from Unobtrusive Peripheral Cameras ( http://arxiv.org/abs/2308.07502v1 )

ライセンス: Link先を確認
Yinan Xuan, Varun Viswanath, Sunny Chu, Owen Bartolf, Jessica Echterhoff, and Edward Wang(参考訳) ヘッドマウントディスプレイ(HMD)における顔の動き追跡は、仮想環境において没入的な「対面」インタラクションを可能にする可能性がある。 しかし、現在の顔追跡の研究は、邪魔にならない拡張現実(AR)メガネや、任意の顔の動きを追跡する能力に適していない。 本研究では,ホロレンスのバイザーのすぐ隣に設置された広角カメラ2台を用いて,ユーザの顔の動きを追跡するSpecTracleというシステムを紹介する。 顔の前面にカメラが伸びるのを避けるため、本システムはフルフェイストラッキングを低名なフォームファクタに統合する可能性を大幅に向上させる。 また、広角カメラを処理するニューラルネットワークベースのモデルが、モバイルGPU上で毎秒24フレーム(fps)でリアルタイムに動作し、ユーザ非依存のモデルで顔の異なる部分の独立した顔の動きを追跡することを実証した。 パーソナライズされたキャリブレーションを用いて、ユーザに依存しないモデルと比較してトラッキング性能を42.3%改善する。

Facial motion tracking in head-mounted displays (HMD) has the potential to enable immersive "face-to-face" interaction in a virtual environment. However, current works on facial tracking are not suitable for unobtrusive augmented reality (AR) glasses or do not have the ability to track arbitrary facial movements. In this work, we demonstrate a novel system called SpecTracle that tracks a user's facial motions using two wide-angle cameras mounted right next to the visor of a Hololens. Avoiding the usage of cameras extended in front of the face, our system greatly improves the feasibility to integrate full-face tracking into a low-profile form factor. We also demonstrate that a neural network-based model processing the wide-angle cameras can run in real-time at 24 frames per second (fps) on a mobile GPU and track independent facial movement for different parts of the face with a user-independent model. Using a short personalized calibration, the system improves its tracking performance by 42.3% compared to the user-independent model.
翻訳日:2023-08-16 14:29:49 公開日:2023-08-14
# 人工知能によるオンラインアンケートの腐敗の検出

Detecting The Corruption Of Online Questionnaires By Artificial Intelligence ( http://arxiv.org/abs/2308.07499v1 )

ライセンス: Link先を確認
Benjamin Lebrun, Sharon Temtsin, Andrew Vonasch, Christoph Bartneck(参考訳) クラウドソーシングプラットフォームを使って参加者を募集するオンラインアンケートは、使いやすさとコストの低さから一般的になっている。 人工知能(AI)ベースのLarge Language Models(LLM)は、悪いアクターがオンラインフォームに自動的に記入できるようにする。 これらの技術進歩は、オンラインアンケートを用いた研究におけるデータ品質を脅かす。 オンライン研究のためにAIが生成したテキストが、人間と自動AI検出システムの両方で検出できるかどうかをテストする。 人間はチャンスレベル以上のテキストのオーサリングを正確に識別することができた(精度76パーセント)が、そのパフォーマンスは、満足のいくデータ品質を保証するために必要となるものよりは低かった。 現在研究者は、データ品質を確保するための有用なツールとしてオープンエンドレスポンスをうまく使うために、悪役の不利益に頼る必要がある。 自動ai検出システムは、現在完全に使用できない。 もしAIが回答を提出するのに普及しすぎると、不正な投稿を検出するコストはオンラインアンケートの利点を上回ることになる。 個々の注意チェックは、データの品質を確保するための十分なツールではなくなります。 この問題はクラウドソーシングプラットフォームによってのみ体系的に対処できる。 彼らは自動AI検出システムに頼ることができず、有料クライアントのデータ品質をどうやって保証できるかは不明だ。

Online questionnaires that use crowd-sourcing platforms to recruit participants have become commonplace, due to their ease of use and low costs. Artificial Intelligence (AI) based Large Language Models (LLM) have made it easy for bad actors to automatically fill in online forms, including generating meaningful text for open-ended tasks. These technological advances threaten the data quality for studies that use online questionnaires. This study tested if text generated by an AI for the purpose of an online study can be detected by both humans and automatic AI detection systems. While humans were able to correctly identify authorship of text above chance level (76 percent accuracy), their performance was still below what would be required to ensure satisfactory data quality. Researchers currently have to rely on the disinterest of bad actors to successfully use open-ended responses as a useful tool for ensuring data quality. Automatic AI detection systems are currently completely unusable. If AIs become too prevalent in submitting responses then the costs associated with detecting fraudulent submissions will outweigh the benefits of online questionnaires. Individual attention checks will no longer be a sufficient tool to ensure good data quality. This problem can only be systematically addressed by crowd-sourcing platforms. They cannot rely on automatic AI detection systems and it is unclear how they can ensure data quality for their paying clients.
翻訳日:2023-08-16 14:29:29 公開日:2023-08-14
# DREAMWALKER:連続視覚言語ナビゲーションのためのメンタルプランニング

DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation ( http://arxiv.org/abs/2308.07498v1 )

ライセンス: Link先を確認
Hanqing Wang, Wei Liang, Luc Van Gool, Wenguan Wang(参考訳) VLN-CEは先日リリースされた実施型タスクで、AIエージェントが自由に移動可能な環境をナビゲートする必要がある。 これは可能な戦略の巨大な空間のために大きな課題となる。 知的かつ解釈可能な計画行動の出現には,今後の行動の結果を予測できる能力が不可欠であるという考えから,世界モデルに基づくVLN-CEエージェントであるDREAMWALKERを提案する。 世界モデルは、複雑な連続環境の視覚的、トポロジカル、動的特性を離散的で構造化され、コンパクトな表現にまとめるために構築されている。 DREAMWALKERは、コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。 既存のモデルフリーのVLN-CEエージェントが現実世界で欲張りな決定を下すのに対して、DREAMWALKERは大量の実験を通じて戦略的な計画を立てることができる。 さらに、将来のシナリオはエージェントの意図を反映し、意思決定プロセスをより透明にします。 VLN-CEデータセットの大規模実験とアブレーション研究により,提案手法の有効性を確認し,今後の研究に向けた実りある方向性を概説する。

VLN-CE is a recently released embodied task, where AI agents need to navigate a freely traversable environment to reach a distant target location, given language instructions. It poses great challenges due to the huge space of possible strategies. Driven by the belief that the ability to anticipate the consequences of future actions is crucial for the emergence of intelligent and interpretable planning behavior, we propose DREAMWALKER -- a world model based VLN-CE agent. The world model is built to summarize the visual, topological, and dynamic properties of the complicated continuous environment into a discrete, structured, and compact representation. DREAMWALKER can simulate and evaluate possible plans entirely in such internal abstract world, before executing costly actions. As opposed to existing model-free VLN-CE agents simply making greedy decisions in the real world, which easily results in shortsighted behaviors, DREAMWALKER is able to make strategic planning through large amounts of ``mental experiments.'' Moreover, the imagined future scenarios reflect our agent's intention, making its decision-making process more transparent. Extensive experiments and ablation studies on VLN-CE dataset confirm the effectiveness of the proposed approach and outline fruitful directions for future work.
翻訳日:2023-08-16 14:29:10 公開日:2023-08-14
# ST-MLP:交通予測のためのチャネル独立戦略を備えた時空間線形フレームワーク

ST-MLP: A Cascaded Spatio-Temporal Linear Framework with Channel-Independence Strategy for Traffic Forecasting ( http://arxiv.org/abs/2308.07496v1 )

ライセンス: Link先を確認
Zepu Wang, Yuqi Nie, Peng Sun, Nam H. Nguyen, John Mulvey, H. Vincent Poor(参考訳) インテリジェントトランスポーテーションシステム(ITS)における交通フロー管理の最適化における迅速かつ正確な交通予測の重要性は、学術的にかなり注目されている。 時空間グラフニューラルネットワーク (STGNN) は, 道路グラフ構造への適応性が高く評価されている。 しかし、STGNNのアーキテクチャに関する現在の研究は、しばしば複雑な設計を優先し、計算負荷が増大し、精度がわずかに向上しただけである。 この問題に対処するために, ケースドマルチ層パーセプトロン(MLP)モジュールと線形層のみに基づく, 簡潔な時空間モデルST-MLPを提案する。 具体的には,時系列予測における効果的な手法であるチャネル独立戦略の実装に成功し,時間情報,空間情報,事前定義されたグラフ構造を取り入れた。 実験の結果,ST-MLPは最先端STGNNと他のモデルよりも精度と計算効率の点で優れていた。 我々の発見は、交通予測の分野でより簡潔で効果的なニューラルネットワークアーキテクチャのさらなる探求を促す。

The criticality of prompt and precise traffic forecasting in optimizing traffic flow management in Intelligent Transportation Systems (ITS) has drawn substantial scholarly focus. Spatio-Temporal Graph Neural Networks (STGNNs) have been lauded for their adaptability to road graph structures. Yet, current research on STGNNs architectures often prioritizes complex designs, leading to elevated computational burdens with only minor enhancements in accuracy. To address this issue, we propose ST-MLP, a concise spatio-temporal model solely based on cascaded Multi-Layer Perceptron (MLP) modules and linear layers. Specifically, we incorporate temporal information, spatial information and predefined graph structure with a successful implementation of the channel-independence strategy - an effective technique in time series forecasting. Empirical results demonstrate that ST-MLP outperforms state-of-the-art STGNNs and other models in terms of accuracy and computational efficiency. Our finding encourages further exploration of more concise and effective neural network architectures in the field of traffic forecasting.
翻訳日:2023-08-16 14:28:48 公開日:2023-08-14
# 各種環境におけるシングルライギッド・ボディ特性の適応的追跡

Adaptive Tracking of a Single-Rigid-Body Character in Various Environments ( http://arxiv.org/abs/2308.07491v1 )

ライセンス: Link先を確認
Taesoo Kwon, Taehong Gu, Jaewon Ahn, Yoonsang Lee(参考訳) DeepMimic[Peng et al. 2018]の導入以来、その後の研究は様々なシナリオでシミュレートされた動きのレパートリーの拡大に焦点を当ててきた。 本研究では,この目標に対する代替手法を提案する。この手法は,物体の単一文字のシミュレーションに基づく深層強化学習手法である。 中心運動力学モデル(CDM)を用いて、全体特性を単一の剛体(SRB)として表現し、基準運動を追跡するためのポリシーを訓練することにより、追加の学習を必要とせず、様々な未観測環境変化や制御遷移に適応可能なポリシーを得ることができる。 状態空間と行動空間の次元が減少しているため、学習プロセスはサンプル効率が良い。 最終全体運動は、シミュレートされたSRBキャラクタの状態に基づいて、物理的に妥当な方法で運動的に生成される。 SRBシミュレーションは、二次プログラミング(QP)問題として定式化され、ポリシーは、SRBキャラクタが参照動作に従うことができるアクションを出力する。 われわれは,超ポータブルノートパソコン上で30分以内に効率よくトレーニングし,不均一な地形を走ったり,箱を押したり,学習方針間の遷移など,学習中に経験されていない環境に対処できることを実証した。

Since the introduction of DeepMimic [Peng et al. 2018], subsequent research has focused on expanding the repertoire of simulated motions across various scenarios. In this study, we propose an alternative approach for this goal, a deep reinforcement learning method based on the simulation of a single-rigid-body character. Using the centroidal dynamics model (CDM) to express the full-body character as a single rigid body (SRB) and training a policy to track a reference motion, we can obtain a policy that is capable of adapting to various unobserved environmental changes and controller transitions without requiring any additional learning. Due to the reduced dimension of state and action space, the learning process is sample-efficient. The final full-body motion is kinematically generated in a physically plausible way, based on the state of the simulated SRB character. The SRB simulation is formulated as a quadratic programming (QP) problem, and the policy outputs an action that allows the SRB character to follow the reference motion. We demonstrate that our policy, efficiently trained within 30 minutes on an ultraportable laptop, has the ability to cope with environments that have not been experienced during learning, such as running on uneven terrain or pushing a box, and transitions between learned policies, without any additional learning.
翻訳日:2023-08-16 14:28:30 公開日:2023-08-14
# BSED: ベースラインシェープ型説明可能な検出器

BSED: Baseline Shapley-Based Explainable Detector ( http://arxiv.org/abs/2308.07490v1 )

ライセンス: Link先を確認
Michihiro Kuroki, Toshihiko Yamasaki(参考訳) 説明可能な人工知能(xai)は、学習モデルの予測に関連する画像の特徴を強調するためにサリエンシーマップが使用されるなど、オブジェクト認識の分野で大きな進歩を遂げている。 これらの進歩により、AIベースのテクノロジーは人間にとってより解釈可能になったが、いくつかの問題が明らかになった。 いくつかのアプローチは予測とは無関係な説明を示し、xai (axioms) の有効性を保証することができない。 本研究では,shapley値から物体検出まで拡張し,解釈の有効性を高めるためのベースラインであるshapley-based explanationable detector (bsed)を提案する。 Shapley値は、学習したモデルの予測を、説明可能性公理を満足しながらベースライン特徴とみなすことができる。 BSEDの処理コストは妥当範囲内であり、元のShapley値は計算コストが禁じられている。 さらに、BSEDはモデルに依存しない方法で様々な検出器に適用できる一般化可能な手法であり、パラメータの微粒化を伴わずに様々な検出対象を解釈できる。 これらの強みは、XAIの実践的適用を可能にする。 本稿では,既存手法と定量的,定性的な比較を行い,提案手法の優れた性能を説明妥当性の観点から示す。 さらに,本手法の解説に基づいて検出を補正するなど,いくつかの応用を提案する。

Explainable artificial intelligence (XAI) has witnessed significant advances in the field of object recognition, with saliency maps being used to highlight image features relevant to the predictions of learned models. Although these advances have made AI-based technology more interpretable to humans, several issues have come to light. Some approaches present explanations irrelevant to predictions, and cannot guarantee the validity of XAI (axioms). In this study, we propose the Baseline Shapley-based Explainable Detector (BSED), which extends the Shapley value to object detection, thereby enhancing the validity of interpretation. The Shapley value can attribute the prediction of a learned model to a baseline feature while satisfying the explainability axioms. The processing cost for the BSED is within the reasonable range, while the original Shapley value is prohibitively computationally expensive. Furthermore, BSED is a generalizable method that can be applied to various detectors in a model-agnostic manner, and interpret various detection targets without fine-grained parameter tuning. These strengths can enable the practical applicability of XAI. We present quantitative and qualitative comparisons with existing methods to demonstrate the superior performance of our method in terms of explanation validity. Moreover, we present some applications, such as correcting detection based on explanations from our method.
翻訳日:2023-08-16 14:28:05 公開日:2023-08-14
# SOTASTREAM: 機械翻訳教育におけるストリーミングアプローチ

SOTASTREAM: A Streaming Approach to Machine Translation Training ( http://arxiv.org/abs/2308.07489v1 )

ライセンス: Link先を確認
Matt Post and Thamme Gowda and Roman Grundkiewicz and Huda Khayrallah and Rohit Jain and Marcin Junczys-Dowmunt(参考訳) 多くの機械翻訳ツールキットは、生データをテンソル形式に変換し、トレーナーが直接使用できるデータ準備ステップを使用している。 このプロセスは、トレーニングデータの静的で変更不能なバージョンを生成し、一般的なトレーニング時間のニーズ(例えば、サブワードサンプリング)、時間消費(大規模なデータによる前処理には数日かかる)、高価な(例えば、ディスクスペース)、そしてカンバーソーム(管理実験コンビネータ)を困難にする。 本稿では,そのデータ消費からデータ生成を分離する代替手法を提案する。 このアプローチでは、別個の前処理ステップはなく、データ生成は、トレーナーがテンソル化して消費する生のトレーニングデータの無限の順列を生成する。 さらに、このデータストリームは、データ正規化、拡張、フィルタリングなどのオンザフライ修正を提供する、一連のユーザ定義可能な演算子によって操作できる。 私たちはこのアプローチを実装したオープンソースツールキットであるsotastreamをリリースします。 トレーニング時間の短縮,柔軟性の向上,実験管理の複雑さの低減,ディスクスペースの削減などが,トレーニングモデルの精度に影響を与えないことを示す。

Many machine translation toolkits make use of a data preparation step wherein raw data is transformed into a tensor format that can be used directly by the trainer. This preparation step is increasingly at odds with modern research and development practices because this process produces a static, unchangeable version of the training data, making common training-time needs difficult (e.g., subword sampling), time-consuming (preprocessing with large data can take days), expensive (e.g., disk space), and cumbersome (managing experiment combinatorics). We propose an alternative approach that separates the generation of data from the consumption of that data. In this approach, there is no separate pre-processing step; data generation produces an infinite stream of permutations of the raw training data, which the trainer tensorizes and batches as it is consumed. Additionally, this data stream can be manipulated by a set of user-definable operators that provide on-the-fly modifications, such as data normalization, augmentation or filtering. We release an open-source toolkit, SOTASTREAM, that implements this approach: https://github.com/marian-nmt/sotastream. We show that it cuts training time, adds flexibility, reduces experiment management complexity, and reduces disk space, all without affecting the accuracy of the trained models.
翻訳日:2023-08-16 14:27:43 公開日:2023-08-14
# 因果的協調フィルタリング

Causal Collaborative Filtering ( http://arxiv.org/abs/2102.01868v5 )

ライセンス: Link先を確認
Shuyuan Xu, Yingqiang Ge, Yunqi Li, Zuohui Fu, Xu Chen, Yongfeng Zhang(参考訳) 従来のレコメンデーションアルゴリズムの多くは、データから相関パターンをマイニングしたり学習したりする基本的な考え方に基づいて設計されている。 しかし、純粋な相関学習はシンプソンの予測のパラドックスにつながる可能性があり、その結果、推奨性能が犠牲になる。 シンプソンのパラドックスはよく知られた統計現象であり、統計的な結論の混乱を引き起こし、パラドックスを無視して不正確な決定を下す。 幸いなことに、因果的および反事実的モデリングは、ユーザーモデリングとパーソナライズのために観察データの外を考えるのに役立つ。 本稿では,コラボレーティブフィルタリングとレコメンデーションの因果関係をモデル化するための汎用フレームワークであるcausal collaborative filtering (ccf)を提案する。 我々は、CFの統一因果ビューを提供し、従来のCFアルゴリズムの多くは、単純化因果グラフの下で実際にCCFの特別なケースであることを示す。 次に,$do$操作に対する条件付き介入手法を提案し,観察データに基づいてユーザ・項目の因果関係を推定する。 最後に,ユーザの嗜好を推定する汎用の対物制約学習フレームワークを提案する。 従来型とランダム型の2種類の実世界のデータセットについて実験を行い,提案手法が推薦性能を改善し,多くのcfアルゴリズムにおけるシンプソンのパラドックス問題を低減できることを示した。

Many of the traditional recommendation algorithms are designed based on the fundamental idea of mining or learning correlative patterns from data to estimate the user-item correlative preference. However, pure correlative learning may lead to Simpson's paradox in predictions, and thus results in sacrificed recommendation performance. Simpson's paradox is a well-known statistical phenomenon, which causes confusions in statistical conclusions and ignoring the paradox may result in inaccurate decisions. Fortunately, causal and counterfactual modeling can help us to think outside of the observational data for user modeling and personalization so as to tackle such issues. In this paper, we propose Causal Collaborative Filtering (CCF) -- a general framework for modeling causality in collaborative filtering and recommendation. We provide a unified causal view of CF and mathematically show that many of the traditional CF algorithms are actually special cases of CCF under simplified causal graphs. We then propose a conditional intervention approach for $do$-operations so that we can estimate the user-item causal preference based on the observational data. Finally, we further propose a general counterfactual constrained learning framework for estimating the user-item preferences. Experiments are conducted on two types of real-world datasets -- traditional and randomized trial data -- and results show that our framework can improve the recommendation performance and reduce the Simpson's paradox problem of many CF algorithms.
翻訳日:2023-08-16 00:01:42 公開日:2023-08-14
# 雑音によるレバレッジマトリックス補完

Leveraged Matrix Completion with Noise ( http://arxiv.org/abs/2011.05885v2 )

ライセンス: Link先を確認
Xinjian Huang and Weiwei Liu and Bo Du and Dacheng Tao(参考訳) サブサンプリングによる低ランク行列の完成は、過去10年間で大きな注目を集めている。 既存の研究は、$\mathcal{O}(nr\log^2(n))$ datumsが、高い確率で$r$のランクの$n \times n$ noisy行列の完備化を理論的に確保するために必要であることを示している。 制限性の一部は、レバレッジスコアの役割と各要素のオラクル情報を無視しているためである。 本稿では,各要素の重要性を特徴付けるレバレッジスコアを用い,(1)下位の低ランク行列に他の構造仮定が課されないこと,(2)観測される要素がレバレッジスコアを通じてその重要性に適切に依存すること,など,仮定を著しく緩和する。 これらの仮定の下では、一様サンプリングの代わりに、観測された各要素の'重要'を明らかにする、一様/バイアスサンプリング手順を考案する。 我々の証明は、ゴルフのスキームに基づいて十分な最適条件をフレーズする新しいアプローチによって支持されている。 理論的には、未知のn\times n$ matrix of rank $r$ を約$\mathcal{o}(nr\log^2 (n))$エントリから取り出すことができる。 実験結果は我々の理論と正確に一致している。

Completing low-rank matrices from subsampled measurements has received much attention in the past decade. Existing works indicate that $\mathcal{O}(nr\log^2(n))$ datums are required to theoretically secure the completion of an $n \times n$ noisy matrix of rank $r$ with high probability, under some quite restrictive assumptions: (1) the underlying matrix must be incoherent; (2) observations follow the uniform distribution. The restrictiveness is partially due to ignoring the roles of the leverage score and the oracle information of each element. In this paper, we employ the leverage scores to characterize the importance of each element and significantly relax assumptions to: (1) not any other structure assumptions are imposed on the underlying low-rank matrix; (2) elements being observed are appropriately dependent on their importance via the leverage score. Under these assumptions, instead of uniform sampling, we devise an ununiform/biased sampling procedure that can reveal the ``importance'' of each observed element. Our proofs are supported by a novel approach that phrases sufficient optimality conditions based on the Golfing Scheme, which would be of independent interest to the wider areas. Theoretical findings show that we can provably recover an unknown $n\times n$ matrix of rank $r$ from just about $\mathcal{O}(nr\log^2 (n))$ entries, even when the observed entries are corrupted with a small amount of noisy information. The empirical results align precisely with our theories.
翻訳日:2023-08-16 00:01:16 公開日:2023-08-14
# 有限温度における多体非エルミタン皮膚効果

Many-body Non-Hermitian Skin Effect At Finite Temperatures ( http://arxiv.org/abs/2109.03690v5 )

ライセンス: Link先を確認
Kui Cao, Qian Du and Su-Peng Kou(参考訳) 本研究では熱力学限界における有限温度における多体非エルミタン皮膚効果について検討した。 以上の結果から,非エルミート皮膚効果と直線電位効果との間に興味深い相関が認められた。 この対応は非エルミート系において一意的な分布をもたらすが、これらの多体非エルミート系における粒子は、その単体系のエネルギー固有状態に属さない。 その結果,多体非ヘルミタン皮膚効果は単体非ヘルミタン皮膚効果と大きく異なることがわかった。 具体的には、フェルミイオン系では、非エルミト皮膚効果が元の位相を乱し、実空間フェルミ表面へと導く。 ボソニック系では、高温でも指数関数を超える崩壊速度で粒子を角に凝縮させることができる。 また、顕著な相転移を引き起こし、自発的なU(1)対称性の破れを引き起こす。 独特なことに、これはゴールドストーンのモードを生成しず、ゴールドストーンの定理によれば伝統的な期待とはずれている。

In this study, we investigate the many-body non-Hermitian skin effect at finite temperatures in the thermodynamic limit. Our findings indicate an interesting correspondence between the non-Hermitian skin effect and a linear electric potential effect in this case. This correspondence leads to a unique distribution in non-Hermitian systems; particles in these many-body non-Hermitian systems do not inhabit the energy eigenstates of their single-body counterparts. As a result, the many-body non-Hermitian skin effect is significantly different from the single-body non-Hermitian skin effect. Specifically, for fermionic systems, the non-Hermitian skin effect disrupts the original phase, leading to a real-space Fermi surface. For bosonic systems, it can direct bosons to condense in corners at a decay rate that surpasses exponential, even at high temperatures. It also triggers a remarkable phase transition, resulting in spontaneous U(1) symmetry breaking. Uniquely, this does not generate a Goldstone mode, presenting a deviation from traditional expectations as per the Goldstone theorem.
翻訳日:2023-08-15 23:56:30 公開日:2023-08-14
# 生成化学と薬物設計のためのハイブリッド量子古典機械学習

Hybrid quantum-classical machine learning for generative chemistry and drug design ( http://arxiv.org/abs/2108.11644v3 )

ライセンス: Link先を確認
A.I. Gircha, A.S. Boev, K. Avchaciov, P.O. Fedichev, A.K. Fedorov(参考訳) 深層生成化学モデルは、創薬を促進する強力なツールとして出現する。 しかし、可能な全ての薬物様分子の構造空間の膨大なサイズと複雑さは、量子コンピュータと深い古典的ネットワークを組み合わせたハイブリッドアーキテクチャで克服できるような大きな障害を引き起こす。 この目標に向けた第1ステップとして,制限ボルツマンマシン(RBM)を潜在層に縮小した小型離散分散変分オートエンコーダ(DVAE)を開発した。 提案したモデルのサイズは、最先端のD-Wave量子アニールに適合するほど小さく、生物活性化合物のChEMBLデータセットのサブセットのトレーニングが可能であった。 最後に,ChEMBLの分子に典型的な薬品化学および合成アクセシビリティ特性を有する2331の新規な化学構造を作成した。 本研究は,すでに存在する,あるいは間もなく利用可能になる量子コンピューティングデバイスを,将来の薬物発見応用のためのテストベッドとして使用できることを示す。

Deep generative chemistry models emerge as powerful tools to expedite drug discovery. However, the immense size and complexity of the structural space of all possible drug-like molecules pose significant obstacles, which could be overcome with hybrid architectures combining quantum computers with deep classical networks. As the first step toward this goal, we built a compact discrete variational autoencoder (DVAE) with a Restricted Boltzmann Machine (RBM) of reduced size in its latent layer. The size of the proposed model was small enough to fit on a state-of-the-art D-Wave quantum annealer and allowed training on a subset of the ChEMBL dataset of biologically active compounds. Finally, we generated 2331 novel chemical structures with medicinal chemistry and synthetic accessibility properties in the ranges typical for molecules from ChEMBL. The presented results demonstrate the feasibility of using already existing or soon-to-be-available quantum computing devices as testbeds for future drug discovery applications.
翻訳日:2023-08-15 23:56:14 公開日:2023-08-14
# グラフ畳み込みニューラルネットワークにおける適応フィルタ

Adaptive Filters in Graph Convolutional Neural Networks ( http://arxiv.org/abs/2105.10377v4 )

ライセンス: Link先を確認
Andrea Apicella, Francesco Isgr\`o, Andrea Pollastro, Roberto Prevete(参考訳) ここ数年私たちは、通常複雑な関係を持つグラフとして表現される非ユークリッド領域から生成されるデータの増加を目撃し、グラフ構造データを処理する可能性からグラフニューラルネットワーク(gnn)が高い関心を集めている。 特に、GNNアーキテクチャの拡張(一般的にはGraph Convolutional Neural Networks (ConvGNN)と呼ばれる)を使用してグラフ上で畳み込みを行う可能性を探ることに強い関心がある。 グラフ上の畳み込みは主にスペクトル畳み込みと空間畳み込みの2つの形式で達成されている。 データのグラフ構造を探索し、活用する際の柔軟性の向上により、近年、空間的アプローチがもたらす可能性の調査への関心が高まっている。 ネットワークの動作を処理した入力に適応させて全体のパフォーマンスを最大化する方法を見つけるというアイデアは、長年にわたってニューラルネットワークの文献に多くの関心を寄せてきた。 本稿では,ノード特徴ベクトルから動的に生成される入力固有フィルタを用いて,グラフ上の空間畳み込みを行う手法を提案する入力に対して,convgnnの挙動を適応させる新しい手法を提案する。 実験により,低数のフィルタを用いて満足度を達成できる提案手法の有効性が確認された。

Over the last few years, we have witnessed the availability of an increasing data generated from non-Euclidean domains, which are usually represented as graphs with complex relationships, and Graph Neural Networks (GNN) have gained a high interest because of their potential in processing graph-structured data. In particular, there is a strong interest in exploring the possibilities in performing convolution on graphs using an extension of the GNN architecture, generally referred to as Graph Convolutional Neural Networks (ConvGNN). Convolution on graphs has been achieved mainly in two forms: spectral and spatial convolutions. Due to the higher flexibility in exploring and exploiting the graph structure of data, there is recently an increasing interest in investigating the possibilities that the spatial approach can offer. The idea of finding a way to adapt the network behaviour to the inputs they process to maximize the total performances has aroused much interest in the neural networks literature over the years. This paper presents a novel method to adapt the behaviour of a ConvGNN to the input proposing a method to perform spatial convolution on graphs using input-specific filters, which are dynamically generated from nodes feature vectors. The experimental assessment confirms the capabilities of the proposed approach, which achieves satisfying results using a low number of filters.
翻訳日:2023-08-15 23:54:28 公開日:2023-08-14
# 逆拡張カルマンフィルタ --その1:基本

Inverse Extended Kalman Filter -- Part I: Fundamentals ( http://arxiv.org/abs/2201.01539v3 )

ライセンス: Link先を確認
Himali Singh, Arpan Chattopadhyay and Kumar Vijay Mishra(参考訳) 近年の対逆系の進歩は、ベイズの観点からの逆フィルタリングに大きな研究の注目を集めている。 例えば、敵のカルマンフィルタを推定することへの関心は、敵の将来のステップを予測する目的で追跡された推定を追跡することとなり、最近の逆カルマンフィルタ (i-kf) の定式化に繋がった。 この逆フィルタの文脈では、逆拡張カルマンフィルタ(I-EKF)を提案し、非線形プロセスダイナミクスと未知のフォワードフィルタへの入力の重要な課題に対処する。 本論文と付属論文(第2報)の目的は,i-ekfの理論を詳細に展開することである。 本稿では,完全系モデル情報を仮定し,フォワードモデルと逆状態空間モデルの両方が非線形である場合,未知入力による i-ekf を導出する。 この過程では、I-KF-with-unknown-inputも得られる。 次に、有界非線形性と未知行列アプローチの両方を用いて理論的安定性保証を行い、I-EKFの整合性を証明する。 再帰的Cram\'{e}r-Raoローバウンドをベンチマークとして,様々な逆フィルタの数値実験を行った。 共用論文(パートII)では、これらの定式化を高非線形モデルに一般化し、不完全なシステムモデル情報を扱うために、Hilbert空間に基づく再生カーネルEKFを提案する。

Recent advances in counter-adversarial systems have garnered significant research attention to inverse filtering from a Bayesian perspective. For example, interest in estimating the adversary's Kalman filter tracked estimate with the purpose of predicting the adversary's future steps has led to recent formulations of inverse Kalman filter (I-KF). In this context of inverse filtering, we address the key challenges of non-linear process dynamics and unknown input to the forward filter by proposing an inverse extended Kalman filter (I-EKF). The purpose of this paper and the companion paper (Part II) is to develop the theory of I-EKF in detail. In this paper, we assume perfect system model information and derive I-EKF with and without an unknown input when both forward and inverse state-space models are non-linear. In the process, I-KF-with-unknown-input is also obtained. We then provide theoretical stability guarantees using both bounded non-linearity and unknown matrix approaches and prove the I-EKF's consistency. Numerical experiments validate our methods for various proposed inverse filters using the recursive Cram\'{e}r-Rao lower bound as a benchmark. In the companion paper (Part II), we further generalize these formulations to highly non-linear models and propose reproducing kernel Hilbert space-based EKF to handle incomplete system model information.
翻訳日:2023-08-15 23:46:33 公開日:2023-08-14
# 解離型因果コラボレーティブフィルタ

Deconfounded Causal Collaborative Filtering ( http://arxiv.org/abs/2110.07122v2 )

ライセンス: Link先を確認
Shuyuan Xu and Juntao Tan and Shelby Heinecke and Jia Li and Yongfeng Zhang(参考訳) レコメンデーションシステムは、不正確なレコメンデーションや推奨パフォーマンスを犠牲にする様々な種類の共起要因(共同設立者とも呼ばれる)によって構築される。 問題を解決する現在のアプローチは、通常、特定の共同設立者ごとにそれぞれの特定のモデルを設計する。 しかし、現実のシステムには膨大な数の共同設立者が含まれており、それぞれの共同設立者のためにそれぞれのモデルを設計することは非現実的かもしれない。 さらに重要なことは、専門家が手作業で項目の位置を特定・処理できる「専門的共同設立者」を除いて、専門家の想像以上に多くの「専門的共同設立者」が存在することである。 例えば、曲に対するユーザーの評価は現在の気分や現在の天気に依存し、アイスクリームに対するユーザーの好みは気温に依存する可能性がある。 このような潜在共同設立者は、記録されたトレーニングデータでは観察できない可能性がある。 この問題を解決するため,我々はdccf(deconfoundation causal collaborative filtering)を提案する。 まず、保存されていない共同設立者によるユーザー行動から因果グラフを作り、その後、機械学習と融合した正面調整モデルを慎重に設計し、保守されていない共同設立者の影響を軽視した。 実世界のデータセットにおける実験により、この手法は、観測されていない共同ファウンダーを解き放ち、より良いレコメンデーション性能を達成することができることを示した。

Recommender systems may be confounded by various types of confounding factors (also called confounders) that may lead to inaccurate recommendations and sacrificed recommendation performance. Current approaches to solving the problem usually design each specific model for each specific confounder. However, real-world systems may include a huge number of confounders and thus designing each specific model for each specific confounder could be unrealistic. More importantly, except for those ``explicit confounders'' that experts can manually identify and process such as item's position in the ranking list, there are also many ``latent confounders'' that are beyond the imagination of experts. For example, users' rating on a song may depend on their current mood or the current weather, and users' preference on ice creams may depend on the air temperature. Such latent confounders may be unobservable in the recorded training data. To solve the problem, we propose Deconfounded Causal Collaborative Filtering (DCCF). We first frame user behaviors with unobserved confounders into a causal graph, and then we design a front-door adjustment model carefully fused with machine learning to deconfound the influence of unobserved confounders. Experiments on real-world datasets show that our method is able to deconfound unobserved confounders to achieve better recommendation performance.
翻訳日:2023-08-15 23:44:37 公開日:2023-08-14
# neuralreshaper:ディープニューラルネットワークによる1画像人体リタッチ

NeuralReshaper: Single-image Human-body Retouching with Deep Neural Networks ( http://arxiv.org/abs/2203.10496v3 )

ライセンス: Link先を確認
Beijia Chen, Yuefan Shen, Hongbo Fu, Xiang Chen, Kun Zhou, Youyi Zheng(参考訳) 本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。 このパイプラインは、まずパラメトリックな3d人間モデルから人間の画像に適合し、その後、ユーザによって特定された意味属性に対して適合した3dモデルを再形成する。 以前の手法では、画像領域全体に3D再構成効果を伝達するため、前景と背景の両方に歪みを引き起こすことが多かった。 対照的に, ソース画像に条件づけられた生成的対向ネットと, 再構成された3次元モデルによって引き起こされる2次元歪場を用い, より現実的な再構成結果を得る。 具体的には、2つのUNetライクなジェネレータを用いて、ソース画像のフォアグラウンドとバックグラウンド情報を別々に符号化し、特徴空間のワープにより、フォアグラウンドブランチからバックブランチへの情報フローを誘導する。 さらに、ペアデータが存在しないデータ不足(例えば、異なる形状の同一の人体)に対処するために、ネットワークを訓練するための新たな自己管理戦略を導入する。 不正な体と画像のフィッティングによる望ましくないアーティファクトの修正を手作業で行う従来の方法とは異なり,本手法は完全自動である。 屋内および屋外のデータセットに対する広範囲な実験により,従来の手法よりも優れた手法が得られた。

In this paper, we present NeuralReshaper, a novel method for semantic reshaping of human bodies in single images using deep generative networks. To achieve globally coherent reshaping effects, our approach follows a fit-then-reshape pipeline, which first fits a parametric 3D human model to a source human image and then reshapes the fitted 3D model with respect to user-specified semantic attributes. Previous methods rely on image warping to transfer 3D reshaping effects to the entire image domain and thus often cause distortions in both foreground and background. In contrast, we resort to generative adversarial nets conditioned on the source image and a 2D warping field induced by the reshaped 3D model, to achieve more realistic reshaping results. Specifically, we separately encode the foreground and background information in the source image using a two-headed UNet-like generator, and guide the information flow from the foreground branch to the background branch via feature space warping. Furthermore, to deal with the lack-of-data problem that no paired data exist (i.e., the same human bodies in varying shapes), we introduce a novel self-supervised strategy to train our network. Unlike previous methods that often require manual efforts to correct undesirable artifacts caused by incorrect body-to-image fitting, our method is fully automatic. Extensive experiments on both indoor and outdoor datasets demonstrate the superiority of our method over previous approaches.
翻訳日:2023-08-15 23:35:57 公開日:2023-08-14
# 不適切な事前学習モデルはより良い特徴外乱である

Inadequately Pre-trained Models are Better Feature Extractors ( http://arxiv.org/abs/2203.04668v2 )

ライセンス: Link先を確認
Andong Deng, Xingjian Li, Di Hu, Tianyang Wang, Haoyi Xiong, Chengzhong Xu(参考訳) プレトレーニングは、ディープラーニング時代、特にアノテーション不足のシナリオにおいて、一般的な学習パラダイムである。 より優れたImageNet事前訓練モデルが、アーキテクチャの観点から、以前の研究で下流タスクへの転送性を改善するために実証されている。 しかし,本論文では,同じ事前学習過程において,機能抽出器 (FE) として使用する場合, 未訓練の中期のモデルでは十分に訓練されたモデルよりも優れ, 微調整 (FT) 性能は依然としてソース性能とともに向上することを示した。 これは、ImageNet上のトップ1精度とターゲットデータ上の転送結果との間には、確固とした正の相関がないことを明らかにする。 FEとFTの矛盾する現象に基づき,より優れた特徴抽出器の微調整を行なわず,ソフトマックス層以前の特徴を包括的に分析し,洞察に富んだ説明を行う。 我々の発見は、事前学習中、モデルはまず大きな特異値に対応するスペクトル成分を学習し、残差成分は微調整時により寄与することを示唆している。

Pre-training has been a popular learning paradigm in deep learning era, especially in annotation-insufficient scenario. Better ImageNet pre-trained models have been demonstrated, from the perspective of architecture, by previous research to have better transferability to downstream tasks. However, in this paper, we found that during the same pre-training process, models at middle epochs, which is inadequately pre-trained, can outperform fully trained models when used as feature extractors (FE), while the fine-tuning (FT) performance still grows with the source performance. This reveals that there is not a solid positive correlation between top-1 accuracy on ImageNet and the transferring result on target data. Based on the contradictory phenomenon between FE and FT that better feature extractor fails to be fine-tuned better accordingly, we conduct comprehensive analyses on features before softmax layer to provide insightful explanations. Our discoveries suggest that, during pre-training, models tend to first learn spectral components corresponding to large singular values and the residual components contribute more when fine-tuning.
翻訳日:2023-08-15 23:34:22 公開日:2023-08-14
# スレーター指数アンザッツを用いたフェルミオン型ニューラルネットワークの性能向上

Improving the performance of fermionic neural networks with the Slater exponential Ansatz ( http://arxiv.org/abs/2202.10126v2 )

ライセンス: Link先を確認
Denis Bokhan, Aleksey S. Boev, Aleksey K. Fedorov, Dmitrii N. Trubnikov(参考訳) 本研究では,電子核・電子電子間距離に対するスレーター指数アンザッツを用いたフェルミオン型ニューラルネットワーク(FermiNets)の利用法を提案する。 学習曲線の解析は,バッキングアプローチの引数を用いて,より小さなバッチサイズで正確なエネルギーを得る可能性を示唆する。 基底状態エネルギーについてさらに正確な結果を得るために、無限個の点の極限におけるモンテカルロ積分を推定する外挿スキームを提案する。 一組の分子の数値実験は、元のFermiNets(我々のアプローチで要求されるより大きなバッチサイズで達成された)の結果と、完全な基底集合(CBS)極限で計算された摂動三重項法(CCSD(T))法による結合クラスタシングルと二重項の結果とよく一致している。

In this work, we propose a technique for the use of fermionic neural networks (FermiNets) with the Slater exponential Ansatz for electron-nuclear and electron-electron distances, which provides faster convergence of target ground-state energies due to a better description of the interparticle interaction in the vicinities of the coalescence points. Analysis of learning curves indicates on the possibility to obtain accurate energies with smaller batch sizes using arguments of the bagging approach. In order to obtain even more accurate results for the ground-state energies, we suggest an extrapolation scheme, which estimates Monte Carlo integrals in the limit of an infinite number of points. Numerical tests for a set of molecules demonstrate a good agreement with the results of original FermiNets (achieved with larger batch sizes than required by our approach) and with results of coupled-cluster singles and doubles with perturbative triples (CCSD(T)) method, calculated in the complete basis set (CBS) limit.
翻訳日:2023-08-15 23:34:03 公開日:2023-08-14
# MAFW:野生における動的顔表情認識のための大規模複合感情データベース

MAFW: A Large-scale, Multi-modal, Compound Affective Database for Dynamic Facial Expression Recognition in the Wild ( http://arxiv.org/abs/2208.00847v2 )

ライセンス: Link先を確認
Yuanyuan Liu, Wei Dai, Chuanxu Feng, Wenbin Wang, Guanghao Yin, Jiabei Zeng and Shiguang Shan(参考訳) 動的表情認識(FER)データベースは、感情コンピューティングとアプリケーションにとって重要なデータサポートを提供する。 しかし、ほとんどのferデータベースは、相互に排他的な感情的なカテゴリで注釈を付けており、ビデオのような1つのモダリティしか含まない。 単調なラベルとモダリティは人間の感情を正確に模倣することができず、現実世界での応用を達成できない。 本稿では,10,045本のビデオオーディオクリップを収録した大規模マルチモーダル複合感情データベースmafwを提案する。 各クリップには、複雑な感情カテゴリーと、クリップ内の被験者の感情行動を記述する2つの文が注釈付けされている。 複合感情アノテーションでは、それぞれのクリップは、怒り、嫌悪感、恐怖、幸福、中立、悲しみ、驚き、軽蔑、不安、無力感、失望など、広く使われている11の感情のうちの1つ以上に分類される。 ラベルの品質を確保するために,期待最大化(em)アルゴリズムによって信頼できないアノテーションをフィルタリングし,11の単一ラベル感情カテゴリと32のマルチラベル感情カテゴリを得る。 われわれの知る限りでは、mafwは複合感情アノテーションと感情関連キャプションでアノテートされた最初のマルチモーダルデータベースだ。 また,異なる感情とモダリティの表現変化関係を利用した複合感情認識のための,トランスフォーマティブに基づく表現スニペット特徴学習手法を提案する。 mafwデータベースの広範囲な実験は、ユニモーダルferとマルチモーダルferの両方の最先端手法よりも、提案手法の利点を示している。 mafwデータベースはhttps://mafw-database.github.io/mafwから公開しています。

Dynamic facial expression recognition (FER) databases provide important data support for affective computing and applications. However, most FER databases are annotated with several basic mutually exclusive emotional categories and contain only one modality, e.g., videos. The monotonous labels and modality cannot accurately imitate human emotions and fulfill applications in the real world. In this paper, we propose MAFW, a large-scale multi-modal compound affective database with 10,045 video-audio clips in the wild. Each clip is annotated with a compound emotional category and a couple of sentences that describe the subjects' affective behaviors in the clip. For the compound emotion annotation, each clip is categorized into one or more of the 11 widely-used emotions, i.e., anger, disgust, fear, happiness, neutral, sadness, surprise, contempt, anxiety, helplessness, and disappointment. To ensure high quality of the labels, we filter out the unreliable annotations by an Expectation Maximization (EM) algorithm, and then obtain 11 single-label emotion categories and 32 multi-label emotion categories. To the best of our knowledge, MAFW is the first in-the-wild multi-modal database annotated with compound emotion annotations and emotion-related captions. Additionally, we also propose a novel Transformer-based expression snippet feature learning method to recognize the compound emotions leveraging the expression-change relations among different emotions and modalities. Extensive experiments on MAFW database show the advantages of the proposed method over other state-of-the-art methods for both uni- and multi-modal FER. Our MAFW database is publicly available from https://mafw-database.github.io/MAFW.
翻訳日:2023-08-15 23:27:17 公開日:2023-08-14
# 変分原理,波動-粒子双対性,およびSchr\"{o}dinger方程式

A variational principle, wave-particle duality, and the Schr\"{o}dinger equation ( http://arxiv.org/abs/2206.14601v2 )

ライセンス: Link先を確認
N. L. Chuprikov(参考訳) 1次元構成空間(OCS)における量子粒子の力学は、ハミルトン作用素の平均値に基づく2つの函数の変分問題によって決定され、もう1つは一般化されたプランク・アインシュタイン関係の助けを借りて波動関数の位相を通じて決定される粒子の総エネルギーの平均値に基づいて決定される。 第1の汎関数は量子粒子のコーパスクラー特性に関する情報を含み、第2の関数はその波動特性を含む。 真の力学は、これらの2つの関数のバリエーションが等しい波動関数によって記述される。 この変分原理は、波動と粒子の双対性の数学的定式化としても見ることができ、シュレーディンガー方程式(schr\"{o}dinger equation)につながる。

A principle is proposed according to which the dynamics of a quantum particle in a one-dimensional configuration space (OCS) is determined by a variational problem for two functionals: one is based on the mean value of the Hamilton operator, while the second one is based on the mean value of the total energy of the particle, which is determined through the phase of the wave function with help of the generalized Planck-Einstein relation. The first functional contains information about the corpuscular properties of a quantum particle, and the second one comprises its wave properties. The true dynamics is described by a wave function for which the variations of these two functionals are equal. This variational principle, which can also be viewed as a mathematical formulation of wave-particle duality, leads to the Schr\"{o}dinger equation.
翻訳日:2023-08-15 23:26:02 公開日:2023-08-14
# シャープ光によるKerr QND測定感度の向上

Improving Kerr QND measurement sensitivity via squeezed light ( http://arxiv.org/abs/2210.00857v2 )

ライセンス: Link先を確認
Stepan Balybin and Dariya Salykina and Farid Ya. Khalili(参考訳) ref[phys. rev. a 106, 013720]では、光マイクロ共振器における共鳴強調ケラー非線形性を用いた光量子の量子非退化測定のスキームを理論的に解析した。 現代の高Qマイクロ共振器を用いることで、標準量子限界の何倍もの感度を達成できることが示されている。 本稿では,このスキームの大幅な改良版を提案するとともに,詳細な解析を行う。 我々は、プローブビームの圧縮量子状態とマイクロ共振器の出力におけるこのビームの非定常増幅(パラメトリック増幅)を用いることで、測定精度を約1桁の精度で低減できることを示す。 結果として生じる感度は、多光子非ガウス量子状態の生成と検証を可能にし、このスキームが量子情報処理タスクで興味深いものとなる。

In ref [Phys. Rev. A 106, 013720], the scheme of quantum non-demolition measurement of optical quanta that uses a resonantly enhanced Kerr nonlinearity in optical microresonators was analyzed theoretically. It was shown that using the modern high-Q microresonators, it is possible to achieve the sensitivity several times better than the standard quantum limit. Here we propose and analyze in detail a significantly improved version of that scheme. We show, that by using a squeezed quantum state of the probe beam and the anti-squeezing (parametric amplification) of this beam at the output of the microresonator, it is possible to reduce the measurement imprecision by about one order of magnitude. The resulting sensitivity allows to generate and verify multi-photon non-Gaussian quantum states of light, making the scheme considered here interesting for the quantum information processing tasks.
翻訳日:2023-08-15 23:16:48 公開日:2023-08-14
# コヒーレンス、重ね合わせ、L\"{o}wdin対称直交化

Coherence, superposition, and L\"{o}wdin symmetric orthogonalization ( http://arxiv.org/abs/2209.03746v4 )

ライセンス: Link先を確認
G\"okhan Torun(参考訳) コヒーレンスと重ね合わせの概念は概念的には同じであるが、資源理論の定式化には重要な違いがある。 すなわち、基底状態はコヒーレンスの資源理論では直交するが、重ね合わせの資源理論では必ずしも直交するとは限らない。 非直交性のため、重ね合わせ状態の操作と特徴づけにはかなりの努力が必要である。 ここでは、L\"{o}wdin symmetric orthogonalization (LSO) 法が純粋重ね合わせ状態の特徴づけに有用な手段であることを示す。 LSOの主な性質は、元の非直交基底状態の構造と対称性が極端に保存されていることである。 特に、極大にコヒーレントな状態は、lsoの助けを借りて極大重ね合わせで状態になる:言い換えれば、それらは対称直交化の作用の下で同値である。 この結果から,LSOが主なツールであるコヒーレンスと重ね合わせの接続が促進される。

The notions of coherence and superposition are conceptually the same; however, an important distinction exists between their resource-theoretic formulations. Namely, while basis states are orthogonal in the resource theory of coherence, they are not necessarily orthogonal in the resource theory of superposition. Owing to the nonorthogonality, the manipulation and characterization of superposition states require significant efforts. Here, we demonstrate that the L\"{o}wdin symmetric orthogonalization (LSO) method offers a useful means for characterizing pure superposition states. The principal property of LSO is that the structure and symmetry of the original nonorthogonal basis states are preserved to the greatest extent possible, which prompts us to study the role of LSO in identifying the hierarchical relations of resource states. Notably, we reveal that the maximally coherent states turn into the states with maximal superposition with the help of LSO: in other words, they are equivalent under the action of symmetric orthogonalization. Our results facilitate further connections between coherence and superposition, where LSO is the main tool.
翻訳日:2023-08-15 23:16:20 公開日:2023-08-14
# 固有長尾データを用いたラベルノイズ学習

Label-Noise Learning with Intrinsically Long-Tailed Data ( http://arxiv.org/abs/2208.09833v3 )

ライセンス: Link先を確認
Yang Lu, Yiliang Zhang, Bo Han, Yiu-ming Cheung, Hanzi Wang(参考訳) ラベルノイズは、ディープラーニングモデルの一般化の欠如につながる重要な要因の1つである。 既存のラベルノイズ学習法では、トレーニングデータの基幹クラスがバランスしていると仮定することが多い。 しかし、実世界のデータはしばしば不均衡であり、観測されたクラスと固有のクラス分布とラベルノイズとの矛盾をもたらす。 この場合、未知の固有クラス分布を持つ固有テールクラスのノイズの多いサンプルとクリーンサンプルを区別することは困難である。 本稿では,本質的ロングテールデータを用いたラベルノイズ学習のための学習フレームワークを提案する。 具体的には,2段階の2次元試料選択法(TABASCO)を提案する。 TABASCOは、サンプル分離において単一の測定値を使用することの制限を補うために、互いに補完する2つの新しい分離指標から構成される。 ベンチマーク実験により,本手法の有効性が示された。 私たちのコードはhttps://github.com/Wakings/TABASCOで利用可能です。

Label noise is one of the key factors that lead to the poor generalization of deep learning models. Existing label-noise learning methods usually assume that the ground-truth classes of the training data are balanced. However, the real-world data is often imbalanced, leading to the inconsistency between observed and intrinsic class distribution with label noises. In this case, it is hard to distinguish clean samples from noisy samples on the intrinsic tail classes with the unknown intrinsic class distribution. In this paper, we propose a learning framework for label-noise learning with intrinsically long-tailed data. Specifically, we propose two-stage bi-dimensional sample selection (TABASCO) to better separate clean samples from noisy samples, especially for the tail classes. TABASCO consists of two new separation metrics that complement each other to compensate for the limitation of using a single metric in sample separation. Extensive experiments on benchmarks demonstrate the effectiveness of our method. Our code is available at https://github.com/Wakings/TABASCO.
翻訳日:2023-08-15 23:15:39 公開日:2023-08-14
# NECE:ナラティブイベントチェーン抽出ツールキット

NECE: Narrative Event Chain Extraction Toolkit ( http://arxiv.org/abs/2208.08063v5 )

ライセンス: Link先を確認
Guangxuan Xu, Paulina Toro Isaza, Moshi Li, Akintoye Oloko, Bingsheng Yao, Cassia Sanctos, Aminat Adebiyi, Yufang Hou, Nanyun Peng, Dakuo Wang(参考訳) 物語を理解するためには、時間的な出来事の流れ、特に主人公に関連する出来事を理解することが不可欠であるが、長文で非構造的な物語文では難しい。 そこで我々はNECEというオープンアクセス型文書レベルのツールキットを導入し,その発生の時間順に物語のイベントを自動的に抽出しアライメントする。 広範な評価を通じて,neceツールキットの質の高さを示し,ジェンダーに関する物語バイアスの分析における下流の応用を実証する。 また、現状のアプローチの欠点と、今後の研究で生成モデルを活用する可能性についてもオープンに論じる。 最後に、nece toolkitにはpythonライブラリとユーザフレンドリーなwebインターフェースの両方が含まれており、プロやレイマンのオーディエンスにも平等なアクセスを提供し、イベントチェーンの可視化、ナラティブフローの取得、ナラティブバイアスの研究を行う。

To understand a narrative, it is essential to comprehend the temporal event flows, especially those associated with main characters; however, this can be challenging with lengthy and unstructured narrative texts. To address this, we introduce NECE, an open-access, document-level toolkit that automatically extracts and aligns narrative events in the temporal order of their occurrence. Through extensive evaluations, we show the high quality of the NECE toolkit and demonstrates its downstream application in analyzing narrative bias regarding gender. We also openly discuss the shortcomings of the current approach, and potential of leveraging generative models in future works. Lastly the NECE toolkit includes both a Python library and a user-friendly web interface, which offer equal access to professionals and layman audience alike, to visualize event chain, obtain narrative flows, or study narrative bias.
翻訳日:2023-08-15 23:15:19 公開日:2023-08-14
# 部分指数上界をもつ効率的なテンソルネットワーク収縮アルゴリズムを用いた量子回路のシミュレーション

Simulating quantum circuits using efficient tensor network contraction algorithms with subexponential upper bound ( http://arxiv.org/abs/2208.01498v2 )

ライセンス: Link先を確認
Thorsten B. Wahl and Sergii Strelchuk(参考訳) 我々は、$d \geq 2$次元の有限レンジテンソルネットワーク収縮の古典計算時間に厳密な上限を導出する。 その結果、単一量子ビットおよび有限範囲の2量子ビットゲートの量子回路は、ゲート数でサブ指数時間で古典的にシミュレートできることを示した。 さらに,計算時間を大幅に短縮した制約順序を求めるアルゴリズムを提案,実装した。 実際の多くのケースでは、これは標準的なシミュレーションスキームや、ある量子回路では最先端の方法を打ち負かしている。 具体的には,2次元量子回路のネーブ・コンダクション・スキームに対する数桁のスピードアップを,8-times 8-$格子で行う。 googleのsycamore型量子回路、瞬時量子多項式時間回路、および不均一(2+1)次元ランダム量子回路も同様に効率的な縮約スキームを得る。

We derive a rigorous upper bound on the classical computation time of finite-ranged tensor network contractions in $d \geq 2$ dimensions. Consequently, we show that quantum circuits of single-qubit and finite-ranged two-qubit gates can be classically simulated in subexponential time in the number of gates. Moreover, we present and implement an algorithm guaranteed to meet our bound and which finds contraction orders with vastly lower computational times in practice. In many practically relevant cases this beats standard simulation schemes and, for certain quantum circuits, also a state-of-the-art method. Specifically, our algorithm leads to speedups of several orders of magnitude over naive contraction schemes for two-dimensional quantum circuits on as little as an $8 \times 8$ lattice. We obtain similarly efficient contraction schemes for Google's Sycamore-type quantum circuits, instantaneous quantum polynomial-time circuits, and non-homogeneous (2+1)-dimensional random quantum circuits.
翻訳日:2023-08-15 23:14:49 公開日:2023-08-14
# エージェント・コントローラ表現:リッチ外生情報を用いた原理的オフラインRL

Agent-Controller Representations: Principled Offline RL with Rich Exogenous Information ( http://arxiv.org/abs/2211.00164v2 )

ライセンス: Link先を確認
Riashat Islam, Manan Tomar, Alex Lamb, Yonathan Efroni, Hongyu Zang, Aniket Didolkar, Dipendra Misra, Xin Li, Harm van Seijen, Remi Tachet des Combes, John Langford(参考訳) リッチなピクセルベースの視覚観測空間においてオフラインで収集されたデータからエージェントを制御する学習は、強化学習(RL)の現実的な応用に不可欠である。 この設定における大きな課題は、エージェントの制御とは無関係でモデル化が難しい入力情報の存在である。 この問題は、外因性情報、すなわち観測に含まれる制御非関連情報のレンズを通して、理論的なRLコミュニティによってアプローチされてきた。 例えば、にぎやかな通りをナビゲートするロボットは、バックグラウンドで歩いている他の人、オブジェクトのテクスチャ、空にいる鳥など、無関係な情報を無視する必要があります。 本稿では,視覚的に詳細な外部情報を含む設定に着目し,この問題を解析可能な新しいオフラインrlベンチマークを提案する。 ノイズが複雑で時間依存のプロセスであるデータセットでは,現代表現学習手法が失敗する可能性がある。 そこで我々は,RL理論コミュニティに多大な関心を寄せている多段階逆モデルを用いて,Offline-RLのためのエージェント・コントローラ表現(ACRO)を学ぶことを提案する。 単純で報酬を必要としないにもかかわらず、この目的によって作成された表現がベースラインを大きく上回っていることを理論的および実証的に示す。

Learning to control an agent from data collected offline in a rich pixel-based visual observation space is vital for real-world applications of reinforcement learning (RL). A major challenge in this setting is the presence of input information that is hard to model and irrelevant to controlling the agent. This problem has been approached by the theoretical RL community through the lens of exogenous information, i.e, any control-irrelevant information contained in observations. For example, a robot navigating in busy streets needs to ignore irrelevant information, such as other people walking in the background, textures of objects, or birds in the sky. In this paper, we focus on the setting with visually detailed exogenous information, and introduce new offline RL benchmarks offering the ability to study this problem. We find that contemporary representation learning techniques can fail on datasets where the noise is a complex and time dependent process, which is prevalent in practical applications. To address these, we propose to use multi-step inverse models, which have seen a great deal of interest in the RL theory community, to learn Agent-Controller Representations for Offline-RL (ACRO). Despite being simple and requiring no reward, we show theoretically and empirically that the representation created by this objective greatly outperforms baselines.
翻訳日:2023-08-15 23:08:43 公開日:2023-08-14
# HaarPoolingメッセージパッシングを用いたグラフネットワークのジェットタグ付けアルゴリズム

A jet tagging algorithm of graph network with HaarPooling message passing ( http://arxiv.org/abs/2210.13869v4 )

ライセンス: Link先を確認
Fei Ma, Feiyi Liu, and Wei Li(参考訳) 近年,高エネルギー物理学 (HEP) における問題を解くためにグラフニューラルネットワーク (GNN) の手法が適用され, ジェット事象のグラフ表現を用いたクォークグルーオンタギングの大きな可能性を示している。 本稿では,HarPooling Message Passing Neural Network(HMPNet)と呼ばれる,GNNのアプローチとHaarPooling操作を組み合わせることで,事象を解析する手法を提案する。 HMPNetでは、HaarPoolingはグラフの特徴を抽出するだけでなく、異なる粒子特徴のk平均のクラスタリングによって得られる追加情報を埋め込む。 絶対エネルギー $\log E$, 横運動量 $\log p_T$, 相対座標 $(\Delta\eta,\Delta\phi)$, 混合エネルギー $(\log E, \log p_T)$, $(\log E, \log p_T, \Delta\eta,\Delta\phi)$ である。 その結果、HMPNetに$\log P_T$の余分な情報を付加すると、HarPoolingの適切な情報選択がクォークグルーオンタグの精度を高める一方、相対座標情報$(\Delta\eta,\Delta\phi)$は、あまり有効ではないことがわかった。 これは、HaarPoolingから有効なパーティクル機能を追加することで、単に純粋なメッセージパッシング中立ネットワーク(MPNN)ができることよりも、はるかに優れた結果が得られることを意味している。 最後に、HMPNet研究を$p_T$で順序付けし、他の研究と比較し、HMPNetがジェットタグ付けのためのGNNアルゴリズムのよい選択であることを示す。

Recently methods of graph neural networks (GNNs) have been applied to solving the problems in high energy physics (HEP) and have shown its great potential for quark-gluon tagging with graph representation of jet events. In this paper, we introduce an approach of GNNs combined with a HaarPooling operation to analyze the events, called HaarPooling Message Passing neural network (HMPNet). In HMPNet, HaarPooling not only extracts the features of graph, but embeds additional information obtained by clustering of k-means of different particle features. We construct Haarpooling from five different features: absolute energy $\log E$, transverse momentum $\log p_T$, relative coordinates $(\Delta\eta,\Delta\phi)$, the mixed ones $(\log E, \log p_T)$ and $(\log E, \log p_T, \Delta\eta,\Delta\phi)$. The results show that an appropriate selection of information for HaarPooling enhances the accuracy of quark-gluon tagging, as adding extra information of $\log P_T$ to the HMPNet outperforms all the others, whereas adding relative coordinates information $(\Delta\eta,\Delta\phi)$ is not very effective. This implies that by adding effective particle features from HaarPooling can achieve much better results than solely pure message passing neutral network (MPNN) can do, which demonstrates significant improvement of feature extraction via the pooling process. Finally we compare the HMPNet study, ordering by $p_T$, with other studies and prove that the HMPNet is also a good choice of GNN algorithms for jet tagging.
翻訳日:2023-08-15 23:07:48 公開日:2023-08-14
# 自己教師型学習における極めて単純なバックドア攻撃

An Embarrassingly Simple Backdoor Attack on Self-supervised Learning ( http://arxiv.org/abs/2210.07346v2 )

ライセンス: Link先を確認
Changjiang Li, Ren Pang, Zhaohan Xi, Tianyu Du, Shouling Ji, Yuan Yao, Ting Wang(参考訳) 機械学習の新しいパラダイムとして、自己教師付き学習(SSL)は、ラベルに頼ることなく複雑なデータの高品質な表現を学習することができる。 ラベル付きデータの必要性の排除に加えて、sslはラベルの欠如によってモデル予測を操作することが難しくなるため、教師付き学習よりも敵対的堅牢性が向上している。 しかしながら、この堅牢性優位性が他の種類の攻撃に一般化する程度は未解決の問題である。 我々はこの質問をバックドア攻撃の文脈で検討する。 具体的には, 恥ずかしいほど単純かつ効果的に自己監視されたバックドア攻撃であるctrlを設計, 評価した。 CTRLは、少数のトレーニングデータ(=1%)を識別不能な中毒サンプルで汚染することによって、任意のトリガー埋め込み入力を、推論時に高い確率(=99%)で相手の指定クラスに誤分類する。 この結果から,SSLと教師あり学習はバックドア攻撃に対して極めて脆弱であることが示唆された。 さらに重要なことは、CTRLのレンズを通して、SSLのバックドア攻撃に対する固有の脆弱性を研究することである。 実証的証拠と解析的証拠の両方で、敵の堅牢性に寄与するSSLの表現不変性が、Shasslがバックドア攻撃に非常に影響を受けやすい理由であることを示している。 また,既存のバックドア攻撃に対する防御は,SSLのユニークな脆弱性に容易には適用できないことが示唆された。

As a new paradigm in machine learning, self-supervised learning (SSL) is capable of learning high-quality representations of complex data without relying on labels. In addition to eliminating the need for labeled data, research has found that SSL improves the adversarial robustness over supervised learning since lacking labels makes it more challenging for adversaries to manipulate model predictions. However, the extent to which this robustness superiority generalizes to other types of attacks remains an open question. We explore this question in the context of backdoor attacks. Specifically, we design and evaluate CTRL, an embarrassingly simple yet highly effective self-supervised backdoor attack. By only polluting a tiny fraction of training data (<= 1%) with indistinguishable poisoning samples, CTRL causes any trigger-embedded input to be misclassified to the adversary's designated class with a high probability (>= 99%) at inference time. Our findings suggest that SSL and supervised learning are comparably vulnerable to backdoor attacks. More importantly, through the lens of CTRL, we study the inherent vulnerability of SSL to backdoor attacks. With both empirical and analytical evidence, we reveal that the representation invariance property of SSL, which benefits adversarial robustness, may also be the very reason making \ssl highly susceptible to backdoor attacks. Our findings also imply that the existing defenses against supervised backdoor attacks are not easily retrofitted to the unique vulnerability of SSL.
翻訳日:2023-08-15 23:06:45 公開日:2023-08-14
# MotionBERT:人間の動きの表現を学習する統一的な視点

MotionBERT: A Unified Perspective on Learning Human Motion Representations ( http://arxiv.org/abs/2210.06551v5 )

ライセンス: Link先を確認
Wentao Zhu, Xiaoxuan Ma, Zhaoyang Liu, Libin Liu, Wayne Wu, Yizhou Wang(参考訳) 本稿では,大規模・異種データ資源から人間の動作表現を学習し,人間中心のビデオ課題に取り組むための統一的な視点を提案する。 具体的には,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,動きエンコーダを訓練する事前学習ステージを提案する。 この方法で得られた運動表現は、人の動きに関する幾何学的、運動学的、物理的知識を取り入れており、容易に複数の下流タスクに転送できる。 動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。 骨格関節の長距離時空間的関係を包括的かつ適応的に捉え、スクラッチから訓練された場合の最低3次元ポーズ推定誤差を例示する。 さらに,提案手法は,学習した動作表現の汎用性を示す単純な回帰ヘッド(1-2層)で事前学習した動きエンコーダを微調整することで,3つの下流タスクの最先端性能を実現する。 コードとモデルはhttps://motionbert.github.io/で入手できる。

We present a unified perspective on tackling various human-centric video tasks by learning human motion representations from large-scale and heterogeneous data resources. Specifically, we propose a pretraining stage in which a motion encoder is trained to recover the underlying 3D motion from noisy partial 2D observations. The motion representations acquired in this way incorporate geometric, kinematic, and physical knowledge about human motion, which can be easily transferred to multiple downstream tasks. We implement the motion encoder with a Dual-stream Spatio-temporal Transformer (DSTformer) neural network. It could capture long-range spatio-temporal relationships among the skeletal joints comprehensively and adaptively, exemplified by the lowest 3D pose estimation error so far when trained from scratch. Furthermore, our proposed framework achieves state-of-the-art performance on all three downstream tasks by simply finetuning the pretrained motion encoder with a simple regression head (1-2 layers), which demonstrates the versatility of the learned motion representations. Code and models are available at https://motionbert.github.io/
翻訳日:2023-08-15 23:06:18 公開日:2023-08-14
# 変分オートエンコーダと1級支持ベクトルマシンによる構造損傷の半教師あり検出

Semi-supervised detection of structural damage using Variational Autoencoder and a One-Class Support Vector Machine ( http://arxiv.org/abs/2210.05674v4 )

ライセンス: Link先を確認
Andrea Pollastro, Giusiana Testa, Antonio Bilotta, Roberto Prevete(参考訳) 近年,構造的ヘルスモニタリング(shm)システムにおいて,ニューラルネットワーク(anns)が導入されている。 データ駆動アプローチによる半教師付き手法では、損傷のない構造条件から取得したデータに基づいてANNがトレーニングし、構造的損傷を検出する。 標準的なアプローチでは、トレーニング段階の後、決定ルールを手動で定義し、異常なデータを検出する。 しかし、このプロセスは、ハイパーパラメータ最適化技術を用いて性能を最大化する機械学習手法を用いて自動で行うことができる。 本稿では,構造異常を検出するためのデータ駆動アプローチによる半教師付き手法を提案する。 方法論は以下の通りである。 (i)無傷データ分布を近似する変分オートエンコーダ(vae)と (ii)vae信号再構成から抽出した損傷に敏感な特徴を用いて異なる健康状態を判別する一級支援ベクターマシン(oc-svm)。 IASC-ASCE 構造健康モニタリングタスクグループによって9つの損傷シナリオで試験されたスケール鋼構造物に適用した。

In recent years, Artificial Neural Networks (ANNs) have been introduced in Structural Health Monitoring (SHM) systems. A semi-supervised method with a data-driven approach allows the ANN training on data acquired from an undamaged structural condition to detect structural damages. In standard approaches, after the training stage, a decision rule is manually defined to detect anomalous data. However, this process could be made automatic using machine learning methods, whom performances are maximised using hyperparameter optimization techniques. The paper proposes a semi-supervised method with a data-driven approach to detect structural anomalies. The methodology consists of: (i) a Variational Autoencoder (VAE) to approximate undamaged data distribution and (ii) a One-Class Support Vector Machine (OC-SVM) to discriminate different health conditions using damage sensitive features extracted from VAE's signal reconstruction. The method is applied to a scale steel structure that was tested in nine damage's scenarios by IASC-ASCE Structural Health Monitoring Task Group.
翻訳日:2023-08-15 23:05:16 公開日:2023-08-14
# 長時間の平衡は過渡熱度を決定することができる

Long-time equilibration can determine transient thermality ( http://arxiv.org/abs/2212.00698v2 )

ライセンス: Link先を確認
Karen V. Hovhannisyan, Somayyeh Nemati, Carsten Henkel, Janet Anders(参考訳) 2つの熱多体系が強く相互作用し始めると、それらの過渡状態はすぐに非ギブス状態になる。 過渡的構造における明らかな構造の欠如を乗り越えるために、我々はg-局所と呼ばれる、洗練された熱性の概念を用いる。 もし全ての小さなサブシステムの状態が大域的な熱状態の限界であるなら、システムはg局所熱である。 2つの調和格子を数値的に示し、全系が長い周期で平衡するたびに、各格子は常にg局所的に熱的であり、過渡状態を含む。 これは、格子がそれらの内部に長距離相互作用を持つときでも当てはまる。 いずれの場合においても、平衡は一般化ギブスアンサンブルによって記述され、3次元格子は保存電荷の延長集合のために特別な処理を必要とする。 我々はこの発見をよく知られた2つの温度モデルと比較する。 その標準形式は弱いカップリング以外には有効ではないが、強いカップリングではg局所温度の概念を取り入れることで部分的に救済できることを示す。

When two initially thermal many-body systems start interacting strongly, their transient states quickly become non-Gibbsian, even if the systems eventually equilibrate. To see beyond this apparent lack of structure during the transient regime, we use a refined notion of thermality, which we call g-local. A system is g-locally thermal if the states of all its small subsystems are marginals of global thermal states. We numerically demonstrate for two harmonic lattices that whenever the total system equilibrates in the long run, each lattice remains g-locally thermal at all times, including the transient regime. This is true even when the lattices have long-range interactions within them. In all cases, we find that the equilibrium is described by the generalized Gibbs ensemble, with three-dimensional lattices requiring special treatment due to their extended set of conserved charges. We compare our findings with the well-known two-temperature model. While its standard form is not valid beyond weak coupling, we show that at strong coupling it can be partially salvaged by adopting the concept of a g-local temperature.
翻訳日:2023-08-15 22:57:02 公開日:2023-08-14
# 時間的モデリング事項:音声感情認識のための新しい時間的感情モデルアプローチ

Temporal Modeling Matters: A Novel Temporal Emotional Modeling Approach for Speech Emotion Recognition ( http://arxiv.org/abs/2211.08233v3 )

ライセンス: Link先を確認
Jiaxin Ye, Xin-cheng Wen, Yujie Wei, Yong Xu, Kunhong Liu, Hongming Shan(参考訳) 音声感情認識(SER)は、人間の感情や感情状態を音声信号から推定することにより、人間と機械の相互作用を改善する上で重要な役割を果たす。 近年の研究では,手作りの特徴から時空間情報を抽出することを中心に,動的時間的尺度から音声感情の時間的パターンをモデル化する方法が検討されている。 そこで本研究では,様々な時間スケールの文脈的感情表現を学習する時間指向型双方向ネットワーク (tim-net) と呼ばれる,新たな時間的感情モデリング手法を提案する。 具体的には、TIM-Netは、まず時間的認知ブロックを用いて、時間的感情表現を学習し、その後、過去と未来からの補完情報を統合して文脈表現を豊かにする。 6つのベンチマークSERデータセットの大規模な実験結果は、TIM-Netの優れた性能を示し、各コーパスにおける平均的UARとWARの2.34%と2.61%の改善を得た。 ソースコードはhttps://github.com/Jiaxin-Ye/TIM-Net_SERで入手できる。

Speech emotion recognition (SER) plays a vital role in improving the interactions between humans and machines by inferring human emotion and affective states from speech signals. Whereas recent works primarily focus on mining spatiotemporal information from hand-crafted features, we explore how to model the temporal patterns of speech emotions from dynamic temporal scales. Towards that goal, we introduce a novel temporal emotional modeling approach for SER, termed Temporal-aware bI-direction Multi-scale Network (TIM-Net), which learns multi-scale contextual affective representations from various time scales. Specifically, TIM-Net first employs temporal-aware blocks to learn temporal affective representation, then integrates complementary information from the past and the future to enrich contextual representations, and finally, fuses multiple time scale features for better adaptation to the emotional variation. Extensive experimental results on six benchmark SER datasets demonstrate the superior performance of TIM-Net, gaining 2.34% and 2.61% improvements of the average UAR and WAR over the second-best on each corpus. The source code is available at https://github.com/Jiaxin-Ye/TIM-Net_SER.
翻訳日:2023-08-15 22:55:27 公開日:2023-08-14
# TeViS:ビデオストーリーボードにテキストシンセサイザーを翻訳

TeViS:Translating Text Synopses to Video Storyboards ( http://arxiv.org/abs/2301.00135v3 )

ライセンス: Link先を確認
Xu Gu, Yuchong Sun, Feiyue Ni, Shizhe Chen, Xihua Wang, Ruihua Song, Boyuan Li, Xiang Cao(参考訳) ビデオストーリーボード(英語: video storyboard)は、テキスト合成におけるキープロットを視覚化するショット・バイ・ショット画像からなる、ビデオ作成のためのロードマップである。 しかし、ビデオストーリーボードを作成することは、ハイレベルテキストと画像の相互関連だけでなく、ショット間の遷移を円滑にするための長期的な推論も要求する。 本稿では,テキストシンプシスを可視化するために,画像の順序列をビデオストーリーボードとして検索することを目的とした,text synopsis to video storyboard (tevis) という新しいタスクを提案する。 公開MovieNetデータセットに基づいてMovieNet-TeViSデータセットを構築する。 関連度と映画的コヒーレンスの両方を考慮して、対応する映画から手動で選択されたキーフレームとペアリングされた10kのテキスト合成を含む。 このタスクをベンチマークするために、強力なCLIPベースのベースラインと新しいVQ-Transを提案する。 VQ-Transはまずテキスト合成と画像を共同埋め込み空間にエンコードし、ベクトル量子化(VQ)を用いて視覚表現を改善する。 そして、検索と順序付けのための視覚特徴列を自動で生成する。 実験の結果,VQ-Transは従来の手法やCLIPベースのベースラインよりも大幅に優れていた。 それでも、将来の有望な仕事の余地を示す人間のパフォーマンスに比べれば、まだ大きなギャップがある。 コードとデータは以下の通りである。 \url{https://ruc-aimind.github.io/projects/TeViS/}

A video storyboard is a roadmap for video creation which consists of shot-by-shot images to visualize key plots in a text synopsis. Creating video storyboards, however, remains challenging which not only requires cross-modal association between high-level texts and images but also demands long-term reasoning to make transitions smooth across shots. In this paper, we propose a new task called Text synopsis to Video Storyboard (TeViS) which aims to retrieve an ordered sequence of images as the video storyboard to visualize the text synopsis. We construct a MovieNet-TeViS dataset based on the public MovieNet dataset. It contains 10K text synopses each paired with keyframes manually selected from corresponding movies by considering both relevance and cinematic coherence. To benchmark the task, we present strong CLIP-based baselines and a novel VQ-Trans. VQ-Trans first encodes text synopsis and images into a joint embedding space and uses vector quantization (VQ) to improve the visual representation. Then, it auto-regressively generates a sequence of visual features for retrieval and ordering. Experimental results demonstrate that VQ-Trans significantly outperforms prior methods and the CLIP-based baselines. Nevertheless, there is still a large gap compared to human performance suggesting room for promising future work. The code and data are available at: \url{https://ruc-aimind.github.io/projects/TeViS/}
翻訳日:2023-08-15 22:48:30 公開日:2023-08-14
# 本質的に相互作用する高次トポロジカル超伝導体

Intrinsically Interacting Higher-Order Topological Superconductors ( http://arxiv.org/abs/2212.13013v2 )

ライセンス: Link先を確認
Hao-Ran Zhang, Jian-Hao Zhang, Zheng-Cheng Gu, Rui-Xing Zhang, Shuo Yang(参考訳) 自由フェルミオンのない2次元クラスD$高次トポロジカル超伝導体に対する最小相互作用格子モデルを提案する。 Lieb-Schultz-Mattis型制約を提案し,格子モデル構築のガイドに応用した。 我々のモデルは弱い相互作用状態において自明な積基底状態を示すが、電子相互作用の増大は、新しい位相的量子相転移を、$d_4$-symmetric high-order topological superconducting stateに導く。 対称保護マヨナコーナーモードは行列積状態法で数値的に確認される。 我々の理論は、明示的な格子モデル構造を持つ高階トポロジーと相互作用する研究の道を開く。

We propose a minimal interacting lattice model for two-dimensional class-$D$ higher-order topological superconductors with no free-fermion counterpart. A Lieb-Schultz-Mattis-type constraint is proposed and applied to guide our lattice model construction. Our model exhibits a trivial product ground state in the weakly interacting regime, whereas, increasing electron interactions provoke a novel topological quantum phase transition to a $D_4$-symmetric higher-order topological superconducting state. The symmetry-protected Majorana corner modes are numerically confirmed with the matrix-product-state technique. Our theory paves the way for studying interacting higher-order topology with explicit lattice model constructions.
翻訳日:2023-08-15 22:48:09 公開日:2023-08-14
# データ中心人工知能

Data-centric Artificial Intelligence ( http://arxiv.org/abs/2212.11854v2 )

ライセンス: Link先を確認
Johannes Jakubik, Michael V\"ossing, Niklas K\"uhl, Jannis Walk, Gerhard Satzger(参考訳) データ中心の人工知能(データ中心のAI)は、効率的で効率的なAIベースのシステムを構築する上で、データの体系的な設計とエンジニアリングが不可欠であることを強調する新しいパラダイムである。 本論文の目的は,情報システム(IS)分野の実践者や研究者をデータ中心型AIに導入することである。 関連する用語を定義し、データ中心のパラダイムとモデル中心のパラダイムを対比するための重要な特徴を提供し、データ中心のAIのためのフレームワークを導入します。 我々は、データ中心AIと関連する概念を区別し、ISコミュニティへの長期的な影響について議論する。

Data-centric artificial intelligence (data-centric AI) represents an emerging paradigm emphasizing that the systematic design and engineering of data is essential for building effective and efficient AI-based systems. The objective of this article is to introduce practitioners and researchers from the field of Information Systems (IS) to data-centric AI. We define relevant terms, provide key characteristics to contrast the data-centric paradigm to the model-centric one, and introduce a framework for data-centric AI. We distinguish data-centric AI from related concepts and discuss its longer-term implications for the IS community.
翻訳日:2023-08-15 22:47:51 公開日:2023-08-14
# 共有事項認証のためのクオタブル署名

Quotable Signatures for Authenticating Shared Quotes ( http://arxiv.org/abs/2212.10963v4 )

ライセンス: Link先を確認
Joan Boyar, Simon Erfurth, Kim S. Larsen, Ruben Niederhagen(参考訳) quotableシグネチャスキームは、メッセージのシグネチャから、秘密鍵を知ることなく、あるいは元のメッセージのシグネチャと対話することなく、メッセージから(許容)引用のためのシグネチャを抽出することができる追加のプロパティを持つデジタルシグネチャスキームである。 重要なことに、抽出された署名は、元の秘密鍵で署名される。 本稿では,商号スキームのセキュリティの概念を定義し,メルクル木と古典的デジタル署名スキームを用いた商号シグネチャスキームの具体例を構築した。 上記のセキュリティの概念に関して、このスキームは安全であることが示されている。 さらに、構築したスキームの複雑さの境界を証明し、署名、引用、検証のためのアルゴリズムを提供する。 最後に、quanttable signaturesの具体的ユースケースを考察し、ソーシャルメディア上の真正なコンテンツを強化することによって誤情報と戦う。 引用可能なシグネチャの使用方法と、それを使用することによって偽ニュースの影響を緩和できる理由の両方について検討する。

Quotable signature schemes are digital signature schemes with the additional property that from the signature for a message, any party can extract signatures for (allowable) quotes from the message, without knowing the secret key or interacting with the signer of the original message. Crucially, the extracted signatures are still signed with the original secret key. We define a notion of security for quotable signature schemes and construct a concrete example of a quotable signature scheme, using Merkle trees and classical digital signature schemes. The scheme is shown to be secure, with respect to the aforementioned notion of security. Additionally, we prove bounds on the complexity of the constructed scheme and provide algorithms for signing, quoting, and verifying. Finally, concrete use cases of quotable signatures are considered, using them to combat misinformation by bolstering authentic content on social media. We consider both how quotable signatures can be used, and why using them could help mitigate the effects of fake news.
翻訳日:2023-08-15 22:47:41 公開日:2023-08-14
# lidarおよびフォトグラムデータのためのポイントクラウド登録:古典・深層学習アルゴリズムの臨界合成と性能解析

Point Cloud Registration for LiDAR and Photogrammetric Data: a Critical Synthesis and Performance Analysis on Classic and Deep Learning Algorithms ( http://arxiv.org/abs/2302.07184v2 )

ライセンス: Link先を確認
Ningli Xu, Rongjun Qin, Shuang Song(参考訳) 最近のコンピュータビジョンとディープラーニングの進歩は、複雑なオブジェクトとシーンの未登録の点雲間の剛性/類似性変換を推定する有望な性能を示している。 しかしながら、それらの性能は、主に単一のセンサー(KinectやRealSenseカメラなど)からの限られた数のデータセットを使用して評価され、フォトグラムの3Dマッピングシナリオにおける適用性に関する包括的な概要が欠如している。 本研究では,SOTA(State-of-the-art)ポイントクラウド登録手法の総合的なレビューを行い,室内から衛星まで多様なポイントクラウドデータを用いて,これらの手法を解析・評価する。 定量的解析は,これらの手法の強み,適用性,課題,今後の傾向を探求する。 クラウド間(C2C)最適化による特徴/キーポイントベースの初期粗い登録や密集した微細な登録など,これらのアプローチをよりよく理解するための2段階のプロセスに基づく。 古典的な手作り、ディープラーニングに基づく特徴対応、堅牢なC2C手法を含む10以上の手法が試験された。 テストしたデータセットよりも、ほとんどのアルゴリズムの成功率は40%未満であり、既存の3次元スパース相関探索や複雑な幾何学とオクルージョンを持つ点雲を登録する能力に関して、改善の余地は大きい。 評価された3つのデータセットの統計値を用いて、各ステップのベストパフォーマンス手法を結論し、推奨事項を提供し、今後の取り組みを展望する。

Recent advances in computer vision and deep learning have shown promising performance in estimating rigid/similarity transformation between unregistered point clouds of complex objects and scenes. However, their performances are mostly evaluated using a limited number of datasets from a single sensor (e.g. Kinect or RealSense cameras), lacking a comprehensive overview of their applicability in photogrammetric 3D mapping scenarios. In this work, we provide a comprehensive review of the state-of-the-art (SOTA) point cloud registration methods, where we analyze and evaluate these methods using a diverse set of point cloud data from indoor to satellite sources. The quantitative analysis allows for exploring the strengths, applicability, challenges, and future trends of these methods. In contrast to existing analysis works that introduce point cloud registration as a holistic process, our experimental analysis is based on its inherent two-step process to better comprehend these approaches including feature/keypoint-based initial coarse registration and dense fine registration through cloud-to-cloud (C2C) optimization. More than ten methods, including classic hand-crafted, deep-learning-based feature correspondence, and robust C2C methods were tested. We observed that the success rate of most of the algorithms are fewer than 40% over the datasets we tested and there are still are large margin of improvement upon existing algorithms concerning 3D sparse corresopondence search, and the ability to register point clouds with complex geometry and occlusions. With the evaluated statistics on three datasets, we conclude the best-performing methods for each step and provide our recommendations, and outlook future efforts.
翻訳日:2023-08-15 22:38:30 公開日:2023-08-14
# HumanMAC:人間の動作予測のための仮面運動補完

HumanMAC: Masked Motion Completion for Human Motion Prediction ( http://arxiv.org/abs/2302.03665v4 )

ライセンス: Link先を確認
Ling-Hao Chen, Jiawei Zhang, Yewen Li, Yiren Pang, Xiaobo Xia, Tongliang Liu(参考訳) 人間の動作予測はコンピュータビジョンとコンピュータグラフィックスにおいて古典的な問題であり、幅広い実用的応用がある。 従来の効果はエンコーディング・デコード方式に基づく経験的性能を実現する。 このスタイルの方法は、まず前の動きを潜在表現にエンコードし、次に潜在表現を予測された動きに復号する。 しかし、実際には、複雑な損失制約、面倒なトレーニングプロセス、予測における異なるカテゴリーの動作の切り替えなど、いくつかの問題により、まだ満足できない。 本稿では、上記の課題に対処するため、先進的なスタイルから脱却し、新しい視点から新しい枠組みを提案する。 具体的には、我々のフレームワークはマスク付き補完方式で機能する。 トレーニング段階では、ランダムノイズから動きを生成する動き拡散モデルを学ぶ。 推論段階では, より連続かつ制御可能な予測を出力するために, 観測された動きに動き予測条件を付ける。 提案フレームワークは,最適化に1つの損失しか必要とせず,エンドツーエンドでトレーニングされる,有望なアルゴリズム特性を享受する。 さらに、異なるカテゴリーの動作を効果的に切り替えることができ、例えばアニメーションタスクのような現実的なタスクにおいて重要である。 ベンチマークに関する包括的な実験により,提案フレームワークの優位性が確認された。 プロジェクトページはhttps://lhchen.top/human-macで閲覧できる。

Human motion prediction is a classical problem in computer vision and computer graphics, which has a wide range of practical applications. Previous effects achieve great empirical performance based on an encoding-decoding style. The methods of this style work by first encoding previous motions to latent representations and then decoding the latent representations into predicted motions. However, in practice, they are still unsatisfactory due to several issues, including complicated loss constraints, cumbersome training processes, and scarce switch of different categories of motions in prediction. In this paper, to address the above issues, we jump out of the foregoing style and propose a novel framework from a new perspective. Specifically, our framework works in a masked completion fashion. In the training stage, we learn a motion diffusion model that generates motions from random noise. In the inference stage, with a denoising procedure, we make motion prediction conditioning on observed motions to output more continuous and controllable predictions. The proposed framework enjoys promising algorithmic properties, which only needs one loss in optimization and is trained in an end-to-end manner. Additionally, it accomplishes the switch of different categories of motions effectively, which is significant in realistic tasks, e.g., the animation task. Comprehensive experiments on benchmarks confirm the superiority of the proposed framework. The project page is available at https://lhchen.top/Human-MAC.
翻訳日:2023-08-15 22:37:58 公開日:2023-08-14
# 単光子と線形光学によるグラフ問題の解法

Solving graph problems with single-photons and linear optics ( http://arxiv.org/abs/2301.09594v2 )

ライセンス: Link先を確認
Rawad Mezher, Ana Filipa Carvalho, Shane Mansfield(参考訳) 現状と短期の量子デバイスにとって重要な課題は、それらをプリフォームできる有用なタスクを見つけることである。 まず、有界な$n \times n$ matrix $a$を2n$モードの線形光回路に効率的にエンコードする方法を示す。 次に、このエンコーディングを、$A$ がグラフ $G$ に関する情報を含む行列である場合に適用する。 単光子源からなるフォトニック量子プロセッサ、$A$を符号化する線形光回路、および単光子検出器により、2部グラフの完全マッチング数、永久多項式の計算、2つのグラフが同型かどうか、および$k$dsestサブグラフ問題などのグラフ問題を解くことができることを示す。 また,検出イベントの観測可能性を高め,性能を向上させるための前処理手法を提案する。 最後に,quandelaのascellaフォトニック量子プロセッサにおける数値シミュレーションと実装について述べる。

An important challenge for current and near-term quantum devices is finding useful tasks that can be preformed on them. We first show how to efficiently encode a bounded $n \times n$ matrix $A$ into a linear optical circuit with $2n$ modes. We then apply this encoding to the case where $A$ is a matrix containing information about a graph $G$. We show that a photonic quantum processor consisting of single-photon sources, a linear optical circuit encoding $A$, and single-photon detectors can solve a range of graph problems including finding the number of perfect matchings of bipartite graphs, computing permanental polynomials, determining whether two graphs are isomorphic, and the $k$-densest subgraph problem. We also propose pre-processing methods to boost the probabilities of observing the relevant detection events and thus improve performance. Finally we present both numerical simulations and implementations on Quandela's Ascella photonic quantum processor to validate our findings.
翻訳日:2023-08-15 22:36:39 公開日:2023-08-14
# Chaos to Order: ソースフリーなドメイン適応に関するラベルプロパゲーションの視点

Chaos to Order: A Label Propagation Perspective on Source-Free Domain Adaptation ( http://arxiv.org/abs/2301.08413v3 )

ライセンス: Link先を確認
Chunwei Wu, Guitao Cao, Yan Li, Xidong Xi, Wenming Cao, Hong Wang(参考訳) ソースフリードメイン適応(英: Source-free domain adapt, SFDA)は、対象の分布に適応するために事前訓練されたソースモデルのみを使用する、より一般的なアプローチである。 しかし,対象領域の教師付き情報が欠如していることから,対象特徴の固有構造を正確に把握することは困難である。 対象特徴のクラスタリング性能を分析することで,識別属性に関連するコア機能を含むが,意味情報の照合が欠如していることを示す。 この知見に触発されて、我々はSFDAの新しいアプローチであるChaos to Order(CtO)を提示する。 ctoは、学習状態の適応しきい値に基づいて、ターゲットデータを内外サンプルに分割し、データプロパティに最適な学習戦略をカスタマイズする。 具体的には、内部サンプルは比較的凝集した性質によりクラス内構造を学習するために利用される。 低密度の異常サンプルは入力一貫性によって正規化され、基底真理ラベルに対して高い精度を達成する。 CtOでは、さまざまな学習戦略を使用して、ラベルを内部のローカルから外部のインスタンスに伝播することで、グローバルサンプルをカオスから順にクラスタする。 さらに、内部サンプルの近傍親和性を適応的に調整し、局所的な意味的信頼性を制約する。 理論および実証分析により,本アルゴリズムは内部から外部へ伝播するだけでなく,局所的なクラスタリングによるクラスタ形成を阻害することを示した。 実証的な証拠は、CtOがOffice-31、Office-Home、VisDAの3つの公開ベンチマークで芸術の状態を上回ります。

Source-free domain adaptation (SFDA), where only a pre-trained source model is used to adapt to the target distribution, is a more general approach to achieving domain adaptation in the real world. However, it can be challenging to capture the inherent structure of the target features accurately due to the lack of supervised information on the target domain. By analyzing the clustering performance of the target features, we show that they still contain core features related to discriminative attributes but lack the collation of semantic information. Inspired by this insight, we present Chaos to Order (CtO), a novel approach for SFDA that strives to constrain semantic credibility and propagate label information among target subpopulations. CtO divides the target data into inner and outlier samples based on the adaptive threshold of the learning state, customizing the learning strategy to fit the data properties best. Specifically, inner samples are utilized for learning intra-class structure thanks to their relatively well-clustered properties. The low-density outlier samples are regularized by input consistency to achieve high accuracy with respect to the ground truth labels. In CtO, by employing different learning strategies to propagate the labels from the inner local to outlier instances, it clusters the global samples from chaos to order. We further adaptively regulate the neighborhood affinity of the inner samples to constrain the local semantic credibility. In theoretical and empirical analyses, we demonstrate that our algorithm not only propagates from inner to outlier but also prevents local clustering from forming spurious clusters. Empirical evidence demonstrates that CtO outperforms the state of the arts on three public benchmarks: Office-31, Office-Home, and VisDA.
翻訳日:2023-08-15 22:36:02 公開日:2023-08-14
# 効果的な注意モデルのための移動ブロックの再考

Rethinking Mobile Block for Efficient Attention-based Models ( http://arxiv.org/abs/2301.01146v4 )

ライセンス: Link先を確認
Jiangning Zhang, Xiangtai Li, Jian Li, Liang Liu, Zhucun Xue, Boshen Zhang, Zhengkai Jiang, Tianxin Huang, Yabiao Wang, and Chengjie Wang(参考訳) 本稿では,パラメータやフラップ,パフォーマンスをトレードオフしながら,高密度予測のための現代的な,効率的で軽量なモデルを開発することに焦点を当てる。 Inverted Residual Block (IRB) は軽量CNNの基盤として機能するが、注目に基づく研究ではその存在は認められていない。 この作業では、効率的なIRBとTransformerの効率的なコンポーネントから軽量インフラストラクチャを再考し、CNNベースのIRBを注目モデルに拡張し、軽量モデル設計のための1つの残留Meta Mobile Block(MMB)を抽象化する。 単純かつ効果的な設計基準に従うと、現代の逆Residual Mobile Block (iRMB) を推論し、下流タスクにのみiRMBを組み込んだResNetライクなEMO(Efficient MOdel)を構築する。 ImageNet-1K, COCO2017, ADE20Kベンチマークに関する大規模な実験は、EMO-1M/2M/5Mが71.5, 75.1, 78.4Top-1を達成し、CNN-/Attention-basedモデルを上回っ、パラメータ、効率、精度はiPhone14でEdgeNeXtよりも2.8-4.0倍高速であることを示す。

This paper focuses on developing modern, efficient, lightweight models for dense predictions while trading off parameters, FLOPs, and performance. Inverted Residual Block (IRB) serves as the infrastructure for lightweight CNNs, but no counterpart has been recognized by attention-based studies. This work rethinks lightweight infrastructure from efficient IRB and effective components of Transformer from a unified perspective, extending CNN-based IRB to attention-based models and abstracting a one-residual Meta Mobile Block (MMB) for lightweight model design. Following simple but effective design criterion, we deduce a modern Inverted Residual Mobile Block (iRMB) and build a ResNet-like Efficient MOdel (EMO) with only iRMB for down-stream tasks. Extensive experiments on ImageNet-1K, COCO2017, and ADE20K benchmarks demonstrate the superiority of our EMO over state-of-the-art methods, e.g., EMO-1M/2M/5M achieve 71.5, 75.1, and 78.4 Top-1 that surpass equal-order CNN-/Attention-based models, while trading-off the parameter, efficiency, and accuracy well: running 2.8-4.0x faster than EdgeNeXt on iPhone14.
翻訳日:2023-08-15 22:34:57 公開日:2023-08-14
# 多段学習における知識の復元と伝達

Knowledge Restore and Transfer for Multi-label Class-Incremental Learning ( http://arxiv.org/abs/2302.13334v3 )

ライセンス: Link先を確認
Songlin Dong, Haoyu Luo, Yuhang He, Xing Wei, Yihong Gong(参考訳) 近年の授業インクリメンタルラーニング研究は主に単段分類タスクに焦点を当てているが、より実用的な応用シナリオを持つマルチラベルクラスインクリメンタルラーニング(mlcil)はほとんど研究されていない。 クラス増分学習における破滅的な忘れを解くためのアンチフォージェッティング法は数多く存在するが、ラベルの欠如や情報希釈によるMLCIL問題の解決には困難である。 本稿では,古いクラス知識を復元するための動的擬似ラベル(DPL)モジュールと,セッション固有の知識を保存し,古いクラス知識を新しいモデルに十分に転送するための漸進的クロスアテンション(ICA)モジュールを含む,LCILのための知識復元・転送(KRT)フレームワークを提案する。 さらに,インクリメンタルなクロスアテンションモジュールを共同で最適化するトークンロスを提案する。 MS-COCO と PASCAL VOC データセットによる実験結果から,認識性能の向上と,マルチラベルクラス増分学習における忘れの軽減効果が示された。

Current class-incremental learning research mainly focuses on single-label classification tasks while multi-label class-incremental learning (MLCIL) with more practical application scenarios is rarely studied. Although there have been many anti-forgetting methods to solve the problem of catastrophic forgetting in class-incremental learning, these methods have difficulty in solving the MLCIL problem due to label absence and information dilution. In this paper, we propose a knowledge restore and transfer (KRT) framework for MLCIL, which includes a dynamic pseudo-label (DPL) module to restore the old class knowledge and an incremental cross-attention(ICA) module to save session-specific knowledge and transfer old class knowledge to the new model sufficiently. Besides, we propose a token loss to jointly optimize the incremental cross-attention module. Experimental results on MS-COCO and PASCAL VOC datasets demonstrate the effectiveness of our method for improving recognition performance and mitigating forgetting on multi-label class-incremental learning tasks.
翻訳日:2023-08-15 22:28:32 公開日:2023-08-14
# RemoteNet:グローバルローカル情報に基づくリモートセンシング画像分割ネットワーク

RemoteNet: Remote Sensing Image Segmentation Network based on Global-Local Information ( http://arxiv.org/abs/2302.13084v2 )

ライセンス: Link先を確認
Satyawant Kumar, Abhishek Kumar, Dong-Gyu Lee(参考訳) リモートで撮影された画像は、複雑なシーンのため、膨大なスケールとオブジェクトの外観変化を持っている。 セグメンテーションのグローバルおよびローカルコンテキストにおいて、基盤となる属性をキャプチャすることは困難になる。 既存のネットワークは、乱雑な背景のために固有の特徴を捉えるのに苦労している。 これらの課題に対処するため,リモートセンシング画像のセグメンテーションのためのリモートセンシング画像セグメンテーションネットワークであるRemoteNetを提案する。 我々は、トランスフォーマーと畳み込み機構の利点を利用して、グローバルおよびローカルな特徴を捉える。 RemoteNetは、マルチスケール機能を使用するエンコーダデコーダ設計である。 これらの特徴を活用すべく,チャンネル毎の注意スコアを生成するアテンションマップモジュールを構築した。 我々はデコーダネットワークにグローバルローカルトランスフォーマーブロック(GLTB)を構築し,デコードフェーズにおけるロバスト表現の学習を支援する。 さらに,浅いステージエンコーダ機能と最も深いgltb機能との融合出力を洗練する機能改良モジュールを設計した。 2つの公開データセットに関する実験結果は、提案したRemoteNetの有効性を示している。

Remotely captured images possess an immense scale and object appearance variability due to the complex scene. It becomes challenging to capture the underlying attributes in the global and local context for their segmentation. Existing networks struggle to capture the inherent features due to the cluttered background. To address these issues, we propose a remote sensing image segmentation network, RemoteNet, for semantic segmentation of remote sensing images. We capture the global and local features by leveraging the benefits of the transformer and convolution mechanisms. RemoteNet is an encoder-decoder design that uses multi-scale features. We construct an attention map module to generate channel-wise attention scores for fusing these features. We construct a global-local transformer block (GLTB) in the decoder network to support learning robust representations during a decoding phase. Further, we designed a feature refinement module to refine the fused output of the shallow stage encoder feature and the deepest GLTB feature of the decoder. Experimental findings on the two public datasets show the effectiveness of the proposed RemoteNet.
翻訳日:2023-08-15 22:28:14 公開日:2023-08-14
# バッチ正規化によるシャッフルSGDのトレーニング不安定性について

On the Training Instability of Shuffling SGD with Batch Normalization ( http://arxiv.org/abs/2302.12444v3 )

ライセンス: Link先を確認
David X. Wu, Chulhee Yun, Suvrit Sra(参考訳) 我々は、SGDがバッチ正規化とどのように相互作用するかを明らかにし、分散のような望ましくないトレーニングのダイナミクスを示す。 より正確には、Single Shuffle(SS)とRandom Reshuffle(RR)という2つの広く使われているSGDの変種が、バッチ正規化の存在下で驚くほど異なる相互作用をおこなったかを研究する。 具体的な例として、バッチ正規化を伴う線形ネットワークを用いた回帰について、SSとRRは勾配降下から「歪んだ」異なる大域的最適度に収束することを示す。 その後の分類では,SSとRRの訓練分岐が発生し得ない条件を特徴付ける。 SSが回帰や分類のばらつきにおいて最適に歪むかを示すための明示的な構成を示す一方、RRは歪みとばらつきの両方を避ける。 現実的な設定で実証的に検証し,バッチ正規化で使用するSSとRRの分離が実際に関係していると結論付けた。

We uncover how SGD interacts with batch normalization and can exhibit undesirable training dynamics such as divergence. More precisely, we study how Single Shuffle (SS) and Random Reshuffle (RR) -- two widely used variants of SGD -- interact surprisingly differently in the presence of batch normalization: RR leads to much more stable evolution of training loss than SS. As a concrete example, for regression using a linear network with batch normalization, we prove that SS and RR converge to distinct global optima that are "distorted" away from gradient descent. Thereafter, for classification we characterize conditions under which training divergence for SS and RR can, and cannot occur. We present explicit constructions to show how SS leads to distorted optima in regression and divergence for classification, whereas RR avoids both distortion and divergence. We validate our results by confirming them empirically in realistic settings, and conclude that the separation between SS and RR used with batch normalization is relevant in practice.
翻訳日:2023-08-15 22:27:36 公開日:2023-08-14
# パラメータ制御のための自動アルゴリズム構成法

Using Automated Algorithm Configuration for Parameter Control ( http://arxiv.org/abs/2302.12334v2 )

ライセンス: Link先を確認
Deyao Chen, Maxim Buzdalov, Carola Doerr, Nguyen Dang(参考訳) 動的アルゴリズム構成(DAC)は、データ駆動方式でアルゴリズムのパラメータを制御するためのポリシーを自動的に学習する方法の問題に取り組む。 この問題は近年、進化的コミュニティからかなりの注目を集めている。 したがって、DACの異なる解法の有効性と限界について構造的理解を得るための優れたベンチマーク収集が望ましい。 理論的性質と基底真理情報をよく理解したDACベンチマークを提案する最近の研究に続いて、我々は新しいDACベンチマークとして、OneMax問題を解決するための1+(\lambda,\lambda)$~Genetic Algorithmのキーパラメータを$\lambda$で制御することを提案している。 本稿では,ベンチマーク上での(静的な)自動アルゴリズム構成を用いてDAC問題の解法について検討し,アプローチの性能を大幅に向上させる手法を提案する。 我々のアプローチは、十分に大きな問題サイズに関する以前の理論的研究から得られたベンチマークのデフォルトパラメータ制御ポリシーを一貫して上回ることができる。 また,パラメータ制御サーチポリシの展望に関する新たな知見を提示し,真の最適ポリシーの数値近似を用いて,ベンチマークのより強力なベースラインを求める手法を提案する。

Dynamic Algorithm Configuration (DAC) tackles the question of how to automatically learn policies to control parameters of algorithms in a data-driven fashion. This question has received considerable attention from the evolutionary community in recent years. Having a good benchmark collection to gain structural understanding on the effectiveness and limitations of different solution methods for DAC is therefore strongly desirable. Following recent work on proposing DAC benchmarks with well-understood theoretical properties and ground truth information, in this work, we suggest as a new DAC benchmark the controlling of the key parameter $\lambda$ in the $(1+(\lambda,\lambda))$~Genetic Algorithm for solving OneMax problems. We conduct a study on how to solve the DAC problem via the use of (static) automated algorithm configuration on the benchmark, and propose techniques to significantly improve the performance of the approach. Our approach is able to consistently outperform the default parameter control policy of the benchmark derived from previous theoretical work on sufficiently large problem sizes. We also present new findings on the landscape of the parameter-control search policies and propose methods to compute stronger baselines for the benchmark via numerical approximations of the true optimal policies.
翻訳日:2023-08-15 22:27:16 公開日:2023-08-14
# SATは排他的検索を必要とする

SAT Requires Exhaustive Search ( http://arxiv.org/abs/2302.09512v6 )

ライセンス: Link先を確認
Ke Xu, Guangyan Zhou(参考訳) 本稿では, CSP (大域領域) と SAT (長節) の非常に難しい例を構築することにより, P $\neq$ NP よりも強い徹底的な探索がなければ,そのような例は解決できないことを証明した。 計算複雑性理論で現在使われているものとは全く異なる(そして欠落している)が、クルト・G・"{o}del が彼の有名な論理的不合理結果を証明する際に用いたものと似ている。 g\"{o}delの数学における形式的証明不可能性を証明するという結果が示すように、この論文の結果は計算の困難さを証明することは数学では難しくないことを示している。 具体的には, 3SAT のような多くの問題に対する下位境界の証明は, 徹底的な探索を避けるために, 様々な効果的な方法が考えられるため困難である。 しかし、非常に難しい例の場合、徹底的な検索が唯一の選択肢となり、その必要性を証明するのがより簡単になる。 これにより、SAT(長い節を持つ)と3-SATの分離は、3-SATと2-SATの分離よりもずっと簡単になる。 最後に,本論文の主な結果は,g\"{o}delの結果が示す構文と意味論の根本的な違いがcspとsatにも存在していることを示す。

In this paper, by constructing extremely hard examples of CSP (with large domains) and SAT (with long clauses), we prove that such examples cannot be solved without exhaustive search, which is stronger than P $\neq$ NP. This constructive approach for proving impossibility results is very different (and missing) from those currently used in computational complexity theory, but is similar to that used by Kurt G\"{o}del in proving his famous logical impossibility results. Just as shown by G\"{o}del's results that proving formal unprovability is feasible in mathematics, the results of this paper show that proving computational hardness is not hard in mathematics. Specifically, proving lower bounds for many problems, such as 3-SAT, can be challenging because these problems have various effective strategies available for avoiding exhaustive search. However, in cases of extremely hard examples, exhaustive search may be the only viable option, and proving its necessity becomes more straightforward. Consequently, it makes the separation between SAT (with long clauses) and 3-SAT much easier than that between 3-SAT and 2-SAT. Finally, the main results of this paper demonstrate that the fundamental difference between the syntax and the semantics revealed by G\"{o}del's results also exists in CSP and SAT.
翻訳日:2023-08-15 22:26:27 公開日:2023-08-14
# SEAM: 読み上げにおける文処理と眼球運動の統合的活性化結合モデル

SEAM: An Integrated Activation-Coupled Model of Sentence Processing and Eye Movements in Reading ( http://arxiv.org/abs/2303.05221v2 )

ライセンス: Link先を確認
Maximilian M. Rabe, Dario Paape, Daniela Mertzen, Shravan Vasishth, Ralf Engbert(参考訳) 読書中の眼球運動制御のモデルは、主に心理学内で発達し、視覚的、注意的、語彙的、運動的プロセスに焦点をあてるが、語彙後言語処理は無視する。 眼球運動制御と文処理を統合した2つの研究スレッドを組み合わせたモデルを提案する。 このような統合モデルの開発は極めて困難かつ計算的に要求されるが、このような統合は自然言語理解の完全な数学的モデルへの重要な一歩である。 我々は、眼球運動制御のSWIFTモデル(Seelig et al., 2020, doi:10.1016/j.jmp.2019.102313)とLewis & Vasishth文処理モデルのキーコンポーネント(Lewis & Vasishth, 2005, doi:10.1207/s15516709cog0000_25)を組み合わせる。 この統合は、動的モデルにおけるパラメータ識別が成功した最近の進歩により、初めて可能となり、個々のモデルパラメータのプロファイルログライク度を調査できる。 本手法は,マルコフ連鎖モンテカルロ(mcmc)サンプリングを用いたベイズモデル推論を主要な計算ツールとして用いた。 統合モデルSEAMは、読書における類似性に基づく干渉によって生じる眼球運動パターンをうまく再現することができる。 我々の知る限り、これは文理解における言語依存補完プロセスと眼球運動制御の完全なプロセスモデルの統合として初めてである。 今後の研究では、この概念モデルを包括的なベンチマークデータを用いて評価する必要がある。

Models of eye-movement control during reading, developed largely within psychology, usually focus on visual, attentional, lexical, and motor processes but neglect post-lexical language processing; by contrast, models of sentence comprehension processes, developed largely within psycholinguistics, generally focus only on post-lexical language processes. We present a model that combines these two research threads, by integrating eye-movement control and sentence processing. Developing such an integrated model is extremely challenging and computationally demanding, but such an integration is an important step toward complete mathematical models of natural language comprehension in reading. We combine the SWIFT model of eye-movement control (Seelig et al., 2020, doi:10.1016/j.jmp.2019.102313) with key components of the Lewis and Vasishth sentence processing model (Lewis & Vasishth, 2005, doi:10.1207/s15516709cog0000_25). This integration becomes possible, for the first time, due in part to recent advances in successful parameter identification in dynamical models, which allows us to investigate profile log-likelihoods for individual model parameters. We present a fully implemented proof-of-concept model demonstrating how such an integrated model can be achieved; our approach includes Bayesian model inference with Markov Chain Monte Carlo (MCMC) sampling as a key computational tool. The integrated model, SEAM, can successfully reproduce eye movement patterns that arise due to similarity-based interference in reading. To our knowledge, this is the first-ever integration of a complete process model of eye-movement control with linguistic dependency completion processes in sentence comprehension. In future work, this proof of concept model will need to be evaluated using a comprehensive set of benchmark data.
翻訳日:2023-08-15 22:18:19 公開日:2023-08-14
# Lifelong-MonoDepth:マルチドメイン単分子距離推定のための生涯学習

Lifelong-MonoDepth: Lifelong Learning for Multi-Domain Monocular Metric Depth Estimation ( http://arxiv.org/abs/2303.05050v2 )

ライセンス: Link先を確認
Junjie Hu, Chenyou Fan, Liguang Zhou, Qing Gao, Honghai Liu, Tin Lun Lam(参考訳) 自動運転とロボットナビゲーションの急速な進歩により、メートル法(絶対的)の深さを推定できる生涯学習モデルの需要が高まっている。 生涯学習のアプローチは、モデルトレーニング、データストレージ、収集といった面で大きなコスト削減をもたらす可能性がある。 しかし、RGB画像と深度マップの品質はセンサ依存であり、現実世界の深度マップはドメイン固有の特徴を示し、深度範囲のバリエーションをもたらす。 これらの課題は、ドメインギャップの小さい生涯学習シナリオと相対深度マップ推定に制限される。 生涯にわたるメートル法深度学習を促進するために、注意を要する3つの重要な技術的課題を特定します。 一 スケール認識深度学習により深度スケールの変動に対処できるモデルを開発すること。 二 重要な領域ギャップに対処する効果的な学習戦略を考案し、 三 実用分野におけるドメイン認識深層推論の自動化ソリューションの作成。 上記の考察に基づき,本論文で提示する。 一 深さ規模の不均衡に効果的に取り組む軽量の多頭フレームワーク 二 重要なドメイン間隙を適切に処理する不確実性に気を配る生涯学習ソリューション 三 リアルタイム推論のためのオンラインドメイン固有予測者選択方法 その結果,提案手法は高い効率,安定性,可塑性を達成でき,ベンチマークを8%から15%に向上させることができた。

With the rapid advancements in autonomous driving and robot navigation, there is a growing demand for lifelong learning models capable of estimating metric (absolute) depth. Lifelong learning approaches potentially offer significant cost savings in terms of model training, data storage, and collection. However, the quality of RGB images and depth maps is sensor-dependent, and depth maps in the real world exhibit domain-specific characteristics, leading to variations in depth ranges. These challenges limit existing methods to lifelong learning scenarios with small domain gaps and relative depth map estimation. To facilitate lifelong metric depth learning, we identify three crucial technical challenges that require attention: i) developing a model capable of addressing the depth scale variation through scale-aware depth learning, ii) devising an effective learning strategy to handle significant domain gaps, and iii) creating an automated solution for domain-aware depth inference in practical applications. Based on the aforementioned considerations, in this paper, we present i) a lightweight multi-head framework that effectively tackles the depth scale imbalance, ii) an uncertainty-aware lifelong learning solution that adeptly handles significant domain gaps, and iii) an online domain-specific predictor selection method for real-time inference. Through extensive numerical studies, we show that the proposed method can achieve good efficiency, stability, and plasticity, leading the benchmarks by 8% to 15%.
翻訳日:2023-08-15 22:17:44 公開日:2023-08-14
# Decision-BADGE:方向勾配推定による決定に基づく逆バッチ攻撃

Decision-BADGE: Decision-based Adversarial Batch Attack with Directional Gradient Estimation ( http://arxiv.org/abs/2303.04980v2 )

ライセンス: Link先を確認
Geunhyeok Yu, Minwoo Jeon and Hyoseok Hwang(参考訳) ディープニューラルネットワーク(DNN)の敵の例に対する感受性は、敵の攻撃の展開を増加させるきっかけとなった。 イメージに依存しない普遍的敵対的摂動(UAP)は、はるかに脅威であるが、バイナリ決定のみが返される現実のシナリオにおいて、UAPを実装することに対する多くの制限が存在する。 本研究では,決定に基づくブラックボックス攻撃を実行するために,普遍的対人摂動を実現する新しい手法であるDecision-BADGEを提案する。 決定を伴う摂動を最適化するために、勾配の大きさと方向という2つの課題に対処した。 まず、バッチ損失、基底真理の分布の違い、およびバッチ内の決定を蓄積して勾配の大きさを決定する。 この大きさは、修正同時摂動確率近似(SPSA)の方向に適用され、摂動を更新する。 このシンプルで効率的な方法は、スコアベースの攻撃や標的攻撃にも簡単に拡張できる。 複数の犠牲者モデルに対する実験的検証は、Decision-BADGEが既存の攻撃方法、イメージ固有の攻撃やスコアベースの攻撃よりも優れていることを示している。 特に,提案手法は,学習時間が少なく,高い成功率を示す。 この研究は、Decision-BADGEが未確認の犠牲者モデルを無視し、特定のクラスを正確にターゲットできることを示した。

The susceptibility of deep neural networks (DNNs) to adversarial examples has prompted an increase in the deployment of adversarial attacks. Image-agnostic universal adversarial perturbations (UAPs) are much more threatening, but many limitations exist to implementing UAPs in real-world scenarios where only binary decisions are returned. In this research, we propose Decision-BADGE, a novel method to craft universal adversarial perturbations for executing decision-based black-box attacks. To optimize perturbation with decisions, we addressed two challenges, namely the magnitude and the direction of the gradient. First, we use batch loss, differences from distributions of ground truth, and accumulating decisions in batches to determine the magnitude of the gradient. This magnitude is applied in the direction of the revised simultaneous perturbation stochastic approximation (SPSA) to update the perturbation. This simple yet efficient method can be easily extended to score-based attacks as well as targeted attacks. Experimental validation across multiple victim models demonstrates that the Decision-BADGE outperforms existing attack methods, even image-specific and score-based attacks. In particular, our proposed method shows a superior success rate with less training time. The research also shows that Decision-BADGE can successfully deceive unseen victim models and accurately target specific classes.
翻訳日:2023-08-15 22:17:27 公開日:2023-08-14
# Miipher: 自己監督音声とテキスト表現を統合したロバスト音声復元モデル

Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech and Text Representations ( http://arxiv.org/abs/2303.01664v2 )

ライセンス: Link先を確認
Yuma Koizumi, Heiga Zen, Shigeki Karita, Yifan Ding, Kohei Yatabe, Nobuyuki Morioka, Yu Zhang, Wei Han, Ankur Bapna, Michiel Bacchiani(参考訳) 音声復元(SR)は、劣化した音声信号を高品質なものに変換するタスクである。 本研究では、Miipherと呼ばれる頑健なSRモデルを提案し、Miipherを新しいSRアプリケーションに適用し、Webから収集した音声サンプルをスタジオ品質に変換することによって、音声生成のための高品質なトレーニングデータ量を増やす。 SRモデルを様々な劣化に対して堅牢にするには 一 入力特徴のためにw2v-BERTから抽出した音声表現及び 2PnG-BERTを介してテキストから抽出したテキスト表現を言語条件付き特徴とする。 Miipherの実験結果 (i)各種オーディオ劣化に対して頑健であり (II) Web から収集した音声サンプルから高品質なテキスト音声(TTS)モデルを訓練することができる。 オーディオサンプルはデモページで公開されている。

Speech restoration (SR) is a task of converting degraded speech signals into high-quality ones. In this study, we propose a robust SR model called Miipher, and apply Miipher to a new SR application: increasing the amount of high-quality training data for speech generation by converting speech samples collected from the Web to studio-quality. To make our SR model robust against various degradation, we use (i) a speech representation extracted from w2v-BERT for the input feature, and (ii) a text representation extracted from transcripts via PnG-BERT as a linguistic conditioning feature. Experiments show that Miipher (i) is robust against various audio degradation and (ii) enable us to train a high-quality text-to-speech (TTS) model from restored speech samples collected from the Web. Audio samples are available at our demo page: google.github.io/df-conformer/miipher/
翻訳日:2023-08-15 22:17:04 公開日:2023-08-14
# 運動プリミティブを用いた確率非線形系の実時間管型非ガウスリスク境界運動計画

Real-Time Tube-Based Non-Gaussian Risk Bounded Motion Planning for Stochastic Nonlinear Systems in Uncertain Environments via Motion Primitives ( http://arxiv.org/abs/2303.01631v2 )

ライセンス: Link先を確認
Weiqiao Han, Ashkan Jasour, Brian Williams(参考訳) 不確定環境における確率非線形システムの動作計画問題を考える。 より正確には、ロボットは確率的非線形ダイナミクスと不確実な初期位置を持ち、環境には複数の不安定な障害が含まれている。 障害物は任意の形状で変形し、移動することができる。 すべての不確かさは必ずしもガウス分布を持つとは限らない。 この一般設定は [1] において考慮され、解決されている。 上記の仮定に加えて,システム状態の不確実性が長期的地平線上で大きくなりすぎるため,[1]における計画手法が失敗する長期的タスクについても考察する。 [1]とは異なり,実時間オンライン動作計画アルゴリズムを提案する。 離散時間運動プリミティブとそれに対応する連続時間管をオフラインで構築し、各動作プリミティブのほぼ全ての系状態が対応するチューブ内に留まることを保証する。 確率論的安全性制約をリスクパターンと呼ばれる決定論的制約の集合に変換する。 オンライン実行中,SOS(sum-of-squares)プログラミングを用いて,決定論的リスク輪郭に対するチューブの安全性を検証する。 提案手法は, 不確実なサンプルや時間離散化を必要とせずに, 不確実な障害物が存在する場合のチューブの安全性を検証する。 システム状態が管内に留まる確率と障害物に衝突する管の確率をバウンドすることで, 障害物に衝突する系の状態のバウンド化確率を保証できる。 我々は,長期ロボット工学の課題に対するアプローチを実証する。

We consider the motion planning problem for stochastic nonlinear systems in uncertain environments. More precisely, in this problem the robot has stochastic nonlinear dynamics and uncertain initial locations, and the environment contains multiple dynamic uncertain obstacles. Obstacles can be of arbitrary shape, can deform, and can move. All uncertainties do not necessarily have Gaussian distribution. This general setting has been considered and solved in [1]. In addition to the assumptions above, in this paper, we consider long-term tasks, where the planning method in [1] would fail, as the uncertainty of the system states grows too large over a long time horizon. Unlike [1], we present a real-time online motion planning algorithm. We build discrete-time motion primitives and their corresponding continuous-time tubes offline, so that almost all system states of each motion primitive are guaranteed to stay inside the corresponding tube. We convert probabilistic safety constraints into a set of deterministic constraints called risk contours. During online execution, we verify the safety of the tubes against deterministic risk contours using sum-of-squares (SOS) programming. The provided SOS-based method verifies the safety of the tube in the presence of uncertain obstacles without the need for uncertainty samples and time discretization in real-time. By bounding the probability the system states staying inside the tube and bounding the probability of the tube colliding with obstacles, our approach guarantees bounded probability of system states colliding with obstacles. We demonstrate our approach on several long-term robotics tasks.
翻訳日:2023-08-15 22:16:51 公開日:2023-08-14
# 確率非線形ロボットシステムの非ガウス的不確かさ最小化に基づく制御

Non-Gaussian Uncertainty Minimization Based Control of Stochastic Nonlinear Robotic Systems ( http://arxiv.org/abs/2303.01628v2 )

ライセンス: Link先を確認
Weiqiao Han, Ashkan Jasour, Brian Williams(参考訳) 本稿では,確率的不確実性と外乱の存在下での非線形ロボットシステムの閉ループ制御問題を考える。 より正確には、不確実性と外乱による名目状態軌跡からシステムの状態の逸脱を最小限に抑える状態フィードバックコントローラを設計する。 確率システムの制御問題に対処するための既存のアプローチは、ガウスの不確実性やプロセス、線形化システムなどの不確実性の特定のクラスに限られる。 本稿では非線形力学モデルと任意の確率的不確実性を扱うアプローチを提案する。 制御器設計問題をモーメントや特性関数を含む確率分布の統計量の観点から最適化問題として定式化する。 特に、与えられた最適化問題において、ロボットシステムの非線形運動モデル全体を通して不確かさを伝播するためにモーメントと特性関数を用いる。 追従偏差を低減するために, 確率的状態の共分散行列のトレースと行列式を最小化することにより, 公称軌道周りの確率的状態の不確かさを最小限に抑える。 状態フィードバックゲインを得るために,既設の内点最適化器を用いてモーメント,特徴関数,状態フィードバックゲインの観点から決定論的最適化問題を解く。 提案手法の性能を示すために,本手法を既存の確率的制御手法と比較する。

In this paper, we consider the closed-loop control problem of nonlinear robotic systems in the presence of probabilistic uncertainties and disturbances. More precisely, we design a state feedback controller that minimizes deviations of the states of the system from the nominal state trajectories due to uncertainties and disturbances. Existing approaches to address the control problem of probabilistic systems are limited to particular classes of uncertainties and systems such as Gaussian uncertainties and processes and linearized systems. We present an approach that deals with nonlinear dynamics models and arbitrary known probabilistic uncertainties. We formulate the controller design problem as an optimization problem in terms of statistics of the probability distributions including moments and characteristic functions. In particular, in the provided optimization problem, we use moments and characteristic functions to propagate uncertainties throughout the nonlinear motion model of robotic systems. In order to reduce the tracking deviations, we minimize the uncertainty of the probabilistic states around the nominal trajectory by minimizing the trace and the determinant of the covariance matrix of the probabilistic states. To obtain the state feedback gains, we solve deterministic optimization problems in terms of moments, characteristic functions, and state feedback gains using off-the-shelf interior-point optimization solvers. To illustrate the performance of the proposed method, we compare our method with existing probabilistic control methods.
翻訳日:2023-08-15 22:16:27 公開日:2023-08-14
# オンライン関数近似を用いた逆文脈mdpの効率的なレート最適後悔

Efficient Rate Optimal Regret for Adversarial Contextual MDPs Using Online Function Approximation ( http://arxiv.org/abs/2303.01464v2 )

ライセンス: Link先を確認
Orin Levy, Alon Cohen, Asaf Cassel, Yishay Mansour(参考訳) 我々は,敵対的文脈 MDP における後悔最小化のためのOMG-CMDP!アルゴリズムを提案する。 このアルゴリズムは、実現可能な関数クラスとオンライン最小二乗およびログロス回帰オラクルへのアクセスの最小仮定の下で動作する。 我々のアルゴリズムは効率的であり(効率的なオンライン回帰オラクルを仮定する)、近似誤差に対して単純で堅牢である。 これは$\widetilde{O}(H^{2.5} \sqrt{T|S|A| ( \mathcal{R}(\mathcal{O})) + H \log(\delta^{-1}) )})$ regret guarantee, with $T$ is the number of episodes, $S$ the state space, $A$ the action space, $H$ the horizon, $\mathcal{R}(\mathcal{O}) = \mathcal{R}(\mathcal{O}_{\mathrm{sq}}^\mathcal{F}) + \mathcal{R}(\mathcal{O}_{\mathrm{log}}^\mathcal{P})$$ $T$は、それぞれ退行の和であり、相似的、相似的、相似的、相似的、相似的、相似的、相似的、相似的、相似的、相似的、相似的。 私たちの知る限りでは、オンライン関数近似の最小標準仮定の下で動作する敵cmdpに対する、最初の効率的なレート最適後悔最小化アルゴリズムである。

We present the OMG-CMDP! algorithm for regret minimization in adversarial Contextual MDPs. The algorithm operates under the minimal assumptions of realizable function class and access to online least squares and log loss regression oracles. Our algorithm is efficient (assuming efficient online regression oracles), simple and robust to approximation errors. It enjoys an $\widetilde{O}(H^{2.5} \sqrt{ T|S||A| ( \mathcal{R}(\mathcal{O}) + H \log(\delta^{-1}) )})$ regret guarantee, with $T$ being the number of episodes, $S$ the state space, $A$ the action space, $H$ the horizon and $\mathcal{R}(\mathcal{O}) = \mathcal{R}(\mathcal{O}_{\mathrm{sq}}^\mathcal{F}) + \mathcal{R}(\mathcal{O}_{\mathrm{log}}^\mathcal{P})$ is the sum of the regression oracles' regret, used to approximate the context-dependent rewards and dynamics, respectively. To the best of our knowledge, our algorithm is the first efficient rate optimal regret minimization algorithm for adversarial CMDPs that operates under the minimal standard assumption of online function approximation.
翻訳日:2023-08-15 22:16:06 公開日:2023-08-14
# 1次元格子ゲージ理論における量子多体スカーの中間不安定性

Meson Instability of Quantum Many-body Scars in a 1D Lattice Gauge Theory ( http://arxiv.org/abs/2303.13156v2 )

ライセンス: Link先を確認
Zi-Yong Ge, Yu-Ran Zhang, and Franco Nori(参考訳) 1D$\mathbb{Z}_2$格子ゲージ理論の量子多体散乱における中間子励起(粒子-反粒子境界状態)の安定性を、物質場としての動的スピン-$\frac{1}{2}$鎖に結合して検討する。 物理的ヒルベルト空間の文字列表現を導入することで、スカー状態 $\ket {\psi_{n,l}}$ を同じ文字列番号 $n$ と総長さ $l$ の全ての文字列基底の重ね合わせとして表現する。 小さい-$l$スカー状態$\ket {\psi_{n,l}}$に対して、物質場のゲージ不変スピン交換相関関数は距離が増加するにつれて指数的減衰を保ち、安定中間子の存在を示す。 しかし、大きな l$ の場合、相関関数はパワーロー減衰を示し、中間子不安定性の出現を示唆する。 さらに, このメソニック-非メメソニック交叉は, 量子シミュレータで実験的に実現可能な2つの低絡み合い初期状態から, クエンチダイナミクスによって検出可能であることを示す。 我々の結果は、格子ゲージ理論における量子多体傷の物理学を拡張し、非メメニック状態がエルゴディディディティの破れを示すことを明らかにする。

We investigate the stability of meson excitations (particle-antiparticle bound states) in quantum many-body scars of a 1D $\mathbb{Z}_2$ lattice gauge theory coupled to a dynamical spin-$\frac{1}{2}$ chain as a matter field. By introducing a string representation of the physical Hilbert space, we express a scar state $\ket {\Psi_{n,l}}$ as a superposition of all string bases with an identical string number $n$ and a total length $l$. For the small-$l$ scar state $\ket {\Psi_{n,l}}$, the gauge-invariant spin exchange correlation function of the matter field hosts an exponential decay as the distance increases, indicating the existence of stable mesons. However, for large $l$, the correlation function exhibits a power-law decay, signaling the emergence of a meson instability. Furthermore, we show that this mesonic-nonmesonic crossover can be detected by the quench dynamics, starting from two low-entangled initial states, respectively, which are experimentally feasible in quantum simulators. Our results expand the physics of quantum many-body scars in lattice gauge theories and reveal that the nonmesonic state can also manifest ergodicity breaking.
翻訳日:2023-08-15 22:09:16 公開日:2023-08-14
# 視覚変換器用ウェーブレットニューラル演算子によるマルチスケールアテンション

Multiscale Attention via Wavelet Neural Operators for Vision Transformers ( http://arxiv.org/abs/2303.12398v3 )

ライセンス: Link先を確認
Anahita Nekoozadeh, Mohammad Reza Ahmadzadeh, Zahra Mardani(参考訳) トランスフォーマーはコンピュータビジョンで広く成功を収めた。 彼らの心には自己認識(SA)メカニズムがあり、これはインプット内の各トークンと他のトークンを重み付けによって関連付ける誘導バイアスである。 標準のsa機構は、シーケンス長と二次的な複雑さを持ち、高分解能の視覚に現れる長いシーケンスに有用である。 近年,fftで効率的に実装されるグローバル畳み込みに基づく高分解能注意のための適応フーリエニューラル演算子 (afno) が提案されている。 しかし、AFNOグローバルフィルタリングは、自然画像によく見られる小型で中規模な構造をうまく表すことはできない。 配列サイズが線形に複雑になるウェーブレットニューラル演算子を利用して、粗大から細大のスケール構造を活用するために、マルチスケールウェーブレット注意(MWA)を導入する。 vit の注目を mwa に置き換え,cifar と tiny-imagenet の分類で実験を行った結果,afno や global filter network (gfn) といった代替フーリエベースの注目よりも大幅に改善した。

Transformers have achieved widespread success in computer vision. At their heart, there is a Self-Attention (SA) mechanism, an inductive bias that associates each token in the input with every other token through a weighted basis. The standard SA mechanism has quadratic complexity with the sequence length, which impedes its utility to long sequences appearing in high resolution vision. Recently, inspired by operator learning for PDEs, Adaptive Fourier Neural Operators (AFNO) were introduced for high resolution attention based on global convolution that is efficiently implemented via FFT. However, the AFNO global filtering cannot well represent small and moderate scale structures that commonly appear in natural images. To leverage the coarse-to-fine scale structures we introduce a Multiscale Wavelet Attention (MWA) by leveraging wavelet neural operators which incurs linear complexity in the sequence size. We replace the attention in ViT with MWA and our experiments with CIFAR and Tiny-ImageNet classification demonstrate significant improvement over alternative Fourier-based attentions such as AFNO and Global Filter Network (GFN).
翻訳日:2023-08-15 22:08:22 公開日:2023-08-14
# 古典的スペクトル推定器の非漸近的ポイントワイズおよび最悪のケース境界

Non-Asymptotic Pointwise and Worst-Case Bounds for Classical Spectrum Estimators ( http://arxiv.org/abs/2303.11908v2 )

ライセンス: Link先を確認
Andrew Lamperski(参考訳) スペクトル推定は、医学、音声分析、制御設計を含む時系列データの解析における基本的な方法論である。 スペクトル推定の漸近理論はよく理解されているが、サンプル数が固定かつ有限であれば理論は限定される。 本論文は、スペクトル推定器の幅広いクラスに対して、(特定の周波数で)点方向および全ての周波数上で最悪の場合に、非漸近誤差境界を与える。 一般的な方法は、古典的なブラックマン=タキー、バートレット、ウェルチ推定器の誤差境界を導出するために用いられる。 特に、これらはBartlett および Welch 推定器に対する最初の非漸近誤差境界である。

Spectrum estimation is a fundamental methodology in the analysis of time-series data, with applications including medicine, speech analysis, and control design. The asymptotic theory of spectrum estimation is well-understood, but the theory is limited when the number of samples is fixed and finite. This paper gives non-asymptotic error bounds for a broad class of spectral estimators, both pointwise (at specific frequencies) and in the worst case over all frequencies. The general method is used to derive error bounds for the classical Blackman-Tukey, Bartlett, and Welch estimators. In particular, these are first non-asymptotic error bounds for Bartlett and Welch estimators.
翻訳日:2023-08-15 22:07:56 公開日:2023-08-14
# Aerial-Ground Person Re-ID

Aerial-Ground Person Re-ID ( http://arxiv.org/abs/2303.08597v5 )

ライセンス: Link先を確認
Huy Nguyen, Kien Nguyen, Sridha Sridharan, Clinton Fookes(参考訳) 人は複数の重複しないカメラで人と再識別します。 飛行中のプラットフォームを監視に展開する一方で、既存の人物のre-IDベンチマークは地上でのマッチングと空中のマッチングに非常に限定的な取り組みに重点を置いている。 そこで我々は,航空カメラと地上カメラをまたいで,人物のリIDマッチングを行う新しいベンチマークデータセットAG-ReIDを提案する。 データセットには、388のアイデンティティの21,983のイメージと、各IDに対する15のソフト属性が含まれている。 データは、高度15~45mのUAVと、大学のキャンパスで地上のCCTVカメラによって収集されました。 我々のデータセットは、カメラ間で人物の外観が著しく異なるため、人物のリIDに対する新たな視点課題を提示している。 本稿では,この課題に対処するために,ソフト属性を用いたリIDモデルのトレーニングを指導するための説明可能なアルゴリズムを提案する。 地上人物再ID課題に対する提案手法の有効性を示す実験を行った。 データセットは公開され、ベースラインコードはhttps://github.com/huynguyen792/AG-ReIDでオープンソース化される。

Person re-ID matches persons across multiple non-overlapping cameras. Despite the increasing deployment of airborne platforms in surveillance, current existing person re-ID benchmarks' focus is on ground-ground matching and very limited efforts on aerial-aerial matching. We propose a new benchmark dataset - AG-ReID, which performs person re-ID matching in a new setting: across aerial and ground cameras. Our dataset contains 21,983 images of 388 identities and 15 soft attributes for each identity. The data was collected by a UAV flying at altitudes between 15 to 45 meters and a ground-based CCTV camera on a university campus. Our dataset presents a novel elevated-viewpoint challenge for person re-ID due to the significant difference in person appearance across these cameras. We propose an explainable algorithm to guide the person re-ID model's training with soft attributes to address this challenge. Experiments demonstrate the efficacy of our method on the aerial-ground person re-ID task. The dataset will be published and the baseline codes will be open-sourced at https://github.com/huynguyen792/AG-ReID to facilitate research in this area.
翻訳日:2023-08-15 22:06:55 公開日:2023-08-14
# TARGET: 常用蒸留による一級連続学習

TARGET: Federated Class-Continual Learning via Exemplar-Free Distillation ( http://arxiv.org/abs/2303.06937v2 )

ライセンス: Link先を確認
Jie Zhang, Chen Chen, Weiming Zhuang, Lingjuan Lv(参考訳) 本稿では,新しいクラスを動的に追加するフェデレーション型クラス連続学習(fccl)について述べる。 既存のFCCLの作業には、データセットの追加や、以前のタスクからのプライベートデータの保存など、さまざまな制限がある。 その結果,非IIDデータによりFLにおける破滅的忘れの問題が悪化することが確認された。 次に,クライアントデータプライバシを保護しながらFCCLにおける破滅的な忘れを緩和するTARGET(federat\textbf{T}ed cl\textbf{A}ss-continual lea\textbf{R}nin\textbf{G} via \textbf{E}xemplar-free dis\textbf{T}illation)を提案する。 提案手法では,前述したグローバルモデルを利用して,過去のタスクの知識をモデルレベルで現在のタスクに転送する。 さらに、データレベルで各クライアント上のデータのグローバルな分布をシミュレートする合成データを生成するように、ジェネレータを訓練する。 従来のFCCLメソッドと比較して、TARGETは追加のデータセットや以前のタスクからの実際のデータを格納する必要がなく、データに敏感なシナリオに最適である。

This paper focuses on an under-explored yet important problem: Federated Class-Continual Learning (FCCL), where new classes are dynamically added in federated learning. Existing FCCL works suffer from various limitations, such as requiring additional datasets or storing the private data from previous tasks. In response, we first demonstrate that non-IID data exacerbates catastrophic forgetting issue in FL. Then we propose a novel method called TARGET (federat\textbf{T}ed cl\textbf{A}ss-continual lea\textbf{R}nin\textbf{G} via \textbf{E}xemplar-free dis\textbf{T}illation), which alleviates catastrophic forgetting in FCCL while preserving client data privacy. Our proposed method leverages the previously trained global model to transfer knowledge of old tasks to the current task at the model level. Moreover, a generator is trained to produce synthetic data to simulate the global distribution of data on each client at the data level. Compared to previous FCCL methods, TARGET does not require any additional datasets or storing real data from previous tasks, which makes it ideal for data-sensitive scenarios.
翻訳日:2023-08-15 22:06:14 公開日:2023-08-14
# Heteroscedastic Label ノイズに対するロジスティック-Normal Likelihood

Logistic-Normal Likelihoods for Heteroscedastic Label Noise ( http://arxiv.org/abs/2304.02849v2 )

ライセンス: Link先を確認
Erik Englesson, Amir Mehrpanah, Hossein Azizpour(参考訳) 回帰における異方性ラベルノイズを推定する自然な方法は、観測された(潜在的にノイズの多い)ターゲットを正規分布からサンプルとしてモデル化することである。 この定式化は、高いエラー例の寄与を減らすため、望ましい損失減衰特性を有する。 直感的には、オーバーフィッティングを減らすことでラベルノイズに対する堅牢性を向上させることができる。 我々は、同じ望ましい損失減衰特性を持つ分類に対する、この単純で確率的なアプローチの拡張を提案する。 さらに,本拡張の実用的課題について議論し,対処する。 分類におけるラベルノイズに対するロバスト性を測定することにより,本手法の有効性を評価する。 ハイパーパラメータに対する感度、アブレーション研究、その他の洞察力のある分析など、この手法の内部動作を解明する啓蒙実験を行う。

A natural way of estimating heteroscedastic label noise in regression is to model the observed (potentially noisy) target as a sample from a normal distribution, whose parameters can be learned by minimizing the negative log-likelihood. This formulation has desirable loss attenuation properties, as it reduces the contribution of high-error examples. Intuitively, this behavior can improve robustness against label noise by reducing overfitting. We propose an extension of this simple and probabilistic approach to classification that has the same desirable loss attenuation properties. Furthermore, we discuss and address some practical challenges of this extension. We evaluate the effectiveness of the method by measuring its robustness against label noise in classification. We perform enlightening experiments exploring the inner workings of the method, including sensitivity to hyperparameters, ablation studies, and other insightful analyses.
翻訳日:2023-08-15 21:57:48 公開日:2023-08-14
# ダイナミックビュー合成のための動的単眼映像の分離

Decoupling Dynamic Monocular Videos for Dynamic View Synthesis ( http://arxiv.org/abs/2304.01716v2 )

ライセンス: Link先を確認
Meng You and Junhui Hou(参考訳) 動的単眼映像からのダイナミックビュー合成の課題、すなわち、移動カメラが捉えた動的シーンの単眼映像を与えられた自由視点のための新しいビューの合成は、主に限られた2dフレームを用いてシーンの動的オブジェクトを正確にモデル化することであり、それぞれ異なるタイムスタンプと視点を持つ。 既存の方法では、既処理の2D光流と深度マップをオフザシェルフ方式でネットワークを監視し、2D情報を3Dに持ち上げる際に、前処理の監督の正確さと曖昧さに悩まされる。 本稿では,この課題を教師なしの方法で解決する。 具体的には、動的物体の運動を物体の動きとカメラの動きに分離し、教師なし表面の整合性およびパッチベースのマルチビュー制約によって規則化する。 前者は移動物体の3次元幾何学的表面を時間とともに整合させ、後者は外見を異なる視点で整合させるように規則化させる。 このような細粒度な動きの定式化は,ネットワークの学習難易度を軽減できるため,既存の手法よりも高品質な新たなビューだけでなく,より正確なシーンフローや奥行きを生成できる。

The challenge of dynamic view synthesis from dynamic monocular videos, i.e., synthesizing novel views for free viewpoints given a monocular video of a dynamic scene captured by a moving camera, mainly lies in accurately modeling the dynamic objects of a scene using limited 2D frames, each with a varying timestamp and viewpoint. Existing methods usually require pre-processed 2D optical flow and depth maps by off-the-shelf methods to supervise the network, making them suffer from the inaccuracy of the pre-processed supervision and the ambiguity when lifting the 2D information to 3D. In this paper, we tackle this challenge in an unsupervised fashion. Specifically, we decouple the motion of the dynamic objects into object motion and camera motion, respectively regularized by proposed unsupervised surface consistency and patch-based multi-view constraints. The former enforces the 3D geometric surfaces of moving objects to be consistent over time, while the latter regularizes their appearances to be consistent across different viewpoints. Such a fine-grained motion formulation can alleviate the learning difficulty for the network, thus enabling it to produce not only novel views with higher quality but also more accurate scene flows and depth than existing methods requiring extra supervision.
翻訳日:2023-08-15 21:57:34 公開日:2023-08-14
# 自律走行車両試験における複雑なラウンドアラウンドの手続き的生成

Procedural Generation of Complex Roundabouts for Autonomous Vehicle Testing ( http://arxiv.org/abs/2303.17900v2 )

ライセンス: Link先を確認
Zarif Ikram, Golam Md Muktadir, Jim Whitehead(参考訳) 高規格道路は、自動運転車試験のための現実的な運転シナリオシミュレーションの重要な要素である。 ラウンドアバウションは、徹底的に調査されていない主要な道路セグメントの1つである。 本研究は, 近傍の道路構造の幾何学的制約に基づき, 円周を手続き的に構築する新しい手法を提案する。 提案手法は, 完全円形ではなく, 実世界の円形道路に類似した円形道路を任意の角度で結ぶことができる。 自動運転車のシナリオベースのテストでは、hd道路生成プロセスにラウンドアラウンドアラウンドを簡単に組み込むか、スタンドアロンラウンドアラウンドアラウンドアラウンドを使用することができます。

High-definition roads are an essential component of realistic driving scenario simulation for autonomous vehicle testing. Roundabouts are one of the key road segments that have not been thoroughly investigated. Based on the geometric constraints of the nearby road structure, this work presents a novel method for procedurally building roundabouts. The suggested method can result in roundabout lanes that are not perfectly circular and resemble real-world roundabouts by allowing approaching roadways to be connected to a roundabout at any angle. One can easily incorporate the roundabout in their HD road generation process or use the standalone roundabouts in scenario-based testing of autonomous driving.
翻訳日:2023-08-15 21:56:26 公開日:2023-08-14
# SLIC:学習画像圧縮のための自己定義型適応性を持つ大規模受容場学習

SLIC: Large Receptive Field Learning with Self-Conditioned Adaptability for Learned Image Compression ( http://arxiv.org/abs/2304.09571v2 )

ライセンス: Link先を確認
Wei Jiang, Peirong Ning, Jiayu Yang, Yongqi Zhai and Ronggang Wang(参考訳) 近年、圧縮を含む視覚タスクにおけるCNNの代替としてトランスフォーマーが流行している。 この傾向は、変換器と比較してCNNの本質的な限界に疑問を呈し、変換器よりも同じあるいはより優れた性能を達成するためにCNNを拡張できるかどうかを探索するのに役立ちます。 ほとんどのデバイスがCNNに最適化されているので、圧縮のための純粋なCNNベースのモデルを設計したいと考えています。 解析の結果, 変圧器の主強みは, 動的重みと大きな受容野にあることがわかった。 このような特性を持つCNNを実現するために,SLICという学習画像圧縮のための大規模受入学習と自己条件適応性を備えたトランスフォーメーションモジュールを提案する。 具体的には, 深さ方向畳み込みの受容場を適切な複雑さで拡大し, 与えられた条件により重み付けを生成する。 また,チャネルの自己条件因子についても検討する。 提案した変換モジュールの有効性を証明するため,既存のエントロピーモデルであるChARM,SCCTX,SWAttenと組み合わせて,SLIC-ChARM,SLIC-SCCTX,SLIC-SWAttenのモデルを求める。 SLIC-ChARM、SLIC-SCCTX、SLIC-SWAttenは5つのテストデータセット(Kodak、Tecnick、CLIC 20、CLIC 21、JPEGAI)で、対応するベースラインを大幅に改善し、適切な複雑性でSOTAパフォーマンスを実現しています。 コードはhttps://github.com/JiangWeibeta/SLIC.comから入手できる。

Recently, transformers are trending as replacements for CNNs in vision tasks, including compression. This trend compels us to question the inherent limitations of CNNs compared to transformers and to explore if CNNs can be enhanced to achieve the same or even better performance than transformers. We want to design a pure CNN based model for compression as most devices are optimized for CNNs well. In our analysis, we find that the key strengths of transformers lie in their dynamic weights and large receptive fields. To enable CNNs with such properties, we propose a novel transform module with large receptive filed learning and self-conditioned adaptability for learned image compression, named SLIC. Specifically, we enlarge the receptive field of depth-wise convolution with suitable complexity and generate the weights according to given conditions. In addition, we also investigate the self-conditioned factor for channels. To prove the effectiveness of our proposed transform module, we equip it with existing entropy models ChARM, SCCTX, and SWAtten and we obtain models SLIC-ChARM, SLIC-SCCTX, and SLIC-SWAtten. Extensive experiments demonstrate our SLIC-ChARM, SLIC-SCCTX, and SLIC-SWAtten have significant improvements over corresponding baselines and achieve SOTA performances with suitable complexity on 5 test datasets (Kodak, Tecnick, CLIC 20, CLIC 21, JPEGAI). Code will be available at https://github.com/JiangWeibeta/SLIC.
翻訳日:2023-08-15 20:12:00 公開日:2023-08-14
# G-MATT:分子文法木変換器を用いた単段階再合成予測

G-MATT: Single-step Retrosynthesis Prediction using Molecular Grammar Tree Transformer ( http://arxiv.org/abs/2305.03153v2 )

ライセンス: Link先を確認
Kevin Zhang, Vipul Mann, Venkat Venkatasubramanian(参考訳) 近年, テンプレートベースおよびテンプレートフリーの様々な手法が, 単段階再合成予測のために提案されている。 これらのアプローチはデータ駆動メトリクスの観点から強いパフォーマンスを示しているが、多くのモデルアーキテクチャは基礎となる化学原理を取り入れていない。 本稿では,強力なデータ駆動モデルと事前知識を組み合わせた,新しい化学対応レトロシンセシス予測フレームワークを提案する。 本稿では,階層型SMILES文法木を利用した木間変換アーキテクチャについて,局所構造や関数群などのSMILESテキストベース表現でしばしば見落とされがちな重要な化学情報を含む。 提案するフレームワークであるG-MATT(G-MATT)は,ベースライン再合成モデルと比較して大幅な性能向上を実現している。 G-MATTは51%(トップ10の精度79.1%)、無効率1.5%、生物活性類似率74.8%を達成する。 g-マットアテンションマップのさらなる分析は、過剰に複雑なモデルアーキテクチャに頼ることなく化学知識を保持する能力を示している。

Various template-based and template-free approaches have been proposed for single-step retrosynthesis prediction in recent years. While these approaches demonstrate strong performance from a data-driven metrics standpoint, many model architectures do not incorporate underlying chemistry principles. Here, we propose a novel chemistry-aware retrosynthesis prediction framework that combines powerful data-driven models with prior domain knowledge. We present a tree-to-sequence transformer architecture that utilizes hierarchical SMILES grammar-based trees, incorporating crucial chemistry information that is often overlooked by SMILES text-based representations, such as local structures and functional groups. The proposed framework, grammar-based molecular attention tree transformer (G-MATT), achieves significant performance improvements compared to baseline retrosynthesis models. G-MATT achieves a promising top-1 accuracy of 51% (top-10 accuracy of 79.1%), invalid rate of 1.5%, and bioactive similarity rate of 74.8% on the USPTO- 50K dataset. Additional analyses of G-MATT attention maps demonstrate the ability to retain chemistry knowledge without relying on excessively complex model architectures.
翻訳日:2023-08-15 20:00:58 公開日:2023-08-14
# ベストサポート環境の提供によるAI開発プロセスの最適化

Optimizing the AI Development Process by Providing the Best Support Environment ( http://arxiv.org/abs/2305.00136v2 )

ライセンス: Link先を確認
Taha Khamis, Hamam Mokayed(参考訳) 本研究の目的は,AI(Artificial Inelegance)と機械学習(ML)アプリケーションの開発プロセスを調査し,最高のサポート環境を提供することである。 MLの主なステージは、問題理解、データ管理、モデル構築、モデル展開、メンテナンスである。 本研究は,機械学習開発の最重要段階であるML開発におけるデータ管理段階とその障害を,エンドモデルの精度がモデルに入力されるデータの種類に依存しているため調査することに焦点を当てる。 この段階で見つかった最大の障害は、特にデータが機密である分野において、モデル学習に十分なデータがないことである。 このプロジェクトの目的は、データ管理の段階で十分なデータ不足を解決するための、研究者と開発者のためのフレームワークの構築と開発である。 このフレームワークは、オリジナルのデータセットから新しいデータを生成するために使用可能な、いくつかのデータ拡張技術を利用して、利用可能なデータ量と品質を増大させることで、MLアプリケーションの全体的なパフォーマンスを向上させることができる。 このフレームワークはpython言語を使用して構築され、ディープラーニングの進歩を使ってデータ拡張を行う。

The purpose of this study is to investigate the development process for Artificial inelegance (AI) and machine learning (ML) applications in order to provide the best support environment. The main stages of ML are problem understanding, data management, model building, model deployment and maintenance. This project focuses on investigating the data management stage of ML development and its obstacles as it is the most important stage of machine learning development because the accuracy of the end model is relying on the kind of data fed into the model. The biggest obstacle found on this stage was the lack of sufficient data for model learning, especially in the fields where data is confidential. This project aimed to build and develop a framework for researchers and developers that can help solve the lack of sufficient data during data management stage. The framework utilizes several data augmentation techniques that can be used to generate new data from the original dataset which can improve the overall performance of the ML applications by increasing the quantity and quality of available data to feed the model with the best possible data. The framework was built using python language to perform data augmentation using deep learning advancements.
翻訳日:2023-08-15 19:59:51 公開日:2023-08-14
# Poisson から Gaussian ユニタリアンサンブル統計への移行のための Rosenzweig-Porter モデルの実験的検討

Experimental test of the Rosenzweig-Porter model for the transition from Poisson to Gaussian unitary ensemble statistics ( http://arxiv.org/abs/2305.12840v3 )

ライセンス: Link先を確認
Xiaodong Zhang, Weihua Zhang, Jiongning Che, and Barbara Dietz(参考訳) 積分可能な古典力学を持つ量子系を、時間反転(t)不変性とカオス的古典力学系に違反する量子系への遷移に関する実験的研究を報告する。 第1逆電モードの遮断周波数を超えるフェライトディスクを無作為電位として磁化することにより、T不分散違反とカオス性を誘導する円形の平らな超伝導マイクロ波共振器を用いて高精度な実験を行う。 我々はおよその完全列を決定する。 典型的な可積分系で期待されるポアソン統計量と、t不変性に違反したカオス系で予測されるガウスユニタリアンサンブル統計量の間に補間されるローゼンツヴァイク・ポーター(rp)モデルのスペクトル特性に関する分析的予測と、1000個の固有項が一致している。 さらに、RPモデルとハイデルベルクによる量子カオス散乱のアプローチを組み合わせて、対応する開量子系の散乱(S)行列のランダム行列モデルを構築し、マイクロ波共振器の測定したS行列のゆらぎ特性を完璧に再現することを示す。

We report on an experimental investigation of the transition of a quantum system with integrable classical dynamics to one with violated time-reversal (T) invariance and chaotic classical counterpart. High-precision experiments are performed with a flat superconducting microwave resonator with circular shape in which T-invariance violation and chaoticity are induced by magnetizing a ferrite disk placed at its center, which above the cutoff frequency of the first transverse-electric mode acts as a random potential. We determine a complete sequence of approx. 1000 eigenfrequencies and find good agreement with analytical predictions for the spectral properties of the Rosenzweig-Porter (RP) model, which interpolates between Poisson statistics expected for typical integrable systems and Gaussian unitary ensemble statistics predicted for chaotic systems with violated T invariance. Furthermore, we combine the RP model and the Heidelberg approach for quantum-chaotic scattering to construct a random-matrix model for the scattering (S) matrix of the corresponding open quantum system and show that it perfectly reproduces the fluctuation properties of the measured S matrix of the microwave resonator.
翻訳日:2023-08-15 19:53:23 公開日:2023-08-14
# 集中治療室における社会的要因が健康予測に及ぼす影響の評価

Evaluating the Impact of Social Determinants on Health Prediction in the Intensive Care Unit ( http://arxiv.org/abs/2305.12622v2 )

ライセンス: Link先を確認
Ming Ying Yang, Gloria Hyunjung Kwak, Tom Pollard, Leo Anthony Celi, and Marzyeh Ghassemi(参考訳) 健康の社会的決定要因(sdoh)は、人々の生活、成長、年齢といった条件が、人の健康と幸福において重要な役割を果たす。 人口健康研究には、幅広いSDOHが健康結果と強く相関していることを示す、大きな、説得力のある証拠がある。 しかし、電子健康記録(EHR)に基づくリスク予測モデルの大部分では、ノイズや単に利用できない場合が多いため、包括的なSDOH機能群は組み込まれていない。 我々の研究は、公開のEHRデータベースMIMIC-IVをドキュメント化されたSDOH機能にリンクしています。 これらの特徴が患者集団間の共通ehr予測課題に与える影響について検討した。 地域レベルでのSDOHは,一般患者に対するモデル性能の向上には至らず,特定のサブ集団に対するデータ制限モデルフェアネスの向上が期待できる。 また,保護属性を超えたアルゴリズムバイアスの徹底的な監査を行う上で,SDOHの特徴が重要であることも実証した。 新たな統合EHR-SDOHデータベースによって、コミュニティの健康と個人の成果の関係の研究が可能になり、人種、性別、年齢を超えたアルゴリズムバイアスを研究するための新しいベンチマークが提供されることを期待します。

Social determinants of health (SDOH) -- the conditions in which people live, grow, and age -- play a crucial role in a person's health and well-being. There is a large, compelling body of evidence in population health studies showing that a wide range of SDOH is strongly correlated with health outcomes. Yet, a majority of the risk prediction models based on electronic health records (EHR) do not incorporate a comprehensive set of SDOH features as they are often noisy or simply unavailable. Our work links a publicly available EHR database, MIMIC-IV, to well-documented SDOH features. We investigate the impact of such features on common EHR prediction tasks across different patient populations. We find that community-level SDOH features do not improve model performance for a general patient population, but can improve data-limited model fairness for specific subpopulations. We also demonstrate that SDOH features are vital for conducting thorough audits of algorithmic biases beyond protective attributes. We hope the new integrated EHR-SDOH database will enable studies on the relationship between community health and individual outcomes and provide new benchmarks to study algorithmic biases beyond race, gender, and age.
翻訳日:2023-08-15 19:53:00 公開日:2023-08-14
# 説明不能な例がセキュリティの誤った感覚を与える: 学習可能な例で説明不能なデータをピアスする

Unlearnable Examples Give a False Sense of Security: Piercing through Unexploitable Data with Learnable Examples ( http://arxiv.org/abs/2305.09241v3 )

ライセンス: Link先を確認
Wan Jiang, Yunfeng Diao, He Wang, Jianxin Sun, Meng Wang, Richang Hong(参考訳) 不正な搾取からデータを保護することは、プライバシーとセキュリティにとって不可欠である。 この目的のために、データに知覚不可能な摂動を加え、それらに基づいてトレーニングされたモデルが、元のクリーンな分布でそれらを正確に分類できないようにすることで、近年、説得力のある保護として \textit{unlearnable examples} (UEs) が提案されている。 残念なことに、UEが誤ったセキュリティの感覚を提供するのは、未許可のユーザが他の保護されていないデータを使って保護を取り除くのを止められないからである。 この観察により、我々は、保護を取り除いたUEであるtextit{learnable unauthorized example} (LE)を導入して、新たな脅威を正式に定義する。 このアプローチの核は UE を LE の多様体に射影する新しい精製過程である。 これは、UEとLEの画素上条件付きおよび知覚的類似性を識別する新しいジョイント条件拡散モデルによって実現される。 広範囲にわたる実験により、LEは様々なシナリオにおいて教師なしのUEと教師なしのUEの両方に対して最先端の対応性能を提供することを示した。 我々のコードは \url{https://github.com/jiangw-0/LE_JCDP} で入手できる。

Safeguarding data from unauthorized exploitation is vital for privacy and security, especially in recent rampant research in security breach such as adversarial/membership attacks. To this end, \textit{unlearnable examples} (UEs) have been recently proposed as a compelling protection, by adding imperceptible perturbation to data so that models trained on them cannot classify them accurately on original clean distribution. Unfortunately, we find UEs provide a false sense of security, because they cannot stop unauthorized users from utilizing other unprotected data to remove the protection, by turning unlearnable data into learnable again. Motivated by this observation, we formally define a new threat by introducing \textit{learnable unauthorized examples} (LEs) which are UEs with their protection removed. The core of this approach is a novel purification process that projects UEs onto the manifold of LEs. This is realized by a new joint-conditional diffusion model which denoises UEs conditioned on the pixel and perceptual similarity between UEs and LEs. Extensive experiments demonstrate that LE delivers state-of-the-art countering performance against both supervised UEs and unsupervised UEs in various scenarios, which is the first generalizable countermeasure to UEs across supervised learning and unsupervised learning. Our code is available at \url{https://github.com/jiangw-0/LE_JCDP}.
翻訳日:2023-08-15 19:50:30 公開日:2023-08-14
# 機械学習の公平性とヘルスケアの公平性

Fairness in Machine Learning meets with Equity in Healthcare ( http://arxiv.org/abs/2305.07041v2 )

ライセンス: Link先を確認
Shaina Raza, Parisa Osivand Pour, Syed Raza Bashir(参考訳) 医療における機械学習の利用の増加に伴い、医療効果を高める可能性が高まっている。 しかし、これはまた、年齢、性別、人種といった要因に基づいて特定の人口集団グループを害するデータやモデルデザインのバイアスを持続させるリスクをもたらす。 本研究では,ソフトウェア工学の原則に基づく人工知能フレームワークを提案し,医療現場における公平性を確保しつつ,データやモデルのバイアスを識別・緩和する。 そこで本研究では,データの系統的バイアスがモデル予測の増幅バイアスにどのようにつながるかを示すとともに,機械学習によるバイアス防止法を提案する。 今後の研究は、提案するMLフレームワークを実世界の臨床環境でテストし、検証することを目的としており、その影響が健康株の促進に与える影響を評価する。

With the growing utilization of machine learning in healthcare, there is increasing potential to enhance healthcare outcomes. However, this also brings the risk of perpetuating biases in data and model design that can harm certain demographic groups based on factors such as age, gender, and race. This study proposes an artificial intelligence framework, grounded in software engineering principles, for identifying and mitigating biases in data and models while ensuring fairness in healthcare settings. A case study is presented to demonstrate how systematic biases in data can lead to amplified biases in model predictions, and machine learning methods are suggested to prevent such biases. Future research aims to test and validate the proposed ML framework in real-world clinical settings to evaluate its impact on promoting health equity.
翻訳日:2023-08-15 19:50:00 公開日:2023-08-14
# 社会的に認識された時間的因果デコーダ推薦システムに関する研究

STUDY: Socially Aware Temporally Causal Decoder Recommender Systems ( http://arxiv.org/abs/2306.07946v2 )

ライセンス: Link先を確認
Eltayeb Ahmed, Diana Mincu, Lauren Harrell, Katherine Heller, Subhrajit Roy(参考訳) レコメンダシステムは、人々が自分の興味に合ったアイテムを見つけるのに広く使われている。 これらの関心はしばしばソーシャルネットワークに影響され、リコメンデーションシステムにおいてソーシャルネットワーク情報を効果的に利用することが重要である。 これは、多数派とは異なる関心を持つ人口集団に特に当てはまる。 本稿では,社会的に意識した時間的カウスアルデコーダsYstemを紹介する。 研究は、既存の手法よりも学習とトレーニングがはるかに効率的である、社会的に認識された新しいレコメンデーションシステムアーキテクチャを紹介する。 変圧器デコーダネットワークの1つの前方通過における社会的連結群に対する共同推論を行う。 本論文は,読字障害や読者の苦悩に苦しむ学生向けの本推薦において,学習の利点を実証する。 ディスレクシックな学生は、しばしば読書に関わることが難しく、自分の興味に合わせた本を推薦することが重要である。 私たちは非営利団体のLearning Allyと協力して、苦労している読者のデータセットに関する評価を行いました。 従来の方法と比較して、学生のエンゲージメントをより正確に予測するレコメンデーションを生成することができた。

Recommender systems are widely used to help people find items that are tailored to their interests. These interests are often influenced by social networks, making it important to use social network information effectively in recommender systems. This is especially true for demographic groups with interests that differ from the majority. This paper introduces STUDY, a Socially-aware Temporally caUsal Decoder recommender sYstem. STUDY introduces a new socially-aware recommender system architecture that is significantly more efficient to learn and train than existing methods. STUDY performs joint inference over socially connected groups in a single forward pass of a modified transformer decoder network. We demonstrate the benefits of STUDY in the recommendation of books for students who are dyslexic, or struggling readers. Dyslexic students often have difficulty engaging with reading material, making it critical to recommend books that are tailored to their interests. We worked with our non-profit partner Learning Ally to evaluate STUDY on a dataset of struggling readers. STUDY was able to generate recommendations that more accurately predicted student engagement, when compared with existing methods.
翻訳日:2023-08-15 19:42:36 公開日:2023-08-14
# $\mathbb{Z}_2$対称量子回路におけるクロスエントロピーの普遍性

Universality of the cross entropy in $\mathbb{Z}_2$ symmetric monitored quantum circuits ( http://arxiv.org/abs/2306.00058v2 )

ライセンス: Link先を確認
Maria Tikhanovskaya, Ali Lavasani, Matthew P. A. Fisher, Sagar Vijay(参考訳) 線形クロスエントロピー(lxe)は、ある監視量子回路における純状態軌道の体積および面積則エントロピー位相間の計測駆動位相遷移のスケーラブルなプローブとして最近提案されている。 そこで本研究では,lxeが対称性を有するモニタ回路の領域ローエンタングル位相を識別し,これらの位相を分離する臨界点における普遍的挙動を抽出できることを実証する。 我々は、オンサイト$\mathbb{z}_{2}$対称性を持つ(1+1)次元監視回路に焦点を当てる。 初期状態の適切な選択のために、lxeは、監視された軌道の領域ローエンタングルスピングラスと常磁性相を区別する。 2次元のパーコレーションによって説明される臨界点において、LXEは境界条件と初期状態の選択に敏感に依存する普遍的な振舞いを示す。 開境界条件において、lxe は臨界パーコレーションの交叉確率に関係しており、それゆえ力学のアスペクト比の既知の普遍関数によって与えられることが示され、臨界時の lxe の数値的研究と定量的に一致する。 LXEは周期境界条件とパーコレーションにおける他の作用素の相関を探索する。 LXEはシンメトリ・ユニタリゲートの存在下で回路モデルのよりリッチな位相図に敏感であることを示す。 最後に,回路進化におけるノイズの影響を考察し,それに対抗する潜在的な解決策を提案する。

The linear cross-entropy (LXE) has been recently proposed as a scalable probe of the measurement-driven phase transition between volume- and area-law-entangled phases of pure-state trajectories in certain monitored quantum circuits. Here, we demonstrate that the LXE can distinguish distinct area-law-entangled phases of monitored circuits with symmetries, and extract universal behavior at the critical points separating these phases. We focus on (1+1)-dimensional monitored circuits with an on-site $\mathbb{Z}_{2}$ symmetry. For an appropriate choice of initial states, the LXE distinguishes the area-law-entangled spin glass and paramagnetic phases of the monitored trajectories. At the critical point, described by two-dimensional percolation, the LXE exhibits universal behavior which depends sensitively on boundary conditions, and the choice of initial states. With open boundary conditions, we show that the LXE relates to crossing probabilities in critical percolation, and is thus given by a known universal function of the aspect ratio of the dynamics, which quantitatively agrees with numerical studies of the LXE at criticality. The LXE probes correlations of other operators in percolation with periodic boundary conditions. We show that the LXE is sensitive to the richer phase diagram of the circuit model in the presence of symmmetric unitary gates. Lastly, we consider the effect of noise during the circuit evolution, and propose potential solutions to counter it.
翻訳日:2023-08-15 19:41:16 公開日:2023-08-14
# MADiff:拡散モデルを用いたオフラインマルチエージェント学習

MADiff: Offline Multi-agent Learning with Diffusion Models ( http://arxiv.org/abs/2305.17330v2 )

ライセンス: Link先を確認
Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang(参考訳) 拡散モデル (DM) は, オフライン強化学習を含む様々なシナリオにおいて, オンライン評価の軌跡を生かし, 計画の実施を学んでいる。 しかしながら、単一エージェント学習の有効性は示されているものの、エージェントが各エージェントの軌道を独立にモデル化することで、適切な調整なしにチームワークを完了できないマルチエージェント問題において、dmがどのように機能するかは、まだ不明である。 本稿では,この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。 MADiffは注意に基づく拡散モデルを用いて実現され、複数の拡散剤の挙動間の複雑な協調をモデル化する。 私たちの知る限り、MADiffは分散化ポリシと集中型コントローラの両方として機能し、対戦型モデリングを含み、マルチエージェント軌道予測に使用できる初めての拡散型オフラインRLフレームワークである。 MADiffは拡散の強力な生成能力を生かし、複雑なマルチエージェント相互作用のモデリングに適している。 本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。

Diffusion model (DM), as a powerful generative model, recently achieved huge success in various scenarios including offline reinforcement learning, where the policy learns to conduct planning by generating trajectory in the online evaluation. However, despite the effectiveness shown for single-agent learning, it remains unclear how DMs can operate in multi-agent problems, where agents can hardly complete teamwork without good coordination by independently modeling each agent's trajectories. In this paper, we propose MADiff, a novel generative multi-agent learning framework to tackle this problem. MADiff is realized with an attention-based diffusion model to model the complex coordination among behaviors of multiple diffusion agents. To the best of our knowledge, MADiff is the first diffusion-based multi-agent offline RL framework, which behaves as both a decentralized policy and a centralized controller, which includes opponent modeling and can be used for multi-agent trajectory prediction. MADiff takes advantage of the powerful generative ability of diffusion while well-suited in modeling complex multi-agent interactions. Our experiments show the superior performance of MADiff compared to baseline algorithms in a range of multi-agent learning tasks.
翻訳日:2023-08-15 19:40:32 公開日:2023-08-14
# グラフニューラルネットワークは構造情報から確実に恩恵を受ける:機能学習の視点から

Graph Neural Networks Provably Benefit from Structural Information: A Feature Learning Perspective ( http://arxiv.org/abs/2306.13926v2 )

ライセンス: Link先を確認
Wei Huang, Yuan Cao, Haonan Wang, Xin Cao, Taiji Suzuki(参考訳) グラフニューラルネットワーク(GNN)はグラフ表現学習の先駆者であり、グラフ入力を処理する際に多層パーセプトロン(MLP)よりも優れた特徴学習と性能を示す。 しかし、GNNの機能学習の側面を理解することは、まだ初期段階にある。 本研究では,勾配降下学習を用いたニューラルネットワークにおける特徴学習理論の文脈におけるグラフ畳み込みの役割を調べることにより,このギャップを埋めることを目的とする。 二層グラフ畳み込みニューラルネットワーク (gcns) における信号学習と雑音記憶の特徴について検討し, 2層畳み込みニューラルネットワーク (cnns) と対比した。 以上の結果から,信号学習が雑音記憶を超越するCNNに対して,グラフの畳み込みは,約$$\sqrt{D}^{q-2}$でノードの期待値を示す$D$と,$q > 2$でReLU活性化関数のパワーである$q$を大きく増大させることがわかった。 これらの結果は,勾配降下訓練後の特徴学習と一般化能力において,GNNとMLPの相違が顕著であり,実験シミュレーションによりさらに裏付けられた結論である。

Graph neural networks (GNNs) have pioneered advancements in graph representation learning, exhibiting superior feature learning and performance over multilayer perceptrons (MLPs) when handling graph inputs. However, understanding the feature learning aspect of GNNs is still in its initial stage. This study aims to bridge this gap by investigating the role of graph convolution within the context of feature learning theory in neural networks using gradient descent training. We provide a distinct characterization of signal learning and noise memorization in two-layer graph convolutional networks (GCNs), contrasting them with two-layer convolutional neural networks (CNNs). Our findings reveal that graph convolution significantly augments the benign overfitting regime over the counterpart CNNs, where signal learning surpasses noise memorization, by approximately factor $\sqrt{D}^{q-2}$, with $D$ denoting a node's expected degree and $q$ being the power of the ReLU activation function where $q > 2$. These findings highlight a substantial discrepancy between GNNs and MLPs in terms of feature learning and generalization capacity after gradient descent training, a conclusion further substantiated by our empirical simulations.
翻訳日:2023-08-15 19:33:39 公開日:2023-08-14
# ガジェットを超えて行く - アナログ量子シミュレータのスケーラビリティの重要性

Going Beyond Gadgets: The Importance of Scalability for Analogue Quantum Simulators ( http://arxiv.org/abs/2306.13739v2 )

ライセンス: Link先を確認
Dylan Harley, Ishaun Datta, Frederik Ravn Klausen, Andreas Bluhm, Daniel Stilck Fran\c{c}a, Albert Werner, Matthias Christandl(参考訳) 本稿では,Cirac と Zoller が最初に導入した基本基準のセットに動機づけられた,実験可能なシミュレータの全スコープを捉えるためのアナログ量子シミュレーションの理論的枠組みを提案する。 我々のフレームワークは、複雑性理論で使われるハミルトン符号化と一致し、ノイズ下で安定であり、オープン量子システムのシミュレーションやリーブ・ロビンソン境界を用いたオーバーヘッド低減など、実験の幅広い可能性を含んでいる。 本稿では,アナログ量子シミュレーションにおけるスケーラビリティの必要性を考察し,特にシミュレーションはシステム規模で成長する相互作用強度を伴わないと論じる。 我々は,ハミルトニアン複雑性理論で用いられるガジェットの汎用フレームワークを開発し,特に,ハミルトニアン局所性還元ではサイズ依存スケーリングが避けられないことを証明した。 しかし、工学的な散逸のさらなる資源を許すならば、量子ゼノ効果を用いて局所性還元のノーゴー定理を回避できるスキームを実証する。 私たちのガジェットフレームワークは、ガジェットに関する長年のオープン質問を形式化し解決するための扉を開きます。 我々は、アナログ量子シミュレーションにおける普遍性の結果について論じる。

We propose a theoretical framework for analogue quantum simulation to capture the full scope of experimentally realisable simulators, motivated by a set of fundamental criteria first introduced by Cirac and Zoller. Our framework is consistent with Hamiltonian encodings used in complexity theory, is stable under noise, and encompasses a range of possibilities for experiment, such as the simulation of open quantum systems and overhead reduction using Lieb-Robinson bounds. We discuss the requirement of scalability in analogue quantum simulation, and in particular argue that simulation should not involve interaction strengths that grow with the size of the system. We develop a general framework for gadgets used in Hamiltonian complexity theory, which may be of interest independently of analogue simulation, and in particular prove that size-dependent scalings are unavoidable in Hamiltonian locality reduction. However, if one allows for an additional resource of engineered dissipation, we demonstrate a scheme that circumvents the locality reduction no-go theorem using the quantum Zeno effect. Our gadget framework opens the door to formalise and resolve long-standing open questions about gadgets. We conclude with a discussion on universality results in analogue quantum simulation.
翻訳日:2023-08-15 19:33:16 公開日:2023-08-14
# ダイナミクスと量子最適輸送:量子エントロピーと量子マルコフ半群に関する3つの講義

Dynamics and Quantum Optimal Transport: Three lectures on quantum entropy and quantum Markov semigroups ( http://arxiv.org/abs/2306.10903v2 )

ライセンス: Link先を確認
Eric Carlen(参考訳) この文書は、ハンガリーのブダペストにあるErd\H{o}s Center School ``Optimal Transport on Quantum Structures', Septemer 19-23, 2022の3つの講義の内容を示している。 これは、現在の研究の活発な話題について、かなり自己完結的な説明を示しており、この説明は、学校の講義に適するため、ほとんどの大学院生がアクセス可能であるべきである。 主な結果は知られているが、いくつかの新しい証明といくつかの新しい結果がある。

This document presents the contents of three lectures delivered by the author at the Erd\H{o}s Center School ``Optimal Transport on Quantum Structures'', Septemer 19-23, 2022 in Budapest, Hungary. It presents a fairly self contained account of an active topic of current research, and this account should be accessible to most graduate students, as befits lectures for a school. The main results are known, but there a number of new proofs and some new results.
翻訳日:2023-08-15 19:31:46 公開日:2023-08-14
# C2F2Neus:高忠実で一般化可能な神経表面再構成のためのカスケードコストフラストラム核融合

C2F2NeUS: Cascade Cost Frustum Fusion for High Fidelity and Generalizable Neural Surface Reconstruction ( http://arxiv.org/abs/2306.10003v2 )

ライセンス: Link先を確認
Luoyuan Xu, Tao Guan, Yuesong Wang, Wenkai Liu, Zhaojie Zeng, Junle Wang, Wei Yang(参考訳) Multi-View Stereo(MVS)とNeural Implicit Surfaces(NIS)という2つの人気のある3Dフレームワークを、数ショット/スパースなビュー設定に特化して組み合わせようとしている。 本稿では,マルチビューステレオとニューラルサイン付き距離関数表現を組み合わせた新しい統合手法を提案する。 MVSは視深度推定とクロスビュー融合を用いて正確な表面を生成するが、NISは共通の座標体積に依存する。 そこで本研究では,より詳細な形状推定のための1ビューあたりのコストフラスタムを構築し,クロスビューフラスタムを融合し,暗黙の符号付き距離関数を推定し,生成した表面再構成のノイズや穴によるアーティファクトに取り組むことを提案する。 さらに,グローバル局所情報と構造的一貫性を効果的に捉えるためにカスケードフラスタム融合戦略を適用する。 最後に, カスケードサンプリングと擬似幾何学的損失を適用し, 2つのアーキテクチャ間のより強力な統合を促進する。 広範な実験により,本手法はロバストな表面を再構成し,既存の最先端手法を上回った。

There is an emerging effort to combine the two popular 3D frameworks using Multi-View Stereo (MVS) and Neural Implicit Surfaces (NIS) with a specific focus on the few-shot / sparse view setting. In this paper, we introduce a novel integration scheme that combines the multi-view stereo with neural signed distance function representations, which potentially overcomes the limitations of both methods. MVS uses per-view depth estimation and cross-view fusion to generate accurate surfaces, while NIS relies on a common coordinate volume. Based on this strategy, we propose to construct per-view cost frustum for finer geometry estimation, and then fuse cross-view frustums and estimate the implicit signed distance functions to tackle artifacts that are due to noise and holes in the produced surface reconstruction. We further apply a cascade frustum fusion strategy to effectively captures global-local information and structural consistency. Finally, we apply cascade sampling and a pseudo-geometric loss to foster stronger integration between the two architectures. Extensive experiments demonstrate that our method reconstructs robust surfaces and outperforms existing state-of-the-art methods.
翻訳日:2023-08-15 19:31:33 公開日:2023-08-14
# CAD-Estate:RGBビデオにおける大規模CADモデルアノテーション

CAD-Estate: Large-scale CAD Model Annotation in RGB Videos ( http://arxiv.org/abs/2306.09011v2 )

ライセンス: Link先を確認
Kevis-Kokitsi Maninis, Stefan Popov, Matthias Nie{\ss}ner, Vittorio Ferrari(参考訳) 本稿では,オブジェクトのグローバルな3D表現を用いて,複雑なマルチオブジェクトシーンのビデオに注釈を付ける手法を提案する。 データベースから各オブジェクトにCADモデルをアノテートし,9-DoFのポーズ変換でシーンの3次元座標フレームに配置する。 本手法は半オートマチックであり,奥行きセンサを必要とせず,一般に利用可能なRGBビデオで動作する。 多くのステップが自動的に実行され、人間が行うタスクは単純で、よく特定されており、3dでは限定的な推論しか必要ありません。 これにより、クラウドソーシングが実現可能となり、YouTubeから不動産ビデオに注釈を付けることで、大規模なデータセットの構築を可能にしました。 我々のデータセットCAD-Estateは、20kビデオの3D表現に配置された12kのユニークなCADモデルの101kインスタンスを提供する。 Scan2CADはCADモデルアノテーションを実シーンで使用する最大規模のデータセットであるのに対し、CAD-Estateは7倍のインスタンスと4倍のユニークなCADモデルを持っている。 CAD-Estate上でのMask2CADモデルの事前学習による3次元オブジェクトの自動再構成とポーズ推定の利点を示し,Scan2CADベンチマークの性能向上を実証した。 データセットはhttps://github.com/google-research/cad-estateで利用可能である。

We propose a method for annotating videos of complex multi-object scenes with a globally-consistent 3D representation of the objects. We annotate each object with a CAD model from a database, and place it in the 3D coordinate frame of the scene with a 9-DoF pose transformation. Our method is semi-automatic and works on commonly-available RGB videos, without requiring a depth sensor. Many steps are performed automatically, and the tasks performed by humans are simple, well-specified, and require only limited reasoning in 3D. This makes them feasible for crowd-sourcing and has allowed us to construct a large-scale dataset by annotating real-estate videos from YouTube. Our dataset CAD-Estate offers 101k instances of 12k unique CAD models placed in the 3D representations of 20k videos. In comparison to Scan2CAD, the largest existing dataset with CAD model annotations on real scenes, CAD-Estate has 7x more instances and 4x more unique CAD models. We showcase the benefits of pre-training a Mask2CAD model on CAD-Estate for the task of automatic 3D object reconstruction and pose estimation, demonstrating that it leads to performance improvements on the popular Scan2CAD benchmark. The dataset is available at https://github.com/google-research/cad-estate.
翻訳日:2023-08-15 19:31:09 公開日:2023-08-14
# 生成的閉ループ型人工知能による基礎科学の未来

The Future of Fundamental Science Led by Generative Closed-Loop Artificial Intelligence ( http://arxiv.org/abs/2307.07522v2 )

ライセンス: Link先を確認
Hector Zenil, Jesper Tegn\'er, Felipe S. Abrah\~ao, Alexander Lavin, Vipin Kumar, Jeremy G. Frey, Adrian Weller, Larisa Soldatova, Alan R. Bundy, Nicholas R. Jennings, Koichi Takahashi, Lawrence Hunter, Saso Dzeroski, Andrew Briggs, Frederick D. Gregory, Carla P. Gomes, Christopher K. I. Williams, Jon Rowe, James Evans, Hiroaki Kitano, Joshua B. Tenenbaum, Ross King(参考訳) ジェネレーティブAIやLLMなど、機械学習とAIの最近の進歩は、技術革新、製品開発、社会全体を破壊している。 AIのテクノロジへの貢献は、大規模なトレーニングデータセットへのアクセスと、パターン認識や分類から生成モデルまで、パフォーマンス評価基準の明確化を必要とする複数のアプローチから得ることができる。 しかしaiは、科学的な実践やモデル発見のための高品質なデータの大規模なデータセットへのアクセスが難しいため、基礎科学にはあまり貢献していない。 生成的AI、特に大規模言語モデルは、定量的モデルによる基礎的な深層科学の科学的発見を拡大し加速する機会である。 ここでは、自己駆動仮説生成や仮説空間のオープンエンド自律探索を含む、科学的な発見に対するAI駆動、自動化されたクローズドループアプローチの側面を調査し、調査する。 AIによる自動化を科学の実践に統合することは、発見の複製、データの体系的な生産、究極的には科学プロセスの民主化など、現在の問題を緩和する。 これらの可能性を実現するには、aiのビジョンと、因果分析とモデル発見の基本的な側面に対処できるaiアプローチの多様性が必要となる。 これらの進歩は、人間の科学者が達成した以上の世界の基本構造を探索し発見するAIの可能性を解き放つと約束している。 このようなビジョンは、現在のワークフローを自動化するのではなく、新しい基礎科学の境界を推し進め、今日の人類が直面している最大の課題に取り組むために技術革新のための扉を開くだろう。

Recent advances in machine learning and AI, including Generative AI and LLMs, are disrupting technological innovation, product development, and society as a whole. AI's contribution to technology can come from multiple approaches that require access to large training data sets and clear performance evaluation criteria, ranging from pattern recognition and classification to generative models. Yet, AI has contributed less to fundamental science in part because large data sets of high-quality data for scientific practice and model discovery are more difficult to access. Generative AI, in general, and Large Language Models in particular, may represent an opportunity to augment and accelerate the scientific discovery of fundamental deep science with quantitative models. Here we explore and investigate aspects of an AI-driven, automated, closed-loop approach to scientific discovery, including self-driven hypothesis generation and open-ended autonomous exploration of the hypothesis space. Integrating AI-driven automation into the practice of science would mitigate current problems, including the replication of findings, systematic production of data, and ultimately democratisation of the scientific process. Realising these possibilities requires a vision for augmented AI coupled with a diversity of AI approaches able to deal with fundamental aspects of causality analysis and model discovery while enabling unbiased search across the space of putative explanations. These advances hold the promise to unleash AI's potential for searching and discovering the fundamental structure of our world beyond what human scientists have been able to achieve. Such a vision would push the boundaries of new fundamental science rather than automatize current workflows and instead open doors for technological innovation to tackle some of the greatest challenges facing humanity today.
翻訳日:2023-08-15 19:23:45 公開日:2023-08-14
# 連続ループ経路積分分子動力学による量子熱平均の精密計算

Exact Calculation of Quantum Thermal Average from Continuous Loop Path Integral Molecular Dynamics ( http://arxiv.org/abs/2307.06510v3 )

ライセンス: Link先を確認
Xuda Ye, Zhennan Zhou(参考訳) 量子熱平均は、量子系の熱力学特性を記述する上で中心的な役割を果たす。 計算の観点からは、量子熱平均は経路積分分子動力学(PIMD)によって計算できるが、そのような近似の定量的収束に関する知識は不足している。 本稿では, 分子動力学(CL-PIMD) と呼ばれる, リングポリマービーズを正規モード座標に基づく連続ループで置き換える別の計算フレームワークを提案する。 正規モードの数を有限整数 $N\in\mathbb N$ に切り詰めることで、 truncated CL-PIMD が一様式-$N$エルゴディディティを持つことを示す。 数値実験では、CL-PIMDが量子熱平均に正確な近似を与えることを示した。

The quantum thermal average plays a central role in describing the thermodynamic properties of a quantum system. From the computational perspective, the quantum thermal average can be computed by the path integral molecular dynamics (PIMD), but the knowledge on the quantitative convergence of such approximations is lacking. We propose an alternative computational framework named the continuous loop path integral molecular dynamics (CL-PIMD), which replaces the ring polymer beads by a continuous loop based on the normal mode coordinates. By truncating the number of normal modes to a finite integer $N\in\mathbb N$, we prove that the truncated CL-PIMD has uniform-in-$N$ ergodicity. In the numerical experiments, we show that the CL-PIMD provides an accurate approximation to the quantum thermal average.
翻訳日:2023-08-15 19:23:16 公開日:2023-08-14
# waterscenes:マルチタスク4dレーダーカメラ融合データセットと水面自動運転ベンチマーク

WaterScenes: A Multi-Task 4D Radar-Camera Fusion Dataset and Benchmark for Autonomous Driving on Water Surfaces ( http://arxiv.org/abs/2307.06505v2 )

ライセンス: Link先を確認
Shanliang Yao, Runwei Guan, Zhaodong Wu, Yi Ni, Zile Huang, Zixian Zhang, Yong Yue, Weiping Ding, Eng Gee Lim, Hyungjoon Seo, Ka Lok Man, Xiaohui Zhu, Yutao Yue(参考訳) 水面での自律運転は、海上監視、生存者救助、環境モニタリング、水文マッピング、廃棄物浄化など、危険かつ時間のかかる任務を実行する上で重要な役割を担っている。 この研究は、水面での自律走行のための最初のマルチタスク4Dレーダーカメラ融合データセットであるWaterScenesを提示する。 4Dレーダーと単眼カメラを搭載して、我々の無人のSurface Vehicle(USV)は、色、形状、テクスチャ、範囲、速度、方位、高度など、オブジェクト関連の情報を識別するための全天候ソリューションを入手した。 水面上の典型的な静的オブジェクトと動的オブジェクトに焦点を当て、カメライメージとレーダーポイント雲をそれぞれピクセルレベルとポイントレベルにラベル付けした。 オブジェクト検出やインスタンスセグメンテーション,セマンティックセグメンテーションといった基本的な認識タスクに加えて,自由空間セグメンテーションやウォーターラインセグメンテーションのためのアノテーションも提供する。 マルチタスクとマルチモーダルデータを活用することで,レーダーとカメラの単一モダリティと融合モダリティのベンチマーク実験を行う。 実験の結果,4次元レーダーとカメラの融合により,水面の知覚の正確性とロバスト性が向上し,特に照明や気象条件の悪化が確認された。 waterscenesデータセットはhttps://waterscenes.github.ioで公開されている。

Autonomous driving on water surfaces plays an essential role in executing hazardous and time-consuming missions, such as maritime surveillance, survivors rescue, environmental monitoring, hydrography mapping and waste cleaning. This work presents WaterScenes, the first multi-task 4D radar-camera fusion dataset for autonomous driving on water surfaces. Equipped with a 4D radar and a monocular camera, our Unmanned Surface Vehicle (USV) proffers all-weather solutions for discerning object-related information, including color, shape, texture, range, velocity, azimuth, and elevation. Focusing on typical static and dynamic objects on water surfaces, we label the camera images and radar point clouds at pixel-level and point-level, respectively. In addition to basic perception tasks, such as object detection, instance segmentation and semantic segmentation, we also provide annotations for free-space segmentation and waterline segmentation. Leveraging the multi-task and multi-modal data, we conduct benchmark experiments on the uni-modality of radar and camera, as well as the fused modalities. Experimental results demonstrate that 4D radar-camera fusion can considerably improve the accuracy and robustness of perception on water surfaces, especially in adverse lighting and weather conditions. WaterScenes dataset is public on https://waterscenes.github.io.
翻訳日:2023-08-15 19:23:01 公開日:2023-08-14
# flipnerf: 反射光線を反射して、ノベル・ビュー・シンセサイザーを作る

FlipNeRF: Flipped Reflection Rays for Few-shot Novel View Synthesis ( http://arxiv.org/abs/2306.17723v4 )

ライセンス: Link先を確認
Seunghyeon Seo, Yeonjin Chang, Nojun Kwak(参考訳) ニューラル・ラミアンス・フィールド(nerf)は、レンダリングされた画像と単純なアーキテクチャの素晴らしい品質を持つ、新しいビュー合成の主流である。 NeRFは, 連続的な性能向上のために様々な方向に開発されてきたが, 多視点画像の高密度化の必要性は, 実用化に向けての停滞ブロックとして残っている。 そこで本研究では,フリップ反射光を利用した数ショットの新規ビュー合成のための新しい正規化手法であるFlipNeRFを提案する。 反射光は入力線方向と推定される正規ベクトルから明示的に導出され、より正確な表面の正常を推定し、3D幾何学を効果的に学習しながら効果的な追加の訓練線の役割を担っている。 表面の正規度とシーンの深さはどちらも光線に沿った推定密度から導出されるため、正確な表面の正規度はより正確な深さ推定をもたらす。 さらに,FlipNeRFは,不確実性を考慮した不確実性損失とボトルネック特徴整合性損失を推定することにより,複数のシーン構造にまたがって浮動小数点を効果的に低減し,新たな特徴抽出装置を使わずに,フォトコンシステント画素に投射される2つの画素間の特徴レベルの整合性を向上させることができる。 我々のFlipNeRFは、すべてのシナリオにわたる複数のベンチマークでSOTAのパフォーマンスを達成する。

Neural Radiance Field (NeRF) has been a mainstream in novel view synthesis with its remarkable quality of rendered images and simple architecture. Although NeRF has been developed in various directions improving continuously its performance, the necessity of a dense set of multi-view images still exists as a stumbling block to progress for practical application. In this work, we propose FlipNeRF, a novel regularization method for few-shot novel view synthesis by utilizing our proposed flipped reflection rays. The flipped reflection rays are explicitly derived from the input ray directions and estimated normal vectors, and play a role of effective additional training rays while enabling to estimate more accurate surface normals and learn the 3D geometry effectively. Since the surface normal and the scene depth are both derived from the estimated densities along a ray, the accurate surface normal leads to more exact depth estimation, which is a key factor for few-shot novel view synthesis. Furthermore, with our proposed Uncertainty-aware Emptiness Loss and Bottleneck Feature Consistency Loss, FlipNeRF is able to estimate more reliable outputs with reducing floating artifacts effectively across the different scene structures, and enhance the feature-level consistency between the pair of the rays cast toward the photo-consistent pixels without any additional feature extractor, respectively. Our FlipNeRF achieves the SOTA performance on the multiple benchmarks across all the scenarios.
翻訳日:2023-08-15 19:20:50 公開日:2023-08-14
# ダウンストリーム・アグノスティック・アドバーサリの例

Downstream-agnostic Adversarial Examples ( http://arxiv.org/abs/2307.12280v2 )

ライセンス: Link先を確認
Ziqi Zhou, Shengshan Hu, Ruizhi Zhao, Qian Wang, Leo Yu Zhang, Junhui Hou, Hai Jin(参考訳) 自己教師付き学習は、通常、大量の未ラベルデータを使用してエンコーダを事前訓練するが、これは汎用的な特徴抽出器として使用することができるため、下流のユーザは「大規模モデル」の利点を享受するためにのみ微調整を行う必要がある。 この有望な見通しにもかかわらず、プリトレーニングエンコーダのセキュリティは、特にプリトレーニングエンコーダが商用に利用可能である場合に、まだ完全には調査されていない。 本稿では,事前学習したエンコーダに基づいて,下流非依存の普遍的逆例を生成する最初のフレームワークであるadvencoderを提案する。 advencoderは、被害者が事前学習したエンコーダを継承する下流タスクをすべて騙すことのできる、一連の自然画像に対する普遍的な敵対的摂動またはパッチを構築することを目的としている。 従来の逆行例とは異なり、プリトレーニングエンコーダはラベルの分類ではなく特徴ベクトルのみを出力する。 そこで,我々はまず,画像の高周波成分情報を利用して,敵対例の生成を導く。 次に,攻撃サロゲートデータセットの分布を学習し,攻撃成功率と伝達性を改善することにより,攻撃側摂動・パッチを構築するための生成攻撃フレームワークを設計する。 その結果、攻撃者はトレーニング済みのデータセットや下流のデータセットを知らずにダウンストリームタスクを攻撃できることがわかった。 また,プリトレーニングエンコーダに対する4つの防御を調整し,アドベンコーダの攻撃能力をさらに証明した。

Self-supervised learning usually uses a large amount of unlabeled data to pre-train an encoder which can be used as a general-purpose feature extractor, such that downstream users only need to perform fine-tuning operations to enjoy the benefit of "large model". Despite this promising prospect, the security of pre-trained encoder has not been thoroughly investigated yet, especially when the pre-trained encoder is publicly available for commercial use. In this paper, we propose AdvEncoder, the first framework for generating downstream-agnostic universal adversarial examples based on the pre-trained encoder. AdvEncoder aims to construct a universal adversarial perturbation or patch for a set of natural images that can fool all the downstream tasks inheriting the victim pre-trained encoder. Unlike traditional adversarial example works, the pre-trained encoder only outputs feature vectors rather than classification labels. Therefore, we first exploit the high frequency component information of the image to guide the generation of adversarial examples. Then we design a generative attack framework to construct adversarial perturbations/patches by learning the distribution of the attack surrogate dataset to improve their attack success rates and transferability. Our results show that an attacker can successfully attack downstream tasks without knowing either the pre-training dataset or the downstream dataset. We also tailor four defenses for pre-trained encoders, the results of which further prove the attack ability of AdvEncoder.
翻訳日:2023-08-15 19:15:19 公開日:2023-08-14
# 多変量正規分布間のフィッシャー・ラオ距離とプルバックSPDコーン距離

Fisher-Rao distance and pullback SPD cone distances between multivariate normal distributions ( http://arxiv.org/abs/2307.10644v2 )

ライセンス: Link先を確認
Frank Nielsen(参考訳) 多変量正規分布のデータセットは、拡散テンソルイメージング、構造テンソルコンピュータビジョン、レーダー信号処理、機械学習など多くの科学分野に豊富に存在する。 フィルタリングや分類、クラスタリングといった下流タスクのための通常のデータセットを処理するためには、通常のものとパスの相違点を適切に定義する必要がある。 フィッシャー情報計量によって引き起こされるリーマン測地線距離として定義されるフィッシャー・ラオ距離は、そのような原理的な距離距離であるが、いくつかの特別な場合を除いて閉じた形では知られていない。 本研究では,多変量正規分布間のフィッシャー・ラオ距離を任意に近似する高速でロバストな手法を最初に報告する。 第二に、正規多様体の微分同相埋め込みに基づく距離のクラスを、中心となる正規分布の多様体に対応する高次元対称正定円錐の部分多様体に導入する。 円錐上の射影ヒルベルト距離は、埋め込まれた正規部分多様体上の計量となり、その円錐距離を対応する直線ヒルベルト錐測地線と引き戻し、正規分布間の距離と滑らかな経路を得ることを示す。 フィッシャー-ラオ距離近似と比較して、プルバックヒルベルト錐距離は行列の極小および極大固有値のみを計算する必要があるため、計算的に軽い。 最後に、これらの距離をクラスタリングタスクで使う方法を示す。

Data sets of multivariate normal distributions abound in many scientific areas like diffusion tensor imaging, structure tensor computer vision, radar signal processing, machine learning, just to name a few. In order to process those normal data sets for downstream tasks like filtering, classification or clustering, one needs to define proper notions of dissimilarities between normals and paths joining them. The Fisher-Rao distance defined as the Riemannian geodesic distance induced by the Fisher information metric is such a principled metric distance which however is not known in closed-form excepts for a few particular cases. In this work, we first report a fast and robust method to approximate arbitrarily finely the Fisher-Rao distance between multivariate normal distributions. Second, we introduce a class of distances based on diffeomorphic embeddings of the normal manifold into a submanifold of the higher-dimensional symmetric positive-definite cone corresponding to the manifold of centered normal distributions. We show that the projective Hilbert distance on the cone yields a metric on the embedded normal submanifold and we pullback that cone distance with its associated straight line Hilbert cone geodesics to obtain a distance and smooth paths between normal distributions. Compared to the Fisher-Rao distance approximation, the pullback Hilbert cone distance is computationally light since it requires to compute only the extreme minimal and maximal eigenvalues of matrices. Finally, we show how to use those distances in clustering tasks.
翻訳日:2023-08-15 19:14:30 公開日:2023-08-14
# GP-UCBのサブ線形回帰について

On the Sublinear Regret of GP-UCB ( http://arxiv.org/abs/2307.07539v2 )

ライセンス: Link先を確認
Justin Whitehouse, Zhiwei Steven Wu, Aaditya Ramdas(参考訳) カーネル化帯域問題において、学習者は、逐次選択された点におけるノイズ評価のみを与えられた再生カーネルヒルベルト空間に横たわる関数の最適度を逐次計算することを目的とする。 特に、学習者は後悔を最小限に抑えることを目的としており、これは選択の最適度を測る尺度である。 おそらく最も一般的なアルゴリズムは、未知関数の単純な線形推定子に基づいて行動するガウス過程uper confidence bound (gp-ucb)アルゴリズムである。 その人気にもかかわらず、既存のGP-UCBの分析は、Mate\'ernカーネルのような多くのよく使われるカーネルのサブライン化に失敗する、最適以下の後悔率を与えている。 既存のGP-UCBの後悔の分析は厳密なのか、それともより洗練された分析技術を用いて境界を改善することができるのか? 本研究では,GP-UCBがほぼ最適に後悔していることを示す。 特に,この結果はmat\'ernカーネルに対して,最先端解析よりも改善し,vakiliらによって提起されたcoltオープン問題を部分的に解決した。 私たちの改善は重要な技術的貢献に依存します -- 基盤となるカーネル$k$の滑らかさに比例してカーネルリッジ推定を正規化します。 この重要なアイデアと概ね見過ごされる濃度を組み合わせることで、分離可能なヒルベルト空間(独立で簡明な導出を提供する)となり、gp-ucbアルゴリズムのより厳密な解析が可能になる。

In the kernelized bandit problem, a learner aims to sequentially compute the optimum of a function lying in a reproducing kernel Hilbert space given only noisy evaluations at sequentially chosen points. In particular, the learner aims to minimize regret, which is a measure of the suboptimality of the choices made. Arguably the most popular algorithm is the Gaussian Process Upper Confidence Bound (GP-UCB) algorithm, which involves acting based on a simple linear estimator of the unknown function. Despite its popularity, existing analyses of GP-UCB give a suboptimal regret rate, which fails to be sublinear for many commonly used kernels such as the Mat\'ern kernel. This has led to a longstanding open question: are existing regret analyses for GP-UCB tight, or can bounds be improved by using more sophisticated analytical techniques? In this work, we resolve this open question and show that GP-UCB enjoys nearly optimal regret. In particular, our results yield sublinear regret rates for the Mat\'ern kernel, improving over the state-of-the-art analyses and partially resolving a COLT open problem posed by Vakili et al. Our improvements rely on a key technical contribution -- regularizing kernel ridge estimators in proportion to the smoothness of the underlying kernel $k$. Applying this key idea together with a largely overlooked concentration result in separable Hilbert spaces (for which we provide an independent, simplified derivation), we are able to provide a tighter analysis of the GP-UCB algorithm.
翻訳日:2023-08-15 19:11:26 公開日:2023-08-14
# 予測オートスケーリングにおける連続学習

Continual Learning in Predictive Autoscaling ( http://arxiv.org/abs/2307.15941v2 )

ライセンス: Link先を確認
Hongyan Hao, Zhixuan Chu, Shiyi Zhu, Gangwei Jiang, Yan Wang, Caigao Jiang, James Zhang, Wei Jiang, Siqiao Xue, Jun Zhou(参考訳) 予測オートスケーリングは、動的クラウド環境におけるサービスレベルの目標(SLO)を保証するために、サーバのワークロードを予測し、事前にリソースを準備します。 しかし、実際には、その予測タスクは外部イベント(販売促進活動やアプリケーション再設定など)による異常なトラフィックによるパフォーマンス劣化に悩まされることが多い。 そこで本研究では,履歴ログのごく一部のみを用いて,密度に基づくメモリ選択とHintベースのネットワーク学習モデル(DMSHM)を再現した連続学習手法を提案する。 まず,リプレイに基づく連続学習を予測タスクに適用する場合に,サンプル重複現象を発見する。 この課題を克服し,新しいサンプル分布を効果的に統合するために,カーネル密度推定を用いてサンプル密度を計算し,新しいメモリセットを構築するために重みサンプリングを用いる密度ベースサンプル選択戦略を提案する。 次に,ヒント表現に基づくヒントベースのネットワーク学習を実装し,パラメータを最適化する。 最後に,提案手法がメモリ容量と予測精度の点で最先端の連続学習法より優れていることを示すために,公立および産業用データセットの実験を行った。 さらに,実産業応用におけるDMSHMの顕著な実践性を示した。

Predictive Autoscaling is used to forecast the workloads of servers and prepare the resources in advance to ensure service level objectives (SLOs) in dynamic cloud environments. However, in practice, its prediction task often suffers from performance degradation under abnormal traffics caused by external events (such as sales promotional activities and applications re-configurations), for which a common solution is to re-train the model with data of a long historical period, but at the expense of high computational and storage costs. To better address this problem, we propose a replay-based continual learning method, i.e., Density-based Memory Selection and Hint-based Network Learning Model (DMSHM), using only a small part of the historical log to achieve accurate predictions. First, we discover the phenomenon of sample overlap when applying replay-based continual learning in prediction tasks. In order to surmount this challenge and effectively integrate new sample distribution, we propose a density-based sample selection strategy that utilizes kernel density estimation to calculate sample density as a reference to compute sample weight, and employs weight sampling to construct a new memory set. Then we implement hint-based network learning based on hint representation to optimize the parameters. Finally, we conduct experiments on public and industrial datasets to demonstrate that our proposed method outperforms state-of-the-art continual learning methods in terms of memory capacity and prediction accuracy. Furthermore, we demonstrate remarkable practicability of DMSHM in real industrial applications.
翻訳日:2023-08-15 19:02:40 公開日:2023-08-14
# 量子マックスカットのためのSU(2)対称半定値計画階層

An SU(2)-symmetric Semidefinite Programming Hierarchy for Quantum Max Cut ( http://arxiv.org/abs/2307.15688v2 )

ライセンス: Link先を確認
Jun Takahashi, Chaithanya Rayudu, Cunlu Zhou, Robbie King, Kevin Thompson and Ojas Parekh(参考訳) 局所ハミルトンの極端エネルギー状態の理解と近似は、量子物理学と複雑性理論の中心的な問題である。 最近の研究は、局所ハミルトニアンの近似アルゴリズム、特に反強磁性ハイゼンベルクモデルと密接に関連する「量子マックスカット」(QMax-Cut)問題の開発に焦点を当てている。 本稿では,Su(2)対称性を考慮したQMaxCutに適したNavascues-Pironio-Acin(NPA)階層に基づく半定値プログラミング(SDP)緩和のファミリを紹介する。 この階層構造は、SWAP作用素の代数の新たな特徴づけに基づく有限レベルでの最適QMaxCut値に収束することを示す。 いくつかの重要なグラフの族上で、階層の正確さと不完全性を示すいくつかの解析的証明と計算結果を与える。 また, 凝縮体物理学におけるQMaxCutのSDPアプローチとフラストレーションフリーネスの関係を考察し, SDP解法がフラストレーションフリーネスの効率よく計算可能な一般化となることを数値的に示す。 さらに,数値シミュレーションにより,フラストレーションのない領域から離れても,物理量計算やハイゼンベルク型統計力学モデルの物理的特徴を捉える近似手法としてのsdpアルゴリズムの可能性を示す。

Understanding and approximating extremal energy states of local Hamiltonians is a central problem in quantum physics and complexity theory. Recent work has focused on developing approximation algorithms for local Hamiltonians, and in particular the ``Quantum Max Cut'' (QMax-Cut) problem, which is closely related to the antiferromagnetic Heisenberg model. In this work, we introduce a family of semidefinite programming (SDP) relaxations based on the Navascues-Pironio-Acin (NPA) hierarchy which is tailored for QMaxCut by taking into account its SU(2) symmetry. We show that the hierarchy converges to the optimal QMaxCut value at a finite level, which is based on a new characterization of the algebra of SWAP operators. We give several analytic proofs and computational results showing exactness/inexactness of our hierarchy at the lowest level on several important families of graphs. We also discuss relationships between SDP approaches for QMaxCut and frustration-freeness in condensed matter physics and numerically demonstrate that the SDP-solvability practically becomes an efficiently-computable generalization of frustration-freeness. Furthermore, by numerical demonstration we show the potential of SDP algorithms to perform as an approximate method to compute physical quantities and capture physical features of some Heisenberg-type statistical mechanics models even away from the frustration-free regions.
翻訳日:2023-08-15 19:02:16 公開日:2023-08-14
# 双方向誘導学習による深度認識型深度分割

Towards Deeply Unified Depth-aware Panoptic Segmentation with Bi-directional Guidance Learning ( http://arxiv.org/abs/2307.14786v2 )

ライセンス: Link先を確認
Junwen He, Yifan Wang, Lijun Wang, Huchuan Lu, Jun-Yan He, Jin-Peng Lan, Bin Luo, Yifeng Geng, Xuansong Xie(参考訳) Depth-Aware Panoptic segmentationは、意味論的および幾何学的理解とより堅牢なシーン解釈を組み合わせたコンピュータビジョンにおける新たなトピックである。 最近の研究は、この課題に取り組むために統一されたフレームワークを追求しているが、ほとんどは2つの個別の学習タスクとして扱う。 本論文では,同一のオブジェクトクエリを用いたセグメント単位の分割と深さ推定を行う,奥行き認識汎視セグメンテーションのための深い統一フレームワークを提案する。 さらに,2つのタスク間のギャップを狭めるために,潜在表現を用いてシーン幾何学をオブジェクトクエリに統合可能な幾何学的クエリ拡張手法を設計する。 さらに,相互関係を生かしてクロスタスク特徴学習を容易にする双方向指導学習手法を提案する。 本手法は,Cityscapes-DVPS と SemKITTI-DVPS の両データセットを用いた深度認識型パノプティックセグメンテーションのための新しい手法である。 さらに,不完全な監督ラベルの下でも,指導学習のアプローチが性能向上をもたらすことを示す。

Depth-aware panoptic segmentation is an emerging topic in computer vision which combines semantic and geometric understanding for more robust scene interpretation. Recent works pursue unified frameworks to tackle this challenge but mostly still treat it as two individual learning tasks, which limits their potential for exploring cross-domain information. We propose a deeply unified framework for depth-aware panoptic segmentation, which performs joint segmentation and depth estimation both in a per-segment manner with identical object queries. To narrow the gap between the two tasks, we further design a geometric query enhancement method, which is able to integrate scene geometry into object queries using latent representations. In addition, we propose a bi-directional guidance learning approach to facilitate cross-task feature learning by taking advantage of their mutual relations. Our method sets the new state of the art for depth-aware panoptic segmentation on both Cityscapes-DVPS and SemKITTI-DVPS datasets. Moreover, our guidance learning approach is shown to deliver performance improvement even under incomplete supervision labels.
翻訳日:2023-08-15 19:01:28 公開日:2023-08-14
# ステップ付き高調波発振器とその等スペクトル特性

Harmonic Oscillator with a Step and its Isospectral Properties ( http://arxiv.org/abs/2307.14251v2 )

ライセンス: Link先を確認
Yuta Nasuda, Nobuyuki Sawado(参考訳) 原点における有限ジャンプ$a$の高調波発振器に対する一次元Schr\"{o}dinger方程式について検討する。 この解は、通常の波動関数マッチング技術を用いて構成される。 a$, $a=4\ell$ (\ell=1,2,\ldots$) の特別な選択に対して、波動関数はエルミート多項式によって表現できる。 さらに,darboux変換によるポテンシャルの等スペクトル変形についても検討する。 この文脈では、通常の調和振動子に対する無限個の等スペクトルハミルトニアンが得られる。

We investigate the one-dimensional Schr\"{o}dinger equation for a harmonic oscillator with a finite jump $a$ at the origin. The solution is constructed by employing the ordinary matching-of-wavefunctions technique. For the special choices of $a$, $a=4\ell$ ($\ell=1,2,\ldots$), the wavefunctions can be expressed by the Hermite polynomials. Moreover, we explore isospectral deformations of the potential via the Darboux transformation. In this context, infinitely many isospectral Hamiltonians to the ordinary harmonic oscillator are obtained.
翻訳日:2023-08-15 19:01:09 公開日:2023-08-14
# 騒音パターンを伝達できるか? 生成事例を用いたマルチ環境スペクトル分析モデル

Can We Transfer Noise Patterns? A Multi-environment Spectrum Analysis Model Using Generated Cases ( http://arxiv.org/abs/2308.01138v2 )

ライセンス: Link先を確認
Haiwen Du, Zheng Ju, Yu An, Honghui Du, Dongjie Zhu, Zhaoshuo Tian, Aonghus Lawlor, Ruihai Dong(参考訳) オンライン水質試験におけるスペクトル分析システムは汚染物質の種類や濃度を検出し、規制当局が汚染事件に迅速に対応できるように設計されている。 しかしながら、スペクトルデータベースのテストデバイスは、非制御環境にデプロイすると複雑なノイズパターンに苦しむ。 分析モデルをより多くの環境に適用するために,異なる環境における標準水サンプルのスペクトルを事例として,そのノイズパターンの違いを学習し,未知のサンプルへのノイズパターンの転送を可能にするノイズパターン伝達モデルを提案する。 残念ながら、サンプルレベルのベースラインノイズは、データセットレベルの環境ノイズのみが異なるペアデータを得ることができない。 この問題に対処するため,サンプルからサンプルまでのケースベースを生成し,データセットレベルのノイズ学習におけるサンプルレベルのノイズの干渉を排除し,システムの学習性能を向上させる。 背景雑音の異なるスペクトルデータを用いた実験により,ウェーブレット雑音化,ディープニューラルネットワーク,生成モデルなどのベースラインシステムに対する提案手法のノイズ伝達性能が向上した。 そこで本研究では,高品質なケースを生成すれば,DLモデルの性能を向上させることができると提案する。 ソースコードはhttps://github.com/Magnomic/CNSTで公開されている。

Spectrum analysis systems in online water quality testing are designed to detect types and concentrations of pollutants and enable regulatory agencies to respond promptly to pollution incidents. However, spectral data-based testing devices suffer from complex noise patterns when deployed in non-laboratory environments. To make the analysis model applicable to more environments, we propose a noise patterns transferring model, which takes the spectrum of standard water samples in different environments as cases and learns the differences in their noise patterns, thus enabling noise patterns to transfer to unknown samples. Unfortunately, the inevitable sample-level baseline noise makes the model unable to obtain the paired data that only differ in dataset-level environmental noise. To address the problem, we generate a sample-to-sample case-base to exclude the interference of sample-level noise on dataset-level noise learning, enhancing the system's learning performance. Experiments on spectral data with different background noises demonstrate the good noise-transferring ability of the proposed method against baseline systems ranging from wavelet denoising, deep neural networks, and generative models. From this research, we posit that our method can enhance the performance of DL models by generating high-quality cases. The source code is made publicly available online at https://github.com/Magnomic/CNST.
翻訳日:2023-08-15 18:53:59 公開日:2023-08-14
# 自動運転車の危険度評価における反事実的安全マージンの視点

A Counterfactual Safety Margin Perspective on the Scoring of Autonomous Vehicles' Riskiness ( http://arxiv.org/abs/2308.01050v2 )

ライセンス: Link先を確認
Alessandro Zanardi, Andrea Censi, Margherita Atzei, Luigi Di Lillo, Emilio Frazzoli(参考訳) 自動運転車(AV)は、道路事故の減少や全体の輸送効率の向上など、多くの社会的利益をもたらす可能性がある。 しかし、歴史データの欠如と急速に進化する技術のために、AVに関連するリスクの定量化は困難である。 本稿では,道路利用者の非現実的シミュレーションに基づいて,様々な運用設計ドメイン(odd)における異なるavs行動のリスクを比較するためのデータ駆動フレームワークを提案する。 本稿では,衝突につながる可能性のある通常の行動から最小限の偏差を示す,対物的安全マージンの概念を紹介する。 この概念は、最も重要なシナリオを見つけるだけでなく、avのリスクの頻度と深刻度を評価するのに役立つ。 提案手法は,AVの行動方針が不明な場合においても,最悪の場合や最良事例の分析を通じて適用可能であることを示し,外部の第三者のリスク評価にも有用であることを示す。 実験の結果, 安全マージン, 運転方針品質およびODDシーディングの相関が, 異なるAVプロバイダの相対リスクに与える影響を示唆した。 この研究は、この新興技術を取り巻く立法・保険問題に対処するためのAVの安全性評価と支援に貢献する。

Autonomous Vehicles (AVs) have the potential to provide numerous societal benefits, such as decreased road accidents and increased overall transportation efficiency. However, quantifying the risk associated with AVs is challenging due to the lack of historical data and the rapidly evolving technology. This paper presents a data-driven framework for comparing the risk of different AVs' behaviors in various operational design domains (ODDs), based on counterfactual simulations of "misbehaving" road users. We introduce the concept of counterfactual safety margin, which represents the minimum deviation from normal behavior that could lead to a collision. This concept helps to find the most critical scenarios but also to assess the frequency and severity of risk of AVs. We show that the proposed methodology is applicable even when the AV's behavioral policy is unknown -- through worst- and best-case analyses -- making the method useful also to external third-party risk assessors. Our experimental results demonstrate the correlation between the safety margin, the driving policy quality, and the ODD shedding light on the relative risk associated with different AV providers. This work contributes to AV safety assessment and aids in addressing legislative and insurance concerns surrounding this emerging technology.
翻訳日:2023-08-15 18:53:38 公開日:2023-08-14
# fusionad: 自動運転の予測と計画タスクのためのマルチモダリティ融合

FusionAD: Multi-modality Fusion for Prediction and Planning Tasks of Autonomous Driving ( http://arxiv.org/abs/2308.01006v4 )

ライセンス: Link先を確認
Tengju Ye, Wei Jing, Chunyong Hu, Shikun Huang, Lingping Gao, Fangzhen Li, Jingke Wang, Ke Guo, Wencong Xiao, Weibo Mao, Hang Zheng, Kun Li, Junbo Chen, Kaicheng Yu(参考訳) 高精度でロバストなパフォーマンスに向けたマルチモダリティマルチタスクニューラルネットワークの構築は、自動運転の知覚タスクにおけるデファクトスタンダードである。 しかし、複数のセンサからのそのようなデータを活用して予測と計画タスクを共同で最適化することは、ほとんど未検討のままである。 本稿では、FusionADについて、私たちの知る限りでは、カメラとLiDARの2つの重要なセンサーからの情報を融合する最初の統合フレームワークであるFusionADについて述べる。 具体的には、最初にトランスフォーマーベースのマルチモダリティフュージョンネットワークを構築し、フュージョンベースの機能を効果的に生み出す。 カメラベースのエンドツーエンド手法であるUniADに対して、マルチモーダル特徴の利点を生かしたFMSPnPと呼ばれるモダリティ対応予測とステータス対応計画モジュールを融合して構築する。 一般的なベンチマークnuscenesデータセットを広範囲に実験した結果,fusionadは最先端のパフォーマンスを達成し,検出や追跡などの知覚タスクでは平均15%,占有予測精度では10%,adeスコアでは0.708から0.389に低下し,衝突率を0.31%から0.12%に低減した。

Building a multi-modality multi-task neural network toward accurate and robust performance is a de-facto standard in perception task of autonomous driving. However, leveraging such data from multiple sensors to jointly optimize the prediction and planning tasks remains largely unexplored. In this paper, we present FusionAD, to the best of our knowledge, the first unified framework that fuse the information from two most critical sensors, camera and LiDAR, goes beyond perception task. Concretely, we first build a transformer based multi-modality fusion network to effectively produce fusion based features. In constrast to camera-based end-to-end method UniAD, we then establish a fusion aided modality-aware prediction and status-aware planning modules, dubbed FMSPnP that take advantages of multi-modality features. We conduct extensive experiments on commonly used benchmark nuScenes dataset, our FusionAD achieves state-of-the-art performance and surpassing baselines on average 15% on perception tasks like detection and tracking, 10% on occupancy prediction accuracy, reducing prediction error from 0.708 to 0.389 in ADE score and reduces the collision rate from 0.31% to only 0.12%.
翻訳日:2023-08-15 18:53:16 公開日:2023-08-14
# Skills-in-Context Prompting:大規模言語モデルにおける構成性の解き放つ

Skills-in-Context Prompting: Unlocking Compositionality in Large Language Models ( http://arxiv.org/abs/2308.00304v2 )

ライセンス: Link先を確認
Jiaao Chen, Xiaoman Pan, Dian Yu, Kaiqiang Song, Xiaoyang Wang, Dong Yu, Jianshu Chen(参考訳) 本稿では,大規模言語モデル (LLM) における合成一般化能力を新しいタイプのプロンプト戦略で導入する問題を考察する。 構成的一般化は、人間のような知能の重要な推論能力である、自分たちが見たものよりも難しい問題(すなわち、難しい一般化)をLLMが解決する権限を与える。 しかし、現在最先端のLLMでさえ、このタイプの推論に苦戦している。 このギャップを埋めるために、我々はLLMにより複雑な問題を解決するための基本的なスキルの作り方を指示するスキル・イン・コンテクスト(SKiC)プロンプトを提案する。 同じプロンプトコンテキスト内でスキルと構成例の両方を示すことが重要であることが分かりました。 テストプラが2つもあれば、SKiCはスキルと構成能力の強い相乗効果を加速させます。 特に、革新的なスキル構成を必要とする目に見えない問題を解決するためにllmを力づけ、幅広い挑戦的な構成性タスクでほぼ完全な一般化を達成する。 興味深いことに、SKiCプロンプトはLSMの潜在能力を解放し、プロンプトの文脈でこれらのスキルが明示的に示されていない場合でも、初期のトレーニング段階で獲得した既存の内部スキルを活用することができる。 これにより、LLMは内部能力の活性化と構成によって、目に見えない複雑な問題を解決することができる。 このような顕著な特徴により、SKiCプロンプトは挑戦的な数学的推論ベンチマーク(MATHなど)で最先端のパフォーマンスを達成することができる。

We consider the problem of eliciting compositional generalization capabilities in large language models (LLMs) with a novel type of prompting strategy. Compositional generalization empowers the LLMs to solve problems that are harder than the ones they have seen (i.e., easy-to-hard generalization), which is a critical reasoning capability of human-like intelligence. However, even the current state-of-the-art LLMs still struggle with this form of reasoning. To bridge this gap, we propose skills-in-context (SKiC) prompting, which instructs LLMs how to compose basic skills to resolve more complex problems. We find that it is crucial to demonstrate both the skills and the compositional examples within the same prompting context. With as few as two examplars, our SKiC prompting initiates strong synergies between skills and their composition capabilities. Notably, it empowers LLMs to solve unseen problems that require innovative skill compositions, achieving near-perfect generalization on a broad range of challenging compositionality tasks. Intriguingly, SKiC prompting unlocks the latent potential of LLMs, enabling them to leverage pre-existing internal skills acquired during earlier pre-training stages, even when these skills are not explicitly presented in the prompting context. This results in the capability of LLMs to solve unseen complex problems by activating and composing internal competencies. With such prominent features, SKiC prompting is able to achieve state-of-the-art performance on challenging mathematical reasoning benchmarks (e.g., MATH).
翻訳日:2023-08-15 18:52:35 公開日:2023-08-14
# APIアスペクト分析のためのコントラスト学習

Contrastive Learning for API Aspect Analysis ( http://arxiv.org/abs/2307.16878v2 )

ライセンス: Link先を確認
G. M. Shahariar, Tahmid Hasan, Anindya Iqbal and Gias Uddin(参考訳) 教師付きコントラスト損失目的関数で訓練されたトランスフォーマーモデルを利用したAPIレビューにおけるAPIアスペクト検出のための新しいアプローチであるCLAAを提案する。 CLAAの性能評価と影響分析を行った。 パフォーマンス分析にはStack Overflowから収集した開発者ディスカッションのベンチマークデータセットを使用し、その結果を最先端のトランスフォーマーモデルを用いた結果と比較した。 実験の結果,コントラスト学習はトランスフォーマーモデルの性能を著しく向上させ,性能,セキュリティ,ユーザビリティ,ドキュメントなどの側面を検出できることがわかった。 インパクト分析のため,実験および開発研究を行った。 ランダムに選択され、手動で200のオンラインレビューでCLAAは92%の精度でSOTAベースラインは81.5%に達した。 10名の参加者による開発者調査によれば,'stack overflow + claa'の使用により,api選択時の正確性と信頼性が向上した。 レプリケーションパッケージ:https://github.com/disa-lab/Contrastive-Learning-API-Aspect-ASE2023

We present a novel approach - CLAA - for API aspect detection in API reviews that utilizes transformer models trained with a supervised contrastive loss objective function. We evaluate CLAA using performance and impact analysis. For performance analysis, we utilized a benchmark dataset on developer discussions collected from Stack Overflow and compare the results to those obtained using state-of-the-art transformer models. Our experiments show that contrastive learning can significantly improve the performance of transformer models in detecting aspects such as Performance, Security, Usability, and Documentation. For impact analysis, we performed empirical and developer study. On a randomly selected and manually labeled 200 online reviews, CLAA achieved 92% accuracy while the SOTA baseline achieved 81.5%. According to our developer study involving 10 participants, the use of 'Stack Overflow + CLAA' resulted in increased accuracy and confidence during API selection. Replication package: https://github.com/disa-lab/Contrastive-Learning-API-Aspect-ASE2023
翻訳日:2023-08-15 18:52:10 公開日:2023-08-14
# 命題充足可能性問題を解決するために設計されたホップフィールドネットワークにおける連想メモリの利用について

On the use of associative memory in Hopfield networks designed to solve propositional satisfiability problems ( http://arxiv.org/abs/2307.16807v2 )

ライセンス: Link先を確認
Natalya Weber, Werner Koch, Ozan Erdem, Tom Froese(参考訳) ホップフィールドネットワークは生物学的に妥当なメカニズムを提供するため、多くの種類の計算問題を解決する上で魅力的な選択である。 自己最適化(SO)モデルは、生物学的に確立されたヘビアン学習規則と任意の初期状態への繰り返しのネットワークリセットを組み合わせることでホップフィールドネットワークに追加し、ネットワークに符号化された望ましい目標状態に対する自身の振る舞いを最適化する。 このプロセスをよりよく理解するために、まず、Lears問題とマップカラー化問題の2つの例を用いて、SAT形式の具体的組合せ問題をSOモデルで解くことを実証する。 さらに、ある条件下では、重要な情報が永久に失われる可能性を示し、学習したネットワークは、解決すべき課題に実際に不適当であるように見える最適解を生成する。 SOモデルの望ましくない副作用のように見えるものは、難解な問題を解決するためのプロセスに関する洞察を与えることができる。

Hopfield networks are an attractive choice for solving many types of computational problems because they provide a biologically plausible mechanism. The Self-Optimization (SO) model adds to the Hopfield network by using a biologically founded Hebbian learning rule, in combination with repeated network resets to arbitrary initial states, for optimizing its own behavior towards some desirable goal state encoded in the network. In order to better understand that process, we demonstrate first that the SO model can solve concrete combinatorial problems in SAT form, using two examples of the Liars problem and the map coloring problem. In addition, we show how under some conditions critical information might get lost forever with the learned network producing seemingly optimal solutions that are in fact inappropriate for the problem it was tasked to solve. What appears to be an undesirable side-effect of the SO model, can provide insight into its process for solving intractable problems.
翻訳日:2023-08-15 18:51:55 公開日:2023-08-14
# 混合フィールドイジング連鎖における局所保存量の欠如の証明

Proof of absence of local conserved quantities in the mixed-field Ising chain ( http://arxiv.org/abs/2307.16703v2 )

ライセンス: Link先を確認
Yuuya Chiba(参考訳) 局所保存量の存在は、熱化や応答理論の妥当性のためにしばしば必要とされる。 多くの研究は、長手および横手フィールドのイジング連鎖で熱化が起こるかどうかを論じているが、このモデルの局所保存量に関する厳密な結果はいまだに欠落している。 ここで、すべてのカップリング定数が 0 でない場合、このモデルは、自明なもの以外のシステムサイズの半分、すなわちハミルトニアンと恒等式の線形結合を除いて、サポートサイズを持つ局所作用素にまたがる保存量を持たないことを厳密に証明する。 また、縦磁場がゼロに設定されるモデルの可積分性との関係についても論じる。 この結果は、不積分性が厳密に証明されたスピンモデルの第二の例である。

Absence of local conserved quantities is often required, such as for thermalization or for the validity of response theory. Although many studies have discussed whether thermalization occurs in the Ising chain with longitudinal and transverse fields, rigorous results on local conserved quantities of this model have been still lacking. Here, we rigorously prove that, if all coupling constants are nonzero, this model has no conserved quantity spanned by local operators with support size up to the half of the system size other than a trivial one, i.e., a linear combination of the Hamiltonian and the identity. We also discuss relation to the integrability of the model where the longitudinal field is set to zero. Our results provide the second example of spin models whose nonintegrability is rigorously proved.
翻訳日:2023-08-15 18:51:38 公開日:2023-08-14
# 最先端生成モデルの信頼性景観について--包括的調査

On the Trustworthiness Landscape of State-of-the-art Generative Models: A Comprehensive Survey ( http://arxiv.org/abs/2307.16680v3 )

ライセンス: Link先を確認
Mingyuan Fan, Cen Chen, Chengyu Wang, Jun Huang(参考訳) 拡散モデルと大規模言語モデルが最先端生成モデルとして登場し、人間の生活の様々な側面に革命的な影響を与えた。 しかしながら、これらのモデルの実践的な実装は、その二重性を強調し、信頼性に関する懸念を提起する固有のリスクも露呈している。 この主題に関する文献が豊富にあるにもかかわらず、大規模な生成モデルの交差を特に調査する総合的な調査は、ほとんど欠落している。 このギャップを埋めるために、この論文では、プライバシー、セキュリティ、公正性、責任という4つの基本的な側面にまたがる、これらのモデルにまつわる長年の脅威と新興の脅威を調査する。 このようにして,これらのモデルの信頼性を概説した詳細な地図を構築し,実用的な推薦と今後の方向性の特定を行う。 これらの取り組みは、これらのモデルの信頼できる展開を促進するのに不可欠であり、最終的には社会全体に利益をもたらす。

Diffusion models and large language models have emerged as leading-edge generative models and have sparked a revolutionary impact on various aspects of human life. However, the practical implementation of these models has also exposed inherent risks, highlighting their dual nature and raising concerns regarding their trustworthiness. Despite the abundance of literature on this subject, a comprehensive survey specifically delving into the intersection of large-scale generative models and their trustworthiness remains largely absent. To bridge this gap, This paper investigates both the long-standing and emerging threats associated with these models across four fundamental dimensions: privacy, security, fairness, and responsibility. In this way, we construct an extensive map outlining the trustworthiness of these models, while also providing practical recommendations and identifying future directions. These efforts are crucial for promoting the trustworthy deployment of these models, ultimately benefiting society as a whole.
翻訳日:2023-08-15 18:51:24 公開日:2023-08-14
# ネットワーク還元によるニューラルネットワーク検証の高速化

Expediting Neural Network Verification via Network Reduction ( http://arxiv.org/abs/2308.03330v2 )

ライセンス: Link先を確認
Yuyi Zhong, Ruiwei Wang, Siau-Cheng Khoo(参考訳) ネットワークが重要なアプリケーションで正しく機能することを保証するため、ディープニューラルネットワークの安全性を検証するための幅広い検証手法が提案されている。 しかし、多くのよく知られた検証ツールはまだ複雑なネットワークアーキテクチャと大きなネットワークサイズで苦労している。 本研究では,検証前の事前処理手法としてネットワーク低減手法を提案する。 提案手法は、安定なReLUニューロンを除去してニューラルネットワークを低減し、最も有効なツールで処理可能なReLU層とAffine層からなるシーケンシャルニューラルネットワークに変換する。 α-beta-crown, verinet, primaなど,最先端の完全かつ不完全な検証ツールでリダクション技術をインスタンス化する。 大規模ベンチマーク実験の結果,提案手法はニューラルネットワークを著しく削減し,既存の検証ツールを高速化できることが示唆された。 さらに,実験結果から,ネットワークの縮小により,複数のネットワーク上で既存の検証ツールの可用性が向上し,それらを逐次ニューラルネットワークに還元できることを示した。

A wide range of verification methods have been proposed to verify the safety properties of deep neural networks ensuring that the networks function correctly in critical applications. However, many well-known verification tools still struggle with complicated network architectures and large network sizes. In this work, we propose a network reduction technique as a pre-processing method prior to verification. The proposed method reduces neural networks via eliminating stable ReLU neurons, and transforming them into a sequential neural network consisting of ReLU and Affine layers which can be handled by the most verification tools. We instantiate the reduction technique on the state-of-the-art complete and incomplete verification tools, including alpha-beta-crown, VeriNet and PRIMA. Our experiments on a large set of benchmarks indicate that the proposed technique can significantly reduce neural networks and speed up existing verification tools. Furthermore, the experiment results also show that network reduction can improve the availability of existing verification tools on many networks by reducing them into sequential neural networks.
翻訳日:2023-08-15 18:43:49 公開日:2023-08-14
# ソースフリードメイン適応型ヒューマンポース推定

Source-free Domain Adaptive Human Pose Estimation ( http://arxiv.org/abs/2308.03202v2 )

ライセンス: Link先を確認
Qucheng Peng, Ce Zheng, Chen Chen(参考訳) HPE(Human Pose Estimation)は、モーション分析、ヘルスケア、仮想現実など、さまざまな分野で広く使われている。 しかし、ラベル付き実世界のデータセットの膨大な費用は、HPEにとって大きな課題となる。 これを解決する1つのアプローチは、合成データセット上でHPEモデルをトレーニングし、実際のデータ上でドメイン適応(DA)を実行することである。 残念ながら、HPEの既存のDAメソッドは、適応プロセスでソースデータとターゲットデータの両方を使用することで、データのプライバシとセキュリティを無視している。 そこで本研究では,hpeのクロスドメイン学習の課題を解決するために,適応プロセス中にソースデータにアクセスせずに,新たなタスクであるsource-free domain adaptive hpeを提案する。 さらに、ソースモデル、中間モデル、ターゲットモデルという3つのモデルからなる新しいフレームワークを提案し、ソース保護とターゲット関連の観点からタスクを探索する。 音源保護モジュールは、ノイズに抵抗しながらより効果的にソース情報を保存し、ターゲット関連モジュールは、新しい空間確率空間を構築して空間表現のスパーシティを低減し、この空間に基づいてポーズ固有のコントラスト学習と情報最大化を提案する。 いくつかの領域適応型HPEベンチマークの総合的な実験により、提案手法は既存の手法よりもかなり優れていることが示された。

Human Pose Estimation (HPE) is widely used in various fields, including motion analysis, healthcare, and virtual reality. However, the great expenses of labeled real-world datasets present a significant challenge for HPE. To overcome this, one approach is to train HPE models on synthetic datasets and then perform domain adaptation (DA) on real-world data. Unfortunately, existing DA methods for HPE neglect data privacy and security by using both source and target data in the adaptation process. To this end, we propose a new task, named source-free domain adaptive HPE, which aims to address the challenges of cross-domain learning of HPE without access to source data during the adaptation process. We further propose a novel framework that consists of three models: source model, intermediate model, and target model, which explores the task from both source-protect and target-relevant perspectives. The source-protect module preserves source information more effectively while resisting noise, and the target-relevant module reduces the sparsity of spatial representations by building a novel spatial probability space, and pose-specific contrastive learning and information maximization are proposed on the basis of this space. Comprehensive experiments on several domain adaptive HPE benchmarks show that the proposed method outperforms existing approaches by a considerable margin.
翻訳日:2023-08-15 18:43:34 公開日:2023-08-14
# InterTracker: 野生の手で相互作用する一般的な物体の発見と追跡

InterTracker: Discovering and Tracking General Objects Interacting with Hands in the Wild ( http://arxiv.org/abs/2308.03061v2 )

ライセンス: Link先を確認
Yanyan Shao and Qi Ye and Wenhan Luo and Kaihao Zhang and Jiming Chen(参考訳) オブジェクトとのインタラクションを理解することは、人工知能を具現化し、人間が対話しているオブジェクトを特定するための重要な研究トピックである。 既存の方法は相互作用する物体を見つけるためにフレームベースの検出器に依存している。 しかし、このアプローチには重い閉塞、背景の乱雑、邪魔な物体が伴う。 そこで本稿では,これらの課題を解決するために,物体間相互作用の時空間情報を利用して対話的物体を追跡する手法を提案する。 物体追跡問題のような追跡対象の事前知識がなければ,まず手と物体の空間的関係を利用してシーンから対話対象を適応的に発見する。 次に、連続するフレーム間のオブジェクトの出現の一貫性と連続性を利用して、オブジェクトを追跡する。 この追跡定式化により,大規模汎用オブジェクト追跡データセットのトレーニングにも有効である。 さらに、100DOHからテストおよび評価を行うためのビデオレベルのハンドオブジェクトインタラクションデータセットをキュレートする。 その結果,提案手法は最先端の手法よりも優れていた。 具体的には,異なる対象と連続的に相互作用する場面において,平均精度(ap)指標を用いて評価した場合,約10%の印象的な改善が得られた。 また,本手法は相互作用する物体に対してより連続的な軌跡を生成できることを示す。

Understanding human interaction with objects is an important research topic for embodied Artificial Intelligence and identifying the objects that humans are interacting with is a primary problem for interaction understanding. Existing methods rely on frame-based detectors to locate interacting objects. However, this approach is subjected to heavy occlusions, background clutter, and distracting objects. To address the limitations, in this paper, we propose to leverage spatio-temporal information of hand-object interaction to track interactive objects under these challenging cases. Without prior knowledge of the general objects to be tracked like object tracking problems, we first utilize the spatial relation between hands and objects to adaptively discover the interacting objects from the scene. Second, the consistency and continuity of the appearance of objects between successive frames are exploited to track the objects. With this tracking formulation, our method also benefits from training on large-scale general object-tracking datasets. We further curate a video-level hand-object interaction dataset for testing and evaluation from 100DOH. The quantitative results demonstrate that our proposed method outperforms the state-of-the-art methods. Specifically, in scenes with continuous interaction with different objects, we achieve an impressive improvement of about 10% as evaluated using the Average Precision (AP) metric. Our qualitative findings also illustrate that our method can produce more continuous trajectories for interacting objects.
翻訳日:2023-08-15 18:43:11 公開日:2023-08-14
# 高次変分正規化を用いた非線形ニューラルネットワークの確率的最適化

A stochastic optimization approach to train non-linear neural networks with a higher-order variation regularization ( http://arxiv.org/abs/2308.02293v2 )

ライセンス: Link先を確認
Akifumi Okuno(参考訳) ディープニューラルネットワークを含む高度に表現力のあるパラメトリックモデルは複雑な概念をモデル化するのに有利であるが、そのような高度に非線形なモデルの訓練は悪名高い過剰フィッティングのリスクをもたらすことが知られている。 この問題に対処するため、本研究では、トレーニング対象のパラメトリックモデルの絶対$k$th階微分の$q$th力による積分として定義される$(k,q)$th階変動正規化((k,q)$-vr)を考察する。 特に$(k,q)$-VRは、$q=1$の従来の(一般的な)全変動を含む。 一般パラメトリックモデルに適用される$(k,q)$-VR項は、積分により計算的に難解であるが、この研究は、(k,q)$-VRを明示的な数値積分を行なわずに効率的に一般モデルを訓練できる確率的最適化アルゴリズムを提供する。 提案手法は、単純な確率勾配降下アルゴリズムと自動微分のみで実装できるので、構造が任意である深いニューラルネットワークのトレーニングにも適用することができる。 我々の数値実験により、$(k,q)$-VRでトレーニングされたニューラルネットワークは、従来のパラメータ正規化よりも「レジリエント」であることが示された。 提案アルゴリズムは、ニューラルネットワーク(PINN)の物理インフォームドトレーニングにも拡張可能である。

While highly expressive parametric models including deep neural networks have an advantage to model complicated concepts, training such highly non-linear models is known to yield a high risk of notorious overfitting. To address this issue, this study considers a $(k,q)$th order variation regularization ($(k,q)$-VR), which is defined as the $q$th-powered integral of the absolute $k$th order derivative of the parametric models to be trained; penalizing the $(k,q)$-VR is expected to yield a smoother function, which is expected to avoid overfitting. Particularly, $(k,q)$-VR encompasses the conventional (general-order) total variation with $q=1$. While the $(k,q)$-VR terms applied to general parametric models are computationally intractable due to the integration, this study provides a stochastic optimization algorithm, that can efficiently train general models with the $(k,q)$-VR without conducting explicit numerical integration. The proposed approach can be applied to the training of even deep neural networks whose structure is arbitrary, as it can be implemented by only a simple stochastic gradient descent algorithm and automatic differentiation. Our numerical experiments demonstrate that the neural networks trained with the $(k,q)$-VR terms are more ``resilient'' than those with the conventional parameter regularization. The proposed algorithm also can be extended to the physics-informed training of neural networks (PINNs).
翻訳日:2023-08-15 18:42:05 公開日:2023-08-14
# ClassEval: クラスレベルのコード生成におけるLLMの評価のための手作業ベンチマーク

ClassEval: A Manually-Crafted Benchmark for Evaluating LLMs on Class-level Code Generation ( http://arxiv.org/abs/2308.01861v2 )

ライセンス: Link先を確認
Xueying Du, Mingwei Liu, Kaixin Wang, Hanlin Wang, Junwei Liu, Yixuan Chen, Jiayi Feng, Chaofeng Sha, Xin Peng, Yiling Lou(参考訳) 本研究では,より困難なコード生成シナリオ,すなわちクラスレベルのコード生成において,llmを評価する最初の試みを行う。 まず,100のクラスレベルのPythonコード生成タスクに対して,約500人時間で最初のクラスレベルのコード生成ベンチマークであるClassEvalを手作業で構築する。 これに基づいて、クラスレベルのコード生成における11の最先端LCMの最初の研究を行う。 以上の結果から,本症例は以下の結果を得た。 まず、既存のLLMは、HumanEvalのようなスタンドアロンのメソッドレベルのコード生成ベンチマークに比べて、クラスレベルのコード生成のパフォーマンスがはるかに低いことが分かり、メソッドレベルのコーディング能力はLLM間のクラスレベルのコーディング能力を同等に反映できないことがわかった。 第2に, GPT-4 と GPT-3.5 はクラスレベルのコード生成において他の LLM よりも優れており,第2階層モデルには,非常によく似た性能を持つ Instruct-Starcoder, Instruct-Codegen, Wizardcoder などがある。 第3に,全クラスを一度に生成することはGPT-4とGPT-3.5でのみ最良の生成戦略であり,メソッド・バイ・メソッド・ジェネレーション(インクリメンタル・コンポジション)は長い命令を理解し,中間情報を利用する能力に制限のある他のモデルではより良い戦略である。 最後に、メソッド依存のコードを生成する限定的なモデル能力を見つけ、生成されたクラスで頻繁なエラータイプについて論じる。 ベンチマークはhttps://github.com/fudanselab/classevalで利用可能です。

In this work, we make the first attempt to evaluate LLMs in a more challenging code generation scenario, i.e. class-level code generation. We first manually construct the first class-level code generation benchmark ClassEval of 100 class-level Python code generation tasks with approximately 500 person-hours. Based on it, we then perform the first study of 11 state-of-the-art LLMs on class-level code generation. Based on our results, we have the following main findings. First, we find that all existing LLMs show much worse performance on class-level code generation compared to on standalone method-level code generation benchmarks like HumanEval; and the method-level coding ability cannot equivalently reflect the class-level coding ability among LLMs. Second, we find that GPT-4 and GPT-3.5 still exhibit dominate superior than other LLMs on class-level code generation, and the second-tier models includes Instruct-Starcoder, Instruct-Codegen, and Wizardcoder with very similar performance. Third, we find that generating the entire class all at once (i.e. holistic generation strategy) is the best generation strategy only for GPT-4 and GPT-3.5, while method-by-method generation (i.e. incremental and compositional) is better strategies for the other models with limited ability of understanding long instructions and utilizing the middle information. Lastly, we find the limited model ability of generating method-dependent code and discuss the frequent error types in generated classes. Our benchmark is available at https://github.com/FudanSELab/ClassEval.
翻訳日:2023-08-15 18:41:36 公開日:2023-08-14
# 大規模な言語モデルでは、修正は問題なのでしょうか?

Does Correction Remain A Problem For Large Language Models? ( http://arxiv.org/abs/2308.01776v2 )

ライセンス: Link先を確認
Xiaowu Zhang and Xiaotian Zhang and Cheng Yang and Hang Yan and Xipeng Qiu(参考訳) GPTのような大規模言語モデルでは、自然言語処理(NLP)の能力が向上し続けているため、問題が発生する。 本稿では,2つの実験を行い,大規模言語モデルの文脈における補正の役割について検討する。 最初の実験では、誤り訂正のためのGPTのようなモデルを用いた数発の学習技術を用いて、単独のタスクとしての修正に焦点を当てた。 2つ目の実験は、修正の概念を他のnlpタスクの予備タスクとして検討し、大きな言語モデルが特定のレベルのノイズやエラーを含むテキストを許容し、適切に実行するかどうかを調べる。 これらの実験に対処することで、大規模な言語モデルの時代における修正の重要性と、その様々なNLP応用への応用について光を当てることを目指している。

As large language models, such as GPT, continue to advance the capabilities of natural language processing (NLP), the question arises: does the problem of correction still persist? This paper investigates the role of correction in the context of large language models by conducting two experiments. The first experiment focuses on correction as a standalone task, employing few-shot learning techniques with GPT-like models for error correction. The second experiment explores the notion of correction as a preparatory task for other NLP tasks, examining whether large language models can tolerate and perform adequately on texts containing certain levels of noise or errors. By addressing these experiments, we aim to shed light on the significance of correction in the era of large language models and its implications for various NLP applications.
翻訳日:2023-08-15 18:41:07 公開日:2023-08-14
# ランク最小化によるニューラルインプットの確率近似

Developability Approximation for Neural Implicits through Rank Minimization ( http://arxiv.org/abs/2308.03900v2 )

ライセンス: Link先を確認
Pratheba Selvaraju(参考訳) 展開性とは、二次元平面から断裂やせん断をすることなく表面を作る過程を指す。 製造業界で実用化されている。 現像可能な3次元曲面の本質的な特徴は、その 0 ガウス曲率であり、つまり、主曲率の 1 つまたは両方が 0 であることを意味する。 本稿では,神経暗示面から近似発達可能な表面を再構成する手法を提案する。 この手法の中心的な考え方は、ニューラル暗黙の2階微分を演算する正規化項を組み込むことであり、ガウス曲率を効果的に促進する。 入射曲面は無限分解によるより滑らかな変形の利点を提供し、離散表現を用いた最先端手法の高次多角的制約を克服する。 我々は表面曲率の性質からインスピレーションを得て,圧縮センシングによるランク最小化手法を採用した。 本手法の一般化性を検証するため, 開発可能面と開発不可能面の両方の実験結果を得た。

Developability refers to the process of creating a surface without any tearing or shearing from a two-dimensional plane. It finds practical applications in the fabrication industry. An essential characteristic of a developable 3D surface is its zero Gaussian curvature, which means that either one or both of the principal curvatures are zero. This paper introduces a method for reconstructing an approximate developable surface from a neural implicit surface. The central idea of our method involves incorporating a regularization term that operates on the second-order derivatives of the neural implicits, effectively promoting zero Gaussian curvature. Implicit surfaces offer the advantage of smoother deformation with infinite resolution, overcoming the high polygonal constraints of state-of-the-art methods using discrete representations. We draw inspiration from the properties of surface curvature and employ rank minimization techniques derived from compressed sensing. Experimental results on both developable and non-developable surfaces, including those affected by noise, validate the generalizability of our method.
翻訳日:2023-08-15 18:33:12 公開日:2023-08-14
# 非計測共同設立者の因果推論における拡散モデル

Diffusion Model in Causal Inference with Unmeasured Confounders ( http://arxiv.org/abs/2308.03669v2 )

ライセンス: Link先を確認
Tatsuhiro Shimizu(参考訳) 本研究では,未測定の共同設立者の存在下での観察データから因果的疑問に答えるための拡散モデルの適用方法を検討する。 因果的介入を捉えるためにDAG(Directed Acyclic Graph)を用いるパールの枠組みでは、すべての共同設立者が観察されることを前提に、拡散モデルを用いて因果的疑問により正確に答える手法が提案された。 しかし、実際には測定されていない共同設立者が存在し、DCMの適用を妨げている。 DCMのこの制限を軽減するために,バックドア基準に基づくDCM(Backdoor Criterion based DCM)と呼ばれる拡張モデルを提案する。 合成データ実験により, 提案モデルが, dcmよりも正確に反事実分布を捉えていることが証明された。

We study how to extend the use of the diffusion model to answer the causal question from the observational data under the existence of unmeasured confounders. In Pearl's framework of using a Directed Acyclic Graph (DAG) to capture the causal intervention, a Diffusion-based Causal Model (DCM) was proposed incorporating the diffusion model to answer the causal questions more accurately, assuming that all of the confounders are observed. However, unmeasured confounders in practice exist, which hinders DCM from being applicable. To alleviate this limitation of DCM, we propose an extended model called Backdoor Criterion based DCM (BDCM), whose idea is rooted in the Backdoor criterion to find the variables in DAG to be included in the decoding process of the diffusion model so that we can extend DCM to the case with unmeasured confounders. Synthetic data experiment demonstrates that our proposed model captures the counterfactual distribution more precisely than DCM under the unmeasured confounders.
翻訳日:2023-08-15 18:32:44 公開日:2023-08-14
# zhongjing: エキスパートフィードバックと現実世界のマルチターン対話による大規模言語モデルの中国の医療能力の向上

Zhongjing: Enhancing the Chinese Medical Capabilities of Large Language Model through Expert Feedback and Real-world Multi-turn Dialogue ( http://arxiv.org/abs/2308.03549v2 )

ライセンス: Link先を確認
Songhua Yang, Hanjie Zhao, Senbin Zhu, Guangyu Zhou, Hongfei Xu, Yuxiang Jia, Hongying Zan(参考訳) 近年のLLM(Large Language Models)の進歩は,ユーザの意図を理解し,応答する上で画期的な成果を上げている。 しかし、その性能は中国医学などいくつかの専門分野の一般的なユースケースに及ばない。 LLMに漢方薬を組み込む既存の取り組みは、シングルターンおよび蒸留ダイアログデータを備えたスーパービジョンファインチューニング(SFT)に依存している。 これらのモデルには、医師のような積極的調査やマルチターン理解能力がなく、常に安全とプロフェッショナル主義の専門家と対応できない。 本稿では,前訓練から人間フィードバックによる強化学習(rlhf)までのトレーニングパイプライン全体を実装した,中国初の医学llamaベースのllmであるzhongjingを紹介する。 さらに, 複雑な対話能力と積極的な調査開始能力を大幅に向上させる, 7,000 人の医師と患者との対話の多ターン医療対話データセット CMtMedQA を導入する。 バイオメディカルドメインのユニークな特徴を考慮し, アノテーション規則と評価基準を定義した。 その結果,ChatGPTを用いた50倍のトレーニングデータと,ChatGPTを用いた100倍のパラメータを持つにもかかわらず,モデルが様々な能力でベースラインを上回り,ChatGPTの性能に匹敵することがわかった。 RLHFは、モデルの命令追従能力と安全性をさらに改善し、さらなる研究のためのコード、データセット、モデルもリリースします。

Recent advances in Large Language Models (LLMs) have achieved remarkable breakthroughs in understanding and responding to user intents. However, their performance lag behind general use cases in some expertise domains, such as Chinese medicine. Existing efforts to incorporate Chinese medicine into LLMs rely on Supervised Fine-Tuning (SFT) with single-turn and distilled dialogue data. These models lack the ability for doctor-like proactive inquiry and multi-turn comprehension and cannot always align responses with safety and professionalism experts. In this work, we introduce Zhongjing, the first Chinese medical LLaMA-based LLM that implements an entire training pipeline from pre-training to reinforcement learning with human feedback (RLHF). Additionally, we introduce a Chinese multi-turn medical dialogue dataset of 70,000 authentic doctor-patient dialogues, CMtMedQA, which significantly enhances the model's capability for complex dialogue and proactive inquiry initiation. We define a refined annotation rule and evaluation criteria given the biomedical domain's unique characteristics. Results show that our model outperforms baselines in various capacities and matches the performance of ChatGPT in a few abilities, despite having 50x training data with previous best model and 100x parameters with ChatGPT. RLHF further improves the model's instruction-following ability and safety.We also release our code, datasets and model for further research.
翻訳日:2023-08-15 18:32:23 公開日:2023-08-14
# 分散POMDPにおけるオンラインクラスタリングラベルによる離散メッセージ

Discrete Message via Online Clustering Labels in Decentralized POMDP ( http://arxiv.org/abs/2308.03358v2 )

ライセンス: Link先を確認
Jingdi Chen, Tian Lan(参考訳) マルコフ決定過程における協調的マルチエージェント強化学習課題の解決にはコミュニケーションが不可欠である。 既存の作業は、ローカル情報や特徴を他のエージェントと共有するメッセージにエンコードするブラックボックスメソッドに依存していることが多い。 しかし、このようなブラックボックスアプローチでは、期待した戻り値に対する定量的な保証が得られず、しばしば通信オーバーヘッドが高く、解釈可能性の低い連続メッセージの生成につながる。 本稿では,完全な可観測性を持つ理想的な方針と離散的通信を伴う最適部分可観測性ポリシーとの回帰ギャップの上限を定式化する。 この結果から,マルチエージェント通信を各エージェントの局所的な観測上の新たなオンラインクラスタリング問題に再キャストすることが可能となり,メッセージはクラスタラベル,アッパーバウンドはクラスタリング損失となる。 上界を最小化することにより,マルチエージェント通信におけるメッセージ生成関数の驚くほど単純な設計を提案し,正規化情報最大化損失関数を用いた強化学習と統合する。 評価の結果,提案する離散通信は最先端のマルチエージェント通信ベースラインを著しく上回っており,自然に解釈可能な数ビットメッセージでほぼ最適に近いリターンが得られることがわかった。

Communication is crucial for solving cooperative Multi-Agent Reinforcement Learning tasks in Partially-Observable Markov Decision Processes. Existing works often rely on black-box methods to encode local information/features into messages shared with other agents. However, such black-box approaches are unable to provide any quantitative guarantees on the expected return and often lead to the generation of continuous messages with high communication overhead and poor interpretability. In this paper, we establish an upper bound on the return gap between an ideal policy with full observability and an optimal partially-observable policy with discrete communication. This result enables us to recast multi-agent communication into a novel online clustering problem over the local observations at each agent, with messages as cluster labels and the upper bound on the return gap as clustering loss. By minimizing the upper bound, we propose a surprisingly simple design of message generation functions in multi-agent communication and integrate it with reinforcement learning using a Regularized Information Maximization loss function. Evaluations show that the proposed discrete communication significantly outperforms state-of-the-art multi-agent communication baselines and can achieve nearly-optimal returns with few-bit messages that are naturally interpretable.
翻訳日:2023-08-15 18:31:39 公開日:2023-08-14
# 高速NeRF合成とレンダリングのための汎用的暗黙フレームワーク

A General Implicit Framework for Fast NeRF Composition and Rendering ( http://arxiv.org/abs/2308.04669v2 )

ライセンス: Link先を確認
Xinyu Gao, Ziyi Yang, Yunlu Zhao, Yuxiang Sun, Xiaogang Jin, Changqing Zou(参考訳) 様々なニューラル・ラジアンス・フィールド(nerf)法が近年、高いレンダリング速度で顕著な成功を収めている。 しかし、現在の加速法は特殊であり、様々な暗黙的手法と相容れないため、様々な種類のNeRF作品に対するリアルタイムな構成を妨げている。 NeRFは放射線のサンプリングに依存するため、加速のための一般的なガイダンスを提供することができる。 そこで我々は,NeRFオブジェクトを高速に構成するための一般的な暗黙パイプラインを提案する。 本手法は,複数のNeRFオブジェクトを任意の剛性変換とともにシームレスに配置・描画し,解析光源を用いて物体内および物体間の動的影の鋳造を可能にする。 主に,光線と暗黙表面との直接交叉計算を可能にすることで,物体間の空間的関係を迅速に決定するニューラル深度場(nedf)と呼ばれる新しい表面表現を導入する。 交叉ニューラルネットワークを用いて、空間構造によらず、NeRFを高速化するためにクエリし、提案手法は、NeRFオブジェクトのプログレッシブかつインタラクティブな合成を可能にする最初の方法である。 さらに、既存のNeRFワークのプレビュープラグインとしても機能する。

A variety of Neural Radiance Fields (NeRF) methods have recently achieved remarkable success in high render speed. However, current accelerating methods are specialized and incompatible with various implicit methods, preventing real-time composition over various types of NeRF works. Because NeRF relies on sampling along rays, it is possible to provide general guidance for acceleration. To that end, we propose a general implicit pipeline for composing NeRF objects quickly. Our method enables the casting of dynamic shadows within or between objects using analytical light sources while allowing multiple NeRF objects to be seamlessly placed and rendered together with any arbitrary rigid transformations. Mainly, our work introduces a new surface representation known as Neural Depth Fields (NeDF) that quickly determines the spatial relationship between objects by allowing direct intersection computation between rays and implicit surfaces. It leverages an intersection neural network to query NeRF for acceleration instead of depending on an explicit spatial structure.Our proposed method is the first to enable both the progressive and interactive composition of NeRF objects. Additionally, it also serves as a previewing plugin for a range of existing NeRF works.
翻訳日:2023-08-15 18:21:37 公開日:2023-08-14
# 3次元トーリックコードにおけるスーパーセレクションセクター

Superselection sectors in the 3d Toric Code ( http://arxiv.org/abs/2308.06883v1 )

ライセンス: Link先を確認
Siddharth Vadnerkar(参考訳) 無限格子 $\mathbb{Z}^3$ 上の 3d (空間次元) トーリック符号モデルにおける超選択セクターを厳密に定義する。 まず、無限流束列に対応する自己同型(英語版)を構築することから始め、これは開多様体でのみ可能となる現象である。 次に、無限流束列を含む全ての基底状態超選択セクタを分類し、構成中の弦の幾何と数に依存するリッチな構造を見つける。 特に、単一の無限流束列構成が基底状態であるためには、単調でなければならない。 複数の無限束列を含む構成に対しては、「無限方向」を定義し、それを用いて状態が基底状態選択セクターに存在する必要十分条件を確立する。 特に、ある状態が3つ以上の無限束列を含む場合、それは基底状態の超選択セクタではないことも分かる。

We rigorously define superselection sectors in the 3d (spatial dimensions) Toric Code Model on the infinite lattice $\mathbb{Z}^3$. We begin by constructing automorphisms that correspond to infinite flux strings, a phenomenon that's only possible in open manifolds. We then classify all ground state superselection sectors containing infinite flux strings, and find a rich structure that depends on the geometry and number of strings in the configuration. In particular, for a single infinite flux string configuration to be a ground state, it must be monotonic. For configurations containing multiple infinite flux strings, we define "infinity directions" and use that to establish a necessary and sufficient condition for a state to be in a ground state superselection sector. Notably, we also find that if a state contains more than 3 infinite flux strings, then it is not in a ground state superselection sector.
翻訳日:2023-08-15 14:58:28 公開日:2023-08-14
# 監督された類似性を用いたカテゴリーからの資金流出率の定量化

Quantifying Outlierness of Funds from their Categories using Supervised Similarity ( http://arxiv.org/abs/2308.06882v1 )

ライセンス: Link先を確認
Dhruv Desai, Ashmita Dhiman, Tushar Sharma, Deepika Sharma, Dhagash Mehta, Stefano Pasquali(参考訳) 相互ファンドの分類は、投資管理産業の標準ツールとなり、ポートフォリオ構築とマネジャー選択のアロケータや、ピア分析と競争力のあるポジションのためのファンドマネージャによって広く利用されている。 その結果、(意図しない)誤分類や精度の欠如は、配分決定や投資ファンドマネジャーに大きな影響を及ぼす可能性がある。 本稿では,機械学習に基づくアプローチを用いて,資金の誤分類の効果を定量化する。 我々は, 資金の誤分類問題を距離に基づく外れ値検出問題として定式化し, 外れ値が与えられた特徴空間内の他のデータポイントから遠く離れたデータポイントであることを示す。 距離メトリック学習のランダムフォレスト(RF)に基づく手法を実装し,各データポイントに対するいわゆるクラスワイド・アウトリー測度を計算し,データのアウトリーを同定する。 我々は、さまざまな公開データセット上で実装をテストし、それを相互資金データに適用する。 本研究は, ファンドの外部方策と将来のリターンとの間には強い関係があることを示し, その影響について考察する。

Mutual fund categorization has become a standard tool for the investment management industry and is extensively used by allocators for portfolio construction and manager selection, as well as by fund managers for peer analysis and competitive positioning. As a result, a (unintended) miscategorization or lack of precision can significantly impact allocation decisions and investment fund managers. Here, we aim to quantify the effect of miscategorization of funds utilizing a machine learning based approach. We formulate the problem of miscategorization of funds as a distance-based outlier detection problem, where the outliers are the data-points that are far from the rest of the data-points in the given feature space. We implement and employ a Random Forest (RF) based method of distance metric learning, and compute the so-called class-wise outlier measures for each data-point to identify outliers in the data. We test our implementation on various publicly available data sets, and then apply it to mutual fund data. We show that there is a strong relationship between the outlier measures of the funds and their future returns and discuss the implications of our findings.
翻訳日:2023-08-15 14:58:15 公開日:2023-08-14
# エントロピー最小化における群衆の知恵を活用したオープンセットテスト時間適応に向けて

Towards Open-Set Test-Time Adaptation Utilizing the Wisdom of Crowds in Entropy Minimization ( http://arxiv.org/abs/2308.06879v1 )

ライセンス: Link先を確認
Jungsoo Lee, Debasmit Das, Jaegul Choo, Sungha Choi(参考訳) 実験時間適応 (TTA) 法は、一般に、源となる事前訓練されたモデルをラベルのない対象領域に適応させるためにモデルの予測(例えばエントロピー最小化)に依存するが、ノイズ信号に悩まされる。 1)間違っているか 2) オープンセット予測。 このようなノイズ信号によって長期安定適応が妨げられるため、そのようなエラー蓄積のないトレーニングモデルは実用的TTAにとって不可欠である。 オープンセットTTAを含むこれらの課題に対処するため, 以下の重要な経験的発見から着想を得た, 単純かつ効果的なサンプル選択法を提案する。 エントロピー最小化は予測ラベルの確率を増加させる(すなわち信頼度値)ことをモデルに強制するが、ノイズのあるサンプルは信頼度値の低下を示す。 より具体的に言うと、エントロピー最小化は個々のサンプルの予測の信頼度値を上昇させようとするが、他の多くの予測(すなわち群衆の知恵)からの信号の影響によって個人の信頼度が上昇または低下する可能性がある。 この事実から、一般に正しい信号に見られるような「群衆の知恵」と混同されるノイズ信号は、それらを増やそうとするにも拘わらず、間違ったサンプルの個人的信頼値を上げることができない。 そこで,本研究では,従来のモデルよりも信頼度が低く,ノイズの少ないサンプルをフィルタリングする手法を提案する。 提案手法は既存のTTA手法に適用可能であり,画像分類(例:TENTによる誤り率49.4%削減)とセマンティックセグメンテーション(例:TENTによるmIoUの11.7%向上)の両方において,長期適応性能を向上させる。

Test-time adaptation (TTA) methods, which generally rely on the model's predictions (e.g., entropy minimization) to adapt the source pretrained model to the unlabeled target domain, suffer from noisy signals originating from 1) incorrect or 2) open-set predictions. Long-term stable adaptation is hampered by such noisy signals, so training models without such error accumulation is crucial for practical TTA. To address these issues, including open-set TTA, we propose a simple yet effective sample selection method inspired by the following crucial empirical finding. While entropy minimization compels the model to increase the probability of its predicted label (i.e., confidence values), we found that noisy samples rather show decreased confidence values. To be more specific, entropy minimization attempts to raise the confidence values of an individual sample's prediction, but individual confidence values may rise or fall due to the influence of signals from numerous other predictions (i.e., wisdom of crowds). Due to this fact, noisy signals misaligned with such 'wisdom of crowds', generally found in the correct signals, fail to raise the individual confidence values of wrong samples, despite attempts to increase them. Based on such findings, we filter out the samples whose confidence values are lower in the adapted model than in the original model, as they are likely to be noisy. Our method is widely applicable to existing TTA methods and improves their long-term adaptation performance in both image classification (e.g., 49.4% reduced error rates with TENT) and semantic segmentation (e.g., 11.7% gain in mIoU with TENT).
翻訳日:2023-08-15 14:57:56 公開日:2023-08-14
# AutoSeqRec: 効率的なシーケンスレコメンデーションのためのオートエンコーダ

AutoSeqRec: Autoencoder for Efficient Sequential Recommendation ( http://arxiv.org/abs/2308.06878v1 )

ライセンス: Link先を確認
Sijia Liu, Jiahao Liu, Hansu Gu, Dongsheng Li, Tun Lu, Peng Zhang, Ning Gu(参考訳) 逐次的レコメンデーションは,ユーザの逐次動作をモデル化することによって,アイテムを推奨する能力を示す。 伝統的な手法は通常、ユーザーをアイテムのシーケンスとして扱い、それらの間の協調関係を見渡す。 グラフベースの手法は、ユーザ-イテム相互作用グラフを利用して協調情報を組み込む。 しかし、これらの手法は時間的複雑さと計算効率の点で困難に直面することがある。 これらの制約に対処するため,本稿では,逐次レコメンデーションタスクに特化したインクリメンタルレコメンデーションモデルであるAutoSeqRecを提案する。 autoseqrecはautoencoderをベースにしており、autoencoderアーキテクチャ内のエンコーダと3つのデコーダで構成されている。 これらのコンポーネントは、ユーザ-itemインタラクションマトリックスとアイテム遷移マトリックスの行と列の両方を考慮します。 ユーザ-イテム相互作用行列の再構成は、協調フィルタリングにより、ユーザの長期的嗜好をキャプチャする。 さらに、アイテム遷移マトリクスの行と列は、ユーザの短期的関心をモデル化できる、外向きおよび内向きのホッピング動作を表す。 インクリメンタルなレコメンデーションを行う場合、パラメータを更新せずに入力行列のみを更新する必要があるため、autoseqrecは非常に効率的である。 総合的な評価によると、AutoSeqRecは、その堅牢性と効率性を示しながら、既存の手法よりも精度が高い。

Sequential recommendation demonstrates the capability to recommend items by modeling the sequential behavior of users. Traditional methods typically treat users as sequences of items, overlooking the collaborative relationships among them. Graph-based methods incorporate collaborative information by utilizing the user-item interaction graph. However, these methods sometimes face challenges in terms of time complexity and computational efficiency. To address these limitations, this paper presents AutoSeqRec, an incremental recommendation model specifically designed for sequential recommendation tasks. AutoSeqRec is based on autoencoders and consists of an encoder and three decoders within the autoencoder architecture. These components consider both the user-item interaction matrix and the rows and columns of the item transition matrix. The reconstruction of the user-item interaction matrix captures user long-term preferences through collaborative filtering. In addition, the rows and columns of the item transition matrix represent the item out-degree and in-degree hopping behavior, which allows for modeling the user's short-term interests. When making incremental recommendations, only the input matrices need to be updated, without the need to update parameters, which makes AutoSeqRec very efficient. Comprehensive evaluations demonstrate that AutoSeqRec outperforms existing methods in terms of accuracy, while showcasing its robustness and efficiency.
翻訳日:2023-08-15 14:57:22 公開日:2023-08-14
# SpeechX: 音声変換器としてのニューラルコーデック言語モデル

SpeechX: Neural Codec Language Model as a Versatile Speech Transformer ( http://arxiv.org/abs/2308.06873v1 )

ライセンス: Link先を確認
Xiaofei Wang, Manthan Thakker, Zhuo Chen, Naoyuki Kanda, Sefik Emre Eskimez, Sanyuan Chen, Min Tang, Shujie Liu, Jinyu Li, Takuya Yoshioka(参考訳) 最近の音声テキストプロンプトに基づく生成音声モデルの進歩は、高品質なゼロショットテキスト対音声などの驚くべき革新を可能にした。 しかし、既存のモデルでは、入力音声の変換や、有害な音響条件下での音声の処理を含む多様な音声テキスト生成タスクの処理に制限が課されている。 本稿では,ゼロショットttsと様々な音声変換タスクが可能な汎用音声生成モデルである speechx について述べる。 SpeechXは、ニューラルコーデック言語モデリングとタスク依存プロンプトを用いたマルチタスク学習を組み合わせることで、統一的で拡張可能なモデリングを可能にし、音声強調および変換タスクにおけるテキスト入力を活用する一貫した方法を提供する。 実験結果は、ゼロショットTS、ノイズ抑制、ターゲット話者抽出、音声除去、バックグラウンドノイズの有無にかかわらず音声編集など、様々なタスクにおけるSpeechXの有効性を示し、タスク間の特化モデルと同等または優れたパフォーマンスを達成する。 デモサンプルはhttps://aka.ms/speechx.com/。

Recent advancements in generative speech models based on audio-text prompts have enabled remarkable innovations like high-quality zero-shot text-to-speech. However, existing models still face limitations in handling diverse audio-text speech generation tasks involving transforming input speech and processing audio captured in adverse acoustic conditions. This paper introduces SpeechX, a versatile speech generation model capable of zero-shot TTS and various speech transformation tasks, dealing with both clean and noisy signals. SpeechX combines neural codec language modeling with multi-task learning using task-dependent prompting, enabling unified and extensible modeling and providing a consistent way for leveraging textual input in speech enhancement and transformation tasks. Experimental results show SpeechX's efficacy in various tasks, including zero-shot TTS, noise suppression, target speaker extraction, speech removal, and speech editing with or without background noise, achieving comparable or superior performance to specialized models across tasks. See https://aka.ms/speechx for demo samples.
翻訳日:2023-08-15 14:56:59 公開日:2023-08-14
# 形状グラフマッチングネットワーク(SGM-net):統計的形状解析のための登録

Shape-Graph Matching Network (SGM-net): Registration for Statistical Shape Analysis ( http://arxiv.org/abs/2308.06869v1 )

ライセンス: Link先を確認
Shenyuan Liang, Mauricio Pamplona Segundo, Sathyanarayanan N. Aakur, Sudeep Sarkar, Anuj Srivastava(参考訳) 本稿では,任意の形状の曲線で連結されたノードの集合である形状グラフと呼ばれるデータオブジェクトの形状の統計的解析に着目する。 ここでの重要なニーズは、オブジェクト間のポイント(ノード、エッジ、エッジ)の制限された登録です。 これは順に、置換群に対する最適化を必要とし、(数、位置の点で)ノードと(形状、配置、サイズの観点から)エッジの違いによって困難になる。 本稿では,新しいニューラルネットワークアーキテクチャを用いてこの登録問題に対処し,曲線の弾性形状メトリックを用いた教師なし損失関数を提案する。 このアーキテクチャは(1)最先端のマッチング性能と(2)ベースラインアプローチに対する計算コストの桁違いの削減をもたらす。 シミュレーションデータと実世界の2次元および3次元形状グラフの両方を用いて,提案手法の有効性を示す。 コードとデータはレビュー後に公開され、研究が促進される。

This paper focuses on the statistical analysis of shapes of data objects called shape graphs, a set of nodes connected by articulated curves with arbitrary shapes. A critical need here is a constrained registration of points (nodes to nodes, edges to edges) across objects. This, in turn, requires optimization over the permutation group, made challenging by differences in nodes (in terms of numbers, locations) and edges (in terms of shapes, placements, and sizes) across objects. This paper tackles this registration problem using a novel neural-network architecture and involves an unsupervised loss function developed using the elastic shape metric for curves. This architecture results in (1) state-of-the-art matching performance and (2) an order of magnitude reduction in the computational cost relative to baseline approaches. We demonstrate the effectiveness of the proposed approach using both simulated data and real-world 2D and 3D shape graphs. Code and data will be made publicly available after review to foster research.
翻訳日:2023-08-15 14:56:36 公開日:2023-08-14
# カメラベースmm波ビーム予測:多候補実世界シナリオに向けて

Camera Based mmWave Beam Prediction: Towards Multi-Candidate Real-World Scenarios ( http://arxiv.org/abs/2308.06868v1 )

ライセンス: Link先を確認
Gouranga Charan, Muhammad Alrabeiah, Tawfik Osman, and Ahmed Alkhateeb(参考訳) ミリ波 (mmWave) とサブテラヘルツ (サブTHz) ビーム選択プロセスを支援するために感覚情報を活用することが注目されている。 このセンサーデータは、例えば基地局のカメラによって撮影され、ビームスイープのオーバーヘッドを大幅に削減し、高度に移動可能なアプリケーションを可能にする可能性がある。 しかし、これまで開発されたソリューションは、主に単一の候補ユーザによるシナリオである、視覚シーンにおける単一候補ユーザによるシナリオを考慮し、合成データセットを用いて評価されてきた。 そこで本稿では,実世界の多目的車対インフラ(v2i)シナリオにおけるセンシング支援ビーム予測問題について詳細に検討し,機械学習に基づく包括的フレームワークを提案する。 特に,従来のビームスイーピング手法の代替として,視覚的および位置的データを用いて最適なビーム指標を予測することを提案する。 このために,センシング支援マルチ候補およびマルチユーザビーム予測ソリューションを実現するための重要なステップとして,新たなユーザ識別ソリューション(トランスミッタ)が開発されている。 提案手法は,大規模実世界のDeepSense 6$Gデータセットを用いて評価する。 現実的なV2I通信シナリオにおける実験結果から,提案手法はシングルユーザの場合,100 %=トップ5ビーム予測精度,およびマルチ候補シナリオの場合,9,5 %=トップ5ビーム予測精度が得られた。 さらに,提案手法では,予測可能な送信候補を,シナリオ毎に9,3 %以上の精度で識別することができる。 これはmmwave/thz通信システムのビームトレーニングオーバーヘッドをほぼ排除するための有望なアプローチである。

Leveraging sensory information to aid the millimeter-wave (mmWave) and sub-terahertz (sub-THz) beam selection process is attracting increasing interest. This sensory data, captured for example by cameras at the basestations, has the potential of significantly reducing the beam sweeping overhead and enabling highly-mobile applications. The solutions developed so far, however, have mainly considered single-candidate scenarios, i.e., scenarios with a single candidate user in the visual scene, and were evaluated using synthetic datasets. To address these limitations, this paper extensively investigates the sensing-aided beam prediction problem in a real-world multi-object vehicle-to-infrastructure (V2I) scenario and presents a comprehensive machine learning-based framework. In particular, this paper proposes to utilize visual and positional data to predict the optimal beam indices as an alternative to the conventional beam sweeping approaches. For this, a novel user (transmitter) identification solution has been developed, a key step in realizing sensing-aided multi-candidate and multi-user beam prediction solutions. The proposed solutions are evaluated on the large-scale real-world DeepSense $6$G dataset. Experimental results in realistic V2I communication scenarios indicate that the proposed solutions achieve close to $100\%$ top-5 beam prediction accuracy for the scenarios with single-user and close to $95\%$ top-5 beam prediction accuracy for multi-candidate scenarios. Furthermore, the proposed approach can identify the probable transmitting candidate with more than $93\%$ accuracy across the different scenarios. This highlights a promising approach for nearly eliminating the beam training overhead in mmWave/THz communication systems.
翻訳日:2023-08-15 14:56:21 公開日:2023-08-14
# ミシガン・ロボティクスのカリキュラム : エクイティと卓越のためのロボティクスの分野を定義する

The Michigan Robotics Undergraduate Curriculum: Defining the Discipline of Robotics for Equity and Excellence ( http://arxiv.org/abs/2308.06905v1 )

ライセンス: Link先を確認
Odest Chadwicke Jenkins, Jessy Grizzle, Ella Atkins, Leia Stirling, Elliott Rouse, Mark Guzdial, Damen Provost, Kimberly Mann, and Joanna Millunchick(参考訳) ミシガン大学のロボティクス専攻は、2022-23年に、学生やコミュニティ、社会により良いサービスを提供するための革新的なステップとして、成功裏に立ち上げられた。 の原則と我々のより大きなロボティクス・パスウェイ・モデルに基づいて、ミシガン・ロボティクス・メジャーは、ロボティクスを真の学術分野として定義し、エクイティと卓越性を最優先事項としている。 才能が均等に分散されているが機会ではないことを理解するために、ミシガン・ロボティクス・メジャーは、様々な学生パスを通じてアクセス可能で、ロボット工学、AI、オートメーションの専門職に成功し持続的なキャリア参加を可能にする適応可能なカリキュラムを採用した。 100人以上の学生がロボティクスを専攻と宣言し、最初の2人の卒業生によるロボティクス専攻の完成、ロボティクスのクラスへの登録の急増、歴史的黒人大学や大学とのパートナーシップの活発化などです。 この文書は2022年4月にミシガン州立大学に提出され、2022年6月に承認されたミシガン大学のロボティクス学部プログラムについて、本誌が最初に提案したカリキュラムを紹介します。 プログラムデザインの普及は、高等教育の継続的な成長の精神であり、エクイティと卓越性を実現している。 このドキュメントの最新バージョンは、このリンクを通じてgoogle docsでも利用可能である。

The Robotics Major at the University of Michigan was successfully launched in the 2022-23 academic year as an innovative step forward to better serve students, our communities, and our society. Building on our guiding principle of "Robotics with Respect" and our larger Robotics Pathways model, the Michigan Robotics Major was designed to define robotics as a true academic discipline with both equity and excellence as our highest priorities. Understanding that talent is equally distributed but opportunity is not, the Michigan Robotics Major has embraced an adaptable curriculum that is accessible through a diversity of student pathways and enables successful and sustained career-long participation in robotics, AI, and automation professions. The results after our planning efforts (2019-22) and first academic year (2022-23) have been highly encouraging: more than 100 students declared Robotics as their major, completion of the Robotics major by our first two graduates, soaring enrollments in our Robotics classes, thriving partnerships with Historically Black Colleges and Universities. This document provides our original curricular proposal for the Robotics Undergraduate Program at the University of Michigan, submitted to the Michigan Association of State Universities in April 2022 and approved in June 2022. The dissemination of our program design is in the spirit of continued growth for higher education towards realizing equity and excellence. The most recent version of this document is also available on Google Docs through this link: https://ocj.me/robotics_major
翻訳日:2023-08-15 14:47:14 公開日:2023-08-14
# 効率的な視覚追跡のための軽量階層型視覚トランスの探索

Exploring Lightweight Hierarchical Vision Transformers for Efficient Visual Tracking ( http://arxiv.org/abs/2308.06904v1 )

ライセンス: Link先を確認
Ben Kang, Xin Chen, Dong Wang, Houwen Peng and Huchuan Lu(参考訳) トランスフォーマーベースのビジュアルトラッカーは、優れたモデリング能力のために大きな進歩を見せている。 しかし、既存のトラッカーは低速で妨げられ、計算能力に制限のあるデバイスに適用性を制限する。 この問題を軽減するため,我々は,高性能を維持しつつ,異なるデバイス上で高速に動作可能な,効率的なトラッキングモデルであるhitを提案する。 HiTの中心的なアイデアは、現代的な軽量トランスフォーマーとトラッキングフレームワークのギャップを埋めるBridge Moduleである。 ブリッジモジュールは、深い特徴の高レベル情報を浅い大解像度特徴に組み込む。 このようにして、トラッキングヘッドにより良い機能を生み出す。 また,検索領域とテンプレート画像の両方の位置情報を同時にエンコードする,新しい二重画像位置符号化手法を提案する。 HiTモデルは、競争性能で有望な速度を達成する。 例えば、Nvidia Jetson AGXエッジデバイス上で毎秒61フレーム(fps)で動作する。 さらに、HiTはLaSOTベンチマークで64.6%のAUCを獲得し、以前の効率的なトラッカーを全て上回っている。

Transformer-based visual trackers have demonstrated significant progress owing to their superior modeling capabilities. However, existing trackers are hampered by low speed, limiting their applicability on devices with limited computational power. To alleviate this problem, we propose HiT, a new family of efficient tracking models that can run at high speed on different devices while retaining high performance. The central idea of HiT is the Bridge Module, which bridges the gap between modern lightweight transformers and the tracking framework. The Bridge Module incorporates the high-level information of deep features into the shallow large-resolution features. In this way, it produces better features for the tracking head. We also propose a novel dual-image position encoding technique that simultaneously encodes the position information of both the search region and template images. The HiT model achieves promising speed with competitive performance. For instance, it runs at 61 frames per second (fps) on the Nvidia Jetson AGX edge device. Furthermore, HiT attains 64.6% AUC on the LaSOT benchmark, surpassing all previous efficient trackers.
翻訳日:2023-08-15 14:46:47 公開日:2023-08-14
# 教師なしテンソルネットワーク機械学習を用いた効率的な量子混合状態トモグラフィ

Efficient Quantum Mixed-State Tomography with Unsupervised Tensor Network Machine Learning ( http://arxiv.org/abs/2308.06900v1 )

ライセンス: Link先を確認
Wen-jun Li, Kai Xu, Heng Fan, Shi-ju Ran, and Gang Su(参考訳) 量子状態トモグラフィー(qst)は、計測とデータ後処理の指数関数的にスケールされた複雑さのために「次元の曲線」によって苦しめられている。 大規模混合状態に対する効率的なQSTスキームが現在欠落している。 本研究では,局所清浄状態ansatzに基づく効率的でロバストな混合状態トモグラフィスキームを提案する。 純度が異なる無作為な状態に対して,提案手法の効率性とロバスト性を示す。 高トモグラフィーの忠実度は、従来の最小二乗法(LS)法よりもはるかに少ない正演算値測定(POVM)ベースで達成される。 超伝導量子実験回路 [phys. rev. lett. 119, 180511 (2017)] では、グリーンバーガー・ホーン・サイレンジャー(ghz)状態を正確に再構成し、実験ノイズに対して頑健性を示す。 具体的には、$n_m = 500$ povm ベースで 10 量子ビット ghz 状態の fidelity $f \simeq 0.92$ を達成し、$n_m = 3^{10} = 59049$ ベースで ls 法で fidelity $f \simeq 0.85$ をはるかに上回っている。 本研究は,多体状態の効率的なQSTのためのテンソルネットワーク状態アンサッツと機械学習アプローチの適用の可能性を明らかにする。

Quantum state tomography (QST) is plagued by the ``curse of dimensionality'' due to the exponentially-scaled complexity in measurement and data post-processing. Efficient QST schemes for large-scale mixed states are currently missing. In this work, we propose an efficient and robust mixed-state tomography scheme based on the locally purified state ansatz. We demonstrate the efficiency and robustness of our scheme on various randomly initiated states with different purities. High tomography fidelity is achieved with much smaller numbers of positive-operator-valued measurement (POVM) bases than the conventional least-square (LS) method. On the superconducting quantum experimental circuit [Phys. Rev. Lett. 119, 180511 (2017)], our scheme accurately reconstructs the Greenberger-Horne-Zeilinger (GHZ) state and exhibits robustness to experimental noises. Specifically, we achieve the fidelity $F \simeq 0.92$ for the 10-qubit GHZ state with just $N_m = 500$ POVM bases, which far outperforms the fidelity $F \simeq 0.85$ by the LS method using the full $N_m = 3^{10} = 59049$ bases. Our work reveals the prospects of applying tensor network state ansatz and the machine learning approaches for efficient QST of many-body states.
翻訳日:2023-08-15 14:46:33 公開日:2023-08-14
# ゼロショット映像認識のための直交時間補間

Orthogonal Temporal Interpolation for Zero-Shot Video Recognition ( http://arxiv.org/abs/2308.06897v1 )

ライセンス: Link先を確認
Yan Zhu, Junbao Zhuo, Bin Ma, Jiajia Geng, Xiaoming Wei, Xiaolin Wei, Shuhui Wang(参考訳) ゼロショットビデオ認識(zero-shot video recognition, zsvr)は、モデルトレーニングプロセス中に見られなかったビデオカテゴリを認識することを目的としたタスクである。 近年,大規模な画像テキストペア上で事前学習された視覚言語モデル (VLM) は,ZSVRの優れた転送性を示している。 VLMをビデオ領域に適用するために、既存の手法では、画像レベルエンコーダの後に追加の時間学習モジュールを使用して、ビデオフレーム間の時間的関係を学習することが多い。 残念なことに,未発見のカテゴリのビデオでは,空間的-時間的特徴を用いたモデルが,時間的学習モジュールを除去し,空間的特徴のみを使用するモデルよりもはるかに悪くなる異常現象を観察する。 ビデオ上の不適切な時間的モデリングがビデオの空間的特徴を損なうと推測する。 本仮説を検証するために,ビデオの直交時間的特徴を保持するための特徴因子化を提案し,補間を用いて空間的時間的特徴を洗練させる。 また,zsvrタスクにおける直交時間的特徴の有効性を検証するため,空間的特徴のみを用いたモデルよりも精度の高い空間-時間的特徴を用いたモデルを構築した。 したがって、トレーニング中により洗練された空間時空間映像特徴を学ぶために直交時間補間モジュールが設計されている。 また、直交時間特徴の品質を向上させるためにマッチング損失が導入される。 本稿では,直交時間補間とvlmに基づくマッチング損失を用いたzsvr用otiモデルを提案する。 一般的なビデオデータセット(Kinetics-600, UCF101, HMDB51)におけるZSVRの精度は、OTIが従来の最先端手法よりも明確なマージンで優れていることを示している。

Zero-shot video recognition (ZSVR) is a task that aims to recognize video categories that have not been seen during the model training process. Recently, vision-language models (VLMs) pre-trained on large-scale image-text pairs have demonstrated impressive transferability for ZSVR. To make VLMs applicable to the video domain, existing methods often use an additional temporal learning module after the image-level encoder to learn the temporal relationships among video frames. Unfortunately, for video from unseen categories, we observe an abnormal phenomenon where the model that uses spatial-temporal feature performs much worse than the model that removes temporal learning module and uses only spatial feature. We conjecture that improper temporal modeling on video disrupts the spatial feature of the video. To verify our hypothesis, we propose Feature Factorization to retain the orthogonal temporal feature of the video and use interpolation to construct refined spatial-temporal feature. The model using appropriately refined spatial-temporal feature performs better than the one using only spatial feature, which verifies the effectiveness of the orthogonal temporal feature for the ZSVR task. Therefore, an Orthogonal Temporal Interpolation module is designed to learn a better refined spatial-temporal video feature during training. Additionally, a Matching Loss is introduced to improve the quality of the orthogonal temporal feature. We propose a model called OTI for ZSVR by employing orthogonal temporal interpolation and the matching loss based on VLMs. The ZSVR accuracies on popular video datasets (i.e., Kinetics-600, UCF101 and HMDB51) show that OTI outperforms the previous state-of-the-art method by a clear margin.
翻訳日:2023-08-15 14:46:07 公開日:2023-08-14
# 凸ハルの安全な集合による双曲空間のフェデレーション分類

Federated Classification in Hyperbolic Spaces via Secure Aggregation of Convex Hulls ( http://arxiv.org/abs/2308.06895v1 )

ライセンス: Link先を確認
Saurav Prakash, Jin Sima, Chao Pan, Eli Chien, Olgica Milenkovic(参考訳) 階層的および木のようなデータセットは、言語処理、グラフデータマイニング、系統学、ゲノム学など、多くの応用に現れる。 木のようなデータは、小さな歪みを持つ有限次元のユークリッド空間に埋め込むことはできないことが知られている。 この問題は双曲空間を用いて緩和することができる。 このようなデータを分散および民営化された設定で処理する必要がある場合、双曲空間に合わせた新しい連合学習法に取り組む必要がある。 双曲空間における連邦学習の分野の発展に向けた最初のステップとして、双曲空間における連邦分類への最初の既知のアプローチを提案する。 私たちの貢献は以下の通りです。 まず,Poincar\'eディスク用の凸SVM分類器の分散バージョンを開発する。 この設定では、クライアントからグローバル分類器に伝達される情報は、個々のクライアントデータに存在するクラスタの凸包である。 次に,ラベルスイッチング問題を回避するために,いわゆる整数$b_h$シーケンスに基づくラベルリカバリのための数論的手法を導入する。 第3に,双曲空間における凸包の複雑さを計算し,データの漏洩の程度を評価するとともに,包の通信コストを最小化するために,リードソロモン様符号化と組み合わされたpoincar\'eディスクの新しい量子化法を提案する。 第4に、サーバレベルでは、バランスのとれたグラフ分割に基づいてクライアントの凸包を集約する新しいアプローチを導入する。 本手法は,プライバシの制約が厳しい異なるリポジトリに分散した異なる患者からの階層型単細胞rna-seqデータを含む,多様なデータセットの集合上でテストを行う。 本手法の分類精度はeuclideanよりも最大$\sim 11\%向上し,双曲空間におけるプライバシ保存学習の重要性を実証した。

Hierarchical and tree-like data sets arise in many applications, including language processing, graph data mining, phylogeny and genomics. It is known that tree-like data cannot be embedded into Euclidean spaces of finite dimension with small distortion. This problem can be mitigated through the use of hyperbolic spaces. When such data also has to be processed in a distributed and privatized setting, it becomes necessary to work with new federated learning methods tailored to hyperbolic spaces. As an initial step towards the development of the field of federated learning in hyperbolic spaces, we propose the first known approach to federated classification in hyperbolic spaces. Our contributions are as follows. First, we develop distributed versions of convex SVM classifiers for Poincar\'e discs. In this setting, the information conveyed from clients to the global classifier are convex hulls of clusters present in individual client data. Second, to avoid label switching issues, we introduce a number-theoretic approach for label recovery based on the so-called integer $B_h$ sequences. Third, we compute the complexity of the convex hulls in hyperbolic spaces to assess the extent of data leakage; at the same time, in order to limit the communication cost for the hulls, we propose a new quantization method for the Poincar\'e disc coupled with Reed-Solomon-like encoding. Fourth, at server level, we introduce a new approach for aggregating convex hulls of the clients based on balanced graph partitioning. We test our method on a collection of diverse data sets, including hierarchical single-cell RNA-seq data from different patients distributed across different repositories that have stringent privacy constraints. The classification accuracy of our method is up to $\sim 11\%$ better than its Euclidean counterpart, demonstrating the importance of privacy-preserving learning in hyperbolic spaces.
翻訳日:2023-08-15 14:45:36 公開日:2023-08-14
# 量子熱力学:内部の展望

Quantum Thermodynamics: Inside-Outside Perspective ( http://arxiv.org/abs/2308.06893v1 )

ライセンス: Link先を確認
Jiayang Zhou, Anqi Li, and Michael Galperin(参考訳) 浴槽に強く結合した開放系に対するエネルギー分解型量子熱力学の変種を導入する。 この手法はLandauer-Buttiker内外二元性法(Phys. Rev. 120, 107701 (2018))を任意の外部駆動を受ける相互作用系に一般化する。 これは基礎となる動的量子輸送の記述と一致しており、他の唯一の一貫したアプローチの限界を克服することができる(New J. Phys. 12, 013013 (2010)]。 汎用接合モデルの数値シミュレーションによる一般化内面法の実現可能性について述べる。

We introduce an energy-resolved variant of quantum thermodynamics for open systems strongly coupled to their baths. The approach generalizes the Landauer-Buttiker inside-outside duality method [Phys. Rev. Lett. 120, 107701 (2018)] to interacting systems subjected to arbitrary external driving. It is consistent with the underlying dynamical quantum transport description and is capable of overcoming limitations of the only other consistent approach [New J. Phys. 12, 013013 (2010)]. We illustrate viability of the generalized inside-outside method with numerical simulations for generic junction models.
翻訳日:2023-08-15 14:45:04 公開日:2023-08-14
# 医用画像分類におけるロバストネスストレステスト

Robustness Stress Testing in Medical Image Classification ( http://arxiv.org/abs/2308.06889v1 )

ライセンス: Link先を確認
Mobarakol Islam and Zeju Li and Ben Glocker(参考訳) ディープニューラルネットワークは、画像に基づく疾患検出で素晴らしいパフォーマンスを示している。 臨床的に許容できる精度を示すために、独立したテストセットに対する臨床検証を通じて、パフォーマンスを一般的に評価する。 しかし、テストセットで優れたパフォーマンスメトリクスを報告することは、アルゴリズムの一般化可能性と堅牢性を示すのに十分ではない。 特に、試験データがトレーニングデータと同じ分布から引き出される場合、iidテストセットの性能は、新規データにおける精度の信頼性の低下を推定することができる。 本稿では,疾患検出モデルにおけるモデルロバスト性とサブグループ性能の差を評価するためにストレステストを行う。 我々は6つの重度レベルを持つ5つの異なる双方向および一方向の画像摂動を用いた進行応力試験を設計する。 症例として,胸部X線画像と皮膚病変画像に対する疾患検出モデルの堅牢性の測定にストレステストを適用し,クラスおよびドメイン固有のモデル行動を研究することの重要性を示す。 我々の実験は、いくつかのモデルが他のモデルよりもより堅牢で公平な性能が得られることを示唆している。 また、下流のロバストネスにおいて、事前学習特性が重要な役割を担っていることも判明した。 プログレッシブストレステストは有用かつ重要なツールであり、画像に基づく疾患検出モデルの臨床的検証の標準となるべきであると結論づけた。

Deep neural networks have shown impressive performance for image-based disease detection. Performance is commonly evaluated through clinical validation on independent test sets to demonstrate clinically acceptable accuracy. Reporting good performance metrics on test sets, however, is not always a sufficient indication of the generalizability and robustness of an algorithm. In particular, when the test data is drawn from the same distribution as the training data, the iid test set performance can be an unreliable estimate of the accuracy on new data. In this paper, we employ stress testing to assess model robustness and subgroup performance disparities in disease detection models. We design progressive stress testing using five different bidirectional and unidirectional image perturbations with six different severity levels. As a use case, we apply stress tests to measure the robustness of disease detection models for chest X-ray and skin lesion images, and demonstrate the importance of studying class and domain-specific model behaviour. Our experiments indicate that some models may yield more robust and equitable performance than others. We also find that pretraining characteristics play an important role in downstream robustness. We conclude that progressive stress testing is a viable and important tool and should become standard practice in the clinical validation of image-based disease detection models.
翻訳日:2023-08-15 14:44:53 公開日:2023-08-14
# 盗聴されたANNが人間のカテゴリー認識のワームホールを発見

Robustified ANNs Reveal Wormholes Between Human Category Percepts ( http://arxiv.org/abs/2308.06887v1 )

ライセンス: Link先を確認
Guy Gaziv, Michael J. Lee, James J. DiCarlo(参考訳) 人工ニューラルネットワーク(ANN)の視覚オブジェクトカテゴリレポートは、小さな対向的な画像摂動に対して非常に敏感である。 人間のカテゴリー報告(いわゆる人間の知覚)は、同じ小さな北の摂動に無神経であり、局所的に安定しているため、ANNは人間の視覚知覚の不完全な科学的モデルであると主張する。 これとは対照的に、標準のANNモデルによって小さなノーム画像摂動が生成される場合、人間の対象のカテゴリパーセプションは非常に安定であることを示す。 しかし、この全く同じ「人間が想定する安定な」体制では、ANNは人間の知覚を強く妨害する低ノルム画像の摂動を確実に発見する。 これらの検出不能な人間の知覚障害は振幅が大きく、ANNで見られるのと同じレベルの感度に近づいている。 さらに, 頑健化ANNが正確な知覚状態の介入を支援することを示し, 人間のカテゴリ知覚を特定の知覚に強く変化させる低ノルム画像摂動の構築を導く。 これらの観測から、画像空間の任意の開始点に対して、近傍の「ワームホール」の集合が存在し、それぞれが現在のカテゴリ知覚状態から意味的に全く異なる状態へと主題を導くことが示唆される。 さらに、現代の生物学的視覚処理のANNモデルは、常にそれらのポータルに導くのに十分正確である。

The visual object category reports of artificial neural networks (ANNs) are notoriously sensitive to tiny, adversarial image perturbations. Because human category reports (aka human percepts) are thought to be insensitive to those same small-norm perturbations -- and locally stable in general -- this argues that ANNs are incomplete scientific models of human visual perception. Consistent with this, we show that when small-norm image perturbations are generated by standard ANN models, human object category percepts are indeed highly stable. However, in this very same "human-presumed-stable" regime, we find that robustified ANNs reliably discover low-norm image perturbations that strongly disrupt human percepts. These previously undetectable human perceptual disruptions are massive in amplitude, approaching the same level of sensitivity seen in robustified ANNs. Further, we show that robustified ANNs support precise perceptual state interventions: they guide the construction of low-norm image perturbations that strongly alter human category percepts toward specific prescribed percepts. These observations suggest that for arbitrary starting points in image space, there exists a set of nearby "wormholes", each leading the subject from their current category perceptual state into a semantically very different state. Moreover, contemporary ANN models of biological visual processing are now accurate enough to consistently guide us to those portals.
翻訳日:2023-08-15 14:44:31 公開日:2023-08-14
# リコメンデーションのための時間依存型人気バイアスフリーオフラインメトリックによるオフラインのブリッジング評価

Bridging Offline-Online Evaluation with a Time-dependent and Popularity Bias-free Offline Metric for Recommenders ( http://arxiv.org/abs/2308.06885v1 )

ライセンス: Link先を確認
Petr Kasalick\'y, Rodrigo Alves, Pavel Kord\'ik(参考訳) 推薦システムの評価は複雑な作業である。 レコメンダシステムのオフラインおよびオンライン評価指標は、真の目的において曖昧である。 最近発表された論文の大多数は、オンラインのパフォーマンスの予測に失敗する頻度の高いオフライン評価手法を用いて、彼らの手法をベンチマークしている。 このため、学術研究が産業に与える影響は減少している。 本研究の目的は,オフライン評価指標のオンラインパフォーマンスを調査し,比較することである。 我々は,人気商品をペナルティ化し,評価中の取引時間を考慮することで,ライブレコメンデーションシステムに最適なレコメンデーションモデルを選択する能力を大幅に向上させることを示す。 提案手法は,レコメンデータから取得した5大実世界のライブデータの平均値であり,レコメンデータシステムの実際の応用に最も適したオフライン評価と最適化基準の理解を支援することを目的としている。

The evaluation of recommendation systems is a complex task. The offline and online evaluation metrics for recommender systems are ambiguous in their true objectives. The majority of recently published papers benchmark their methods using ill-posed offline evaluation methodology that often fails to predict true online performance. Because of this, the impact that academic research has on the industry is reduced. The aim of our research is to investigate and compare the online performance of offline evaluation metrics. We show that penalizing popular items and considering the time of transactions during the evaluation significantly improves our ability to choose the best recommendation model for a live recommender system. Our results, averaged over five large-size real-world live data procured from recommenders, aim to help the academic community to understand better offline evaluation and optimization criteria that are more relevant for real applications of recommender systems.
翻訳日:2023-08-15 14:44:06 公開日:2023-08-14
# マルチタスクディープラーニングによるマルチレシーバタスク指向通信

Multi-Receiver Task-Oriented Communications via Multi-Task Deep Learning ( http://arxiv.org/abs/2308.06884v1 )

ライセンス: Link先を確認
Yalin E. Sagduyu, Tugba Erpek, Aylin Yener, Sennur Ulukus(参考訳) 本稿では,送信機が複数の受信機と通信する場面において,送信機で利用可能な画像などのデータセット上で,それぞれが完了するためのタスクを持つタスク指向通信について検討する。 複数のタスクを完了し、複数の受信機と通信する共同最適化のために、送信機で共通エンコーダと受信機で個別デコーダを訓練するマルチタスク深層学習手法を提案する。 提案手法は,6Gネットワークのエッジに効率的なリソース割り当てを提供することにより,通信システムに対して,異なるチャネル条件に適応し,送信オーバーヘッドを最小限に抑えながらタスク固有の目的を達成する。 マルチタスク学習を用いたエンコーダとデコーダの共同トレーニングでは,タスク間の共有情報をキャプチャし,通信プロセスの最適化を行う。 無線通信の放送特性を活用することで、マルチレシーバタスク指向通信(MTOC)は、異なる受信機でのタスク完了に必要な送信数を削減できる。 MNIST, Fashion MNIST, CIFAR-10データセットを用いて行った性能評価は, 単一タスク指向通信システムと比較して, 分類精度および資源利用率の観点からMTOCの有効性を示す。

This paper studies task-oriented, otherwise known as goal-oriented, communications, in a setting where a transmitter communicates with multiple receivers, each with its own task to complete on a dataset, e.g., images, available at the transmitter. A multi-task deep learning approach that involves training a common encoder at the transmitter and individual decoders at the receivers is presented for joint optimization of completing multiple tasks and communicating with multiple receivers. By providing efficient resource allocation at the edge of 6G networks, the proposed approach allows the communications system to adapt to varying channel conditions and achieves task-specific objectives while minimizing transmission overhead. Joint training of the encoder and decoders using multi-task learning captures shared information across tasks and optimizes the communication process accordingly. By leveraging the broadcast nature of wireless communications, multi-receiver task-oriented communications (MTOC) reduces the number of transmissions required to complete tasks at different receivers. Performance evaluation conducted on the MNIST, Fashion MNIST, and CIFAR-10 datasets (with image classification considered for different tasks) demonstrates the effectiveness of MTOC in terms of classification accuracy and resource utilization compared to single-task-oriented communication systems.
翻訳日:2023-08-15 14:43:49 公開日:2023-08-14
# OpenGCD: 一般化カテゴリー発見によるオープンワールド認識を支援する

OpenGCD: Assisting Open World Recognition with Generalized Category Discovery ( http://arxiv.org/abs/2308.06926v1 )

ライセンス: Link先を確認
Fulin Gao, Weimin Zhong, Zhixing Cao, Xin Peng, Zhi Li(参考訳) 望ましいオープンワールド認識(OWR)システムは、(1)オープンセット認識(OSR)、すなわち、既知のクラス(トレーニング中に見られるクラス)を分類し、未知クラス(未確認クラス)をオンラインに拒否すること、(2)これらの未知クラスを新しい既知のクラスとしてグループ化・ラベルすること、(3)インクリメンタルラーニング(IL)、すなわち、これらの新しいクラスを継続的に学習し、古いクラスの記憶を保持すること、の3つのタスクを実行する必要がある。 理想的には、これらのステップはすべて自動化されるべきです。 しかし、既存のメソッドでは、第2のタスクは手動で完全に実行されると想定されている。 このギャップを埋めるために、上記の問題を解決するために3つの重要なアイデアを組み合わせたOpenGCDを提案する。 (a) 分類器の予測の不確実性に基づいて,事例(未知又は具体的に知られている)の原点を得点する b) ラベルなしデータのグループ化を支援するために,初めて一般カテゴリディスカバリ(gcd)技術をowrに導入する。 (c) IL と GCD の円滑な実行には,多様性を目標とする各クラスに対して,同じ数の情報的例を保有する。 さらに,高調波クラスタリング精度と呼ばれるGCDの性能評価指標を提案する。 2つの標準分類ベンチマークと挑戦的なデータセットの実験は、OpenGCDが優れた互換性を提供するだけでなく、他のベースラインを大幅に上回っていることを示している。 コード:https://github.com/Fulin-Gao/OpenGCD。

A desirable open world recognition (OWR) system requires performing three tasks: (1) Open set recognition (OSR), i.e., classifying the known (classes seen during training) and rejecting the unknown (unseen$/$novel classes) online; (2) Grouping and labeling these unknown as novel known classes; (3) Incremental learning (IL), i.e., continual learning these novel classes and retaining the memory of old classes. Ideally, all of these steps should be automated. However, existing methods mostly assume that the second task is completely done manually. To bridge this gap, we propose OpenGCD that combines three key ideas to solve the above problems sequentially: (a) We score the origin of instances (unknown or specifically known) based on the uncertainty of the classifier's prediction; (b) For the first time, we introduce generalized category discovery (GCD) techniques in OWR to assist humans in grouping unlabeled data; (c) For the smooth execution of IL and GCD, we retain an equal number of informative exemplars for each class with diversity as the goal. Moreover, we present a new performance evaluation metric for GCD called harmonic clustering accuracy. Experiments on two standard classification benchmarks and a challenging dataset demonstrate that OpenGCD not only offers excellent compatibility but also substantially outperforms other baselines. Code: https://github.com/Fulin-Gao/OpenGCD.
翻訳日:2023-08-15 14:39:12 公開日:2023-08-14
# CBA:連続バイアスアダプタによるオンライン継続的学習の改善

CBA: Improving Online Continual Learning via Continual Bias Adaptor ( http://arxiv.org/abs/2308.06925v1 )

ライセンス: Link先を確認
Quanziang Wang, Renzhen Wang, Yichen Wu, Xixi Jia, Deyu Meng(参考訳) online continual learning(cl)は、新しい知識を学び、非定常データストリームから学習済みの知識を統合することを目的としている。 時間的に異なるトレーニング設定のため、変化分布から学習したモデルは、新しく受け取ったタスクに対する学習した知識やバイアスを忘れやすい。 そこで,本研究では,分類器ネットワークが事前学習したタスクの安定した統合を学習できるように,学習中の破滅的な分布変化に対応するために,分類器ネットワークを強化するための連続バイアス適応器(cba)モジュールを提案する。 テスト段階では、cbaは削除できるため、追加の計算コストとメモリオーバーヘッドは発生しない。 提案手法が破滅的分布シフトを効果的に緩和できる理由を理論的に明らかにし,その効果を4つのリハーサルベースラインと3つの公開連続学習ベンチマークに基づいて実験的に実証した。

Online continual learning (CL) aims to learn new knowledge and consolidate previously learned knowledge from non-stationary data streams. Due to the time-varying training setting, the model learned from a changing distribution easily forgets the previously learned knowledge and biases toward the newly received task. To address this problem, we propose a Continual Bias Adaptor (CBA) module to augment the classifier network to adapt to catastrophic distribution change during training, such that the classifier network is able to learn a stable consolidation of previously learned tasks. In the testing stage, CBA can be removed which introduces no additional computation cost and memory overhead. We theoretically reveal the reason why the proposed method can effectively alleviate catastrophic distribution shifts, and empirically demonstrate its effectiveness through extensive experiments based on four rehearsal-based baselines and three public continual learning benchmarks.
翻訳日:2023-08-15 14:38:44 公開日:2023-08-14
# FedEdge AI-TC: モバイルエッジコンピューティングのための信頼された深層学習に基づく半教師付きトラフィック分類手法

FedEdge AI-TC: A Semi-supervised Traffic Classification Method based on Trusted Federated Deep Learning for Mobile Edge Computing ( http://arxiv.org/abs/2308.06924v1 )

ライセンス: Link先を確認
Pan Wang, Zeyi Li, Mengyi Fu, Zixuan Wang, Ze Zhang, MinYao Liu(参考訳) MEC(Mobile Edge Computing)の典型的なエンティティとして、5G CPE(Customer Premise Equipment)/HGU(Home Gateway Unit)は、従来のSmart Home Gatewayに代わる有望な選択肢であることが証明されている。 ネットワークtc(traffic classification)は,5g cpe/hguにおいて重要な機能的実体となっている通信ネットワークのサービス品質保証およびセキュリティ管理手法である。 近年、多くの研究者が機械学習やディープラーニング(DL)をTC、すなわちAI-TCに応用してパフォーマンスを改善している。 しかし、AI-TCは、データ依存、リソース集約的なトラフィックラベリング、ユーザのプライバシに関する懸念など、課題に直面している。 5G CPEの限られた計算資源はさらに効率的な分類を複雑にする。 さらに、AI-TCモデルの"ブラックボックス"の性質は、透明性と信頼性の問題を引き起こす。 本稿では,FedEdge AI-TCフレームワークを提案し,Federated Learning(FL)を5G CPEの信頼性ネットワークTCに活用する。 flは、ローカルトレーニング、モデルパラメータイテレーション、集中型トレーニングを使用することで、プライバシを保証する。 変分オートエンコーダ(VAE)と畳み込みニューラルネットワーク(CNN)に基づく半教師付きTCアルゴリズムは、精度を維持しながらデータの依存性を低減する。 モデル軽量配置を最適化するために, DLモデル解釈可能性と組み合わせたAIモデル圧縮手法であるXAI-Pruningを導入する。 実験により、FedEdge AI-TCはベンチマークよりも精度と効率的なTC性能で優れていることが示された。 このフレームワークはユーザのプライバシとモデルの信頼性を高め、5G CPEにおける信頼性と透過性を備えたNetwork TCの包括的なソリューションを提供する。

As a typical entity of MEC (Mobile Edge Computing), 5G CPE (Customer Premise Equipment)/HGU (Home Gateway Unit) has proven to be a promising alternative to traditional Smart Home Gateway. Network TC (Traffic Classification) is a vital service quality assurance and security management method for communication networks, which has become a crucial functional entity in 5G CPE/HGU. In recent years, many researchers have applied Machine Learning or Deep Learning (DL) to TC, namely AI-TC, to improve its performance. However, AI-TC faces challenges, including data dependency, resource-intensive traffic labeling, and user privacy concerns. The limited computing resources of 5G CPE further complicate efficient classification. Moreover, the "black box" nature of AI-TC models raises transparency and credibility issues. The paper proposes the FedEdge AI-TC framework, leveraging Federated Learning (FL) for reliable Network TC in 5G CPE. FL ensures privacy by employing local training, model parameter iteration, and centralized training. A semi-supervised TC algorithm based on Variational Auto-Encoder (VAE) and convolutional neural network (CNN) reduces data dependency while maintaining accuracy. To optimize model light-weight deployment, the paper introduces XAI-Pruning, an AI model compression method combined with DL model interpretability. Experimental evaluation demonstrates FedEdge AI-TC's superiority over benchmarks in terms of accuracy and efficient TC performance. The framework enhances user privacy and model credibility, offering a comprehensive solution for dependable and transparent Network TC in 5G CPE, thus enhancing service quality and security.
翻訳日:2023-08-15 14:38:23 公開日:2023-08-14
# 高品質計画のためのhtnに基づく確率的コンティンジェント計画

Probabilistic contingent planning based on HTN for high-quality plans ( http://arxiv.org/abs/2308.06922v1 )

ライセンス: Link先を確認
Peng Zhao(参考訳) 決定論的計画(Deterministic planning)は、計画が完全に予測可能な経路に沿って進化し、ほとんどの実射影において実用的価値を失うと仮定する。 より現実的な見方は、計画が部分的に観測可能であることを事前に考慮し、より柔軟で堅牢なソリューションを目指すべきだということです。 さらに重要なことは、部分的に観測可能な環境でプランの品質が劇的に変化することは避けられないことである。 本稿では,HTN(High-Quality Contingent Planner)と呼ばれる確率的階層型タスクネットワーク(HTN)プランナを提案する。 HTN計画の形式は部分的な可観測性に拡張され、コストについて評価される。 次に,高品質計画のための新しいヒューリスティックを探索し,統合計画アルゴリズムを開発した。 最後に,確率的継続計画と高品質計画の立案におけるプランナーの有効性と効率性を検証する実証的研究を行った。

Deterministic planning assumes that the planning evolves along a fully predictable path, and therefore it loses the practical value in most real projections. A more realistic view is that planning ought to take into consideration partial observability beforehand and aim for a more flexible and robust solution. What is more significant, it is inevitable that the quality of plan varies dramatically in the partially observable environment. In this paper we propose a probabilistic contingent Hierarchical Task Network (HTN) planner, named High-Quality Contingent Planner (HQCP), to generate high-quality plans in the partially observable environment. The formalisms in HTN planning are extended into partial observability and are evaluated regarding the cost. Next, we explore a novel heuristic for high-quality plans and develop the integrated planning algorithm. Finally, an empirical study verifies the effectiveness and efficiency of the planner both in probabilistic contingent planning and for obtaining high-quality plans.
翻訳日:2023-08-15 14:37:37 公開日:2023-08-14
# CodeHelp: 大規模言語モデルとガードレールを使ってプログラミングクラスをスケーラブルにサポート

CodeHelp: Using Large Language Models with Guardrails for Scalable Support in Programming Classes ( http://arxiv.org/abs/2308.06921v1 )

ライセンス: Link先を確認
Mark Liffiton, Brad Sheese, Jaromir Savelka, Paul Denny(参考訳) コンピュータ教育者は、特に大きなクラスの環境において、学生にタイムリーなサポートを提供する上で大きな課題に直面している。 大規模言語モデル(LLM)が最近登場し、大規模にオンデマンドヘルプを提供するという大きな期待を示しているが、学生がこれらのモデルが生み出すアウトプットに過度に頼っているのではないかという懸念がある。 本稿では,保護レールを用いた新しいLLMツールであるCodeHelpについて紹介する。 インストラクターに有用な機能を多数備えたツールの設計について詳述し、生成したアウトプットが学生に相応しいことを確実にするために使用する戦略のパイプラインについて詳述する。 CodeHelpを評価するために,52名の学生による1年間のコンピュータとデータサイエンスコースに導入し,12週間にわたって学生のインタラクションを収集した。 学生のツール使用パターンと認識について検討し,授業指導要領からのリフレクションと教室利用に関する一連の勧告を報告する。 以上の結果から,codehelpは,その可用性を特に重視し,エラー解決を支援する学生に好意的に評価されていること,インストラクタにとって,学生に提供されるサポートを置き換えるよりも,容易にデプロイし補完できることが示唆された。

Computing educators face significant challenges in providing timely support to students, especially in large class settings. Large language models (LLMs) have emerged recently and show great promise for providing on-demand help at a large scale, but there are concerns that students may over-rely on the outputs produced by these models. In this paper, we introduce CodeHelp, a novel LLM-powered tool designed with guardrails to provide on-demand assistance to programming students without directly revealing solutions. We detail the design of the tool, which incorporates a number of useful features for instructors, and elaborate on the pipeline of prompting strategies we use to ensure generated outputs are suitable for students. To evaluate CodeHelp, we deployed it in a first-year computer and data science course with 52 students and collected student interactions over a 12-week period. We examine students' usage patterns and perceptions of the tool, and we report reflections from the course instructor and a series of recommendations for classroom use. Our findings suggest that CodeHelp is well-received by students who especially value its availability and help with resolving errors, and that for instructors it is easy to deploy and complements, rather than replaces, the support that they provide to students.
翻訳日:2023-08-15 14:37:02 公開日:2023-08-14
# 薬物発見におけるチャットボット : ChatGPTを用いた抗コカイン添加薬開発を事例として

Chatbots in Drug Discovery: A Case Study on Anti-Cocaine Addiction Drug Development with ChatGPT ( http://arxiv.org/abs/2308.06920v1 )

ライセンス: Link先を確認
Rui Wang, Hongsong Feng, Guo-Wei Wei(参考訳) OpenAIが開発した最先端の言語モデルチャットボットChatGPTの誕生は、AIの新しい時代の幕開けとなった。 抗コカイン中毒薬の開発に特化して研究は、GPT-4を仮想ガイドとして採用し、薬物候補の生成モデルに取り組んでいる研究者に戦略的および方法論的な洞察を提供する。 主な目的は、望ましい性質を持つ最適な薬物様分子を作ることである。 ChatGPTの能力を活用することで、この研究は薬物発見プロセスに新しいアプローチを導入する。 このaiと研究者の共生パートナーシップは、薬物開発へのアプローチを変える。 チャットボットはファシリテーターとなり、研究者を革新的方法論や効果的な薬物候補を作るための生産的な道へと導いた。 この研究は、人間の専門知識とAI支援の協調的な相乗効果に光を当て、ChatGPTの認知能力は、潜在的な医薬品ソリューションの設計と開発を促進する。 本稿では、薬物発見における高度なAIの統合を探求するだけでなく、治療革新に革命をもたらすために、AIを動力とするチャットボットをトレイルブラザーとして推奨することで、景観を再構築する。

The birth of ChatGPT, a cutting-edge language model chatbot developed by OpenAI, ushered in a new era in AI, and this paper vividly showcases its innovative application within the field of drug discovery. Focused specifically on developing anti-cocaine addiction drugs, the study employs GPT-4 as a virtual guide, offering strategic and methodological insights to researchers working on generative models for drug candidates. The primary objective is to generate optimal drug-like molecules with desired properties. By leveraging the capabilities of ChatGPT, the study introduces a novel approach to the drug discovery process. This symbiotic partnership between AI and researchers transforms how drug development is approached. Chatbots become facilitators, steering researchers towards innovative methodologies and productive paths for creating effective drug candidates. This research sheds light on the collaborative synergy between human expertise and AI assistance, wherein ChatGPT's cognitive abilities enhance the design and development of potential pharmaceutical solutions. This paper not only explores the integration of advanced AI in drug discovery but also reimagines the landscape by advocating for AI-powered chatbots as trailblazers in revolutionizing therapeutic innovation.
翻訳日:2023-08-15 14:36:26 公開日:2023-08-14
# CausalLMは文脈内学習に最適ではない

CausalLM is not optimal for in-context learning ( http://arxiv.org/abs/2308.06912v1 )

ライセンス: Link先を確認
Nan Ding, Tomer Levinboim, Jialin Wu, Sebastian Goodman, Radu Soricut(参考訳) 最近の実証的証拠は、インコンテキストサンプルが互いに参加できるプレフィックス言語モデル(prefixlm)を使用する場合、トランスフォーマティブベースのインコンテキスト学習が、インコンテキストサンプルが将来のサンプルに出席することを禁止する自己回帰的注意を使用する因果言語モデル(causallm)よりも優れていることを示している。 この結果は直感的であるが、理論的には理解されていない。 本稿では,あるパラメータ構成の下で,プレフィックスLMと因果LMの収束挙動を理論的に解析する。 解析の結果、両方のLM型は線形速度で定常点に収束するが、プレフィックスLMは線形回帰の最適解に収束するが、因果LM収束ダイナミクスはオンライン勾配降下アルゴリズムに従う。 我々は, 合成および実タスクおよび各種変圧器を用いた実証実験により, 理論的主張を補足する。 実験では,すべての設定において,因果LMがプレフィックスLMを一貫して過小評価することを確認した。

Recent empirical evidence indicates that transformer based in-context learning performs better when using a prefix language model (prefixLM), in which in-context samples can all attend to each other, compared to causal language models (causalLM), which use auto-regressive attention that prohibits in-context samples to attend to future samples. While this result is intuitive, it is not understood from a theoretical perspective. In this paper we take a theoretical approach and analyze the convergence behavior of prefixLM and causalLM under a certain parameter construction. Our analysis shows that both LM types converge to their stationary points at a linear rate, but that while prefixLM converges to the optimal solution of linear regression, causalLM convergence dynamics follows that of an online gradient descent algorithm, which is not guaranteed to be optimal even as the number of samples grows infinitely. We supplement our theoretical claims with empirical experiments over synthetic and real tasks and using various types of transformers. Our experiments verify that causalLM consistently underperforms prefixLM in all settings.
翻訳日:2023-08-15 14:36:05 公開日:2023-08-14
# git-mol: グラフ、画像、テキストを用いた分子科学のためのマルチモーダル大言語モデル

GIT-Mol: A Multi-modal Large Language Model for Molecular Science with Graph, Image, and Text ( http://arxiv.org/abs/2308.06911v1 )

ライセンス: Link先を確認
Pengfei Liu, Yiming Ren and Zhixiang Ren(参考訳) 大規模言語モデルは自然言語処理において大きな進歩を遂げ、分子表現や生成を含む革新的な応用の道を開いた。 しかし、既存のほとんどの単一モダリティアプローチは、分子データの豊富で複雑な情報を捉えることができない。 本稿では,グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molについて紹介する。 マルチモーダルな分子データの統合を容易にするため,すべてのモダリティを統一潜在空間にマッピングできる新しいアーキテクチャであるGIT-Formerを提案する。 本研究では,イノベーティブ・オール・トゥ・ランゲージの分子翻訳戦略を開発し,分子キャプションの10%~15%向上,特性予測の5%~10%の精度向上,および基礎モデルや単一モダリティモデルと比較して分子生成妥当性の20%向上を実現する。

Large language models have made significant strides in natural language processing, paving the way for innovative applications including molecular representation and generation. However, most existing single-modality approaches cannot capture the abundant and complex information in molecular data. Here, we introduce GIT-Mol, a multi-modal large language model that integrates the structure Graph, Image, and Text information, including the Simplified Molecular Input Line Entry System (SMILES) and molecular captions. To facilitate the integration of multi-modal molecular data, we propose GIT-Former, a novel architecture capable of mapping all modalities into a unified latent space. Our study develops an innovative any-to-language molecular translation strategy and achieves a 10%-15% improvement in molecular captioning, a 5%-10% accuracy increase in property prediction, and a 20% boost in molecule generation validity compared to baseline or single-modality models.
翻訳日:2023-08-15 14:35:44 公開日:2023-08-14
# 高忠実な画像間翻訳のための階層フロー

Hierarchy Flow For High-Fidelity Image-to-Image Translation ( http://arxiv.org/abs/2308.06909v1 )

ライセンス: Link先を確認
Weichen Fan, Jinghuan Chen, Ziwei Liu(参考訳) Image-to-image (I2I) 翻訳は幅広いタスクからなる。 本稿では,この問題を3つのレベルに分類する。強忠実翻訳,正規忠実翻訳,弱忠実翻訳であり,原画像の内容が保存される程度を示す。 既存の手法は弱い忠実度変換において優れた性能を発揮するが、sim2real、スタイル転送、低レベルのビジョンなど、強い忠実度タスクと通常の忠実度タスクの両方でコンテンツを完全に保存することができない。 本稿では,翻訳中のコンテンツ保存性を向上させる新しいフローベースモデルである階層フローを提案する。 具体的には 1)I2I翻訳に適用した場合の標準フローベースモデルの欠点を最初に明らかにする。 2) 次に,階層フローを構成するために,可逆的特徴変換とマルチスケールモデリングのための階層結合という新しい設計を提案する。 3) 最後に,翻訳中のコンテンツ保存とスタイリゼーションのトレードオフを改善するために,専用のアライメントスタイルの損失を提示する。 幅広いi2i翻訳ベンチマークにおける広範囲な実験により,本手法が最先端性能を達成し,高忠実度タスクと正規性タスクの両方において有意なアドバンテージが得られた。 コードとモデルはhttps://github.com/WeichenFan/HierarchyFlow.orgにある。

Image-to-image (I2I) translation comprises a wide spectrum of tasks. Here we divide this problem into three levels: strong-fidelity translation, normal-fidelity translation, and weak-fidelity translation, indicating the extent to which the content of the original image is preserved. Although existing methods achieve good performance in weak-fidelity translation, they fail to fully preserve the content in both strong- and normal-fidelity tasks, e.g. sim2real, style transfer and low-level vision. In this work, we propose Hierarchy Flow, a novel flow-based model to achieve better content preservation during translation. Specifically, 1) we first unveil the drawbacks of standard flow-based models when applied to I2I translation. 2) Next, we propose a new design, namely hierarchical coupling for reversible feature transformation and multi-scale modeling, to constitute Hierarchy Flow. 3) Finally, we present a dedicated aligned-style loss for a better trade-off between content preservation and stylization during translation. Extensive experiments on a wide range of I2I translation benchmarks demonstrate that our approach achieves state-of-the-art performance, with convincing advantages in both strong- and normal-fidelity tasks. Code and models will be at https://github.com/WeichenFan/HierarchyFlow.
翻訳日:2023-08-15 14:35:27 公開日:2023-08-14
# 生成的解釈

Generative Interpretation ( http://arxiv.org/abs/2308.06907v1 )

ライセンス: Link先を確認
Yonathan A. Arbel and David Hoffman(参考訳) 大規模言語モデルを用いて契約意味を推定する新しい手法である生成的解釈を導入する。 AI三頭論は、今日の秩序であるので、我々は、それぞれ異なる方法でこれらの新しいツールの能力を説明する、根拠付きケーススタディによって進みます。 良く知られた契約の意見を取り、彼らが主張した実際の合意を導出することにより、AIモデルは、状況における一般的な意味をファインダーが確認し、あいまいさを定量化し、当事者の合意のギャップを埋めることを可能にする。 また,モデルが個々の外部証拠の確率的値を計算する方法を示す。 これらのモデルの使用に関するベストプラクティスを制限条件として提示した後、司法実務と契約理論にその影響を考察する。 LLMを使用することで、裁判所は当事者の意図を安価かつ正確に見積もることができる。 彼らの利用は、効率重視のテクスト主義者や正義志向の文脈主義者に反応し、当事者がコスト、確実性、正確性、公平性を好むかどうかを論じる。 当事者と裁判所は、証拠の無誘導で偏りのある同化を避けながら、現実を近似するだけの十分な文脈を認めながら、契約が本当に何を意味するのかを判断しようとする中間の道を好む。 生成的解釈はこの可能性を示しており、契約的解釈の新たなワークホースとなり得ると主張する。

We introduce generative interpretation, a new approach to estimating contractual meaning using large language models. As AI triumphalism is the order of the day, we proceed by way of grounded case studies, each illustrating the capabilities of these novel tools in distinct ways. Taking well-known contracts opinions, and sourcing the actual agreements that they adjudicated, we show that AI models can help factfinders ascertain ordinary meaning in context, quantify ambiguity, and fill gaps in parties' agreements. We also illustrate how models can calculate the probative value of individual pieces of extrinsic evidence. After offering best practices for the use of these models given their limitations, we consider their implications for judicial practice and contract theory. Using LLMs permits courts to estimate what the parties intended cheaply and accurately, and as such generative interpretation unsettles the current interpretative stalemate. Their use responds to efficiency-minded textualists and justice-oriented contextualists, who argue about whether parties will prefer cost and certainty or accuracy and fairness. Parties--and courts--would prefer a middle path, in which adjudicators strive to predict what the contract really meant, admitting just enough context to approximate reality while avoiding unguided and biased assimilation of evidence. As generative interpretation offers this possibility, we argue it can become the new workhorse of contractual interpretation.
翻訳日:2023-08-15 14:35:07 公開日:2023-08-14
# MixBCT: 自己適応型後方互換性トレーニングを目指して

MixBCT: Towards Self-Adapting Backward-Compatible Training ( http://arxiv.org/abs/2308.06948v1 )

ライセンス: Link先を確認
Yu Liang, Shiliang Zhang, Yaowei Wang, Sheng Xiao, Kenli Li, Xiaoyu Wang(参考訳) データの指数関数的な成長は、モデル構造や損失関数の進歩とともに、より優れた特徴埋め込みを持つ新しいモデルの利用による画像検索システムの強化を必要としている。 しかし、埋め込みを置き換えることで古い検索データベースを更新するコストのかかるプロセスが課題となる。 解決策として、古い検索データセットを更新する必要性を避けるために、後方互換性のあるトレーニングが利用できる。 従来の手法では、古いモデルのプロトタイプを整列させることで後方互換性を実現していたが、古い特徴の分布を見落とし、古いモデルの低品質が弱い特徴の分布に繋がる場合の有効性を制限した。 一方、L2回帰のようなインスタンスベースの手法は、古い特徴の分布を考慮しているが、新しいモデル自体のパフォーマンスに強い制約を課している。 本稿では,品質の異なる古いモデルの統一フレームワークとして機能する,単純かつ高効率な後方互換性トレーニング手法であるmixbctを提案する。 具体的には、理想的なシナリオにおいて後方互換性を確保するために不可欠な4つの制約を要約し、後方互換性のトレーニングを容易にするために単一損失関数を構築する。 提案手法は,従来の埋め込みの分布に基づく新機能の制約領域を適応的に調整する。 大規模顔認識データセットMS1Mv3とIJB-Cについて広範囲に実験を行い,本手法の有効性を検証した。 実験結果は, 従来の方法よりも優れていることを示す。 コードはhttps://github.com/yuleung/MixBCTで入手できる。

The exponential growth of data, alongside advancements in model structures and loss functions, has necessitated the enhancement of image retrieval systems through the utilization of new models with superior feature embeddings. However, the expensive process of updating the old retrieval database by replacing embeddings poses a challenge. As a solution, backward-compatible training can be employed to avoid the necessity of updating old retrieval datasets. While previous methods achieved backward compatibility by aligning prototypes of the old model, they often overlooked the distribution of the old features, thus limiting their effectiveness when the old model's low quality leads to a weakly discriminative feature distribution. On the other hand, instance-based methods like L2 regression take into account the distribution of old features but impose strong constraints on the performance of the new model itself. In this paper, we propose MixBCT, a simple yet highly effective backward-compatible training method that serves as a unified framework for old models of varying qualities. Specifically, we summarize four constraints that are essential for ensuring backward compatibility in an ideal scenario, and we construct a single loss function to facilitate backward-compatible training. Our approach adaptively adjusts the constraint domain for new features based on the distribution of the old embeddings. We conducted extensive experiments on the large-scale face recognition datasets MS1Mv3 and IJB-C to verify the effectiveness of our method. The experimental results clearly demonstrate its superiority over previous methods. Code is available at https://github.com/yuleung/MixBCT
翻訳日:2023-08-15 14:27:27 公開日:2023-08-14
# フォーカスする場所を知る:ビデオグラウンド用イベント認識変換器

Knowing Where to Focus: Event-aware Transformer for Video Grounding ( http://arxiv.org/abs/2308.06947v1 )

ライセンス: Link先を確認
Jinhyun Jang, Jungin Park, Jin Kim, Hyeongjun Kwon, Kwanghoon Sohn(参考訳) 最近のDETRベースのビデオグラウンドモデルでは、モーメントクエリを学習することで、事前に定義された提案や非最大抑圧のような手作りのコンポーネントを使わずに、モーメントタイムスタンプを直接予測することができる。 しかし、入力非依存のモーメントクエリは、必然的にビデオの固有の時間構造を見落とし、限られた位置情報を提供する。 本稿では,イベントを認識した動的モーメントクエリを定式化し,モデルが映像の入力固有のコンテンツと位置情報を考慮に入れることを可能にする。 この目的のために、我々は二段階の推論を提示する。 1) スロット注意機構を用いて所定の映像を構成する特有のイベント単位をキャプチャするイベント推論 2)モーメントクエリと所定の文を融合トランスフォーマー層を介して融合し、モーメントクエリとビデオ・センテンス表現との間の相互作用を学習してモーメントタイムスタンプを予測するモーメント推論。 大規模な実験では、イベント対応動的モーメントクエリの有効性と効率が示され、いくつかのビデオグラウンドベンチマークにおける最先端のアプローチよりも優れている。

Recent DETR-based video grounding models have made the model directly predict moment timestamps without any hand-crafted components, such as a pre-defined proposal or non-maximum suppression, by learning moment queries. However, their input-agnostic moment queries inevitably overlook an intrinsic temporal structure of a video, providing limited positional information. In this paper, we formulate an event-aware dynamic moment query to enable the model to take the input-specific content and positional information of the video into account. To this end, we present two levels of reasoning: 1) Event reasoning that captures distinctive event units constituting a given video using a slot attention mechanism; and 2) moment reasoning that fuses the moment queries with a given sentence through a gated fusion transformer layer and learns interactions between the moment queries and video-sentence representations to predict moment timestamps. Extensive experiments demonstrate the effectiveness and efficiency of the event-aware dynamic moment queries, outperforming state-of-the-art approaches on several video grounding benchmarks.
翻訳日:2023-08-15 14:27:04 公開日:2023-08-14
# 航空画像合成のための意味認識ネットワーク

Semantic-aware Network for Aerial-to-Ground Image Synthesis ( http://arxiv.org/abs/2308.06945v1 )

ライセンス: Link先を確認
Jinhyun Jang, Taeyong Song, Kwanghoon Sohn(参考訳) 航空画像合成は,地上画像から地上画像を合成することを目的とした,新たな課題である。 空中画像と地上画像の間に非常に異なるレイアウトとオブジェクト表現のため、既存のアプローチは通常、空中シーンの構成要素を地上シーンに転送するのに失敗する。 本稿では,構造的アライメントと意味的意識の強化によって課題を探究する新しい枠組みを提案する。 そこで本稿では,空中特徴を地盤配置に合わせることにより,複雑な地形構造を再構築できる新しい意味的特徴変換モジュールを提案する。 さらに,事前学習したセグメンテーションネットワークを利用した意味認識損失関数を提案する。 ネットワークは、異なるクラスに対する損失を別々に計算し、それらのバランスをとることによって、様々なクラスにわたる現実的なオブジェクトを合成する。 従来の方法との比較やアブレーション実験を含む広範な実験により,提案手法の有効性が定性的および定量的に示された。

Aerial-to-ground image synthesis is an emerging and challenging problem that aims to synthesize a ground image from an aerial image. Due to the highly different layout and object representation between the aerial and ground images, existing approaches usually fail to transfer the components of the aerial scene into the ground scene. In this paper, we propose a novel framework to explore the challenges by imposing enhanced structural alignment and semantic awareness. We introduce a novel semantic-attentive feature transformation module that allows to reconstruct the complex geographic structures by aligning the aerial feature to the ground layout. Furthermore, we propose semantic-aware loss functions by leveraging a pre-trained segmentation network. The network is enforced to synthesize realistic objects across various classes by separately calculating losses for different classes and balancing them. Extensive experiments including comparisons with previous methods and ablation studies show the effectiveness of the proposed framework both qualitatively and quantitatively.
翻訳日:2023-08-15 14:26:44 公開日:2023-08-14
# ワンショット唇に基づく生体認証 : 認証フレーズ情報による行動特徴の延長

One-shot lip-based biometric authentication: extending behavioral features with authentication phrase information ( http://arxiv.org/abs/2308.06944v1 )

ライセンス: Link先を確認
Brando Koch, Ratko Grbi\'c(参考訳) lip-based bioometric authentication(lbba)は、カメラセンサによってキャプチャされたビデオデータの形で、音声中の唇の動きに基づく認証手法である。 LBBAは、RGBカメラ以外の追加の感覚機器を必要とすることなく、唇の動きの物理的特徴と行動的特性の両方を利用することができる。 State-of-the-art(SOTA)アプローチでは、ワンショット学習を使用してディープサイムニューラルネットワークをトレーニングし、これらの特徴から埋め込みベクターを生成する。 埋め込みはさらに、登録されたユーザと認証されたユーザとの類似性を計算するために使用される。 これらのアプローチの欠点は、何を言っているかとは無関係に、行動的特徴を音声のスタイルとしてモデル化することである。 これにより、任意のフレーズを話すクライアントのビデオ再生攻撃に脆弱なシステムになる。 この問題を解決するために,音声のスタイルに加えて,発話内容と区別する行動特徴をモデル化するワンショットアプローチを提案する。 グリッドデータセットをカスタマイズして必要なトリプレットを取得し,3次元畳み込みとリカレントニューラルネットワーク層に基づいてシャムニューラルネットワークをトレーニングすることで,これを実現する。 バッチワイド硬負鉱業におけるカスタム三重項損失を提案する。 オープンセットプロトコルを用いて得られた結果は、カスタマイズされたグリッドデータセットのテストセットの3.2%、および3.8%frrである。 LBBAの行動的特徴と身体的特徴の影響と識別力を定量化するために, さらなる分析を行った。

Lip-based biometric authentication (LBBA) is an authentication method based on a person's lip movements during speech in the form of video data captured by a camera sensor. LBBA can utilize both physical and behavioral characteristics of lip movements without requiring any additional sensory equipment apart from an RGB camera. State-of-the-art (SOTA) approaches use one-shot learning to train deep siamese neural networks which produce an embedding vector out of these features. Embeddings are further used to compute the similarity between an enrolled user and a user being authenticated. A flaw of these approaches is that they model behavioral features as style-of-speech without relation to what is being said. This makes the system vulnerable to video replay attacks of the client speaking any phrase. To solve this problem we propose a one-shot approach which models behavioral features to discriminate against what is being said in addition to style-of-speech. We achieve this by customizing the GRID dataset to obtain required triplets and training a siamese neural network based on 3D convolutions and recurrent neural network layers. A custom triplet loss for batch-wise hard-negative mining is proposed. Obtained results using an open-set protocol are 3.2% FAR and 3.8% FRR on the test set of the customized GRID dataset. Additional analysis of the results was done to quantify the influence and discriminatory power of behavioral and physical features for LBBA.
翻訳日:2023-08-15 14:26:29 公開日:2023-08-14
# オーストラリア大学における工学系起業家教育の現状と動向

Current Status and Trends of Engineering Entrepreneurship Education in Australian Universities ( http://arxiv.org/abs/2308.06943v1 )

ライセンス: Link先を確認
Jianhua Li, Sophie Mckenzie, Richard Dazeley, Frank Jiang, Keshav Sood(参考訳) 本研究は、オーストラリア大学で採用されている様々なアプローチとモデルを探究し、プログラムの有効性を評価し、カリキュラム強化のための勧告を提供することにより、工学系起業家教育(EEE)の現在と将来の展望に光を当てるものである。 EEEプログラムは20年以上前から存在するが、その効果は未解明のままである。 本研究は, 自己回帰, スコーピングレビュー, 調査, インタビューを含むマルチメソッドアプローチを用いて, 脳波の状況, 課題, 傾向, 有効性に関する重要な研究課題に対処する。 発見は、リソース制限のような課題を明らかにし、経験的学習や業界のパートナーシップのようなソリューションを提案する。 これらの知見は、調整されたEEEの重要性を強調し、教育戦略とカリキュラム開発を伝え、世界中の教育者や政策立案者に利益をもたらす。

This research sheds light on the present and future landscape of Engineering Entrepreneurship Education (EEE) by exploring varied approaches and models adopted in Australian universities, evaluating program effectiveness, and offering recommendations for curriculum enhancement. While EEE programs have been in existence for over two decades, their efficacy remains underexplored. Using a multi-method approach encompassing self-reflection, scoping review, surveys, and interviews, this study addresses key research questions regarding the state, challenges, trends, and effectiveness of EEE. Findings reveal challenges like resource limitations and propose solutions such as experiential learning and industry partnerships. These insights underscore the importance of tailored EEE and inform teaching strategies and curriculum development, benefiting educators and policymakers worldwide.
翻訳日:2023-08-15 14:26:06 公開日:2023-08-14
# GPTに基づく圧縮による人型Few-shot学習の近似

Approximating Human-Like Few-shot Learning with GPT-based Compression ( http://arxiv.org/abs/2308.06942v1 )

ライセンス: Link先を確認
Cynthia Huang, Yuqing Xie, Zhiying Jiang, Jimmy Lin, Ming Li(参考訳) 本研究では,学習過程を情報圧縮として概念化する。 我々は、推論中にデータ圧縮を可能にする人間のような学習能力を備えた生成型事前学習モデルの実現を目指す。 本稿では, 生成前学習トランス(gpt)を用いてコルモゴロフの複雑性を近似し, 最小ショット学習のための最適情報距離を推定する新しい手法を提案する。 まず,gptをロスレステキスト圧縮の前処理として使用し,注目すべき圧縮率を達成することを提案する。 LLAMA2-7Bのバックボーンによる実験は、enwik9の圧縮比15.5に達する。 本稿では,gptモデルの事前学習目的を,圧縮長と等価性を示すことによって正当化し,テキストの情報距離を近似する能力を示す。 本手法は, 近似情報距離を利用して, 定量的テキスト類似度測定におけるGPTモデルの直接適用を可能にする。 実験の結果,提案手法は,意味的類似性,ゼロおよびワンショットテキスト分類,ゼロショットテキストランキングなどのnlp課題に対して,埋め込みおよびプロンプトベースラインよりも総合的に優れた性能が得られることがわかった。

In this work, we conceptualize the learning process as information compression. We seek to equip generative pre-trained models with human-like learning capabilities that enable data compression during inference. We present a novel approach that utilizes the Generative Pre-trained Transformer (GPT) to approximate Kolmogorov complexity, with the aim of estimating the optimal Information Distance for few-shot learning. We first propose using GPT as a prior for lossless text compression, achieving a noteworthy compression ratio. Experiment with LLAMA2-7B backbone achieves a compression ratio of 15.5 on enwik9. We justify the pre-training objective of GPT models by demonstrating its equivalence to the compression length, and, consequently, its ability to approximate the information distance for texts. Leveraging the approximated information distance, our method allows the direct application of GPT models in quantitative text similarity measurements. Experiment results show that our method overall achieves superior performance compared to embedding and prompt baselines on challenging NLP tasks, including semantic similarity, zero and one-shot text classification, and zero-shot text ranking.
翻訳日:2023-08-15 14:25:52 公開日:2023-08-14
# 強化学習による価格比較ウェブサイトの保険価格設定

Insurance pricing on price comparison websites via reinforcement learning ( http://arxiv.org/abs/2308.06935v1 )

ライセンス: Link先を確認
Tanut Treetanthiploet, Yufei Zhang, Lukasz Szpruch, Isaac Bowers-Barnard, Henrietta Ridley, James Hickey, Chris Pearce(参考訳) 価格比較ウェブサイト(pcws)の出現は、効果的な価格戦略を策定するためのユニークな課題を保険会社に提示した。 pcwでの運用では、歴史的な転換率の低下、競争相手の行動の視認性の制限、ダイナミックな市場環境といった障害の中で、競争力の高いプレミアムと利益率の微妙なバランスを取る必要がある。 これに加えて、資本集約的なビジネスの性質は、顧客のリスクレベル未満の価格が保険会社の債務問題を引き起こすことを意味する。 そこで本稿では,モデルベースとモデルフリーを統合することで,最適価格政策を学習する強化学習(rl)フレームワークを提案する。 モデルベースコンポーネントは、オフライン環境でエージェントをトレーニングし、コールドスタートの問題を回避するために使用され、一方モデルフリーアルゴリズムは、期待される収益を最大化するために価格ポリシーを動的に更新するためにコンテキストブライト(CB)方式で使用される。 これにより、マーケットダイナミクスの進化への迅速な適応が促進され、アルゴリズムの効率と意思決定性が向上する。 また、オフラインデータセットを用いた価格ポリシーを一貫した方法で評価することの重要性を強調し、既存の市販のRL/CBアプローチよりも提案手法が優れていることを示す。 提案手法は,実世界の保険業者の個人で利用可能なデータを反映した合成データを用いて検証し,他の6つのベンチマーク手法と比較する。 我々のハイブリッドエージェントは、実世界のセットアップでは利用できない完璧な市場情報にアクセス可能なエージェントを除いて、サンプル効率と累積報酬でこれらのベンチマークを上回ります。

The emergence of price comparison websites (PCWs) has presented insurers with unique challenges in formulating effective pricing strategies. Operating on PCWs requires insurers to strike a delicate balance between competitive premiums and profitability, amidst obstacles such as low historical conversion rates, limited visibility of competitors' actions, and a dynamic market environment. In addition to this, the capital intensive nature of the business means pricing below the risk levels of customers can result in solvency issues for the insurer. To address these challenges, this paper introduces reinforcement learning (RL) framework that learns the optimal pricing policy by integrating model-based and model-free methods. The model-based component is used to train agents in an offline setting, avoiding cold-start issues, while model-free algorithms are then employed in a contextual bandit (CB) manner to dynamically update the pricing policy to maximise the expected revenue. This facilitates quick adaptation to evolving market dynamics and enhances algorithm efficiency and decision interpretability. The paper also highlights the importance of evaluating pricing policies using an offline dataset in a consistent fashion and demonstrates the superiority of the proposed methodology over existing off-the-shelf RL/CB approaches. We validate our methodology using synthetic data, generated to reflect private commercially available data within real-world insurers, and compare against 6 other benchmark approaches. Our hybrid agent outperforms these benchmarks in terms of sample efficiency and cumulative reward with the exception of an agent that has access to perfect market information which would not be available in a real-world set-up.
翻訳日:2023-08-15 14:25:32 公開日:2023-08-14
# 左房CTボリュームからの心房細動サブタイプ分類のための放射線インフォームドディープラーニング

Radiomics-Informed Deep Learning for Classification of Atrial Fibrillation Sub-Types from Left-Atrium CT Volumes ( http://arxiv.org/abs/2308.06933v1 )

ライセンス: Link先を確認
Weihang Dai, Xiaomeng Li, Taihui Yu, Di Zhao, Jun Shen, Kwang-Ting Cheng(参考訳) 心房細動(AF)は急速で不整脈を特徴とし、心不全などの致命的な合併症を引き起こす。 本疾患は重症度に基づいて2つのサブタイプに分類され,病状スクリーニングのためにCTボリュームで自動的に分類できる。 しかし、既存の分類手法は、タスクに最適でないような一般的な放射能特性に依存しているが、ディープラーニング手法は高次元のボリューム入力に過度に適合する傾向がある。 本研究では,AFサブタイプ分類を改善するために,深層学習と放射能アプローチの利点を組み合わせた新しい放射線インフォームド深層学習手法RIDLを提案する。 na\" 特徴結合に大きく依存する既存のハイブリッド技術とは異なり、放射能特徴選択法は事前に情報として機能し、局所的に計算された放射能特徴を持つ低レベルディープニューラルネットワーク(DNN)特徴を補うことを提案する。 これにより、DNNの過度な適合を低減し、無線機能間の局所的なバリエーションをよりよくキャプチャできる。 さらに,新しい特徴デコリレーション損失を設計することにより,深部・放射能特性から補完情報を確実に学習する。 本手法は,AFサブタイプの分類タスクに対して86.9%のAUCを達成し,深層学習と放射能アプローチの限界に対処し,最先端の放射線学,深層学習,ハイブリッドアプローチを上回る性能を発揮する。 コードはhttps://github.com/xmed-lab/RIDLで入手できる。

Atrial Fibrillation (AF) is characterized by rapid, irregular heartbeats, and can lead to fatal complications such as heart failure. The disease is divided into two sub-types based on severity, which can be automatically classified through CT volumes for disease screening of severe cases. However, existing classification approaches rely on generic radiomic features that may not be optimal for the task, whilst deep learning methods tend to over-fit to the high-dimensional volume inputs. In this work, we propose a novel radiomics-informed deep-learning method, RIDL, that combines the advantages of deep learning and radiomic approaches to improve AF sub-type classification. Unlike existing hybrid techniques that mostly rely on na\"ive feature concatenation, we observe that radiomic feature selection methods can serve as an information prior, and propose supplementing low-level deep neural network (DNN) features with locally computed radiomic features. This reduces DNN over-fitting and allows local variations between radiomic features to be better captured. Furthermore, we ensure complementary information is learned by deep and radiomic features by designing a novel feature de-correlation loss. Combined, our method addresses the limitations of deep learning and radiomic approaches and outperforms state-of-the-art radiomic, deep learning, and hybrid approaches, achieving 86.9% AUC for the AF sub-type classification task. Code is available at https://github.com/xmed-lab/RIDL.
翻訳日:2023-08-15 14:25:05 公開日:2023-08-14
# fusionplanner:マルチセンサー融合法を用いたトラックマイニング用マルチタスクモーションプランナー

FusionPlanner: A Multi-task Motion Planner for Mining Trucks using Multi-sensor Fusion Method ( http://arxiv.org/abs/2308.06931v1 )

ライセンス: Link先を確認
Siyu Teng, Luxi Li, Yuchen Li, Xuemin Hu, Lingxi Li, Yunfeng Ai, Long Chen(参考訳) 近年、インテリジェントな車両の動作計画において大きな成果が得られている。 しかし、典型的な非構造環境として、複雑な運用条件と環境要因により、露天掘りは限られた注意を惹きつける。 本研究では, シミュレーションプラットフォーム, テストベンチマーク, 信頼性, 堅牢な移動プランナなど, オープンピット鉱山における無人輸送の包括的パラダイムを提案する。 まず, マルチセンサフュージョン法を用いて, 自動地雷トラック用マルチタスク動作計画アルゴリズムFusionPlannerを提案し, 横方向および縦方向の制御タスクを無人輸送に適用する。 そこで我々は,オープンピット鉱山の交通路におけるアルゴリズムの信頼性とロバスト性を評価するための3つの検証手法であるminingnavを開発した。 最後に,オープンピットマイニングを想定した新しい高忠実度シミュレータであるparallel mining simulator (pms)について紹介する。 PMSにより、ユーザーはシングルトラック制御とマルチトラックスケジューリングの両方の観点からオープンピットの鉱山輸送を管理し制御できる。 実験結果は,我々のプランナーの衝突や乗っ取りの回数が大幅に減少したことを示している。 我々は、我々の無人輸送パラダイムが、マイニングトラックの信頼性と堅牢性に一歩近づくことを期待している。

In recent years, significant achievements have been made in motion planning for intelligent vehicles. However, as a typical unstructured environment, open-pit mining attracts limited attention due to its complex operational conditions and adverse environmental factors. A comprehensive paradigm for unmanned transportation in open-pit mines is proposed in this research, including a simulation platform, a testing benchmark, and a trustworthy and robust motion planner. \textcolor{red}{Firstly, we propose a multi-task motion planning algorithm, called FusionPlanner, for autonomous mining trucks by the Multi-sensor fusion method to adapt both lateral and longitudinal control tasks for unmanned transportation. Then, we develop a novel benchmark called MiningNav, which offers three validation approaches to evaluate the trustworthiness and robustness of well-trained algorithms in transportation roads of open-pit mines. Finally, we introduce the Parallel Mining Simulator (PMS), a new high-fidelity simulator specifically designed for open-pit mining scenarios. PMS enables the users to manage and control open-pit mine transportation from both the single-truck control and multi-truck scheduling perspectives.} \textcolor{red}{The performance of FusionPlanner is tested by MiningNav in PMS, and the empirical results demonstrate a significant reduction in the number of collisions and takeovers of our planner. We anticipate our unmanned transportation paradigm will bring mining trucks one step closer to trustworthiness and robustness in continuous round-the-clock unmanned transportation.
翻訳日:2023-08-15 14:24:36 公開日:2023-08-14
# 機械学習モデルを用いた動的短期レンタル市場におけるリスティング価格予測

Predicting Listing Prices In Dynamic Short Term Rental Markets Using Machine Learning Models ( http://arxiv.org/abs/2308.06929v1 )

ライセンス: Link先を確認
Sam Chapman, Seifey Mohammad, Kimberly Villegas(参考訳) 我々の研究グループは、動的市場における価格予測の難しい課題に取り組みたかった。 Airbnbのリスティングのような短期レンタルは、そうしたことを行うための完璧な証明場であるように思われた。 airbnbは、家主が家賃を旅行者に貸し出すプラットフォームを提供することで、旅行業界に革命をもたらした。 Airbnbの賃貸料は、需要、季節性、その他の要因に基づいて価格が頻繁に変わるため、高い変動の傾向にある。 Airbnbのレンタル価格の正確な予測は、ホストが収入を最適化し、旅行者が予約決定を行うために不可欠である。 このプロジェクトでは、機械学習モデリングアプローチを用いてAirbnbレンタルの価格を予測することを目的としている。 当社のプロジェクトは、方法論的な機械学習アプローチを採用するとともに、私たちの機能エンジニアリングに感情分析を取り入れることで、Airbnbのレンタル価格を分析する分野における初期の研究を拡大しています。 Airbnbのレンタル価格の定期的な変更について、より深く理解するつもりです。 本研究の目的は、テキサス州オースチンでAirbnbの賃貸価格を予測するための正確な機械学習モデルを構築することである。 プロジェクトの二次目標は、Airbnbのレンタル価格を駆動する重要な要因を特定し、これらの要因が場所や資産タイプによってどのように異なるかを調べることです。

Our research group wanted to take on the difficult task of predicting prices in a dynamic market. And short term rentals such as Airbnb listings seemed to be the perfect proving ground to do such a thing. Airbnb has revolutionized the travel industry by providing a platform for homeowners to rent out their properties to travelers. The pricing of Airbnb rentals is prone to high fluctuations, with prices changing frequently based on demand, seasonality, and other factors. Accurate prediction of Airbnb rental prices is crucial for hosts to optimize their revenue and for travelers to make informed booking decisions. In this project, we aim to predict the prices of Airbnb rentals using a machine learning modeling approach. Our project expands on earlier research in the area of analyzing Airbnb rental prices by taking a methodical machine learning approach as well as incorporating sentiment analysis into our feature engineering. We intend to gain a deeper understanding on periodic changes of Airbnb rental prices. The primary objective of this study is to construct an accurate machine learning model for predicting Airbnb rental prices specifically in Austin, Texas. Our project's secondary objective is to identify the key factors that drive Airbnb rental prices and to investigate how these factors vary across different locations and property types.
翻訳日:2023-08-15 14:24:12 公開日:2023-08-14
# 層間変動が動脈およびてんかんの不確実性にどのように関係するか--深層学習に基づく脊髄傍筋分節の1例

How inter-rater variability relates to aleatoric and epistemic uncertainty: a case study with deep learning-based paraspinal muscle segmentation ( http://arxiv.org/abs/2308.06964v1 )

ライセンス: Link先を確認
Parinaz Roshanzamir, Hassan Rivaz, Joshua Ahn, Hamza Mirza, Neda Naghdi, Meagan Anstruther, Michele C. Batti\'e, Maryse Fortin, and Yiming Xiao(参考訳) 近年の深層学習(DL)技術の発展は,特に最新のトランスフォーマーモデルとその変種において,医用画像のセグメンテーションタスクの大幅な性能向上につながっている。 マルチラター手動セグメンテーションのラベルは、DLモデルのトレーニングにおいて理想的な真実として用いられることが多いが、トレーニングバイアス、画像ノイズ、極端な解剖学的変動などの要因によるラター間変動は、結果のアルゴリズムの性能と不確実性に影響を与える。 レート間変動が臨床展開の重要な要素であるdlアルゴリズムの信頼性にどのように影響するかに関する知識は、より良いトレーニングデータ構築とdlモデルへの情報提供に役立つが、広く研究されていない。 本稿では,TTA(Test-time Augmentation),TTD(Test-time Dropout),深部アンサンブルを用いて,動脈およびてんかんの不確かさを計測し,それらとラター変動との関係について検討する。 さらに, unet と transunet を比較し, 2 つのラベル融合戦略を用いたモデル不確かさに対するトランスフォーマーの影響について検討した。 t2w mriを用いたマルチクラス傍脊髄筋セグメンテーションを行った。 本研究は,ラベル融合戦略とDLモデルの選択による,ラター間の変動性と不確実性の間の相互作用を明らかにする。

Recent developments in deep learning (DL) techniques have led to great performance improvement in medical image segmentation tasks, especially with the latest Transformer model and its variants. While labels from fusing multi-rater manual segmentations are often employed as ideal ground truths in DL model training, inter-rater variability due to factors such as training bias, image noise, and extreme anatomical variability can still affect the performance and uncertainty of the resulting algorithms. Knowledge regarding how inter-rater variability affects the reliability of the resulting DL algorithms, a key element in clinical deployment, can help inform better training data construction and DL models, but has not been explored extensively. In this paper, we measure aleatoric and epistemic uncertainties using test-time augmentation (TTA), test-time dropout (TTD), and deep ensemble to explore their relationship with inter-rater variability. Furthermore, we compare UNet and TransUNet to study the impacts of Transformers on model uncertainty with two label fusion strategies. We conduct a case study using multi-class paraspinal muscle segmentation from T2w MRIs. Our study reveals the interplay between inter-rater variability and uncertainties, affected by choices of label fusion strategies and DL models.
翻訳日:2023-08-15 14:18:01 公開日:2023-08-14
# 海上シルク道路沿いの東南アジアにおけるサイバーセキュリティの将来

The Future of Cybersecurity in Southeast Asia along the Maritime Silk Road ( http://arxiv.org/abs/2308.06963v1 )

ライセンス: Link先を確認
Roberto Dillon(参考訳) 本稿では,海シルクロード沿いのベトナム,シンガポール,マレーシア,インドネシアの4カ国におけるサイバーセキュリティ産業と教育エコシステムの展望を,CEPI(Cybersecurity Education Prospects Index)とCIPI(Cybersecurity Industry Prospects Index)という2つの新しい指標を用いて分析する。 CEPIは、新しい学生を引き付ける能力とともに、サイバーセキュリティの学位の有効性と品質を評価することで、サイバーセキュリティ教育の現状を評価する。 一方、CIPIは、その成長と維持に必要な人材プールを評価することで、サイバーセキュリティ産業の成長と発展の可能性を測定する。 最終的に、この研究は、これらの国の商業活動のセキュリティと信頼性を、複雑で進化するサイバー脅威の状況に対して確実に支援するために、教育が業界をサポートする、健全なサイバーセキュリティエコシステムの重要さを強調します。

This paper proposes an analysis of the prospects of the cyber security industry and educational ecosystems in four Southeast Asian countries, namely Vietnam, Singapore, Malaysia, and Indonesia, which are along the Maritime Silk Road, by using two novel metrics: the "Cybersecurity Education Prospects Index" (CEPI) and the "Cybersecurity Industry Prospects Index" (CIPI). The CEPI evaluates the state of cybersecurity education by assessing the availability and quality of cybersecurity degrees together with their ability to attract new students. On the other hand, the CIPI measures the potential for the cybersecurity industry's growth and development by assessing the talent pool needed to build and sustain its growth. Ultimately, this study emphasizes the vital importance of a healthy cybersecurity ecosystem where education is responsible for supporting the industry to ensure the security and reliability of commercial operations in these countries against a complex and evolving cyber threat landscape.
翻訳日:2023-08-15 14:17:36 公開日:2023-08-14
# Color-NeuS:カラーによるニューラルインプリシト表面の再構成

Color-NeuS: Reconstructing Neural Implicit Surfaces with Color ( http://arxiv.org/abs/2308.06962v1 )

ライセンス: Link先を確認
Licheng Zhong, Lixin Yang, Kailin Li, Haoyu Zhen, Mei Han, Cewu Lu(参考訳) 多視点画像やモノクロ映像からの物体表面の再構成は、コンピュータビジョンの基本的な問題である。 しかし、最近の研究の多くは、暗黙的あるいは明示的な方法による幾何学の再構築に集中している。 本稿では,色に合わせてメッシュの再構築に焦点を移す。 我々は、リライトネットワークを介してボリュームレンダリング性能を維持しながら、ビュー依存色をニューラルボリュームレンダリングから除去する。 表面の符号付き距離関数(SDF)ネットワークからメッシュを抽出し、グローバルカラーネットワークから各表面頂点の色を描画する。 提案手法を評価するため,照明条件に多数の閉塞や劇的な変化を伴う手動物体スキャンタスクを考案した。 このタスクのためにいくつかのビデオを集めましたが、結果はメッシュをカラーで再構築できる既存の方法よりも優れています。 さらに,DTU,BlendedMVS,OmniObject3Dなどの公開データセットを用いて評価を行った。 その結果,本手法はすべてのデータセットに対して良好に動作することがわかった。 プロジェクトページ: https://colmar-zlicheng.github.io/color_neus。

The reconstruction of object surfaces from multi-view images or monocular video is a fundamental issue in computer vision. However, much of the recent research concentrates on reconstructing geometry through implicit or explicit methods. In this paper, we shift our focus towards reconstructing mesh in conjunction with color. We remove the view-dependent color from neural volume rendering while retaining volume rendering performance through a relighting network. Mesh is extracted from the signed distance function (SDF) network for the surface, and color for each surface vertex is drawn from the global color network. To evaluate our approach, we conceived a in hand object scanning task featuring numerous occlusions and dramatic shifts in lighting conditions. We've gathered several videos for this task, and the results surpass those of any existing methods capable of reconstructing mesh alongside color. Additionally, our method's performance was assessed using public datasets, including DTU, BlendedMVS, and OmniObject3D. The results indicated that our method performs well across all these datasets. Project page: https://colmar-zlicheng.github.io/color_neus.
翻訳日:2023-08-15 14:17:19 公開日:2023-08-14
# グラフ構造残基:診断への学習的アプローチ

Graph Structural Residuals: A Learning Approach to Diagnosis ( http://arxiv.org/abs/2308.06961v1 )

ライセンス: Link先を確認
Jan Lukas Augustin and Oliver Niggemann(参考訳) 従来のモデルベースの診断は、明示的なシステムモデルの構築に依存している。 本稿では,モデルに基づく診断の概念と深層グラフ構造学習を組み合わせた新しいフレームワークを提案する。 このデータ駆動アプローチは、データを活用してシステムの基盤構造を学習し、2つの異なるグラフ隣接行列で表される動的な観察を提供する。 私たちの研究は3つの大きな貢献によって、グラフ構造学習とモデルベース診断のシームレスな統合を促進します。 (i)システム表現・観測・故障の構成を再定義すること (ii)自己教師付きグラフ構造学習モデルアーキテクチャの2つの異なるバージョンの導入と導入 3) 結合振動子系の実験により, データ駆動型診断法の可能性を実証した。

Traditional model-based diagnosis relies on constructing explicit system models, a process that can be laborious and expertise-demanding. In this paper, we propose a novel framework that combines concepts of model-based diagnosis with deep graph structure learning. This data-driven approach leverages data to learn the system's underlying structure and provide dynamic observations, represented by two distinct graph adjacency matrices. Our work facilitates a seamless integration of graph structure learning with model-based diagnosis by making three main contributions: (i) redefining the constructs of system representation, observations, and faults (ii) introducing two distinct versions of a self-supervised graph structure learning model architecture and (iii) demonstrating the potential of our data-driven diagnostic method through experiments on a system of coupled oscillators.
翻訳日:2023-08-15 14:17:04 公開日:2023-08-14
# グラフレベルタスクのための微調整済みグラフニューラルネットワークの探索

Search to Fine-tune Pre-trained Graph Neural Networks for Graph-level Tasks ( http://arxiv.org/abs/2308.06960v1 )

ライセンス: Link先を確認
Zhili Wang, Shimin Di, Lei Chen, Xiaofang Zhou(参考訳) 近年、グラフニューラルネットワーク(GNN)は多くのグラフ関連タスクにおいて前例のない成功を収めている。 しかし、GNNは他のニューラルネットワークのようにラベル不足の問題に直面している。 このように、近年の取り組みでは、大規模未ラベルグラフ上でGNNを事前訓練し、未ラベルグラフからの知識を目標下流タスクに適応させようとしている。 この適応は、学習済みのGNNをラベル付きデータに限定して微調整することで達成される。 微調整の重要性にもかかわらず、現在のGNNの事前訓練作業は、転送された知識を活用し、下流タスクのパフォーマンスを改善するための優れた微調整戦略を無視することが多い。 事前訓練されたGNNのより優れた微調整戦略を調査する作業はごくわずかである。 しかし、彼らの設計は強い仮定を持つか、さまざまな下流のデータセットでデータ認識の問題を見落としている。 そこで本論文では,モデル性能を改善するために,事前学習したGNNに対して,より優れた微調整戦略を設計することを目的とする。 事前学習したGNNを前提として、グラフレベルタスク(S2PGNN)のための微調整済みグラフニューラルネットワークを探索し、ダウンストリームタスク上のラベル付きデータに適した微調整フレームワークを適応的に設計する。 微調整戦略の探索によってもたらされる改善を確実にするために,gnnに適した微調整フレームワークの適切な検索空間を慎重に要約する。 実験により、S2PGNNは10の有名な訓練済みGNNの上位に実装でき、その性能を継続的に改善できることが示された。 さらに、S2PGNNは、GNNエリア内外の既存の微調整戦略よりも優れたパフォーマンスを実現している。 我々のコードは \url{https://anonymous.4open.science/r/code_icde2024-A9CB/} で公開されている。

Recently, graph neural networks (GNNs) have shown its unprecedented success in many graph-related tasks. However, GNNs face the label scarcity issue as other neural networks do. Thus, recent efforts try to pre-train GNNs on a large-scale unlabeled graph and adapt the knowledge from the unlabeled graph to the target downstream task. The adaptation is generally achieved by fine-tuning the pre-trained GNNs with a limited number of labeled data. Despite the importance of fine-tuning, current GNNs pre-training works often ignore designing a good fine-tuning strategy to better leverage transferred knowledge and improve the performance on downstream tasks. Only few works start to investigate a better fine-tuning strategy for pre-trained GNNs. But their designs either have strong assumptions or overlook the data-aware issue for various downstream datasets. Therefore, we aim to design a better fine-tuning strategy for pre-trained GNNs to improve the model performance in this paper. Given a pre-trained GNN, we propose to search to fine-tune pre-trained graph neural networks for graph-level tasks (S2PGNN), which adaptively design a suitable fine-tuning framework for the given labeled data on the downstream task. To ensure the improvement brought by searching fine-tuning strategy, we carefully summarize a proper search space of fine-tuning framework that is suitable for GNNs. The empirical studies show that S2PGNN can be implemented on the top of 10 famous pre-trained GNNs and consistently improve their performance. Besides, S2PGNN achieves better performance than existing fine-tuning strategies within and outside the GNN area. Our code is publicly available at \url{https://anonymous.4open.science/r/code_icde2024-A9CB/}.
翻訳日:2023-08-15 14:16:54 公開日:2023-08-14
# データによる予防ケアの配置と糖尿病II型への応用

Data-Driven Allocation of Preventive Care With Application to Diabetes Mellitus Type II ( http://arxiv.org/abs/2308.06959v1 )

ライセンス: Link先を確認
Mathias Kraus, Stefan Feuerriegel, Maytal Saar-Tsechansky(参考訳) 問題定義。 医療費の増加は、効果的な疾患予防の重要性を強調している。 しかし,予防ケアのための意思決定モデルは欠落している。 メソッド/結果。 本稿では,リスクのある患者に対する予防治療の費用対効果を決定するためのデータ駆動型意思決定モデルを開発する。 具体的には、カウンターファクト推論、機械学習、最適化技術を組み合わせて、現代の電子健康記録に見られるような高次元医療データを活用できるスケーラブルな決定モデルを構築します。 本決定モデルは糖尿病前患者89,191例の電子健康記録に基づいて評価した。 我々は,データ駆動決定モデルによって規定される予防的治療(メタホルミン)の割り当てを,現在の実践と比較する。 私たちのアプローチが米国の人口に適用されれば、年間11億ドルの貯蓄が得られる。 最後に、様々な予算レベルでコスト効率を分析する。 マネージャの意味。 本研究は,健康管理における意思決定を支援し,低コストで効果的な疾病予防を実現することを目的としている。 重要なことに、われわれの決定モデルは汎用的であり、他の予防可能な疾患に対する予防的ケアの効果的な割り当てに使用できる。

Problem Definition. Increasing costs of healthcare highlight the importance of effective disease prevention. However, decision models for allocating preventive care are lacking. Methodology/Results. In this paper, we develop a data-driven decision model for determining a cost-effective allocation of preventive treatments to patients at risk. Specifically, we combine counterfactual inference, machine learning, and optimization techniques to build a scalable decision model that can exploit high-dimensional medical data, such as the data found in modern electronic health records. Our decision model is evaluated based on electronic health records from 89,191 prediabetic patients. We compare the allocation of preventive treatments (metformin) prescribed by our data-driven decision model with that of current practice. We find that if our approach is applied to the U.S. population, it can yield annual savings of $1.1 billion. Finally, we analyze the cost-effectiveness under varying budget levels. Managerial Implications. Our work supports decision-making in health management, with the goal of achieving effective disease prevention at lower costs. Importantly, our decision model is generic and can thus be used for effective allocation of preventive care for other preventable diseases.
翻訳日:2023-08-15 14:16:27 公開日:2023-08-14
# cemb-sam: 異種データセットからの共同学習のための条件埋め込み型セグメントanyモデル

CEmb-SAM: Segment Anything Model with Condition Embedding for Joint Learning from Heterogeneous Datasets ( http://arxiv.org/abs/2308.06957v1 )

ライセンス: Link先を確認
Dongik Shin, Beomsuk Kim and Seungjun Baek(参考訳) 超音波画像の自動分割は医療専門家の診断と治療の助けとなる。 超音波の共通モードを用いるが、例えば、異なる解剖学的構造や悪性度の異なる病変を分割するために、通常は別々のデータセットが必要である。 本稿では,ヘテロジニアスデータセットから共同で学習する問題を考察し,データセット間の固有の変動性を活用し,一般化能力の向上を図る。 異種データセットを1つのデータセットにマージし、各コンポーネントデータセットをサブグループとして参照します。 モデルが各サブグループに適応できるように,単一セグメンテーションモデルをトレーニングすることを提案する。 堅牢なセグメンテーションのために、我々は最近提案されたセグメンテーションモデル(SAM)を活用し、サブグループ情報をモデルに組み込む。 本稿では,サブグループ条件を符号化し,SAMのイメージ埋め込みと組み合わせた条件埋め込みブロック(CEmb-SAM)を提案する。 条件埋め込みブロックは、正規化のための学習可能なパラメータを通してデータセット特性を組み込むことにより、SAMを各画像サブグループに効果的に適応させる。 実験の結果,CEmb-SAMは末梢神経および乳癌に対する超音波画像分割法において,ベースライン法よりも優れていた。 この実験は、医療画像セグメンテーションタスクにおける異種データセットからの学習におけるCemb-SAMの有効性を強調した。

Automated segmentation of ultrasound images can assist medical experts with diagnostic and therapeutic procedures. Although using the common modality of ultrasound, one typically needs separate datasets in order to segment, for example, different anatomical structures or lesions with different levels of malignancy. In this paper, we consider the problem of jointly learning from heterogeneous datasets so that the model can improve generalization abilities by leveraging the inherent variability among datasets. We merge the heterogeneous datasets into one dataset and refer to each component dataset as a subgroup. We propose to train a single segmentation model so that the model can adapt to each sub-group. For robust segmentation, we leverage recently proposed Segment Anything model (SAM) in order to incorporate sub-group information into the model. We propose SAM with Condition Embedding block (CEmb-SAM) which encodes sub-group conditions and combines them with image embeddings from SAM. The conditional embedding block effectively adapts SAM to each image sub-group by incorporating dataset properties through learnable parameters for normalization. Experiments show that CEmb-SAM outperforms the baseline methods on ultrasound image segmentation for peripheral nerves and breast cancer. The experiments highlight the effectiveness of Cemb-SAM in learning from heterogeneous datasets in medical image segmentation tasks.
翻訳日:2023-08-15 14:16:14 公開日:2023-08-14
# 画像検索とリグレードに必要なのは、グローバルな機能

Global Features are All You Need for Image Retrieval and Reranking ( http://arxiv.org/abs/2308.06954v1 )

ライセンス: Link先を確認
Shihao Shao, Kaifeng Chen, Arjun Karpur, Qinghua Cui, Andre Araujo, and Bingyi Cao(参考訳) 粗い画像検索と精密な再ランクからなる2段階のパラダイムを利用して、確立された画像検索システムを形成する。 ローカル機能は次のステージ – 再ランキング – に必須であることは、長い間広く受け入れられてきましたが、これにはサイズ可能なストレージと計算能力が必要です。 我々は,まず,大域的特徴を活用した画像検索パラダイムを提案し,粗い検索と再ランク付けの両方において,正確かつ軽量な画像検索を可能にする。 すでにトレーニング済みのモデルに簡単に統合できるプラグインモジュールがいくつかあり、粗い検索と再ランクステージの両方に対応している。 この一連のアプローチは、一般化平均 (GeM) プールの研究にインスパイアされている。 これらのツールを評価することで,局所的な特徴が高速な画像検索パラダイムに不可欠であるという考えを否定しようと努力する。 広範な実験は、標準ベンチマークの最先端と比べて大幅に改善されている。 特に、Revisited Oxford (ROxford)+1M Hardデータセットでは、単一のステージの結果が8.2%向上し、2ステージのバージョンは7568倍のスピードアップで3.7%向上しました。 さらに,全スーパーグローバルを現行のsingle-stage state-of-the-art法と比較すると,0.005%のオーバーヘッドで約17%改善できた。 コード:https://github.com/ShihaoShao-GH/SuperGlobal。

Utilizing a two-stage paradigm comprising of coarse image retrieval and precise reranking, a well-established image retrieval system is formed. It has been widely accepted for long time that local feature is imperative to the subsequent stage - reranking, but this requires sizeable storage and computing capacities. We, for the first time, propose an image retrieval paradigm leveraging global feature only to enable accurate and lightweight image retrieval for both coarse retrieval and reranking, thus the name - SuperGlobal. It consists of several plug-in modules that can be easily integrated into an already trained model, for both coarse retrieval and reranking stage. This series of approaches is inspired by the investigation into Generalized Mean (GeM) Pooling. Possessing these tools, we strive to defy the notion that local feature is essential for a high-performance image retrieval paradigm. Extensive experiments demonstrate substantial improvements compared to the state of the art in standard benchmarks. Notably, on the Revisited Oxford (ROxford)+1M Hard dataset, our single-stage results improve by 8.2% absolute, while our two-stage version gain reaches 3.7% with a strong 7568X speedup. Furthermore, when the full SuperGlobal is compared with the current single-stage state-of-the-art method, we achieve roughly 17% improvement with a minimal 0.005% time overhead. Code: https://github.com/ShihaoShao-GH/SuperGlobal.
翻訳日:2023-08-15 14:15:54 公開日:2023-08-14
# Thresh: 微細テキスト評価のための統一された、カスタマイズ可能な、デプロイ可能なプラットフォーム

Thresh: A Unified, Customizable and Deployable Platform for Fine-Grained Text Evaluation ( http://arxiv.org/abs/2308.06953v1 )

ライセンス: Link先を確認
David Heineman, Yao Dou, Wei Xu(参考訳) 要約, 単純化, 機械翻訳, ニュース生成などのテキスト生成タスクを評価するための信頼性が高く, 堅牢な手法として人体評価が登場し, 得られたアノテーションは自動メトリクスのトレーニングや言語モデルの改善に有用である。 しかし、これらの評価フレームワークに実装されている既存のアノテーションツールには、異なるドメインや言語に拡張したり、ユーザのニーズに応じてアノテーション設定を変更する適応性がない。 そして、統一された注釈付きデータ形式がないことは、マルチタスク学習の研究を阻害する。 本稿では,細粒度評価のための統合化,カスタマイズ,デプロイ可能なプラットフォームであるthreshを紹介する。 yaml構成ファイルを簡単に作成することで、ユーザはあらゆるフレームワークのアノテーションインターフェースを数分で構築し、テストすることができる。 コラボレーションと共有を容易にするために、threshは、コミュニティが作成、収集する細かなフレームワークと対応するアノテーションのコレクションをホストするコミュニティハブを提供し、幅広いnlpタスクをカバーしている。 Threshは、小さな手動検査から大規模なクラウドソーシングまで、あらゆる規模のアノテーションプロジェクトに複数のオプションを提供する。 さらに,タイポロジー設計からアノテーション処理へのデプロイまで,プロセス全体を合理化するpythonライブラリも導入する。 Threshはhttps://thresh.tools.comで公開されている。

Fine-grained, span-level human evaluation has emerged as a reliable and robust method for evaluating text generation tasks such as summarization, simplification, machine translation and news generation, and the derived annotations have been useful for training automatic metrics and improving language models. However, existing annotation tools implemented for these evaluation frameworks lack the adaptability to be extended to different domains or languages, or modify annotation settings according to user needs. And the absence of a unified annotated data format inhibits the research in multi-task learning. In this paper, we introduce Thresh, a unified, customizable and deployable platform for fine-grained evaluation. By simply creating a YAML configuration file, users can build and test an annotation interface for any framework within minutes -- all in one web browser window. To facilitate collaboration and sharing, Thresh provides a community hub that hosts a collection of fine-grained frameworks and corresponding annotations made and collected by the community, covering a wide range of NLP tasks. For deployment, Thresh offers multiple options for any scale of annotation projects from small manual inspections to large crowdsourcing ones. Additionally, we introduce a Python library to streamline the entire process from typology design and deployment to annotation processing. Thresh is publicly accessible at https://thresh.tools.
翻訳日:2023-08-15 14:15:30 公開日:2023-08-14
# 雑音ラベル学習のためのチャネル間コントラスト学習

Channel-Wise Contrastive Learning for Learning with Noisy Labels ( http://arxiv.org/abs/2308.06952v1 )

ライセンス: Link先を確認
Hui Kang, Sheng Liu, Huaxi Huang, Tongliang Liu(参考訳) 実世界のデータセットでは、ノイズの多いラベルが広まっています。 ノイズラベル(LNL)で学ぶことの課題は、与えられたインスタンスから実際のクラスを識別する分類器を訓練することである。 そのため、モデルは認証ラベルを示す特徴を特定する必要がある。 研究は、本物のラベル情報は不正確なラベル付きデータの学習された特徴に埋め込まれていることを示しているが、しばしばノイズと絡み合っており、直接の応用を複雑にしている。 本稿では,チャネルワイドコントラスト学習(CWCL)を紹介する。 本手法は,多様なチャネルにまたがるコントラスト学習を行うことにより,ラベル情報とノイズを識別する。 従来のインスタンス単位のコントラスト学習(IWCL)とは異なり、CWCLはよりニュアンスでレジリエントな特徴を真のラベルと一致させる傾向にある。 まずCWCLを用いて、クリーンにラベル付けされたサンプルを識別し、次に、これらのサンプルを段階的に微調整する。 いくつかのベンチマークデータセットの評価は、既存のアプローチよりもメソッドの優位性を検証する。

In real-world datasets, noisy labels are pervasive. The challenge of learning with noisy labels (LNL) is to train a classifier that discerns the actual classes from given instances. For this, the model must identify features indicative of the authentic labels. While research indicates that genuine label information is embedded in the learned features of even inaccurately labeled data, it's often intertwined with noise, complicating its direct application. Addressing this, we introduce channel-wise contrastive learning (CWCL). This method distinguishes authentic label information from noise by undertaking contrastive learning across diverse channels. Unlike conventional instance-wise contrastive learning (IWCL), CWCL tends to yield more nuanced and resilient features aligned with the authentic labels. Our strategy is twofold: firstly, using CWCL to extract pertinent features to identify cleanly labeled samples, and secondly, progressively fine-tuning using these samples. Evaluations on several benchmark datasets validate our method's superiority over existing approaches.
翻訳日:2023-08-15 14:15:08 公開日:2023-08-14
# 循環センサデータのための深部畳み込みニューラルネットワーク

Deep convolutional neural networks for cyclic sensor data ( http://arxiv.org/abs/2308.06987v1 )

ライセンス: Link先を確認
Payman Goodarzi, Yannick Robin, Andreas Sch\"utze, Tizian Schneider(参考訳) 予測保守は、産業システムの不断の運用を確実にし、システム障害に伴う潜在的なリスクを軽減する上で重要な役割を果たす。 本研究では,センサによる条件モニタリングに焦点をあて,油圧システムテストベッドデータセットを用いた深層学習手法の適用について検討する。 本研究では,従来手法を用いたベースラインモデル,早期センサ融合を用いた単一cnnモデル,遅延センサ融合を用いた2レーンcnnモデル(2l-cnn)の3モデルの性能比較を行った。 ベースラインモデルは、各センサに対して個別に特徴抽出を行う遅延センサ融合を用いて、印象的なテストエラー率1%を達成する。 しかし、cnnモデルは様々なセンサ特性のために問題に遭遇し、エラーレートは20.5%である。 この問題をさらに調査するため,各センサに対する個別のトレーニングを行い,精度の変動を観察する。 さらに,2L-CNNモデルの性能評価を行い,最小と最適のセンサの組み合わせを考慮した場合の誤差率を33%削減し,大幅な改善を図った。 本研究は,センサベースの状態監視において,マルチセンサシステムによって生じる複雑性を効果的に解決することの重要性を強調する。

Predictive maintenance plays a critical role in ensuring the uninterrupted operation of industrial systems and mitigating the potential risks associated with system failures. This study focuses on sensor-based condition monitoring and explores the application of deep learning techniques using a hydraulic system testbed dataset. Our investigation involves comparing the performance of three models: a baseline model employing conventional methods, a single CNN model with early sensor fusion, and a two-lane CNN model (2L-CNN) with late sensor fusion. The baseline model achieves an impressive test error rate of 1% by employing late sensor fusion, where feature extraction is performed individually for each sensor. However, the CNN model encounters challenges due to the diverse sensor characteristics, resulting in an error rate of 20.5%. To further investigate this issue, we conduct separate training for each sensor and observe variations in accuracy. Additionally, we evaluate the performance of the 2L-CNN model, which demonstrates significant improvement by reducing the error rate by 33% when considering the combination of the least and most optimal sensors. This study underscores the importance of effectively addressing the complexities posed by multi-sensor systems in sensor-based condition monitoring.
翻訳日:2023-08-15 14:07:34 公開日:2023-08-14
# 高忠実性2量子ゲートを持つスピン軌道相互作用

Spin-Orbit Interaction Enabled High-Fidelity Two-Qubit Gates ( http://arxiv.org/abs/2308.06986v1 )

ライセンス: Link先を確認
Jiaan Qi, Zhi-Hai Liu and H. Q. Xu(参考訳) 半導体スピンキュービットプラットフォームにおける2量子ゲート(TQG)に対するスピン軌道相互作用(SOI)の影響について検討した。 量子ビット対を管理する交換相互作用はSOIの下では異方性であり、ハイゼンベルク交換の下で引き起こされた従来のTQGに問題がある。 SOIの下で有効2量子ハミルトニアンの簡潔な形式を開発した後、回転フレームの進化の性質を導出する。 主な観測は2つある。 まず, 過去の信念とは対照的に, 適切な量のSOIが, 制御相ゲートの忠実度をNO-SOIの場合と比較して著しく高めることが判明した。 第二に、SOIはリフレクションゲートやコントロールノットゲートのような直流進化によって従来はアクセスできない新しい2量子ダイナミクスを実現する。

We study the implications of spin-orbit interaction (SOI) for two-qubit gates (TQGs) in semiconductor spin qubit platforms. The exchange interaction governing qubit pairs is anisotropic under SOI, posing a problem for conventional TQGs derived under the Heisenberg exchange. After developing a concise form of the effective two-qubit Hamiltonian under SOI, we use it to derive properties of rotating-frame evolution. Two main observations are made. First, in contrary to past belief, we find that an appropriate amount of SOI can significantly enhance the controlled-phase gate fidelity compared to the no-SOI case. Second, SOI enables novel two-qubit dynamics, that are conventionally inaccessible through DC evolution, such as the reflection gate and the controlled-not gate.
翻訳日:2023-08-15 14:07:12 公開日:2023-08-14
# PatchContrast: 3Dオブジェクト検出のための自己監督型事前トレーニング

PatchContrast: Self-Supervised Pre-training for 3D Object Detection ( http://arxiv.org/abs/2308.06985v1 )

ライセンス: Link先を確認
Oren Shrout, Ori Nitzan, Yizhak Ben-Shabat, Ayellet Tal(参考訳) 環境中の物体を正確に検出することは、自動運転車にとって重要な課題である。 しかし、検出のための注釈付きデータを取得するのは高価で時間を要する。 3dオブジェクト検出のための新しい自己教師付きポイントクラウドプリトレーニングフレームワークpatchcontrastを紹介する。 本稿では,ラベルのないデータから識別表現を学習するために,2段階の抽象化手法を提案する。 プロポーザルレベルはオブジェクトの周囲との関係をローカライズすることを目的としているが、パッチレベルはオブジェクトのコンポーネント間の内部接続に関する情報を追加し、それによって個々のコンポーネントに基づいて異なるオブジェクトを区別する。 これらのレベルを,様々なバックボーンの自己教師付き事前学習に統合して,下流3d検出タスクを強化する方法を示す。 提案手法は3つの一般的な3次元検出データセットにおいて既存の最先端モデルよりも優れていることを示す。

Accurately detecting objects in the environment is a key challenge for autonomous vehicles. However, obtaining annotated data for detection is expensive and time-consuming. We introduce PatchContrast, a novel self-supervised point cloud pre-training framework for 3D object detection. We propose to utilize two levels of abstraction to learn discriminative representation from unlabeled data: proposal-level and patch-level. The proposal-level aims at localizing objects in relation to their surroundings, whereas the patch-level adds information about the internal connections between the object's components, hence distinguishing between different objects based on their individual components. We demonstrate how these levels can be integrated into self-supervised pre-training for various backbones to enhance the downstream 3D detection task. We show that our method outperforms existing state-of-the-art models on three commonly-used 3D detection datasets.
翻訳日:2023-08-15 14:07:00 公開日:2023-08-14
# pNNCLR: コントラスト学習に基づく教師なし表現学習問題のための確率的擬似近傍

pNNCLR: Stochastic Pseudo Neighborhoods for Contrastive Learning based Unsupervised Representation Learning Problems ( http://arxiv.org/abs/2308.06983v1 )

ライセンス: Link先を確認
Momojit Biswas, Himanshu Buckchash, Dilip K. Prasad(参考訳) Nearest neighbor(NN)サンプリングは、自己教師付き学習(SSL)に基づく画像認識問題に対する事前定義された変換よりも意味的なバリエーションを提供する。 しかし、その性能は、対照的な損失の正のサンプルを保持するサポートセットの品質によって制限される。 本研究では,SSL に最も近い手法において,サポートセットの品質が重要な役割を担っていることを示す。 次に、近隣のSSLアプローチ(NNCLR)に洗練されたベースライン(pNNCLR)を提供する。 この目的のために, 疑似近接隣人 (pNN) を導入してサポートセットの品質を制御し, 近接隣人をサンプリングする代わりに, 得られたベクトルの大きさを変化させ, 確率的サンプリング戦略を用いて, 近接隣人の近辺をサンプリングし, 性能を向上させる。 さらに,NN学習における不確実性の影響を安定化するために,提案したネットワークのトレーニングにスムーズな重み付けアプローチを採用する。 複数のパブリック画像認識および医用画像認識データセットにおける提案手法の評価は、ベースライン近傍法よりも最大8%高い性能を示し、従来提案されていたSSL法に匹敵する性能を示した。

Nearest neighbor (NN) sampling provides more semantic variations than pre-defined transformations for self-supervised learning (SSL) based image recognition problems. However, its performance is restricted by the quality of the support set, which holds positive samples for the contrastive loss. In this work, we show that the quality of the support set plays a crucial role in any nearest neighbor based method for SSL. We then provide a refined baseline (pNNCLR) to the nearest neighbor based SSL approach (NNCLR). To this end, we introduce pseudo nearest neighbors (pNN) to control the quality of the support set, wherein, rather than sampling the nearest neighbors, we sample in the vicinity of hard nearest neighbors by varying the magnitude of the resultant vector and employing a stochastic sampling strategy to improve the performance. Additionally, to stabilize the effects of uncertainty in NN-based learning, we employ a smooth-weight-update approach for training the proposed network. Evaluation of the proposed method on multiple public image recognition and medical image recognition datasets shows that it performs up to 8 percent better than the baseline nearest neighbor method, and is comparable to other previously proposed SSL methods.
翻訳日:2023-08-15 14:06:47 公開日:2023-08-14
# 知識グラフはテキストを単純化できるか?

Can Knowledge Graphs Simplify Text? ( http://arxiv.org/abs/2308.06975v1 )

ライセンス: Link先を確認
Anthony Colas, Haodi Ma, Xuanli He, Yang Bai, Daisy Zhe Wang(参考訳) 知識グラフ(KG)-テキスト生成は、与えられたKGを記述する流動的で情報的な文を生成することで、近年改善されている。 複数のドメインにまたがってkgが普及し、重要なエンティティ関連情報を含んでいるため、テキストの簡略化は原文の意味を維持しながらテキストの複雑さを減らすことを目的としているため、簡単なkgパスを構築し、元の入力の意味を保存する簡潔なテキストを生成するために、kgが確立したテクニックを混乱させる教師なしテキスト簡易化のための新しいアプローチであるkgsimpleを提案する。 反復的・サンプリング型kgファーストアプローチにより,本モデルでは,kg-to-text生成を活用しつつ,重要な情報を保持しながら,1kgから開始する際のテキストの簡易化が可能となる。 現在利用可能なkg-to-textデータセット上でのkgsimpleモデルの様々な設定を評価し、所定の複雑なテキストで始まる教師なしテキスト単純化モデルと比較してその効果を示す。 コードはgithubから入手できます。

Knowledge Graph (KG)-to-Text Generation has seen recent improvements in generating fluent and informative sentences which describe a given KG. As KGs are widespread across multiple domains and contain important entity-relation information, and as text simplification aims to reduce the complexity of a text while preserving the meaning of the original text, we propose KGSimple, a novel approach to unsupervised text simplification which infuses KG-established techniques in order to construct a simplified KG path and generate a concise text which preserves the original input's meaning. Through an iterative and sampling KG-first approach, our model is capable of simplifying text when starting from a KG by learning to keep important information while harnessing KG-to-text generation to output fluent and descriptive sentences. We evaluate various settings of the KGSimple model on currently-available KG-to-text datasets, demonstrating its effectiveness compared to unsupervised text simplification models which start with a given complex text. Our code is available on GitHub.
翻訳日:2023-08-15 14:06:26 公開日:2023-08-14
# ワンストップ3次元ターゲット再構成とマルチレベルセグメンテーション法

A One Stop 3D Target Reconstruction and multilevel Segmentation Method ( http://arxiv.org/abs/2308.06974v1 )

ライセンス: Link先を確認
Jiexiong Xu, Weikun Zhao, Zhiyan Tang and Xiangchao Gan(参考訳) 3次元オブジェクト再構成とマルチレベルセグメンテーションは、コンピュータビジョン研究の基本である。 既存のアルゴリズムは、通常、3Dシーンの再構成とターゲットオブジェクトのセグメンテーションを独立に行うが、3Dセグメンテーションの課題のため、性能が完全に保証されない。 本稿では,2次元画像上でセグメンテーションを行い,セグメンテーションラベル付き複数インスタンスを追跡し,マルチビューステレオ(mvs)またはrgbdベースの3次元再構成手法を用いてラベル付き3dオブジェクトまたは複数の部品を再構成する,オープンソースのone stop 3d target reconstruction and multilevel segmentation framework(ostra)を提案する。 オブジェクト追跡と3D再構成アルゴリズムを拡張して、連続的なセグメンテーションラベルをサポートし、2D画像セグメンテーションの進歩、特に3Dオブジェクトセグメンテーションのために、新たなシーンのトレーニングをすることなく事前トレーニングされたニューラルネットワークを使用するSegment-Anything Model(SAM)を活用する。 OSTRAは、ポイントクラウド、メッシュ、ボクセルを含む最も人気のある3Dオブジェクトモデルをサポートし、セマンティックセグメンテーション、インスタンスセグメンテーション、いくつかの3Dデータセットの部分セグメンテーションの高性能を実現する。 複雑な構造と隠蔽のシーンで手動のセグメンテーションを超越している。 提案手法は,複雑なシーンにリッチなマルチスケールセグメンテーション情報を埋め込んだ3次元ターゲットを再構成するための新しい道を開く。 OSTRAはhttps://github.com/ganlab/OSTRAから入手できる。

3D object reconstruction and multilevel segmentation are fundamental to computer vision research. Existing algorithms usually perform 3D scene reconstruction and target objects segmentation independently, and the performance is not fully guaranteed due to the challenge of the 3D segmentation. Here we propose an open-source one stop 3D target reconstruction and multilevel segmentation framework (OSTRA), which performs segmentation on 2D images, tracks multiple instances with segmentation labels in the image sequence, and then reconstructs labelled 3D objects or multiple parts with Multi-View Stereo (MVS) or RGBD-based 3D reconstruction methods. We extend object tracking and 3D reconstruction algorithms to support continuous segmentation labels to leverage the advances in the 2D image segmentation, especially the Segment-Anything Model (SAM) which uses the pretrained neural network without additional training for new scenes, for 3D object segmentation. OSTRA supports most popular 3D object models including point cloud, mesh and voxel, and achieves high performance for semantic segmentation, instance segmentation and part segmentation on several 3D datasets. It even surpasses the manual segmentation in scenes with complex structures and occlusions. Our method opens up a new avenue for reconstructing 3D targets embedded with rich multi-scale segmentation information in complex scenes. OSTRA is available from https://github.com/ganlab/OSTRA.
翻訳日:2023-08-15 14:06:07 公開日:2023-08-14
# 熟考的攻撃を伴うUAVネットワークの経路回復:強化学習に基づくアプローチ

Routing Recovery for UAV Networks with Deliberate Attacks: A Reinforcement Learning based Approach ( http://arxiv.org/abs/2308.06973v1 )

ライセンス: Link先を確認
Sijie He, Ziye Jia, Chao Dong, Wei Wang, Yilu Cao, Yang Yang, and Qihui Wu(参考訳) 無人航空機(uav)ネットワークは様々な用途のために近年人気がある。 UAVネットワークでは、ルーティングは分散ネットワークトポロジに大きく影響され、UAVが故意に損傷を受けやすいという問題に繋がる。 そこで本稿では,攻撃を伴うuavネットワークのルーティング計画と復旧について述べる。 詳細は、ノードの重要性に基づく故意攻撃モデルが、敵攻撃を表すように設計されている。 次に、ノードの度合いとリンクの重要度を考慮したノード重要度ランキング機構を示す。 しかし, 従来のUAVネットワーク方式では, リンク接続がUAVの可利用性に応じて変化するため, ルーティングの問題に対処することは困難である。 そこで,UAV攻撃時の経路回復のために,強化学習に基づくインテリジェントアルゴリズムを提案する。 シミュレーションを行い,提案手法が他の手法よりも優れた性能を検証した。

The unmanned aerial vehicle (UAV) network is popular these years due to its various applications. In the UAV network, routing is significantly affected by the distributed network topology, leading to the issue that UAVs are vulnerable to deliberate damage. Hence, this paper focuses on the routing plan and recovery for UAV networks with attacks. In detail, a deliberate attack model based on the importance of nodes is designed to represent enemy attacks. Then, a node importance ranking mechanism is presented, considering the degree of nodes and link importance. However, it is intractable to handle the routing problem by traditional methods for UAV networks, since link connections change with the UAV availability. Hence, an intelligent algorithm based on reinforcement learning is proposed to recover the routing path when UAVs are attacked. Simulations are conducted and numerical results verify the proposed mechanism performs better than other referred methods.
翻訳日:2023-08-15 14:05:36 公開日:2023-08-14
# ProofBuddy: 学習とモニタリングのためのProofアシスタント

ProofBuddy: A Proof Assistant for Learning and Monitoring ( http://arxiv.org/abs/2308.06970v1 )

ライセンス: Link先を確認
Nadine Karsten (Technische Universit\"at Berlin), Frederik Krogsdal Jacobsen (Technical University of Denmark), Kim Jana Eiken (Technische Universit\"at Berlin), Uwe Nestmann (Technische Universit\"at Berlin), J{\o}rgen Villadsen (Technical University of Denmark)(参考訳) 証明能力、すなわち(数学的な)証明を書き、チェックする能力は、コンピュータ科学において重要なスキルであるが、多くの学生にとって難しい課題である。 主な問題は、形式言語の正しい使用と、証明、特に学生自身の証明が完全で正しいかどうかの確認である。 多くの著者が証明アシスタントを用いて証明能力を教えることを提案したが、その方法の有効性は明らかでない。 そこで,本研究では,isabelle proof assistant を用いた web ベースのツールである proofbuddy について紹介する。 デンマーク工科大学でProofBuddyのユーザビリティに関する予備的な研究を行った。

Proof competence, i.e. the ability to write and check (mathematical) proofs, is an important skill in Computer Science, but for many students it represents a difficult challenge. The main issues are the correct use of formal language and the ascertainment of whether proofs, especially the students' own, are complete and correct. Many authors have suggested using proof assistants to assist in teaching proof competence, but the efficacy of the approach is unclear. To improve the state of affairs, we introduce ProofBuddy: a web-based tool using the Isabelle proof assistant which enables researchers to conduct studies of the efficacy of approaches to using proof assistants in education by collecting fine-grained data about the way students interact with proof assistants. We have performed a preliminary usability study of ProofBuddy at the Technical University of Denmark.
翻訳日:2023-08-15 14:05:21 公開日:2023-08-14
# EcomGPT:eコマースのためのChain-of-Taskタスクを用いた大規模言語モデル

EcomGPT: Instruction-tuning Large Language Model with Chain-of-Task Tasks for E-commerce ( http://arxiv.org/abs/2308.06966v1 )

ライセンス: Link先を確認
Yangning Li, Shirong Ma, Xiaobin Wang, Shen Huang, Chengyue Jiang, Hai-Tao Zheng, Pengjun Xie, Fei Huang, Yong Jiang(参考訳) 近年,ChatGPTで表される命令追従型Large Language Models (LLMs) は,自然言語処理(NLP)タスクにおいて例外的な性能を示した。 しかし、Eコマースデータの特徴は、一般のLLMにとって大きな課題となっている。 堅牢なクロスデータセット/タスクの一般化機能を持つEコマースシナリオに特化して設計されたLLMは、迫力のある必需品である。 この問題を解決するため,本研究では,約250万のインストラクションデータを持つ電子商取引指導データセットであるEcomInstructを提案する。 EcomInstructは、製品情報やユーザレビューなど、Eコマースの基本データタイプでアトミックタスクを構築することで、データサイズとタスクの多様性をスケールアップする。 アトミックタスクは、最終タスクの解決に暗黙的に関与する中間タスクとして定義されます。 バックボーンモデルBLOOMZをEcom Instructでトレーニングすることにより,パラメータスケールの異なるEcomGPTを開発した。 Chain-of-Taskタスクから得られる基本的な意味理解機能から恩恵を受け、EcomGPTは優れたゼロショット一般化能力を示す。 大規模な実験と人的評価により、E-Commerceタスクにおけるクロスデータセット/タスクの一般化の観点から、EcomGPTがChatGPTより優れていることが示された。

Recently, instruction-following Large Language Models (LLMs) , represented by ChatGPT, have exhibited exceptional performance in general Natural Language Processing (NLP) tasks. However, the unique characteristics of E-commerce data pose significant challenges to general LLMs. An LLM tailored specifically for E-commerce scenarios, possessing robust cross-dataset/task generalization capabilities, is a pressing necessity. To solve this issue, in this work, we proposed the first e-commerce instruction dataset EcomInstruct, with a total of 2.5 million instruction data. EcomInstruct scales up the data size and task diversity by constructing atomic tasks with E-commerce basic data types, such as product information, user reviews. Atomic tasks are defined as intermediate tasks implicitly involved in solving a final task, which we also call Chain-of-Task tasks. We developed EcomGPT with different parameter scales by training the backbone model BLOOMZ with the EcomInstruct. Benefiting from the fundamental semantic understanding capabilities acquired from the Chain-of-Task tasks, EcomGPT exhibits excellent zero-shot generalization capabilities. Extensive experiments and human evaluations demonstrate that EcomGPT outperforms ChatGPT in term of cross-dataset/task generalization on E-commerce tasks.
翻訳日:2023-08-15 14:05:06 公開日:2023-08-14
# AutoAssign+:ストリーミングレコメンデーションにおける自動共有埋め込みアサインメント

AutoAssign+: Automatic Shared Embedding Assignment in Streaming Recommendation ( http://arxiv.org/abs/2308.06965v1 )

ライセンス: Link先を確認
Ziru Liu, Kecheng Chen, Fengyi Song, Bo Chen, Xiangyu Zhao, Huifeng Guo, Ruiming Tang(参考訳) ストリーミングレコメンデータシステムの領域では、新しいユーザIDやアイテムIDに対処する従来の方法は、通常はランダムに初期IDの埋め込みを割り当てる。 しかし、この実践は2つの実践的な課題をもたらす。 (i) 対話データに制限のある項目又は利用者は、最適以下の予測性能が得られる。 (II)新しいIDや低周波IDの埋め込みは、埋め込みテーブルを継続的に拡張する必要があるため、不要なメモリ消費につながる。 これらの懸念を踏まえ、我々はAutoAssign+と呼ばれる強化学習駆動フレームワークを導入する。 具体的に言うと、AutoAssign+はアクターネットワークとしてIdentity Agentを使用している。 一 埋め込み初期化を高めるために、共有埋め込みの小さなセットで低周波IDをフィールド的に表現すること。 (ii) 埋め込みテーブルでどのID機能を保持または削除すべきかを動的に決定する。 エージェントのポリシーは、批評家ネットワークのガイダンスにより最適化される。 提案手法の有効性を評価するため、3つのベンチマークデータセットについて広範な実験を行った。 実験の結果,AutoAssign+はコールドスタート問題を緩和し,推奨性能を大幅に向上できることがわかった。 さらに,本フレームワークは,約20~30%のメモリ使用量の削減を実現し,ストリーミングレコメンデータシステムにおける実効性と効率性を検証する。

In the domain of streaming recommender systems, conventional methods for addressing new user IDs or item IDs typically involve assigning initial ID embeddings randomly. However, this practice results in two practical challenges: (i) Items or users with limited interactive data may yield suboptimal prediction performance. (ii) Embedding new IDs or low-frequency IDs necessitates consistently expanding the embedding table, leading to unnecessary memory consumption. In light of these concerns, we introduce a reinforcement learning-driven framework, namely AutoAssign+, that facilitates Automatic Shared Embedding Assignment Plus. To be specific, AutoAssign+ utilizes an Identity Agent as an actor network, which plays a dual role: (i) Representing low-frequency IDs field-wise with a small set of shared embeddings to enhance the embedding initialization, and (ii) Dynamically determining which ID features should be retained or eliminated in the embedding table. The policy of the agent is optimized with the guidance of a critic network. To evaluate the effectiveness of our approach, we perform extensive experiments on three commonly used benchmark datasets. Our experiment results demonstrate that AutoAssign+ is capable of significantly enhancing recommendation performance by mitigating the cold-start problem. Furthermore, our framework yields a reduction in memory usage of approximately 20-30%, verifying its practical effectiveness and efficiency for streaming recommender systems.
翻訳日:2023-08-15 14:04:42 公開日:2023-08-14
# HPFormer:ハイパースペクトル画像プロンプトオブジェクト追跡

HPFormer: Hyperspectral image prompt object tracking ( http://arxiv.org/abs/2308.07016v1 )

ライセンス: Link先を確認
Yuedong Tan(参考訳) ハイパースペクトル画像は、可視光RGB帯域を超えて豊富なスペクトル情報を含み、シーン内の物体に関する豊富な識別的詳細を提供する。 このようなデータを活用することで、ビジュアルトラッキングのパフォーマンスが向上する可能性がある。 従来のハイパースペクトルトラッカーではCNNやハイブリッドCNN-Transformerアーキテクチャが採用されていたが,HPFormer on Transformer では強力な表現学習能力を活かす新しいアプローチを提案する。 HPFormerのコアはHyperspectral Hybrid Attention (HHA)モジュールで、トークンの相互作用を通じて1つのコンポーネント内の特徴抽出と融合を統一する。 さらに、情報的対象表現を注入するための全ハイパースペクトル入力から空間詳細とスペクトル署名を選択的に集約する変換バンドモジュール(TBM)を導入する。 大規模な実験は、ベンチマークNIRおよびVIS追跡データセット上でHPFormerの最先端性能を示す。 我々の研究は、頑健な物体追跡を進めるためにトランスフォーマーとハイパースペクトル融合の強度を利用する新しい洞察を提供する。

Hyperspectral imagery contains abundant spectral information beyond the visible RGB bands, providing rich discriminative details about objects in a scene. Leveraging such data has the potential to enhance visual tracking performance. While prior hyperspectral trackers employ CNN or hybrid CNN-Transformer architectures, we propose a novel approach HPFormer on Transformers to capitalize on their powerful representation learning capabilities. The core of HPFormer is a Hyperspectral Hybrid Attention (HHA) module which unifies feature extraction and fusion within one component through token interactions. Additionally, a Transform Band Module (TBM) is introduced to selectively aggregate spatial details and spectral signatures from the full hyperspectral input for injecting informative target representations. Extensive experiments demonstrate state-of-the-art performance of HPFormer on benchmark NIR and VIS tracking datasets. Our work provides new insights into harnessing the strengths of transformers and hyperspectral fusion to advance robust object tracking.
翻訳日:2023-08-15 13:59:17 公開日:2023-08-14
# シングルコピー計測によるt$ドープ安定化状態の効率的な学習

Efficient learning of $t$-doped stabilizer states with single-copy measurements ( http://arxiv.org/abs/2308.07014v1 )

ライセンス: Link先を確認
Nai-Hui Chial, Ching-Yi Lai, Han-Hsuan Lin(参考訳) 量子状態学習の主要な目的の1つは、量子回路から生成される状態の学習に時間効率の良いアルゴリズムを開発することである。 初期の研究では、クリフォード回路から生成される状態に対して最大$\log(n)$非クリフォードゲートを持つ時間効率の良いアルゴリズムが示されている。 しかし、これらのアルゴリズムはマルチコピー計測を必要とし、必要な量子メモリのために短期的に実装上の課題を提起する。 それとは対照的に、計算ベースでのみシングルキュービットの測定を使用することは、合理的な量子後暗号仮定の下で1つの追加のT$ゲートを持つクリフォード回路の出力分布でさえ学習するには不十分である。 本研究では,Cifford回路が生成する状態を最大$O(\log n)$非Ciffordゲートで学習するために,非適応的な単一コピー測定のみを用いる効率的な量子アルゴリズムを提案する。

One of the primary objectives in the field of quantum state learning is to develop algorithms that are time-efficient for learning states generated from quantum circuits. Earlier investigations have demonstrated time-efficient algorithms for states generated from Clifford circuits with at most $\log(n)$ non-Clifford gates. However, these algorithms necessitate multi-copy measurements, posing implementation challenges in the near term due to the requisite quantum memory. On the contrary, using solely single-qubit measurements in the computational basis is insufficient in learning even the output distribution of a Clifford circuit with one additional $T$ gate under reasonable post-quantum cryptographic assumptions. In this work, we introduce an efficient quantum algorithm that employs only nonadaptive single-copy measurement to learn states produced by Clifford circuits with a maximum of $O(\log n)$ non-Clifford gates, filling a gap between the previous positive and negative results.
翻訳日:2023-08-15 13:58:59 公開日:2023-08-14
# LSMツリーを最適化する学習:動的ワークロードのための強化学習ベースのキーバリューストアを目指して

Learning to Optimize LSM-trees: Towards A Reinforcement Learning based Key-Value Store for Dynamic Workloads ( http://arxiv.org/abs/2308.07013v1 )

ライセンス: Link先を確認
Dingheng Mo, Fanchao Chen, Siqiang Luo, Caihua Shan(参考訳) LSMツリーはキーバリューストアのストレージバックエンドとして広く採用されている。 しかしながら、動的ワークロード下でのシステムパフォーマンスの最適化は、前回の作業で十分な研究や評価を受けていない。 To fill the gap, we present RusKey, a key-value store with the following new features: (1) RusKey is a first attempt to orchestrate LSM-tree structures online to enable robust performance under the context of dynamic workloads; (2) RusKey is the first study to use Reinforcement Learning (RL) to guide LSM-tree transformations; (3) RusKey includes a new LSM-tree design, named FLSM-tree, for an efficient transition between different compaction policies -- the bottleneck of dynamic key-value stores. ruskeyは最先端の技術とは対照的に,システム調整のための事前のワークロード知識を必要としない。 RusKeyはさまざまなワークロードで強いパフォーマンスの堅牢性を示し、さまざまな設定でRocksDBシステムよりも最大4倍のエンドツーエンドパフォーマンスを実現している。

LSM-trees are widely adopted as the storage backend of key-value stores. However, optimizing the system performance under dynamic workloads has not been sufficiently studied or evaluated in previous work. To fill the gap, we present RusKey, a key-value store with the following new features: (1) RusKey is a first attempt to orchestrate LSM-tree structures online to enable robust performance under the context of dynamic workloads; (2) RusKey is the first study to use Reinforcement Learning (RL) to guide LSM-tree transformations; (3) RusKey includes a new LSM-tree design, named FLSM-tree, for an efficient transition between different compaction policies -- the bottleneck of dynamic key-value stores. We justify the superiority of the new design with theoretical analysis; (4) RusKey requires no prior workload knowledge for system adjustment, in contrast to state-of-the-art techniques. Experiments show that RusKey exhibits strong performance robustness in diverse workloads, achieving up to 4x better end-to-end performance than the RocksDB system under various settings.
翻訳日:2023-08-15 13:58:41 公開日:2023-08-14
# グリーディーなオンライン変更点検出

Greedy online change point detection ( http://arxiv.org/abs/2308.07012v1 )

ライセンス: Link先を確認
Jou-Hui Ho, Felipe Tobar(参考訳) 標準オンライン変更点検出(CPD)法は、検出が外れ値に敏感であるため、大きな偽発見率を持つ傾向がある。 この欠点を克服するために,2つの独立モデルの(時間的)連結から来るデータの確率を最大化することにより,変化点を求める計算上魅力的な手法であるgreedy online change point detection (gocpd)を提案する。 一つの変化点を持つ時系列の場合、この目的は不定意であり、対数複雑性を持つ3次探索によってCDDを高速化できることを示す。 合成データに対するOCPDの有効性を実証し,実世界の一変量および多変量設定に関する知見を検証した。

Standard online change point detection (CPD) methods tend to have large false discovery rates as their detections are sensitive to outliers. To overcome this drawback, we propose Greedy Online Change Point Detection (GOCPD), a computationally appealing method which finds change points by maximizing the probability of the data coming from the (temporal) concatenation of two independent models. We show that, for time series with a single change point, this objective is unimodal and thus CPD can be accelerated via ternary search with logarithmic complexity. We demonstrate the effectiveness of GOCPD on synthetic data and validate our findings on real-world univariate and multivariate settings.
翻訳日:2023-08-15 13:58:25 公開日:2023-08-14
# ACTIVE:Universal and Robust Vehicle Evasionのための高伝達性3D物理カモフラージュを目指して

ACTIVE: Towards Highly Transferable 3D Physical Camouflage for Universal and Robust Vehicle Evasion ( http://arxiv.org/abs/2308.07009v1 )

ライセンス: Link先を確認
Naufal Suryanto, Yongsu Kim, Harashta Tatimma Larasati, Hyoeun Kang, Thi-Thu-Huong Le, Yoonyoung Hong, Hunmin Yang, Se-Yoon Oh, Howon Kim(参考訳) 敵対的なカモフラージュは、物体の表面全体を覆い隠して、あらゆる視点から物体検出器を攻撃する能力に注意を向けている。 しかし、トランスファー可能性の側面が見過ごされているため、既存のメソッドの普遍性と堅牢性はしばしば不足し、性能が制限された特定のターゲットにのみアプリケーションを制限する。 これらの課題に対処するために、我々は、あらゆる3D車両を検出器から隠蔽できる普遍的で堅牢な対向カモフラージュを生成するように設計された最先端の物理的カモフラージュ攻撃フレームワーク、Transferable and Intensive Vehicle Evasion (ACTIVE)を提示する。 本フレームワークは, 共通テクスチャを特定のテクスチャマップに拘束されることなく, 異なる車両に適用可能な改良されたテクスチャレンダリング, 車両を検出不能にする新しいステルスロス, 対向カモフラージュの自然性を高めるスムーズでカモフラージュロスといった, 普遍性とロバスト性を高める革新的な手法を取り入れている。 我々の15の異なるモデルに関する広範な実験は、最新のyolov7を含む様々なパブリック検出器の既存の作品を一貫して上回っていることを示している。 特に、私たちの普遍性評価は、他の車種、タスク(セグメンテーションモデル)、そして現実世界への有望な転送可能性を明らかにします。

Adversarial camouflage has garnered attention for its ability to attack object detectors from any viewpoint by covering the entire object's surface. However, universality and robustness in existing methods often fall short as the transferability aspect is often overlooked, thus restricting their application only to a specific target with limited performance. To address these challenges, we present Adversarial Camouflage for Transferable and Intensive Vehicle Evasion (ACTIVE), a state-of-the-art physical camouflage attack framework designed to generate universal and robust adversarial camouflage capable of concealing any 3D vehicle from detectors. Our framework incorporates innovative techniques to enhance universality and robustness: a refined texture rendering that enables common texture application to different vehicles without being constrained to a specific texture map, a novel stealth loss that renders the vehicle undetectable, and a smooth and camouflage loss to enhance the naturalness of the adversarial camouflage. Our extensive experiments on 15 different models show that ACTIVE consistently outperforms existing works on various public detectors, including the latest YOLOv7. Notably, our universality evaluations reveal promising transferability to other vehicle classes, tasks (segmentation models), and the real world, not just other vehicles.
翻訳日:2023-08-15 13:58:13 公開日:2023-08-14
# 雑音型リーダ・フォロワオピニオンダイナミクスにおける分極最小化

Minimizing Polarization in Noisy Leader-Follower Opinion Dynamics ( http://arxiv.org/abs/2308.07008v1 )

ライセンス: Link先を確認
Wanyue Xu and Zhongzhi Zhang(参考訳) エッジを作成する操作は、関連する意見ダイナミクスの量を最適化するために広く適用されてきた。 本稿では,ノードがn$,エッジがm$,ノードがq$,ノードがq$,ノードがn〜q$,ノードがフォロワである,うるさいソーシャルネットワークにおいて,リーダ-フォロワーの意見ダイナミクスに対する分極最適化の問題を考える。 私たちは、すべてのリーダの意見が同じで変わらず、すべてのリーダの意見がホワイトノイズの対象となる、一般的なリーダフォローのdegrootモデルを採用しています。 偏極化は、各ノードの意見のずれをリーダーの意見から定常的分散と定義されており、これは、ノード群 $q$ と他の全てのノードとの間の効果的な抵抗 $\mathcal{r}_q$ の半減に等しい。 具体的には、ノードにインシデント毎に$k$の新たなエッジを追加することで、$\mathcal{r}_q$を最小化する問題を提案し、検討する。 目的関数は単調かつ超モジュラーであることを示す。 次に、近似係数が1-1/e$の単純なグリージーアルゴリズムを提案し、O((n-q)^3) の時間で問題を解く。 計算を高速化するために、$(1-1/e-\eps)$-approximate effective resistance $\mathcal{r}_q$ を計算する高速アルゴリズムも提供しています。 実験の結果,第2のアルゴリズムは効率的かつ効率的であることが判明した。

The operation of creating edges has been widely applied to optimize relevant quantities of opinion dynamics. In this paper, we consider a problem of polarization optimization for the leader-follower opinion dynamics in a noisy social network with $n$ nodes and $m$ edges, where a group $Q$ of $q$ nodes are leaders, and the remaining $n-q$ nodes are followers. We adopt the popular leader-follower DeGroot model, where the opinion of every leader is identical and remains unchanged, while the opinion of every follower is subject to white noise. The polarization is defined as the steady-state variance of the deviation of each node's opinion from leaders' opinion, which equals one half of the effective resistance $\mathcal{R}_Q$ between the node group $Q$ and all other nodes. Concretely, we propose and study the problem of minimizing $\mathcal{R}_Q$ by adding $k$ new edges with each incident to a node in $Q$. We show that the objective function is monotone and supermodular. We then propose a simple greedy algorithm with an approximation factor $1-1/e$ that approximately solves the problem in $O((n-q)^3)$ time. To speed up the computation, we also provide a fast algorithm to compute $(1-1/e-\eps)$-approximate effective resistance $\mathcal{R}_Q$, the running time of which is $\Otil (mk\eps^{-2})$ for any $\eps>0$, where the $\Otil (\cdot)$ notation suppresses the ${\rm poly} (\log n)$ factors. Extensive experiment results show that our second algorithm is both effective and efficient.
翻訳日:2023-08-15 13:57:41 公開日:2023-08-14
# 絡み合いに基づく離散・連続可変量子鍵分布のチャネル雑音に対するロバスト性

Robustness of entanglement-based discrete- and continuous-variable quantum key distribution against channel noise ( http://arxiv.org/abs/2308.07007v1 )

ライセンス: Link先を確認
Mikolaj Lasota, Olena Kovalenko, Vladyslav C. Usenko(参考訳) 離散可変(DV)および連続可変(CV)スキームは量子鍵分布(QKD)プロトコルの2つの主要なファミリーを構成する。 残念なことに、これらのスキームで要求される設定要素はかなり異なり、特定のアプリケーションにおける潜在的な性能を公平に比較することは、しばしば厄介であり、実験者が最適なソリューションを選択する能力を制限する。 本研究は, チャネルノイズに対する耐性の観点から, DV と CV QKD プロトコルの一般比較を行い, DV ファミリーの明確な優位性を示す。 CVQKDプロトコルにおける許容チャネルノイズと減衰の基本的境界を解析的に導出する。 また, dv qkd 設定の不完全性が得られた結果に与える影響について検討し, 現実光子源と検出器のパラメータのベンチマークを決定することにより, 理想的 cv qkd アナログよりも現実的な dv プロトコルが優れていることを示す。 以上の結果から,DV EPR方式のCV方式よりも現実的な優位性を示し,この優位性を最大化するための実践的取り組みが示唆された。

Discrete-variable (DV) and continuous-variable (CV) schemes constitute the two major families of quantum key distribution (QKD) protocols. Unfortunately, since the setup elements required by these schemes are quite different, making a fair comparison of their potential performance in particular applications is often troublesome, limiting the experimenters' capability to choose an optimal solution. In this work we perform a general comparison of the major entanglement-based DV and CV QKD protocols in terms of their resistance to the channel noise, with the otherwise perfect setup, showing the definite superiority of the DV family. We analytically derive fundamental bounds on the tolerable channel noise and attenuation for entanglement-based CV QKD protocols. We also investigate the influence of DV QKD setup imperfections on the obtained results in order to determine benchmarks for the parameters of realistic photon sources and detectors, allowing the realistic DV protocols to outperform even the ideal CV QKD analogs. Our results indicate the realistic advantage of DV EPR-based schemes over their CV counterparts and suggests the practical efforts for maximizing this advantage.
翻訳日:2023-08-15 13:57:07 公開日:2023-08-14
# Deepbet:畳み込みニューラルネットワークを用いたT1強調MRIの高速脳抽出

Deepbet: Fast brain extraction of T1-weighted MRI using Convolutional Neural Networks ( http://arxiv.org/abs/2308.07003v1 )

ライセンス: Link先を確認
Lukas Fisch, Stefan Zumdick, Carlotta Barkhau, Daniel Emden, Jan Ernsting, Ramona Leenings, Kelvin Sarink, Nils R. Winter, Benjamin Risse, Udo Dannlowski, Tim Hahn(参考訳) 磁気共鳴イメージング(MRI)データにおける脳抽出は、多くのニューロイメージング前処理パイプラインにおいて重要なセグメンテーションステップである。 イメージセグメンテーションは、ディープラーニングが近年最も大きな影響を与えた研究分野の1つであり、最小計算で高精度セグメンテーションを可能にする。 その結果、従来の脳抽出法は深層学習法に置き換えられている。 そこで我々は、191の異なる研究から得られた568 T1重み付き(T1w)MR画像と最先端深層学習法を組み合わせて、高速で高精度なDeepbet脳抽出ツールを構築した。 deepbetは2段階の予測プロセスで、最新のunetアーキテクチャであるlinknetを使用している。 これによりセグメンテーション性能が向上し、クロスバリデーション中の新たな最先端パフォーマンスが設定され、中央値のDiceスコア(DSC)が99.0%となり、アートモデルの現在の状態(DSC = 97.8%、DSC = 97.9%)を上回った。 現在の手法は外れ値に敏感であり、ディススコアは76.5%と低いが、ディープベットは全サンプルに対して96.9%のディススコアを達成している。 最後に,本モデルでは,現在の手法と比較して約10倍の速度で脳の抽出を加速し,低レベルのハードウェア上で1つの画像の処理を約2秒で行えるようにする。

Brain extraction in magnetic resonance imaging (MRI) data is an important segmentation step in many neuroimaging preprocessing pipelines. Image segmentation is one of the research fields in which deep learning had the biggest impact in recent years enabling high precision segmentation with minimal compute. Consequently, traditional brain extraction methods are now being replaced by deep learning-based methods. Here, we used a unique dataset comprising 568 T1-weighted (T1w) MR images from 191 different studies in combination with cutting edge deep learning methods to build a fast, high-precision brain extraction tool called deepbet. deepbet uses LinkNet, a modern UNet architecture, in a two stage prediction process. This increases its segmentation performance, setting a novel state-of-the-art performance during cross-validation with a median Dice score (DSC) of 99.0% on unseen datasets, outperforming current state of the art models (DSC = 97.8% and DSC = 97.9%). While current methods are more sensitive to outliers, resulting in Dice scores as low as 76.5%, deepbet manages to achieve a Dice score of > 96.9% for all samples. Finally, our model accelerates brain extraction by a factor of ~10 compared to current methods, enabling the processing of one image in ~2 seconds on low level hardware.
翻訳日:2023-08-15 13:56:46 公開日:2023-08-14
# 効率的な画像デハジングのための相互情報駆動型トリプルインタラクションネットワーク

Mutual Information-driven Triple Interaction Network for Efficient Image Dehazing ( http://arxiv.org/abs/2308.06998v1 )

ライセンス: Link先を確認
Hao Shen, Zhong-Qiu Zhao, Yulun Zhang, Zhao Zhang(参考訳) マルチステージアーキテクチャは画像デハジングにおいて有効性を示しており、通常は困難なタスクをより扱いやすいサブタスクに分解し、潜在的なハジンフリー画像を段階的に見積もる。 顕著な進歩にもかかわらず、既存の手法は、(1)周波数領域情報の限られた探索、(2)情報相互作用の不足、(3)深刻な特徴冗長性、という欠点に苦しめられている。 そこで本稿では,空間周波数デュアルドメイン情報と2段階アーキテクチャに基づく情報駆動型トリプルインタラクションネットワーク(mitnet)を提案する。 具体的には、振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。 そして、位相誘導構造と呼ばれる第2段階は、位相スペクトルの変換と微細化を学ぶことに熱心である。 2段階間の情報交換を容易にするため、アダプティブ・トリプル・インタラクション・モジュール(ATIM)が開発され、クロスドメイン、クロススケール、クロスステージの機能を同時に集約する。 さらに,両段からペア化スケールエンコーダとデコーダ機能に対して,相互情報最小化制約を課す。 このような操作は、情報冗長性を効果的に低減し、段間特徴相補性を高める。 複数の公開データセットに関する大規模な実験によると、私たちのMITNetは、より低いモデルの複雑さで優れたパフォーマンスを発揮しています。

Multi-stage architectures have exhibited efficacy in image dehazing, which usually decomposes a challenging task into multiple more tractable sub-tasks and progressively estimates latent hazy-free images. Despite the remarkable progress, existing methods still suffer from the following shortcomings: (1) limited exploration of frequency domain information; (2) insufficient information interaction; (3) severe feature redundancy. To remedy these issues, we propose a novel Mutual Information-driven Triple interaction Network (MITNet) based on spatial-frequency dual domain information and two-stage architecture. To be specific, the first stage, named amplitude-guided haze removal, aims to recover the amplitude spectrum of the hazy images for haze removal. And the second stage, named phase-guided structure refined, devotes to learning the transformation and refinement of the phase spectrum. To facilitate the information exchange between two stages, an Adaptive Triple Interaction Module (ATIM) is developed to simultaneously aggregate cross-domain, cross-scale, and cross-stage features, where the fused features are further used to generate content-adaptive dynamic filters so that applying them to enhance global context representation. In addition, we impose the mutual information minimization constraint on paired scale encoder and decoder features from both stages. Such an operation can effectively reduce information redundancy and enhance cross-stage feature complementarity. Extensive experiments on multiple public datasets exhibit that our MITNet performs superior performance with lower model complexity.The code and models are available at https://github.com/it-hao/MITNet.
翻訳日:2023-08-15 13:56:19 公開日:2023-08-14
# ゲート可変インダクタンスパラメトリック増幅器

Gate-tunable kinetic inductance parametric amplifier ( http://arxiv.org/abs/2308.06989v1 )

ライセンス: Link先を確認
Lukas Johannes Splitthoff, Jaap Joachim Wesdorp, Marta Pita-Vidal, Arno Bargerbos, Christian Kraglund Andersen(参考訳) 超伝導パラメトリック増幅器はマイクロ波周波数における量子状態の準備と読み出しにおいて重要な役割を果たし、超伝導量子ビットの高忠実度測定を可能にする。 これらの増幅器の既存の実装のほとんどは、ジョセフソン接合、超伝導量子干渉デバイスまたは乱れた超伝導体からの非線形性に依存している。 さらに、周波数チューナビリティは通常、磁束または電流バイアスから生じる。 対照的に、半導体ベースのパラメトリック増幅器は局所電場によって調整可能であり、電流やフラックスバイアスよりも低温設定に熱負荷が小さくなり、他のオンチップ量子システムへのクロストークが消滅する。 本研究では,ジョセフソン接合を使わずに動作可能なゲート可変パラメトリック増幅器を提案する。 この設計は、20dB以上のゲインと30MHzのゲインバンド幅の製品を備えた、ほぼ量子制限性能を実現する。 ジョセフソン接合の欠如は、-120dbmのかなりの飽和力、500 mtまでの磁場互換性、および15mhzの範囲での周波数可変性などの利点をもたらす。 パラメトリック増幅器の実現は、ゲート制御超伝導エレクトロニクスへの取り組みを補い、半導体および超伝導量子デバイスの高性能量子測定能力をさらに向上させる。

Superconducting parametric amplifiers play a crucial role in the preparation and readout of quantum states at microwave frequencies, enabling high-fidelity measurements of superconducting qubits. Most existing implementations of these amplifiers rely on the nonlinearity from Josephson junctions, superconducting quantum interference devices or disordered superconductors. Additionally, frequency tunability arises typically from either flux or current biasing. In contrast, semiconductor-based parametric amplifiers are tunable by local electric fields, which impose a smaller thermal load on the cryogenic setup than current and flux biasing and lead to vanishing crosstalk to other on-chip quantum systems. In this work, we present a gate-tunable parametric amplifier that operates without Josephson junctions, utilizing a proximitized semiconducting nanowire. This design achieves near-quantum-limited performance, featuring more than 20 dB gain and a 30 MHz gain-bandwidth product. The absence of Josephson junctions allows for advantages, including substantial saturation powers of -120dBm, magnetic field compatibility up to 500 mT and frequency tunability over a range of 15 MHz. Our realization of a parametric amplifier supplements efforts towards gate-controlled superconducting electronics, further advancing the abilities for high-performing quantum measurements of semiconductor-based and superconducting quantum devices.
翻訳日:2023-08-15 13:55:51 公開日:2023-08-14
# 絶対最大絡み合う状態に対するテンソルネットワーク分解

Tensor network decompositions for absolutely maximally entangled states ( http://arxiv.org/abs/2308.07042v1 )

ライセンス: Link先を確認
Bal\'azs Pozsgay and Ian M. Wanless(参考訳) 絶対的に極大エンタングルド状態(AME state of $k$ qudits、完全テンソルとも呼ばれる)は、全ての部位/部位の最大エンタングルメントを持つ量子状態である。 我々は、そのような状態が少数のテンソルを持つテンソルネットワークに分解できるかどうかという問題を考える。 AME状態が$k=6$のとき、3つの4レグテンソルしか持たないネットワークに分解できることが分かり、局所次元$D=5$以上の具体的な解を提供する。 その結果、6つのパーティを持つAME状態は、3つのベル対の積状態からたった3つの2サイトユニタリ、またはそれに相当する6つの2サイトユニタリで生成可能であることが示唆された。 また、$k=8$ の問題を考えると、6つの4脚テンソルを持つ類似のテンソルネットワーク分解が見つかる。

Absolutely maximally entangled (AME) states of $k$ qudits (also known as perfect tensors) are quantum states that have maximal entanglement for all possible bipartitions of the sites/parties. We consider the problem of whether such states can be decomposed into a tensor network with a small number of tensors, such that all physical and all auxiliary spaces have the same dimension $D$. We find that certain AME states with $k=6$ can be decomposed into a network with only three 4-leg tensors; we provide concrete solutions for local dimension $D=5$ and higher. Our result implies that certain AME states with six parties can be created with only three two-site unitaries from a product state of three Bell pairs, or equivalently, with six two-site unitaries acting on a product state on six qudits. We also consider the problem for $k=8$, where we find similar tensor network decompositions with six 4-leg tensors.
翻訳日:2023-08-15 13:49:30 公開日:2023-08-14
# 流体知能の最小計算基板

The minimal computational substrate of fluid intelligence ( http://arxiv.org/abs/2308.07039v1 )

ライセンス: Link先を確認
Amy PK Nelson, Joe Mole, Guilherme Pombo, Robert J Gray, James K Ruffle, Edgar Chan, Geraint E Rees, Lisa Cipolotti, Parashkev Nachev(参考訳) 認知能力の定量化は、それに依存する行動的タスクの特定にかかっている。 このような依存は保証できないが、タスクが呼び出す権限は事前操作を実験的に制御したり制約したりすることはできず、結果として特異性と一般化性の失敗に対する未知の脆弱性が生じる。 流体インテリジェンス検査に広く用いられているRaven's Advanced Progressive Matrices (RAPM) のコンパクト版を評価することで,自然環境シーンの部分的にマスキングされた画像の完成にのみ焦点を絞った自己教師型ニューラルネットワークであるLaMaが,タスク固有の帰納的バイアスやトレーニングを伴わずに,ヒトレベルのテストスコアをプリマビスタとすることを示した。 健常者および有歯顎者のコホートと比較すると、lamaはアイテム難易度を伴うヒト様の変動を示し、グローバルな空間パターンの統合能力の低下により右前頭葉損傷に特徴的な誤りを生じる。 ラマの狭い訓練と制限された能力 -- ショウジョウバエの神経系に匹敵する -- は、必ずしも抽象的な推論を呼び出す必要のない計算的な単純な解に開放される可能性がある。

The quantification of cognitive powers rests on identifying a behavioural task that depends on them. Such dependence cannot be assured, for the powers a task invokes cannot be experimentally controlled or constrained a priori, resulting in unknown vulnerability to failure of specificity and generalisability. Evaluating a compact version of Raven's Advanced Progressive Matrices (RAPM), a widely used clinical test of fluid intelligence, we show that LaMa, a self-supervised artificial neural network trained solely on the completion of partially masked images of natural environmental scenes, achieves human-level test scores a prima vista, without any task-specific inductive bias or training. Compared with cohorts of healthy and focally lesioned participants, LaMa exhibits human-like variation with item difficulty, and produces errors characteristic of right frontal lobe damage under degradation of its ability to integrate global spatial patterns. LaMa's narrow training and limited capacity -- comparable to the nervous system of the fruit fly -- suggest RAPM may be open to computationally simple solutions that need not necessarily invoke abstract reasoning.
翻訳日:2023-08-15 13:49:10 公開日:2023-08-14
# ベイズ流ネットワーク

Bayesian Flow Networks ( http://arxiv.org/abs/2308.07037v1 )

ライセンス: Link先を確認
Alex Graves, Rupesh Kumar Srivastava, Timothy Atkinson, Faustino Gomez(参考訳) 本稿では,独立した分布の集合のパラメータを,ノイズデータサンプルに照らしてベイズ推論によって修正し,第2の相互依存分布を出力するニューラルネットワークに入力として渡す,新たな階層生成モデルであるベイズフローネットワーク(bfns)を提案する。 単純な事前および反復的に2つの分布を更新することから、拡散モデルの逆過程に類似した生成手順が得られるが、前方過程を必要としないという概念的には単純である。 離散時間および連続時間損失関数は、サンプル生成手順とともに、連続、離散化、離散データに対して導出される。 特に、離散データに対するネットワーク入力は確率単純度に基づいており、したがってネイティブに微分可能であり、勾配に基づくサンプルガイダンスや言語モデリングのような離散領域における数ステップ生成の道を開く。 損失関数はデータ圧縮を直接最適化し、ネットワークアーキテクチャに制限を課さない。 実験では,動的二項化MNISTとCIFAR-10を用いた画像モデリングにおいて,BFNは競合する対数類似度を実現し,テキスト8文字レベルの言語モデリングタスクにおいて,既知の離散拡散モデルよりも優れていた。

This paper introduces Bayesian Flow Networks (BFNs), a new class of generative model in which the parameters of a set of independent distributions are modified with Bayesian inference in the light of noisy data samples, then passed as input to a neural network that outputs a second, interdependent distribution. Starting from a simple prior and iteratively updating the two distributions yields a generative procedure similar to the reverse process of diffusion models; however it is conceptually simpler in that no forward process is required. Discrete and continuous-time loss functions are derived for continuous, discretised and discrete data, along with sample generation procedures. Notably, the network inputs for discrete data lie on the probability simplex, and are therefore natively differentiable, paving the way for gradient-based sample guidance and few-step generation in discrete domains such as language modelling. The loss function directly optimises data compression and places no restrictions on the network architecture. In our experiments BFNs achieve competitive log-likelihoods for image modelling on dynamically binarized MNIST and CIFAR-10, and outperform all known discrete diffusion models on the text8 character-level language modelling task.
翻訳日:2023-08-15 13:48:47 公開日:2023-08-14
# ランク順符号化を用いたノイズニューラル通信における因果的トレードオフ

An Inherent Trade-Off in Noisy Neural Communication with Rank-Order Coding ( http://arxiv.org/abs/2308.07034v1 )

ライセンス: Link先を確認
Ibrahim Alsolami and Tomoki Fukai(参考訳) テンポラルコーディングの一種であるランクオーダーコーディングは、哺乳類の脳の急速な能力を説明するための有望なスキームとして登場した。 その速度と効率性により、階級順のコーディングは神経科学以外の様々な研究分野にますます関心を寄せている。 しかし、ノイズ下での階数符号化の性能については、まだ多くの不確実性が存在する。 ここでは、どのような情報レートが基本的に可能か、どのようなトレードオフがかかっているかを示す。 この論文で予期せぬ発見は、ノイズを少なくして増加する特別なエラーのクラスが出現することである。

Rank-order coding, a form of temporal coding, has emerged as a promising scheme to explain the rapid ability of the mammalian brain. Owing to its speed as well as efficiency, rank-order coding is increasingly gaining interest in diverse research areas beyond neuroscience. However, much uncertainty still exists about the performance of rank-order coding under noise. Herein we show what information rates are fundamentally possible and what trade-offs are at stake. An unexpected finding in this paper is the emergence of a special class of errors that, in a regime, increase with less noise.
翻訳日:2023-08-15 13:48:06 公開日:2023-08-14
# S3IM:確率的構造類似性とそのニューラルネットワークへの適用性

S3IM: Stochastic Structural SIMilarity and Its Unreasonable Effectiveness for Neural Fields ( http://arxiv.org/abs/2308.07032v1 )

ライセンス: Link先を確認
Zeke Xie, Xindi Yang, Yujie Yang, Qi Sun, Yixiang Jiang, Haoran Wang, Yunfeng Cai, Mingming Sun(参考訳) 近年,Neural Radiance Field (NeRF) は,RGB画像のみを用いた暗黙の表現を学習することにより,シーンの新規ビュー画像のレンダリングに成功している。 nerfおよび関連するニューラルフィールド法(例えば、神経表面表現)は、通常、ポイントワイズ損失を最適化し、1つのデータポイントが1ピクセルに対応するポイントワイズ予測を行う。 残念なことに、この一連の研究は、画像やシーンのピクセルが豊富な構造情報を提供できることは知られているが、遠方のピクセルの集合的な監視を使わなかった。 我々の知る限りでは、我々は、複数の入力を個別に処理するのではなく、集合全体として複数のデータポイントを処理する新しい確率的構造シミュラリティ(S3IM)損失により、NeRFおよび関連するニューラルネットワークメソッドのための非局所多重化トレーニングパラダイムを最初に設計した。 我々は, ほぼ自由なNeRFおよび神経表面表現の改善におけるS3IMの有効性を実証した。 例えば、テストMSEの損失は8つの新しいビュー合成タスクに対して、TensoRFとDVGOの90%以上減少し、198%のFスコアゲインと64%のChamfer $L_{1}$のNuSの8つの表面再構成タスクに対する距離削減である。 さらに、S3IMはスパース入力、劣化画像、ダイナミックシーンでも一貫して堅牢である。

Recently, Neural Radiance Field (NeRF) has shown great success in rendering novel-view images of a given scene by learning an implicit representation with only posed RGB images. NeRF and relevant neural field methods (e.g., neural surface representation) typically optimize a point-wise loss and make point-wise predictions, where one data point corresponds to one pixel. Unfortunately, this line of research failed to use the collective supervision of distant pixels, although it is known that pixels in an image or scene can provide rich structural information. To the best of our knowledge, we are the first to design a nonlocal multiplex training paradigm for NeRF and relevant neural field methods via a novel Stochastic Structural SIMilarity (S3IM) loss that processes multiple data points as a whole set instead of process multiple inputs independently. Our extensive experiments demonstrate the unreasonable effectiveness of S3IM in improving NeRF and neural surface representation for nearly free. The improvements of quality metrics can be particularly significant for those relatively difficult tasks: e.g., the test MSE loss unexpectedly drops by more than 90% for TensoRF and DVGO over eight novel view synthesis tasks; a 198% F-score gain and a 64% Chamfer $L_{1}$ distance reduction for NeuS over eight surface reconstruction tasks. Moreover, S3IM is consistently robust even with sparse inputs, corrupted images, and dynamic scenes.
翻訳日:2023-08-15 13:47:50 公開日:2023-08-14
# 最大多成分ランダム性に対する拡大二成分ベル不等式

Expanding bipartite Bell inequalities for maximum multi-partite randomness ( http://arxiv.org/abs/2308.07030v1 )

ライセンス: Link先を確認
Lewis Wooltorton and Peter Brown and Roger Colbeck(参考訳) 多部量子相関の非局所的なテストは、デバイス非依存(DI)方式でランダム性を証明するプロトコルの基礎を形成する。 このような相関は構造が豊かであり、適切なテストを選択する作業が困難になる。 例えば、極端ベルの不等式は非局所性の厳密な証人であるが、その最大違反は基礎となる量子系に制約を課し、乱数生成の速度を減少させる。 その結果、最大ランダム性と与えられたベルの不等式に違反する量との間には、しばしばトレードオフが生じる。 ここでは、このトレードオフを2つ以上の政党で検討する。 より正確には、Mermin-Ardehali-Belinskii-Klyshko(MABK)不等式に違反する相関関係によって証明できるランダム性の最大値について検討する。 最大量子違反と最大ランダム性は、任意の数のパーティで互換性がなく、パーティの数が増えるにつれて互換性が低下し、正確なトレードオフが予想される。 また,奇数個に対する最大ランダム性には最大mabk違反は不要であることを示した。 この結果を得るために,ベル不等式を最大ランダム性証明する新たなファミリーを,"拡張ベル不等式"と呼ぶランダム性認証技術から導出した。 本手法は,二部的ベル表現(シード)をランダム性認定用に調整した多部的ベル不等式に変換し,二部的ケースで学習した直観がより複雑なシナリオでどのように使用できるかを示す。

Nonlocal tests on multipartite quantum correlations form the basis of protocols that certify randomness in a device-independent (DI) way. Such correlations admit a rich structure, making the task of choosing an appropriate test difficult. For example, extremal Bell inequalities are tight witnesses of nonlocality, however achieving their maximum violation places constraints on the underlying quantum system, which can reduce the rate of randomness generation. As a result there is often a trade-off between maximum randomness and the amount of violation of a given Bell inequality. Here, we explore this trade-off for more than two parties. More precisely, we study the maximum amount of randomness that can be certified by correlations exhibiting a violation of the Mermin-Ardehali-Belinskii-Klyshko (MABK) inequality. We find that maximum quantum violation and maximum randomness are incompatible for any even number of parties, with incompatibility diminishing as the number of parties grow, and conjecture the precise trade-off. We also show that maximum MABK violation is not necessary for maximum randomness for odd numbers of parties. To obtain our results, we derive new families of Bell inequalities certifying maximum randomness from a technique for randomness certification, which we call "expanding Bell inequalities". Our technique allows one to take a bipartite Bell expression, known as the seed, and transform it into a multipartite Bell inequality tailored for randomness certification, showing how intuition learned in the bipartite case can find use in more complex scenarios.
翻訳日:2023-08-15 13:46:44 公開日:2023-08-14
# AdvCLIP:マルチモーダルコントラスト学習におけるダウンストリーム・アグノスティック・アドバイサルの事例

AdvCLIP: Downstream-agnostic Adversarial Examples in Multimodal Contrastive Learning ( http://arxiv.org/abs/2308.07026v1 )

ライセンス: Link先を確認
Ziqi Zhou, Shengshan Hu, Minghui Li, Hangtao Zhang, Yechao Zhang, Hai Jin(参考訳) マルチモーダルコントラスト学習は、CLIPのような汎用特徴抽出器を、大量の生のラベルなしのペア画像テキストデータに基づいて訓練することを目的としている。 これは、クロスモーダルな画像テキスト検索や画像分類など、様々な複雑な下流タスクに大いに役立つ。 将来性が期待されているにもかかわらず、クロスモーダルプリトレーニングエンコーダのセキュリティ問題は、特にプリトレーニングエンコーダが商用に利用可能である場合に、まだ十分に検討されていない。 本稿では,クロスモーダルプリトレーニングエンコーダに基づく下流非依存の逆例を生成する最初の攻撃フレームワークであるadvclipを提案する。 AdvCLIPは、被害者のクロスモーダルな事前訓練エンコーダを継承する下流タスクをすべて騙すことができる、自然画像の集合に対する普遍的な逆パッチを構築することを目的としている。 異なるモダリティと未知の下流タスクの間の不均一性の課題に対処するために,まず,対象サンプルとその近傍の間の関連位置を捉えるトポロジカルグラフ構造を構築する。 そこで我々は,トポロジ決定に基づく生成逆数ネットワークを設計し,普遍的逆数パッチを生成する。 画像にパッチを追加することで、異なるモダリティに類似した埋め込みを最小化し、特徴空間内のサンプル分布を摂動させ、非標的攻撃を実現する。 その結果、8つのデータセットにわたる2種類のダウンストリームタスクに対するAdvCLIPの優れた攻撃性能が示された。 また,advclipを緩和するために3つの一般的な防御を調整し,クロスモーダルプリトレーニングエンコーダを防御するための新たな防御機構の必要性を強調した。

Multimodal contrastive learning aims to train a general-purpose feature extractor, such as CLIP, on vast amounts of raw, unlabeled paired image-text data. This can greatly benefit various complex downstream tasks, including cross-modal image-text retrieval and image classification. Despite its promising prospect, the security issue of cross-modal pre-trained encoder has not been fully explored yet, especially when the pre-trained encoder is publicly available for commercial use. In this work, we propose AdvCLIP, the first attack framework for generating downstream-agnostic adversarial examples based on cross-modal pre-trained encoders. AdvCLIP aims to construct a universal adversarial patch for a set of natural images that can fool all the downstream tasks inheriting the victim cross-modal pre-trained encoder. To address the challenges of heterogeneity between different modalities and unknown downstream tasks, we first build a topological graph structure to capture the relevant positions between target samples and their neighbors. Then, we design a topology-deviation based generative adversarial network to generate a universal adversarial patch. By adding the patch to images, we minimize their embeddings similarity to different modality and perturb the sample distribution in the feature space, achieving unviersal non-targeted attacks. Our results demonstrate the excellent attack performance of AdvCLIP on two types of downstream tasks across eight datasets. We also tailor three popular defenses to mitigate AdvCLIP, highlighting the need for new defense mechanisms to defend cross-modal pre-trained encoders.
翻訳日:2023-08-15 13:46:12 公開日:2023-08-14
# PGT-Net:小面積湿式指紋認識のためのプログレッシブガイド型マルチタスクニューラルネットワーク

PGT-Net: Progressive Guided Multi-task Neural Network for Small-area Wet Fingerprint Denoising and Recognition ( http://arxiv.org/abs/2308.07024v1 )

ライセンス: Link先を確認
Yu-Ting Li, Ching-Te Chiu, An-Ting Hsieh, Mao-Hsiu Hsu, Long Wenyong, Jui-Min Hsu(参考訳) モバイルデバイス上での指紋認識は、識別認証の重要な方法である。 しかし、実際の指紋は通常汗と湿気が含まれており、認識性能は低い。 さらに、スリムで薄い携帯電話を展開するために、テクノロジー企業はパワーボタンを埋め込むことで認識センサーのサイズを減らすことができる。 したがって、指紋データのサイズが限られると認識が困難になる。 小型の湿った指紋画像をきれいにすることは、認識性能を向上させるために不可欠である。 本稿では、エンドツーエンドのトレーニング可能なプログレッシブガイド型マルチタスクニューラルネットワーク(PGT-Net)を提案する。 PGT-Netは共有ステージと特定のマルチタスクステージを含み、ネットワークはバイナリと非バイナリの指紋を順次トレーニングすることができる。 バイナリ情報は、リッジとバレーの詳細を豊かにする出力強化のためのガイダンスと見なされている。 さらに、新たな残留スケーリング機構を導入し、トレーニングプロセスを安定化する。 FocalTechが提供するFW9395およびFT-lightnoisedデータセットの実験結果によると、PGT-Netは湿式フィンガープリントの復号化に有望な性能を示し、指紋認識率(FRR)を大幅に改善する。 FTライノ化データセットでは、指紋認証のFRRは17.75%から4.47%に低下する。 FW9395データセットでは、指紋認証のFRRを9.45%から1.09%に下げることができる。

Fingerprint recognition on mobile devices is an important method for identity verification. However, real fingerprints usually contain sweat and moisture which leads to poor recognition performance. In addition, for rolling out slimmer and thinner phones, technology companies reduce the size of recognition sensors by embedding them with the power button. Therefore, the limited size of fingerprint data also increases the difficulty of recognition. Denoising the small-area wet fingerprint images to clean ones becomes crucial to improve recognition performance. In this paper, we propose an end-to-end trainable progressive guided multi-task neural network (PGT-Net). The PGT-Net includes a shared stage and specific multi-task stages, enabling the network to train binary and non-binary fingerprints sequentially. The binary information is regarded as guidance for output enhancement which is enriched with the ridge and valley details. Moreover, a novel residual scaling mechanism is introduced to stabilize the training process. Experiment results on the FW9395 and FT-lightnoised dataset provided by FocalTech shows that PGT-Net has promising performance on the wet-fingerprint denoising and significantly improves the fingerprint recognition rate (FRR). On the FT-lightnoised dataset, the FRR of fingerprint recognition can be declined from 17.75% to 4.47%. On the FW9395 dataset, the FRR of fingerprint recognition can be declined from 9.45% to 1.09%.
翻訳日:2023-08-15 13:45:44 公開日:2023-08-14
# 任意の次元と異なる次元に対する絡み合い証人の簡単な構成

A simple construction of Entanglement Witnesses for arbitrary and different dimensions ( http://arxiv.org/abs/2308.07019v1 )

ライセンス: Link先を確認
Vahid Jannesary, Vahid Karimipour(参考訳) 異なる次元の空間間の様々な正の写像の集合を生成するための簡単なアプローチを提案する。 提案手法は,$d_1 \times d_2$次元を特徴とするシステムに適したエンタングルメントウィットネスの構築を可能にする。 また,これらの次元において,広い範囲の絡み合いウィットネスを直接生成するための代替論証も提示する。 この方法では、選択された所望の測定集合のみからなる絡み合い証人を構成できる。 具体例を用いて,本手法の有効性と一般性を示す。

We present a simple approach for generation of a diverse set of positive maps between spaces of different dimensions. The proposed method enables the construction of Entanglement Witnesses tailored for systems characterized by $d_1 \times d_2$ dimensions. We also present an alternative argument for directly generating a wide range of Entanglement Witnesses in these dimensions. With this method, it is possible to construct Entanglement Witnesses that consist solely of a chosen set of desired measurements. We demonstrate the effectiveness and generality of our approach using concrete examples.
翻訳日:2023-08-15 13:45:24 公開日:2023-08-14
# 教師なし領域適応のための対比バイプロジェクタ

Contrastive Bi-Projector for Unsupervised Domain Adaption ( http://arxiv.org/abs/2308.07017v1 )

ライセンス: Link先を確認
Lin-Chieh Huang, Hung-Hsu Tsai(参考訳) 本稿では,既存のUDA手法を改善するために,コントラッシブ・バイプロジェクタ(CBP)に基づく新しいunsupervised domain adaption(UDA)手法を提案する。 ここでCBPUDAと呼ばれ、特徴抽出器(FE)を効果的に促進し、分類とドメイン適応のための曖昧な特徴の生成を減らす。 CBPは、2つの分類器を入力特徴から2つの異なる特徴へのマッピングを行う2つのプロジェクタに置き換えるという点で、従来の2つの分類器ベースの手法とは異なる。 これら2つのプロジェクタとCBPUDAのFEは、強力な分類性能を持つように、より洗練された決定境界を得るために逆向きに訓練することができる。 提案する損失関数の2つの性質を解析した。 第1の特性は、共役予測エントロピーの上界を導出することであり、これは、提案された損失関数(CD損失)を形成するために用いられる。 CDの損失は、対照的な学習と二クラス化の利点を生かしている。 2つ目の特性は、CD損失の勾配を分析し、CD損失の欠点を克服することである。 本論文では, 勾配スケーリング (gs) 方式の開発において, 2つ目の特性を生かした。 CBPUDAのトレーニングでは、コントラスト学習と対逆学習を同時に行う必要があるため、GSスキームはCD損失の不安定な問題に対処するために利用することができる。 したがって、GSスキームによるCD損失を用いることで、上述した問題を克服し、クラス内の特徴をよりコンパクトにし、クラス間の特徴を識別できるようにする。 実験結果は,本論文で検討されている従来の uda 法よりも cbpuda が優れていることを示す。

This paper proposes a novel unsupervised domain adaption (UDA) method based on contrastive bi-projector (CBP), which can improve the existing UDA methods. It is called CBPUDA here, which effectively promotes the feature extractors (FEs) to reduce the generation of ambiguous features for classification and domain adaption. The CBP differs from traditional bi-classifier-based methods at that these two classifiers are replaced with two projectors of performing a mapping from the input feature to two distinct features. These two projectors and the FEs in the CBPUDA can be trained adversarially to obtain more refined decision boundaries so that it can possess powerful classification performance. Two properties of the proposed loss function are analyzed here. The first property is to derive an upper bound of joint prediction entropy, which is used to form the proposed loss function, contrastive discrepancy (CD) loss. The CD loss takes the advantages of the contrastive learning and the bi-classifier. The second property is to analyze the gradient of the CD loss and then overcome the drawback of the CD loss. The result of the second property is utilized in the development of the gradient scaling (GS) scheme in this paper. The GS scheme can be exploited to tackle the unstable problem of the CD loss because training the CBPUDA requires using contrastive learning and adversarial learning at the same time. Therefore, using the CD loss with the GS scheme overcomes the problem mentioned above to make features more compact for intra-class and distinguishable for inter-class. Experimental results express that the CBPUDA is superior to conventional UDA methods under consideration in this paper for UDA and fine-grained UDA tasks.
翻訳日:2023-08-15 13:45:16 公開日:2023-08-14
# 純度検出による絡み合いとコヒーレンスの定量化

Quantification of Entanglement and Coherence with Purity Detection ( http://arxiv.org/abs/2308.07068v1 )

ライセンス: Link先を確認
Ting Zhang, Graeme Smith, John A. Smolin, Lu Liu, Xu-Jie Peng, Qi Zhao, Davide Girolami, Xiongfeng Ma, Xiao Yuan and He Lu(参考訳) 絡み合いとコヒーレンスは量子システムの基本的な性質であり、近い将来の量子技術を支えることを約束している。 しかし、それらの定量化は単なる検出ではなく、一般に量子状態のスペクトル、すなわちシステムサイズに指数関数的に増加する実験的な挑戦的な測定集合の再構成を必要とする。 ここでは、操作上有用な絡み合いとコヒーレンスに対する定量的な境界を、普遍的に有効であり、解析的に計算可能であり、実験的に友好的であることを示す。 具体的には、量子状態の局所的および大域的純度の観点から、コヒーレント情報とコヒーレンス相対エントロピーに対する下界と上界が主な理論結果である。 提案手法の有効性を検証するため,光学系における2つの純度検出手法を実験的に実装した。 この実験は、純および混合未知の量子状態のコヒーレンスに関するコヒーレント情報と相対エントロピーの両方が純度関数によって境界づけられることを示した。 我々の研究は、スペクトル再構成なしで大規模量子情報処理を検証する効率的な手段を提供する。

Entanglement and coherence are fundamental properties of quantum systems, promising to power the near future quantum technologies. Yet, their quantification, rather than mere detection, generally requires reconstructing the spectrum of quantum states, i.e., experimentally challenging measurement sets that increase exponentially with the system size. Here, we demonstrate quantitative bounds to operationally useful entanglement and coherence that are universally valid, analytically computable, and experimentally friendly. Specifically, our main theoretical results are lower and upper bounds to the coherent information and the relative entropy of coherence in terms of local and global purities of quantum states. To validate our proposal, we experimentally implement two purity detection methods in an optical system: shadow estimation with random measurements and collective measurements on pairs of state copies. The experiment shows that both the coherent information and the relative entropy of coherence of pure and mixed unknown quantum states can be bounded by purity functions. Our research offers an efficient means of verifying large-scale quantum information processing without spectrum reconstruction.
翻訳日:2023-08-15 13:39:19 公開日:2023-08-14
# 超薄型集積フォトニクスを用いた多光子状態の効率的な評価

Efficient Characterizations of Multiphoton States with Ultra-thin Integrated Photonics ( http://arxiv.org/abs/2308.07067v1 )

ライセンス: Link先を確認
Kui An, Zilei Liu, Ting Zhang, Siqi Li, You Zhou, Xiao Yuan, Leiran Wang, Wenfu Zhang, Guoxi Wang, and He Lu(参考訳) metasurfaceは、フラット光学による多光子絡み合いの生成と操作を可能にし、大規模なフォトニック量子情報処理のためのより効率的なプラットフォームを提供する。 本稿では,単一メタサーフェス光チップを用いて影トモグラフィなどの多光子絡み合い状態のより効率的なキャラクタリゼーションが可能となることを示す。 このコンパクトで安定な装置は、サンプルの複雑さを低減し、シャドウトモグラフィを実装するための実験の複雑さを大幅に緩和する一般的なポジティブな観測可能な値尺度の実装を可能にする。 自己学習アルゴリズムとキャリブレーションアルゴリズムの統合により,多光子絡み合いの再構成において,計測精度の低下,精度の向上,光損失に対する堅牢性など,顕著なアドバンテージが観察された。 本研究は,多光子絡み合いの効率的なキャラクタリゼーションのための好適な集積光学デバイスとしてのメタサーフェスの実現可能性を明らかにし,超薄型集積光学を用いたスケーラブルフォトニック量子技術に光を当てる。

Metasurface enables the generation and manipulation of multiphoton entanglement with flat optics, providing a more efficient platform for large-scale photonic quantum information processing. Here, we show that a single metasurface optical chip would allow more efficient characterizations of multiphoton entangled states, such as shadow tomography, which generally requires fast and complicated control of optical setups to perform projective measurements in different bases, a demanding task using conventional optics. The compact and stable device here allows implementations of general positive observable value measures with a reduced sample complexity and significantly alleviates the experimental complexity to implement shadow tomography. Integrating self-learning and calibration algorithms, we observe notable advantages in the reconstruction of multiphoton entanglement, including using fewer measurements, having higher accuracy, and being robust against optical loss. Our work unveils the feasibility of metasurface as a favorable integrated optical device for efficient characterization of multiphoton entanglement, and sheds light on scalable photonic quantum technologies with ultra-thin integrated optics.
翻訳日:2023-08-15 13:39:00 公開日:2023-08-14
# 機械学習: 解決策と課題

Machine Unlearning: Solutions and Challenges ( http://arxiv.org/abs/2308.07061v1 )

ライセンス: Link先を確認
Jie Xu, Zihan Wu, Cong Wang and Xiaohua Jia(参考訳) 機械学習モデルは、機密性、不正、悪意のあるデータを不注意に記憶し、プライバシー侵害、セキュリティ侵害、パフォーマンス劣化のリスクを生じさせる可能性がある。 これらの問題に対処するために、機械学習は訓練されたモデルに対する特定の訓練データポイントの影響を選択的に除去する重要なテクニックとして登場した。 本稿では,機械学習研究の包括的分類と分析について述べる。 我々は、アルゴリズムによって完全にデータの影響を除去する正確なアンラーニングと、限られたパラメータ更新による影響を効率的に最小化する近似アンラーニングを分類する。 最先端のソリューションをレビューすることで、その利点と限界について批判的に議論する。 さらに,機械学習を高度に活用するための今後の方向性を提案し,信頼性の高い適応型機械学習の必須機能として確立する。 本稿では,オープン問題のロードマップを研究者に提供し,データ除去のための実世界のニーズへの影響力のある貢献を奨励する。

Machine learning models may inadvertently memorize sensitive, unauthorized, or malicious data, posing risks of privacy violations, security breaches, and performance deterioration. To address these issues, machine unlearning has emerged as a critical technique to selectively remove specific training data points' influence on trained models. This paper provides a comprehensive taxonomy and analysis of machine unlearning research. We categorize existing research into exact unlearning that algorithmically removes data influence entirely and approximate unlearning that efficiently minimizes influence through limited parameter updates. By reviewing the state-of-the-art solutions, we critically discuss their advantages and limitations. Furthermore, we propose future directions to advance machine unlearning and establish it as an essential capability for trustworthy and adaptive machine learning. This paper provides researchers with a roadmap of open problems, encouraging impactful contributions to address real-world needs for selective data removal.
翻訳日:2023-08-15 13:38:38 公開日:2023-08-14
# 特異ポテンシャルシュレーディンガー作用素の滑らかで不変な正則基底

Smooth, invariant orthonormal basis for singular potential Schroedinger operators ( http://arxiv.org/abs/2308.07059v1 )

ライセンス: Link先を確認
J. Neuser, T. Thiemann(参考訳) 最近のコントリビューションでは、任意の順序の微分と座標の正および負の整数パワーによる乗法の下で不変である実数直線上の特異ポテンシャル Schr\"odinger 作用素に対して滑らかで密度の高い領域が存在することを示した。 また,その領域の基底要素間の内積は解析的に容易に計算できることを示した。 残されている課題は、グラムシュミット正規化を用いて、その領域の要素から正規直交基底を構築することだった。 私たちはこのステップを現在の原稿で実行します。 また, 積分を解析的に実行できず, 密な解析的推定ができる正の実数直線へのこれらの手法の適用も検討する。

In a recent contribution we showed that there exists a smooth, dense domain for singular potential Schr\"odinger operators on the real line which is invariant under taking derivatives of arbitrary order and under multiplication by positive and negative integer powers of the coordinate. Moreover, inner products between basis elements of that domain were shown to be easily computable analytically. A task left open was to construct an orthonormal basis from elements of that domain by using Gram-Schmidt orthonormalisation. We perform that step in the present manuscript. We also consider the application of these methods to the positive real line for which one can no longer perform the integrals analytically but for which one can give tight analytical estimates.
翻訳日:2023-08-15 13:38:23 公開日:2023-08-14
# 繰り返しギャンブルによるリスク予測の解消

Distinguishing Risk Preferences using Repeated Gambles ( http://arxiv.org/abs/2308.07054v1 )

ライセンス: Link先を確認
James Price, Colm Connaughton(参考訳) 繰り返しギャンブルのシーケンスは、人間や人工意思決定エージェントのリスク嗜好を特徴付ける実験的なツールを提供する。 この推論の難しさは、提供されたギャンブルの詳細とゲームの繰り返し回数を含む要因に依存する。 本稿では, 繰り返しギャンブルの有限列が提示される人工エージェントの選択から, リスク嗜好を推測する実践上の課題を詳細に検討する。 累積ギャンブル(利益と損失が現在の富に比例する)を繰り返し繰り返す付加的なギャンブル(現在の富とは独立している)のシーケンスに対して、長期的富を最大化する戦略は、反復的な乗算ギャンブル(現在の富に比例する利益と損失)の戦略と異なるという事実に動機づけられている。) エージェントが最適な戦略を採用するかどうかを判断するには、リスク選好の正確な測定が必要である。 エージェントが直面するギャンブルのタイプを一般化するには、時系列分析のために機能工学から借用したツールであるyeo-johnson変換を使用して、加法と乗法ケースをスムーズに補間するギャンブルのファミリーを構築します。 次に,本家系の最適戦略を解析的および数値的に分析する。 エージェントの富が増大するにつれて、エージェントのリスク選好を区別することがますます困難になる。 これは、異なるリスク優先のエージェントが最終的に十分な富のために同じ決定をするからである。 これらの知見は,ヒトのリスク嗜好を測定する実験の効果的な設計に有効であると考えられる。

Sequences of repeated gambles provide an experimental tool to characterize the risk preferences of humans or artificial decision-making agents. The difficulty of this inference depends on factors including the details of the gambles offered and the number of iterations of the game played. In this paper we explore in detail the practical challenges of inferring risk preferences from the observed choices of artificial agents who are presented with finite sequences of repeated gambles. We are motivated by the fact that the strategy to maximize long-run wealth for sequences of repeated additive gambles (where gains and losses are independent of current wealth) is different to the strategy for repeated multiplicative gambles (where gains and losses are proportional to current wealth.) Accurate measurement of risk preferences would be needed to tell whether an agent is employing the optimal strategy or not. To generalize the types of gambles our agents face we use the Yeo-Johnson transformation, a tool borrowed from feature engineering for time series analysis, to construct a family of gambles that interpolates smoothly between the additive and multiplicative cases. We then analyze the optimal strategy for this family, both analytically and numerically. We find that it becomes increasingly difficult to distinguish the risk preferences of agents as their wealth increases. This is because agents with different risk preferences eventually make the same decisions for sufficiently high wealth. We believe that these findings are informative for the effective design of experiments to measure risk preferences in humans.
翻訳日:2023-08-15 13:38:09 公開日:2023-08-14
# 機械学習とディープラーニングを用いたスカルプ障害の診断 -- 概観

Diagnosis of Scalp Disorders using Machine Learning and Deep Learning Approach -- A Review ( http://arxiv.org/abs/2308.07052v1 )

ライセンス: Link先を確認
Hrishabh Tiwari, Jatin Moolchandani, Shamla Mantri(参考訳) 頭皮疾患の致死率は他の疾患と比較して極端であるが、患者の生活への影響は大きい。 Dandruff、Psoriasis、Tinea-Capitis、Alopecia、Atopic-Dermatitisなどの頭皮障害を経験することは一般的である。 WHOの調査によると、成人の約70%が頭皮に問題を抱えている。 髪の質は頭皮の障害によって損なわれているが、これらの影響は早期診断と治療で可逆的である。 深層学習の進歩は、頭皮と皮膚障害の診断におけるCNNとFCNの併用の有効性を示した。 ある深層学習に基づく頭皮検査・診断システムにおいて、画像顕微鏡と訓練されたモデルとを、頭皮疾患を97.41%〜99.09%の平均精度で正確に分類するアプリとを組み合わせる。 もう一つの研究は、CNNで82.9%の精度でPsoriasisを分類した。 別の研究の一環として、MLベースのアルゴリズムも採用された。 SVMとKNNのアルゴリズムで、健康な頭皮と頭皮のアリーナを91.4%と88.9%の精度で正確に分類した。 頭皮関連疾患の診断にディープラーニングモデルを使用することは、iの計算能力とコンピュータビジョンの進歩により改善されている。

The morbidity of scalp diseases is minuscule compared to other diseases, but the impact on the patient's life is enormous. It is common for people to experience scalp problems that include Dandruff, Psoriasis, Tinea-Capitis, Alopecia and Atopic-Dermatitis. In accordance with WHO research, approximately 70% of adults have problems with their scalp. It has been demonstrated in descriptive research that hair quality is impaired by impaired scalp, but these impacts are reversible with early diagnosis and treatment. Deep Learning advances have demonstrated the effectiveness of CNN paired with FCN in diagnosing scalp and skin disorders. In one proposed Deep-Learning-based scalp inspection and diagnosis system, an imaging microscope and a trained model are combined with an app that classifies scalp disorders accurately with an average precision of 97.41%- 99.09%. Another research dealt with classifying the Psoriasis using the CNN with an accuracy of 82.9%. As part of another study, an ML based algorithm was also employed. It accurately classified the healthy scalp and alopecia areata with 91.4% and 88.9% accuracy with SVM and KNN algorithms. Using deep learning models to diagnose scalp related diseases has improved due to advancements i computation capabilities and computer vision, but there remains a wide horizon for further improvements.
翻訳日:2023-08-15 13:37:42 公開日:2023-08-14
# マクロトラヒックフローモデルの学習解のためのフーリエニューラル演算子:前方および逆問題への応用

Fourier neural operator for learning solutions to macroscopic traffic flow models: Application to the forward and inverse problems ( http://arxiv.org/abs/2308.07051v1 )

ライセンス: Link先を確認
Bilal Thonnam Thodi and Sai Venkata Ramana Ambadipudi and Saif Eddin Jabari(参考訳) トラフィックフローの前方および逆問題を解くための一般的な計算ツールとして、ディープラーニング手法が登場している。 本稿では,非線形双曲偏微分方程式の解を学習するためのニューラルネットワークフレームワークと,マクロトラヒックフローモデルへの応用について検討する。 このフレームワークでは、教師付き学習設定において、不均一でスパースなトラフィック入力データを完全なマクロトラフィック状態にマッピングするようにオペレータを訓練する。 物理インフォームドされたフーリエニューラル演算子($\pi$-FNO)を演算子として選択し、個別保存法則に基づく物理損失が、トレーニング中に問題を正規化し、衝撃予測を改善する。 また、ランダムな定値入力データから生成されたトレーニングデータを用いて、ショックおよび希少解を体系的にキャプチャする。 LWRトラヒックフローモデルを用いた実験から,リングロードネットワークと都市信号化道路の密度動態の予測に優れた精度が得られた。 また,2~3ドルの車両待ち行列と1~2ドルの交通信号サイクルからなる単純な交通密度ダイナミクスを用いてオペレータを訓練することができ,不均質な車両待ち行列分布と複数の交通信号サイクルの密度ダイナミクスを許容可能な誤差で予測できることがわかった。 モデルアーキテクチャとトレーニングデータの適切な選択のために、外挿誤差は入力複雑性とともに線形に増大した。 特に周期境界データの問題に対する長期交通密度ダイナミクスの学習を支援する物理正規化器の追加。

Deep learning methods are emerging as popular computational tools for solving forward and inverse problems in traffic flow. In this paper, we study a neural operator framework for learning solutions to nonlinear hyperbolic partial differential equations with applications in macroscopic traffic flow models. In this framework, an operator is trained to map heterogeneous and sparse traffic input data to the complete macroscopic traffic state in a supervised learning setting. We chose a physics-informed Fourier neural operator ($\pi$-FNO) as the operator, where an additional physics loss based on a discrete conservation law regularizes the problem during training to improve the shock predictions. We also propose to use training data generated from random piecewise constant input data to systematically capture the shock and rarefied solutions. From experiments using the LWR traffic flow model, we found superior accuracy in predicting the density dynamics of a ring-road network and urban signalized road. We also found that the operator can be trained using simple traffic density dynamics, e.g., consisting of $2-3$ vehicle queues and $1-2$ traffic signal cycles, and it can predict density dynamics for heterogeneous vehicle queue distributions and multiple traffic signal cycles $(\geq 2)$ with an acceptable error. The extrapolation error grew sub-linearly with input complexity for a proper choice of the model architecture and training data. Adding a physics regularizer aided in learning long-term traffic density dynamics, especially for problems with periodic boundary data.
翻訳日:2023-08-15 13:37:19 公開日:2023-08-14
# 動画像カメラを用いた動的シーンの映像異常検出に関する調査

Survey on video anomaly detection in dynamic scenes with moving cameras ( http://arxiv.org/abs/2308.07050v1 )

ライセンス: Link先を確認
Runyu Jiao, Yi Wan, Fabio Poiesi, Yiming Wang(参考訳) 小型で安価なカメラ(例えばダッシュカメラ、ボディカメラ、ロボットを搭載したカメラ)の人気が高まり、移動カメラが記録するダイナミックシーン内の異常を検出することへの関心が高まった。 しかし、既存のレビューは主に静的カメラを想定したビデオ異常検出(VAD)手法に焦点を当てている。 移動カメラに関するvadの文献は断片化されており、今日まで包括的なレビューが欠落している。 このギャップに対処するため,移動カメラ映像異常検出(MC-VAD)に関する総合的な調査を行った。 我々は,mc-vadに関する研究論文を精査し,その限界を批判的に評価し,関連する課題を強調する。 私たちの調査は、セキュリティ、都市交通、海洋環境という3つのアプリケーションドメインを包含しています。 我々は、水中、水面、地面、空中の4つの異なる環境にまたがる、公開可能な25のデータセットをまとめる。 これらのデータセットが対応するか含んでいる異常の種類を要約し、そのような異常を検出するための5つの主要なアプローチカテゴリを示す。 最後に、今後の研究の方向性を特定し、MC-VADの分野を前進させる新しい貢献について議論する。 本調査では,最先端のMC-VAD手法を開発し,発展させようとする研究者や実践者に対して,貴重な参考資料を提供することを目的としている。

The increasing popularity of compact and inexpensive cameras, e.g.~dash cameras, body cameras, and cameras equipped on robots, has sparked a growing interest in detecting anomalies within dynamic scenes recorded by moving cameras. However, existing reviews primarily concentrate on Video Anomaly Detection (VAD) methods assuming static cameras. The VAD literature with moving cameras remains fragmented, lacking comprehensive reviews to date. To address this gap, we endeavor to present the first comprehensive survey on Moving Camera Video Anomaly Detection (MC-VAD). We delve into the research papers related to MC-VAD, critically assessing their limitations and highlighting associated challenges. Our exploration encompasses three application domains: security, urban transportation, and marine environments, which in turn cover six specific tasks. We compile an extensive list of 25 publicly-available datasets spanning four distinct environments: underwater, water surface, ground, and aerial. We summarize the types of anomalies these datasets correspond to or contain, and present five main categories of approaches for detecting such anomalies. Lastly, we identify future research directions and discuss novel contributions that could advance the field of MC-VAD. With this survey, we aim to offer a valuable reference for researchers and practitioners striving to develop and advance state-of-the-art MC-VAD methods.
翻訳日:2023-08-15 13:36:54 公開日:2023-08-14
# UIPC-MF: 説明可能な協調フィルタリングのためのユーザ項目の接続行列分解

UIPC-MF: User-Item Prototype Connection Matrix Factorization for Explainable Collaborative Filtering ( http://arxiv.org/abs/2308.07048v1 )

ライセンス: Link先を確認
Lei Pan and Von-Wun Soo(参考訳) 興味のあるユーザーにアイテムを推薦することは、主に2つの課題、正確さと説明可能性に直面する重要な業務だった。 ほとんどのコラボレーティブフィルタリングモデルは、ユーザとアイテム間の大規模なインタラクションデータに基づく統計計算に依存しており、高いパフォーマンスを達成することができるが、明確な説明力に欠けることが多い。 本稿では,協調フィルタリングを推奨する手法であるuipc-mfを提案する。 UIPC-MFでは、ユーザとアイテムの両方がプロトタイプのセットに関連付けられ、一般的なコラボレーティブ属性をキャプチャする。 説明可能性を高めるために、UIPC-MFはユーザとアイテムのプロトタイプ間の関連性を反映した接続重みを学習する。 UIPC-MFは、3つのデータセットでHit RatioとNormalized Discounted Cumulative Gainの点で他のプロトタイプベースのベースラインメソッドよりも優れており、透明性も向上している。

Recommending items to potentially interested users has been an important commercial task that faces two main challenges: accuracy and explainability. While most collaborative filtering models rely on statistical computations on a large scale of interaction data between users and items and can achieve high performance, they often lack clear explanatory power. We propose UIPC-MF, a prototype-based matrix factorization method for explainable collaborative filtering recommendations. In UIPC-MF, both users and items are associated with sets of prototypes, capturing general collaborative attributes. To enhance explainability, UIPC-MF learns connection weights that reflect the associative relations between user and item prototypes for recommendations. UIPC-MF outperforms other prototype-based baseline methods in terms of Hit Ratio and Normalized Discounted Cumulative Gain on three datasets, while also providing better transparency.
翻訳日:2023-08-15 13:36:33 公開日:2023-08-14
# 正規化は不要:不完全ラベル分布学習のための効率的かつ効果的なモデル

No Regularization is Needed: An Efficient and Effective Model for Incomplete Label Distribution Learning ( http://arxiv.org/abs/2308.07047v1 )

ライセンス: Link先を確認
Xiang Li and Songcan Chen(参考訳) ラベル分散学習(LDL)は、ソフトラベル、すなわち学位をサンプルに割り当てる。 実際には、不完全 LDL(InLDL)の誕生は、常に完全な学位を得るのに苦労している。 しかし、InLDLはしばしば性能劣化に悩まされる。 これを改善するために、既存のメソッドには1つ以上の明示的な正規化が必要であり、面倒なパラメータチューニングと余分な計算に繋がる。 ラベル分布自体が、適切に使用すれば、明示的な正規化なしにInLDL問題を解くことができる、と我々は主張する。 本稿では,このような事前使用の合理的な代替案を提案する。 我々の直感では、大きな学位はより懸念される傾向にあり、小さな学位は見落とされやすいが、不足する学位はInLDLで完全に無視される。 正確なラベル分布を学習するには、観測された小さな度合いを無視するのではなく、適切に大きな度合いを与えながら、失った度合いを徐々に増加させることが重要である。 この目的のために、まず重み付けされた経験的リスクを定義し、期待されるリスクと重み付けされた経験的リスクとの間の上限を導出する。 そして,事前の次数を用いて重み付きスキームを設計し,その有効性を検証する。 まとめると 私たちのモデルは4つの利点があります 1) 明確な規則化が課されないため,モデル選択は自由である。 2) クローズドフォームソリューション(サブプロブレム)と実装が容易(数行のコード)である。 3) サンプル数の線形計算複雑性により, 大規模データセットに拡張性がある。 4) 明示的な正規化がなくても最先端技術と競合する。

Label Distribution Learning (LDL) assigns soft labels, a.k.a. degrees, to a sample. In reality, it is always laborious to obtain complete degrees, giving birth to the Incomplete LDL (InLDL). However, InLDL often suffers from performance degeneration. To remedy it, existing methods need one or more explicit regularizations, leading to burdensome parameter tuning and extra computation. We argue that label distribution itself may provide useful prior, when used appropriately, the InLDL problem can be solved without any explicit regularization. In this paper, we offer a rational alternative to use such a prior. Our intuition is that large degrees are likely to get more concern, the small ones are easily overlooked, whereas the missing degrees are completely neglected in InLDL. To learn an accurate label distribution, it is crucial not to ignore the small observed degrees but to give them properly large weights, while gradually increasing the weights of the missing degrees. To this end, we first define a weighted empirical risk and derive upper bounds between the expected risk and the weighted empirical risk, which reveals in principle that weighting plays an implicit regularization role. Then, by using the prior of degrees, we design a weighted scheme and verify its effectiveness. To sum up, our model has four advantages, it is 1) model selection free, as no explicit regularization is imposed; 2) with closed form solution (sub-problem) and easy-to-implement (a few lines of codes); 3) with linear computational complexity in the number of samples, thus scalable to large datasets; 4) competitive with state-of-the-arts even without any explicit regularization.
翻訳日:2023-08-15 13:36:17 公開日:2023-08-14
# FocusFlow: 自律運転のためのキーポイント光フロー推定の強化

FocusFlow: Boosting Key-Points Optical Flow Estimation for Autonomous Driving ( http://arxiv.org/abs/2308.07104v1 )

ライセンス: Link先を確認
Zhonghua Yi, Hao Shi, Kailun Yang, Qi Jiang, Yaozu Ye, Ze Wang, Kaiwei Wang(参考訳) キーポイントに基づくシーン理解は、自動運転アプリケーションの基本である。 同時に、光学フローは多くの視覚タスクにおいて重要な役割を果たす。 しかしながら、全ての点に等しく注目される暗黙のバイアスのため、古典的なデータ駆動光フロー推定手法はキーポイントにおける満足度の低い性能をもたらし、キーポイントクリティカルな安全関連シナリオの実装を制限する。 そこで本研究では,キーポイント関係の事前学習をモデルに要求するポイントベースモデリング手法を提案する。 モデリング手法に基づいて,FocusFlowというフレームワークを提案する。 1) 古典的測光損失関数と組み合わされた混合損失関数と,提案する条件点制御損失(cpcl)関数は,多様である。 2) 提案する条件制御エンコーダ(cce)により従来の特徴エンコーダを置き換える条件付き制御モデルを提案する。 CCEにはフレームから特徴を抽出するフレーム特徴エンコーダ(FFE)、キーポイントの情報を含む入力マスクからFFEの特徴抽出動作を制御することを学ぶ条件特徴エンコーダ(CFE)、FFEとCFEの間で制御情報を転送する融合モジュールが含まれている。 当社のfocusflowフレームワークは,orbやsift,さらには学習ベースのシルクなど,さまざまなポイントで最大44.5%の精度向上と,pwc-netやraft,flowformerといった既存のデータ駆動型光フローメソッドの例外的なスケーラビリティを実現しています。 特に、FocusFlowは、フレーム全体のオリジナルのモデルに匹敵する競争力または優れたパフォーマンスを得る。 ソースコードはhttps://github.com/ZhonghuaYi/FocusFlow_officialで入手できる。

Key-point-based scene understanding is fundamental for autonomous driving applications. At the same time, optical flow plays an important role in many vision tasks. However, due to the implicit bias of equal attention on all points, classic data-driven optical flow estimation methods yield less satisfactory performance on key points, limiting their implementations in key-point-critical safety-relevant scenarios. To address these issues, we introduce a points-based modeling method that requires the model to learn key-point-related priors explicitly. Based on the modeling method, we present FocusFlow, a framework consisting of 1) a mix loss function combined with a classic photometric loss function and our proposed Conditional Point Control Loss (CPCL) function for diverse point-wise supervision; 2) a conditioned controlling model which substitutes the conventional feature encoder by our proposed Condition Control Encoder (CCE). CCE incorporates a Frame Feature Encoder (FFE) that extracts features from frames, a Condition Feature Encoder (CFE) that learns to control the feature extraction behavior of FFE from input masks containing information of key points, and fusion modules that transfer the controlling information between FFE and CFE. Our FocusFlow framework shows outstanding performance with up to +44.5% precision improvement on various key points such as ORB, SIFT, and even learning-based SiLK, along with exceptional scalability for most existing data-driven optical flow methods like PWC-Net, RAFT, and FlowFormer. Notably, FocusFlow yields competitive or superior performances rivaling the original models on the whole frame. The source code will be available at https://github.com/ZhonghuaYi/FocusFlow_official.
翻訳日:2023-08-15 13:28:58 公開日:2023-08-14
# ストリーミング映像における時間文接地

Temporal Sentence Grounding in Streaming Videos ( http://arxiv.org/abs/2308.07102v1 )

ライセンス: Link先を確認
Tian Gan, Xiao Wang, Yan Sun, Jianlong Wu, Qingpei Guo, and Liqiang Nie(参考訳) 本稿では,ストリーミングビデオにおける時間文グラウンドング(TSGSV)という新たな課題に取り組むことを目的とする。 TSGSVの目標は、ビデオストリームと所定の文クエリの関連性を評価することである。 通常のビデオとは異なり、ストリーミングビデオは特定のソースから継続的に取得され、監視やライブストリーム分析など多くのアプリケーションでオンザフライで処理されることが常に望まれる。 したがって、TSGSVは将来のフレームなしで推論し、長い履歴フレームを効果的に処理する必要があるため、初期の方法では触れられていないため、難しい。 上記の課題を具体的に解決するために,(1)モデルが今後のイベントについて学習できるようにするTwinNet構造,(2)冗長な視覚的フレームを排除し,クエリに関連するフレームを補強する言語誘導型特徴圧縮器,という2つの新しい手法を提案する。 本研究では,ActivityNet Captions,TACoS,MADデータセットを用いた広範な実験を行う。 その結果,提案手法の優位性が示された。 組織的アブレーション研究もその有効性を確認している。

This paper aims to tackle a novel task - Temporal Sentence Grounding in Streaming Videos (TSGSV). The goal of TSGSV is to evaluate the relevance between a video stream and a given sentence query. Unlike regular videos, streaming videos are acquired continuously from a particular source, and are always desired to be processed on-the-fly in many applications such as surveillance and live-stream analysis. Thus, TSGSV is challenging since it requires the model to infer without future frames and process long historical frames effectively, which is untouched in the early methods. To specifically address the above challenges, we propose two novel methods: (1) a TwinNet structure that enables the model to learn about upcoming events; and (2) a language-guided feature compressor that eliminates redundant visual frames and reinforces the frames that are relevant to the query. We conduct extensive experiments using ActivityNet Captions, TACoS, and MAD datasets. The results demonstrate the superiority of our proposed methods. A systematic ablation study also confirms their effectiveness.
翻訳日:2023-08-15 13:28:27 公開日:2023-08-14
# マスク動作予測器は強力な3次元行動表現学習者である

Masked Motion Predictors are Strong 3D Action Representation Learners ( http://arxiv.org/abs/2308.07092v1 )

ライセンス: Link先を確認
Yunyao Mao, Jiajun Deng, Wengang Zhou, Yao Fang, Wanli Ouyang, Houqiang Li(参考訳) 人間の3次元行動認識では、教師付きデータが限られており、トランスフォーマーのような強力なネットワークのモデリング能力を十分に活用することは困難である。 その結果、研究者は効果的な自己監督事前訓練戦略を積極的に研究している。 本研究では,人間の関節でマスキングされた自己コンポーネント再構築を行うための一般的なプリテキストタスクに従わずに,明示的な文脈的動作モデリングが3次元動作認識のための効果的な特徴表現の学習を成功させる鍵であることを示す。 本稿では,Masked Motion Prediction (MAMP) フレームワークを提案する。 具体的には、提案されたマンプは、仮面付き時空間骨格配列を入力し、仮面付きヒト関節の対応する時間運動を予測する。 骨格配列の高時間的冗長性を考えると、我々のMAMPでは、運動情報はマスキング過程を導く前に経験的意味豊かさとして機能し、意味的に豊かな時間領域に注意を向ける。 NTU-60, NTU-120, PKU-MMDデータセットの大規模な実験により、提案したMAMP事前学習は、採用したバニラ変圧器の性能を大幅に改善し、ベルやホイッスルを使わずに最先端の結果が得られることを示した。 MAMPのソースコードはhttps://github.com/maoyunyao/MAMPで公開されています。

In 3D human action recognition, limited supervised data makes it challenging to fully tap into the modeling potential of powerful networks such as transformers. As a result, researchers have been actively investigating effective self-supervised pre-training strategies. In this work, we show that instead of following the prevalent pretext task to perform masked self-component reconstruction in human joints, explicit contextual motion modeling is key to the success of learning effective feature representation for 3D action recognition. Formally, we propose the Masked Motion Prediction (MAMP) framework. To be specific, the proposed MAMP takes as input the masked spatio-temporal skeleton sequence and predicts the corresponding temporal motion of the masked human joints. Considering the high temporal redundancy of the skeleton sequence, in our MAMP, the motion information also acts as an empirical semantic richness prior that guide the masking process, promoting better attention to semantically rich temporal regions. Extensive experiments on NTU-60, NTU-120, and PKU-MMD datasets show that the proposed MAMP pre-training substantially improves the performance of the adopted vanilla transformer, achieving state-of-the-art results without bells and whistles. The source code of our MAMP is available at https://github.com/maoyunyao/MAMP.
翻訳日:2023-08-15 13:28:10 公開日:2023-08-14
# パラメトリック臨界におけるマイクロ波光子検出

Microwave photon detection at parametric criticality ( http://arxiv.org/abs/2308.07084v1 )

ライセンス: Link先を確認
Kirill Petrovnin, Jiaming Wang, Michael Perelshtein, Pertti Hakonen, Gheorghe Sorin Paraoanu(参考訳) 単一光子レベルにおけるマイクロ波の検知は、ナノエレクトロニクスと量子情報科学の実践的な応用により、ずっと求められている技術である。 本稿では,1次量子相転移近傍で磁場可変kerr josephsonパラメトリック増幅器を動作させることにより,簡易かつ強力なマイクロ波光子検出法を示す。 我々は、73%の効率と167 kHzの暗カウントレートを得るが、これは1.3 \times 10^{17}~\mathrm{W}^{-1}$と3.28 zW/$\sqrt{\rm Hz}$の雑音等価パワーに対応する。 我々は、コヒーレントプローブ信号のポアソン統計を抽出し、単光子演算を検証する。

The detection of microwave fields at single-photon power levels is a much sought-after technology, with practical applications in nanoelectronics and quantum information science. Here we demonstrate a simple yet powerful criticality-enhanced method of microwave photon detection by operating a magnetic-field tunable Kerr Josephson parametric amplifier near a first-order quantum phase transition. We obtain a 73% efficiency and a dark-count rate of 167 kHz, corresponding to a responsivity of $1.3 \times 10^{17}~\mathrm{W}^{-1}$ and noise-equivalent power of 3.28 zW/$\sqrt{\rm Hz}$. We verify the single-photon operation by extracting the Poissonian statistics of a coherent probe signal.
翻訳日:2023-08-15 13:27:44 公開日:2023-08-14
# qkdの適用性:nsaの懐疑論に対するterraquantumの見解

Applicability of QKD: TerraQuantum view on the NSA's scepticism ( http://arxiv.org/abs/2308.07082v1 )

ライセンス: Link先を確認
D. Sych, A. Kodukhov, V. Pastushenko, N. Kirsanov, D. Kronberg, M. Pflitsch(参考訳) 量子通信は古典的なアナログを持たないユニークな特徴を提供し、特に証明可能なセキュアな量子鍵分布(QKD)を可能にする。 量子コミュニケーションの利点は科学界ではよく理解されているが、実用的な実装は懐疑論や抵抗さえも満たすことがある。 最近の発表[1]で、NSAはQKDは「量子耐性」暗号より劣っており、使用を推奨していないと主張している。 ここでは,このような量子セキュリティ評価に対する懐疑的アプローチが正当化されていないことを示す。 この問題を明らかにするのに我々の議論が役立つことを願っている。

Quantum communication offers unique features that have no classical analog, in particular, it enables provably secure quantum key distribution (QKD). Despite the benefits of quantum communication are well understood within the scientific community, the practical implementations sometimes meet with scepticism or even resistance. In a recent publication [1], NSA claims that QKD is inferior to "quantum-resistant" cryptography and does not recommend it for use. Here we show that such a sceptical approach to evaluation of quantum security is not well justified. We hope that our arguments will be helpful to clarify the issue.
翻訳日:2023-08-15 13:27:28 公開日:2023-08-14
# 算数言語学の観点からみたサンスクリット詩の美学 : シクサタカを事例として

Aesthetics of Sanskrit Poetry from the Perspective of Computational Linguistics: A Case Study Analysis on Siksastaka ( http://arxiv.org/abs/2308.07081v1 )

ライセンス: Link先を確認
Jivnesh Sandhan, Amruta Barbadikar, Malay Maity, Pavankumar Satuluri, Tushar Sandhan, Ravi M. Gupta, Pawan Goyal and Laxmidhar Behera(参考訳) サンスクリットの詩は、何世紀にもわたってインド亜大陸の文学と文化の風景を形作る上で重要な役割を果たしてきた。 しかし、計算言語学におけるサンスクリット詩の隠れた美しさを明らかにすることにはあまり注目されていない。 本稿では,サンスクリット詩の特徴と特徴を分析・分類するための解釈可能な枠組みのロードマップを提案し,サンスクリット詩と計算言語学の交点を考察する。 我々は,サンスクリット詩の豊かな伝統と,優れた詩の特徴を自動同定する計算言語学の意義について論じる。 提案するフレームワークには、マシンに委譲された決定論的側面と、人間の専門家に委譲された深い意味論を組み合わせた、ループ内の人間的アプローチが含まれる。 サンスクリットの詩であるシクサタカについて、6つの著名なカヴヤシャストラ派の視点から深い分析を行い,その枠組みについて述べる。 さらに,詩の分析と注釈を説明するためのwebアプリケーションとして,複合,依存,アンヴァヤ,メータ,ラーサ(ムード),アランカル(発話の図),リティ(書き方)アノテーションを提供する。 主な貢献は、提案されたフレームワーク、Siksastakaの分析、アノテーション、将来の研究のためのWebアプリケーションなどです。 対話的分析のためのリンク: https://sanskritshala.github.io/shikshastakam/

Sanskrit poetry has played a significant role in shaping the literary and cultural landscape of the Indian subcontinent for centuries. However, not much attention has been devoted to uncovering the hidden beauty of Sanskrit poetry in computational linguistics. This article explores the intersection of Sanskrit poetry and computational linguistics by proposing a roadmap of an interpretable framework to analyze and classify the qualities and characteristics of fine Sanskrit poetry. We discuss the rich tradition of Sanskrit poetry and the significance of computational linguistics in automatically identifying the characteristics of fine poetry. The proposed framework involves a human-in-the-loop approach that combines deterministic aspects delegated to machines and deep semantics left to human experts. We provide a deep analysis of Siksastaka, a Sanskrit poem, from the perspective of 6 prominent kavyashastra schools, to illustrate the proposed framework. Additionally, we provide compound, dependency, anvaya (prose order linearised form), meter, rasa (mood), alankar (figure of speech), and riti (writing style) annotations for Siksastaka and a web application to illustrate the poem's analysis and annotations. Our key contributions include the proposed framework, the analysis of Siksastaka, the annotations and the web application for future research. Link for interactive analysis: https://sanskritshala.github.io/shikshastakam/
翻訳日:2023-08-15 13:27:17 公開日:2023-08-14
# ICPC:セマンティックセグメンテーションのためのコントラスト学習によるインスタンス記述型プロンプト

ICPC: Instance-Conditioned Prompting with Contrastive Learning for Semantic Segmentation ( http://arxiv.org/abs/2308.07078v1 )

ライセンス: Link先を確認
Chaohui Yu, Qiang Zhou, Zhibin Wang, Fan Wang(参考訳) 現代の教師付きセマンティックセグメンテーション法は通常、ImageNetで事前訓練された教師付きまたは自己教師付きモデルに基づいて微調整される。 近年の研究では,クリップからプロンプト・ラーニングによる意味セグメンテーションへの知識の伝達が有望な性能を達成できることが示されている。 パフォーマンス向上は,マルチモーダルアライメントによる機能拡張,すなわち視覚とテキスト埋め込み間のドット生成によるものだ。 しかし,高密度タスクにおける伝達性能向上のためのマルチモーダルアライメントの改善方法はまだ未検討である。 本研究では,デザインと損失関数の2つの側面から視覚テキストアライメントの品質向上に焦点をあて,コントラスト学習(icpc)フレームワークを用いたインスタンスコンディションプロンプトを提案する。 まず,静的プロンプト設計と比較して,画像コンテンツに条件づけられた動的プロンプトが複雑なタスクに対してより効率的にテキストエンコーダを活用できることを明らかにする。 第2に,視覚とテキスト埋め込みのアライメントを洗練するために,アライメントガイドによるコントラスト損失を提案する。 さらに,性能向上のための軽量なマルチスケールアライメントを提案する。 3つの大規模なデータセット(ADE20K、COCO-Stuff10k、ADE20K-Full)に対する大規模な実験は、ICPCがさまざまなバックボーンに一貫した改善をもたらすことを示した。 ResNet-50を例として挙げると、ICPCは3つのデータセットでそれぞれ1.71%、1.05%、1.41%のmIoUで最先端である。

Modern supervised semantic segmentation methods are usually finetuned based on the supervised or self-supervised models pre-trained on ImageNet. Recent work shows that transferring the knowledge from CLIP to semantic segmentation via prompt learning can achieve promising performance. The performance boost comes from the feature enhancement with multimodal alignment, i.e., the dot product between vision and text embeddings. However, how to improve the multimodal alignment for better transfer performance in dense tasks remains underexplored. In this work, we focus on improving the quality of vision-text alignment from two aspects of prompting design and loss function, and present an instance-conditioned prompting with contrastive learning (ICPC) framework. First, compared with the static prompt designs, we reveal that dynamic prompting conditioned on image content can more efficiently utilize the text encoder for complex dense tasks. Second, we propose an align-guided contrastive loss to refine the alignment of vision and text embeddings. We further propose lightweight multi-scale alignment for better performance. Extensive experiments on three large-scale datasets (ADE20K, COCO-Stuff10k, and ADE20K-Full) demonstrate that ICPC brings consistent improvements across diverse backbones. Taking ResNet-50 as an example, ICPC outperforms the state-of-the-art counterpart by 1.71%, 1.05%, and 1.41% mIoU on the three datasets, respectively.
翻訳日:2023-08-15 13:26:50 公開日:2023-08-14
# #InsTag:多様性と複雑性分析のためのインストラクションタグ

#InsTag: Instruction Tagging for Diversity and Complexity Analysis ( http://arxiv.org/abs/2308.07074v1 )

ライセンス: Link先を確認
Keming Lu, Hongyi Yuan, Zheng Yuan, Runji Lin, Junyang Lin, Chuanqi Tan, Chang Zhou(参考訳) 基礎言語モデルは教師付き微調整(sft)により命令追従能力を得る。 多様性と複雑性は、SFTデータセットの成功の重要な要因と考えられているが、その定義はあいまいであり、定量分析が欠如している。 本研究では,SFTデータセット内のサンプルを意味と意図に基づいてタグ付けし,タグに関する命令の多様性と複雑性を定義するための,オープンセットのきめ細かいタグであるInsTagを提案する。 包括的ユーザクエリを記述するための6.6Kタグを取得する。 そして、人気のあるオープンソースsftデータセットを分析し、モデル能力がより多様で複雑なデータで成長することを見出します。 本研究では,InsTagをベースとしたデータセレクタを提案し,オープンソースのデータセットとInsTag選択データを用いたファインチューンモデルから6Kの多様な複雑なサンプルを抽出する。 その結果得られたモデルであるtaglmは、mt-benchが評価したかなり大きなsftデータに基づくオープンソースモデルよりも優れており、クエリの多様性と複雑さの重要性を反映している。 InsTagをhttps://github.com/OFA-Sys/InsTagでオープンソース化しました。

Foundation language models obtain the instruction-following ability through supervised fine-tuning (SFT). Diversity and complexity are considered critical factors of a successful SFT dataset, while their definitions remain obscure and lack quantitative analyses. In this work, we propose InsTag, an open-set fine-grained tagger, to tag samples within SFT datasets based on semantics and intentions and define instruction diversity and complexity regarding tags. We obtain 6.6K tags to describe comprehensive user queries. Then we analyze popular open-sourced SFT datasets and find that the model ability grows with more diverse and complex data. Based on this observation, we propose a data selector based on InsTag to select 6K diverse and complex samples from open-source datasets and fine-tune models on InsTag-selected data. The resulting models, TagLM, outperform open-source models based on considerably larger SFT data evaluated by MT-Bench, echoing the importance of query diversity and complexity. We open-source InsTag in https://github.com/OFA-Sys/InsTag.
翻訳日:2023-08-15 13:26:18 公開日:2023-08-14
# 不確実性誘導と重量移動を伴うzxyformerを用いた歯と根管の分節化

Teeth And Root Canals Segmentation Using ZXYFormer With Uncertainty Guidance And Weight Transfer ( http://arxiv.org/abs/2308.07072v1 )

ライセンス: Link先を確認
Shangxuan Li, Yu Du, Li Ye, Chichi Li, Yanshu Fang, Cheng Wang, Wu Zhou(参考訳) 本研究は, cbct画像から歯と根管を同時に分割することを試みるが, このプロセスには極めて困難な問題がある。 まず、CBCT画像データは非常に大きく(672 *688 * 688)、歯や根管に関する有用な情報を失う。 第二に、歯と根管は形態的に大きく異なり、単純なネットワークで正確に識別することは困難である。 さらに、歯と根管の間には、歯の縁が弱いため、そのような縁を分断することが非常に困難である。 そこで本研究では,逆機能融合変換器と不確実性推定に基づく粗大部分分割法を提案する。 まず、ダウンスケールされたボリュームデータ(例:128 * 128 * 128)を用いて粗いセグメンテーションを行い、それを元のボリュームにマッピングして歯と根管の面積を求める。 そこで我々は,より深い特徴を浅い特徴に移すことで,異なる形態的対象のセグメンテーション効果を向上できる逆特徴融合を用いたトランスフォーマを設計した。 最後に, 歯と根管の弱端分節性能を向上させるため, 難領域を計算・精錬する補助枝を設計・設計した。 臨床用高分解能cbctデータ157の歯根管分画実験により, 既存の歯根管分画法や歯根管分画法よりも優れた方法が得られた。

This study attempts to segment teeth and root-canals simultaneously from CBCT images, but there are very challenging problems in this process. First, the clinical CBCT image data is very large (e.g., 672 *688 * 688), and the use of downsampling operation will lose useful information about teeth and root canals. Second, teeth and root canals are very different in morphology, and it is difficult for a simple network to identify them precisely. In addition, there are weak edges at the tooth, between tooth and root canal, which makes it very difficult to segment such weak edges. To this end, we propose a coarse-to-fine segmentation method based on inverse feature fusion transformer and uncertainty estimation to address above challenging problems. First, we use the downscaled volume data (e.g., 128 * 128 * 128) to conduct coarse segmentation and map it to the original volume to obtain the area of teeth and root canals. Then, we design a transformer with reverse feature fusion, which can bring better segmentation effect of different morphological objects by transferring deeper features to shallow features. Finally, we design an auxiliary branch to calculate and refine the difficult areas in order to improve the weak edge segmentation performance of teeth and root canals. Through the combined tooth and root canal segmentation experiment of 157 clinical high-resolution CBCT data, it is verified that the proposed method is superior to the existing tooth or root canal segmentation methods.
翻訳日:2023-08-15 13:25:58 公開日:2023-08-14
# 強曲線および屈曲した薄層構造からの2次元マニフォールドの局所的抽出法

A Local Iterative Approach for the Extraction of 2D Manifolds from Strongly Curved and Folded Thin-Layer Structures ( http://arxiv.org/abs/2308.07070v1 )

ライセンス: Link先を確認
Nicolas Klenert, Verena Lepper, Daniel Baum(参考訳) リッジ面は、様々な応用における3次元 (3d) データセットの解析の重要な特徴であり、フローフィールド、地質断層データ、ポイントデータなどの様々な基礎データから導かれることが多いが、多くのイメージング技術を用いて取得したオリジナルのスカラー画像にも見られる。 本研究は, パピルス, パーチメント, 紙などの薄層構造, 銀および鉛板のマイクロコンデントct(micro-computed tomography, micro-ct)を用いて得られた画像データの解析を動機とする。 これらの文書から、自然界では2次元(2次元)であることが分かる。 したがって、特に文書の構造を近似する2次元多様体の再構成に興味がある。 2次元多様体を再構成したい画像データは、しばしば非常に騒がしく、破断や層分割、マージなど多くのアーティファクトを持つ折り畳まれた密集した構造を表す。 従来のリッジ面抽出法は、そのような困難なデータに対して所望の2次元多様体を抽出できない。 そこで我々は, 2次元多様体の新たな抽出法を開発した。 提案手法は,局所的な高速行進方式と,高速行進による2つの部分領域への分離を組み合わせたものである。 興味のある2次元多様体は、2つの部分領域を分離する曲面として抽出される。 局所的なスキームは、自動伝搬と対話的解析の両方に応用できる。 折り畳まれた銀板やパピルス板を含む実世界のデータだけでなく, 人工データにも本手法の適用性と堅牢性を実証した。

Ridge surfaces represent important features for the analysis of 3-dimensional (3D) datasets in diverse applications and are often derived from varying underlying data including flow fields, geological fault data, and point data, but they can also be present in the original scalar images acquired using a plethora of imaging techniques. Our work is motivated by the analysis of image data acquired using micro-computed tomography (Micro-CT) of ancient, rolled and folded thin-layer structures such as papyrus, parchment, and paper as well as silver and lead sheets. From these documents we know that they are 2-dimensional (2D) in nature. Hence, we are particularly interested in reconstructing 2D manifolds that approximate the document's structure. The image data from which we want to reconstruct the 2D manifolds are often very noisy and represent folded, densely-layered structures with many artifacts, such as ruptures or layer splitting and merging. Previous ridge-surface extraction methods fail to extract the desired 2D manifold for such challenging data. We have therefore developed a novel method to extract 2D manifolds. The proposed method uses a local fast marching scheme in combination with a separation of the region covered by fast marching into two sub-regions. The 2D manifold of interest is then extracted as the surface separating the two sub-regions. The local scheme can be applied for both automatic propagation as well as interactive analysis. We demonstrate the applicability and robustness of our method on both artificial data as well as real-world data including folded silver and papyrus sheets.
翻訳日:2023-08-15 13:25:30 公開日:2023-08-14
# OctoPack: コード大言語モデルをチューニングするインストラクション

OctoPack: Instruction Tuning Code Large Language Models ( http://arxiv.org/abs/2308.07124v1 )

ライセンス: Link先を確認
Niklas Muennighoff, Qian Liu, Armel Zebaze, Qinkai Zheng, Binyuan Hui, Terry Yue Zhuo, Swayam Singh, Xiangru Tang, Leandro von Werra, Shayne Longpre(参考訳) 命令で大きな言語モデル(LLM)を微調整すると、自然言語タスクのパフォーマンスが大幅に向上する。 我々は、コード変更とヒューマンインストラクションを組み合わせるgitコミットの自然な構造を活用して、コードを使った命令チューニングを適用する。 CommitPack:350のプログラミング言語で4テラバイトのGitコミットをコンパイルします。 我々は、HumanEval Pythonベンチマーク(46.2% pass@1)で、CommitPackを16BパラメータStarCoderモデル上の他の自然および合成コード命令(xP3x、Self-Instruct、OASST)と比較し、OpenAI出力でトレーニングされていないモデル間で最先端のパフォーマンスを達成する。 さらに、HumanEvalPackを導入し、HumanEvalベンチマークを6つの言語(Python、JavaScript、Java、Go、C++、Rust)で合計3つのコーディングタスク(コード補完、コード説明、コード合成)に拡張しました。 私たちのモデルであるOctoCoderとOctoGeeXは、すべての許容モデルの中でHumanEvalPackで最高のパフォーマンスを実現し、CommitPackがより広範な言語や自然なコーディングタスクに一般化する利点を実証しています。 コード、モデル、データはhttps://github.com/bigcode-project/octopackで無料で利用できる。

Finetuning large language models (LLMs) on instructions leads to vast performance improvements on natural language tasks. We apply instruction tuning using code, leveraging the natural structure of Git commits, which pair code changes with human instructions. We compile CommitPack: 4 terabytes of Git commits across 350 programming languages. We benchmark CommitPack against other natural and synthetic code instructions (xP3x, Self-Instruct, OASST) on the 16B parameter StarCoder model, and achieve state-of-the-art performance among models not trained on OpenAI outputs, on the HumanEval Python benchmark (46.2% pass@1). We further introduce HumanEvalPack, expanding the HumanEval benchmark to a total of 3 coding tasks (Code Repair, Code Explanation, Code Synthesis) across 6 languages (Python, JavaScript, Java, Go, C++, Rust). Our models, OctoCoder and OctoGeeX, achieve the best performance across HumanEvalPack among all permissive models, demonstrating CommitPack's benefits in generalizing to a wider set of languages and natural coding tasks. Code, models and data are freely available at https://github.com/bigcode-project/octopack.
翻訳日:2023-08-15 13:19:14 公開日:2023-08-14
# エゴセントリックビジョンの将来への展望

An Outlook into the Future of Egocentric Vision ( http://arxiv.org/abs/2308.07123v1 )

ライセンス: Link先を確認
Chiara Plizzari, Gabriele Goletto, Antonino Furnari, Siddhant Bansal, Francesco Ragusa, Giovanni Maria Farinella, Dima Damen, Tatiana Tommasi(参考訳) 未来はどうなるのか? 不思議だ! 本研究では,外向きカメラとデジタルオーバーレイを備えたウェアラブルコンピューティングが,日々の生活に取り入れられることが期待される,エゴセントリックビジョンの現在の研究と期待されている未来とのギャップについて検討する。 このギャップを理解するため、この記事はキャラクタベースのストーリーを通じて未来を考察することから始まり、現在のテクノロジーの限界を例示する。 次に、この未来と以前に定義された研究課題のマッピングを提供する。 各課題について,その専門的な研究,現状の方法論,利用可能なデータセットを調査し,今後の研究への適用性を制限する欠点を考察する。 この調査は、特定のハードウェアに依存しない、自我中心のビジョンのためのソフトウェアモデルに焦点を当てている。 この論文は、常にオンでパーソナライズされ、生活を支えていくエゴセントリックなビジョンへの道を開くために、即時探査の分野を推奨する。

What will the future be? We wonder! In this survey, we explore the gap between current research in egocentric vision and the ever-anticipated future, where wearable computing, with outward facing cameras and digital overlays, is expected to be integrated in our every day lives. To understand this gap, the article starts by envisaging the future through character-based stories, showcasing through examples the limitations of current technology. We then provide a mapping between this future and previously defined research tasks. For each task, we survey its seminal works, current state-of-the-art methodologies and available datasets, then reflect on shortcomings that limit its applicability to future research. Note that this survey focuses on software models for egocentric vision, independent of any specific hardware. The paper concludes with recommendations for areas of immediate explorations so as to unlock our path to the future always-on, personalised and life-enhancing egocentric vision.
翻訳日:2023-08-15 13:18:46 公開日:2023-08-14
# active bird2vec:トランスフォーマーを用いたエンドツーエンドのバードサウンドモニタリング

Active Bird2Vec: Towards End-to-End Bird Sound Monitoring with Transformers ( http://arxiv.org/abs/2308.07121v1 )

ライセンス: Link先を確認
Lukas Rauch, Raphael Schwinger, Moritz Wirth, Bernhard Sick, Sven Tomforde, Christoph Scholz(参考訳) 本稿では,自己教師付き(SSL)と深層能動学習(DAL)を組み合わせることで,鳥音モニタリングにおけるエンドツーエンド学習へのシフトを提案する。 トランスモデルの活用により,従来のスペクトル変換を回避し,直接生音声処理を実現する。 ActiveBird2Vecは、SSLを通じて高品質な鳥の音像を発生させ、風力発電における環境変化と意思決定プロセスの評価を加速させる可能性がある。 さらに,DALによる多様な鳥の鳴き声の活用を試み,人間の専門家による広範囲にラベル付けされたデータセットへの依存を減らす。 我々はHugingface Datasetsを通じて包括的なタスクセットをキュレートし、バイオ音響研究の将来的な可視性と再現性を向上する計画である。 鳥の音声認識における習熟度を評価するために,様々なトランスフォーマモデルの比較分析を行う。 我々は,鳥類の生物音響研究の進展を加速し,より効果的な保全戦略への貢献を目指す。

We propose a shift towards end-to-end learning in bird sound monitoring by combining self-supervised (SSL) and deep active learning (DAL). Leveraging transformer models, we aim to bypass traditional spectrogram conversions, enabling direct raw audio processing. ActiveBird2Vec is set to generate high-quality bird sound representations through SSL, potentially accelerating the assessment of environmental changes and decision-making processes for wind farms. Additionally, we seek to utilize the wide variety of bird vocalizations through DAL, reducing the reliance on extensively labeled datasets by human experts. We plan to curate a comprehensive set of tasks through Huggingface Datasets, enhancing future comparability and reproducibility of bioacoustic research. A comparative analysis between various transformer models will be conducted to evaluate their proficiency in bird sound recognition tasks. We aim to accelerate the progression of avian bioacoustic research and contribute to more effective conservation strategies.
翻訳日:2023-08-15 13:18:29 公開日:2023-08-14
# 言語(モデル):Fact-Checking LLMとそのNLP研究・実践における役割

Mind your Language (Model): Fact-Checking LLMs and their Role in NLP Research and Practice ( http://arxiv.org/abs/2308.07120v1 )

ライセンス: Link先を確認
Alexandra Sasha Luccioni and Anna Rogers(参考訳) nlp研究コミュニティにおける最近の談話の多くは、大きな言語モデル(llm)、機能、潜在性を中心としていますが、llmの動作定義を持っていないだけでなく、この話の多くは再検討する価値のある主張や仮定に依存しています。 本稿では, LLM の定義に寄与し, それらの機能に関する仮定をいくつか説明し, それらに対する既存の証拠を概説する。 今後の研究における研究方向の提案とそれらのフレーミングで締めくくる。

Much of the recent discourse within the NLP research community has been centered around Large Language Models (LLMs), their functionality and potential -- yet not only do we not have a working definition of LLMs, but much of this discourse relies on claims and assumptions that are worth re-examining. This position paper contributes a definition of LLMs, explicates some of the assumptions made regarding their functionality, and outlines the existing evidence for and against them. We conclude with suggestions for research directions and their framing in future work.
翻訳日:2023-08-15 13:18:13 公開日:2023-08-14
# ファウショット行動認識における空間関係の重要性について

On the Importance of Spatial Relations for Few-shot Action Recognition ( http://arxiv.org/abs/2308.07119v1 )

ライセンス: Link先を確認
Yilun Zhang, Yuqian Fu, Xingjun Ma, Lizhe Qi, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang(参考訳) 深層学習はビデオ認識において大きな成功を収めてきたが、いくつかの例に直面すると新しい行動を認識するのに苦戦している。 この課題に対処するために、ソースデータセットから新しいターゲットデータセットへの知識を1つまたは数個のラベル付きビデオで転送する、数発のアクション認識手法が提案されている。 しかし,既存の手法では,クエリとサポートビデオ間の時間的関係のモデル化に主眼を置きながら,空間的関係を無視している。 本稿では,映像における物体間の空間的不整合も,時間的不整合よりも一般的であることを示す。 そこで我々は,空間的関係の重要性を調査し,空間的情報と時間的情報の両方を活用したより高精度な行動認識手法を提案する。 特に、空間的関係を再調整し、時間的情報を組み込んだ新しい空間的アライメントクロストランス(sa-ct)が寄与する。 実験の結果, 時間的情報を使用しなくても, SA-CTの性能は3/4ベンチマークの時間的手法に匹敵することがわかった。 さらに, 時間情報を取り込むため, 簡易かつ効果的な時間混合モジュールを提案する。 テンポラリミキサーはビデオ表現を強化し、完全なsa-ctモデルの性能を改善し、非常に競争的な結果を得る。 本研究では, 大規模事前学習モデルを用いて, 数発のアクション認識を行い, この研究の方向性に有用な知見を提供する。

Deep learning has achieved great success in video recognition, yet still struggles to recognize novel actions when faced with only a few examples. To tackle this challenge, few-shot action recognition methods have been proposed to transfer knowledge from a source dataset to a novel target dataset with only one or a few labeled videos. However, existing methods mainly focus on modeling the temporal relations between the query and support videos while ignoring the spatial relations. In this paper, we find that the spatial misalignment between objects also occurs in videos, notably more common than the temporal inconsistency. We are thus motivated to investigate the importance of spatial relations and propose a more accurate few-shot action recognition method that leverages both spatial and temporal information. Particularly, a novel Spatial Alignment Cross Transformer (SA-CT) which learns to re-adjust the spatial relations and incorporates the temporal information is contributed. Experiments reveal that, even without using any temporal information, the performance of SA-CT is comparable to temporal based methods on 3/4 benchmarks. To further incorporate the temporal information, we propose a simple yet effective Temporal Mixer module. The Temporal Mixer enhances the video representation and improves the performance of the full SA-CT model, achieving very competitive results. In this work, we also exploit large-scale pretrained models for few-shot action recognition, providing useful insights for this research direction.
翻訳日:2023-08-15 13:18:04 公開日:2023-08-14
# 産業・ロボティクス領域における神経放射領域:応用,研究の機会とユースケース

Neural radiance fields in the industrial and robotics domain: applications, research opportunities and use cases ( http://arxiv.org/abs/2308.07118v1 )

ライセンス: Link先を確認
Eugen \v{S}lapak, Enric Pardo, Mat\'u\v{s} Dopiriak, Taras Maksymyuk and Juraj Gazda(参考訳) 拡張現実(XR)のような技術の普及は、高品質な3次元グラフィカル表現の需要を増大させてきた。 産業用3Dアプリケーションは、コンピュータ支援設計(CAD)、有限要素解析(FEA)、走査、ロボット工学を含む。 しかし, 産業用3d表現に用いられている手法は, 高い実装コストと, 正確な3dモデリングのための手作業による入力に依存する。 これらの課題に対処するために、ニューラルネットワーク(NeRF)は、提供されたトレーニング2D画像に基づいて3Dシーン表現を学習するための有望なアプローチとして登場した。 NeRFへの関心が高まりつつあるにもかかわらず、様々な産業サブドメインでの潜在的な応用はいまだ研究されていない。 本稿では,NeRF産業応用の総合的な検討と今後の研究の方向性について述べる。 産業領域におけるNeRFの可能性を示す一連の概念実証実験も提示する。 これらの実験には、NeRFに基づくビデオ圧縮技術や、衝突回避の文脈における3次元運動推定にNeRFを用いている。 ビデオ圧縮実験では,1920x1080 および 300x168 の解像度に対して最大 48\% と 74\% の圧縮削減効果を示した。 運動推定実験では、ロボットアームの3Dアニメーションを使ってDynamic-NeRF(D-NeRF)を訓練し、平均差マップPSNRが23dB、SSIMが0.97に達した。 私たちの実験のコードはhttps://github.com/maftej/iisnerfで公開されています。

The proliferation of technologies, such as extended reality (XR), has increased the demand for high-quality three-dimensional (3D) graphical representations. Industrial 3D applications encompass computer-aided design (CAD), finite element analysis (FEA), scanning, and robotics. However, current methods employed for industrial 3D representations suffer from high implementation costs and reliance on manual human input for accurate 3D modeling. To address these challenges, neural radiance fields (NeRFs) have emerged as a promising approach for learning 3D scene representations based on provided training 2D images. Despite a growing interest in NeRFs, their potential applications in various industrial subdomains are still unexplored. In this paper, we deliver a comprehensive examination of NeRF industrial applications while also providing direction for future research endeavors. We also present a series of proof-of-concept experiments that demonstrate the potential of NeRFs in the industrial domain. These experiments include NeRF-based video compression techniques and using NeRFs for 3D motion estimation in the context of collision avoidance. In the video compression experiment, our results show compression savings up to 48\% and 74\% for resolutions of 1920x1080 and 300x168, respectively. The motion estimation experiment used a 3D animation of a robotic arm to train Dynamic-NeRF (D-NeRF) and achieved an average disparity map PSNR of 23 dB and an SSIM of 0.97. The code for our experiments is publicly available at https://github.com/Maftej/iisnerf .
翻訳日:2023-08-15 13:17:39 公開日:2023-08-14
# 1D-2D CNNを用いたiSTFTNet2の高速化と軽量化

iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNN ( http://arxiv.org/abs/2308.07117v1 )

ライセンス: Link先を確認
Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Shogo Seki(参考訳) 逆短時間フーリエ変換ネットワーク(istftnet)はその高速で軽量で高忠実な音声合成のために注目を集めている。 高速で軽量な1D CNNをバックボーンとし、いくつかのニューラルプロセスをiSTFTで置き換えることで、これらの特性を得る。 高次元スペクトログラムをモデル化する1次元CNNの難しさにより、周波数次元は時間的アップサンプリングにより減少する。 しかし、この戦略は速度を向上する可能性を損なう。 そこで我々は, 時間構造と分光図構造をモデル化する1D-2D CNNと2D CNNを用いて, iSTFTNetの改良版iSTFTNet2を提案する。 少数の周波数空間で変換後の周波数アップサンプリングを行う2次元CNNを設計した。 この設計は、速度を損なうことなく高次元スペクトログラムのモデリングを容易にする。 その結果、iSTFTNet2はiSTFTNetを高速かつ軽量にし、同等の音声品質を実現した。 オーディオサンプルはhttps://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/istftnet2/で入手できる。

The inverse short-time Fourier transform network (iSTFTNet) has garnered attention owing to its fast, lightweight, and high-fidelity speech synthesis. It obtains these characteristics using a fast and lightweight 1D CNN as the backbone and replacing some neural processes with iSTFT. Owing to the difficulty of a 1D CNN to model high-dimensional spectrograms, the frequency dimension is reduced via temporal upsampling. However, this strategy compromises the potential to enhance the speed. Therefore, we propose iSTFTNet2, an improved variant of iSTFTNet with a 1D-2D CNN that employs 1D and 2D CNNs to model temporal and spectrogram structures, respectively. We designed a 2D CNN that performs frequency upsampling after conversion in a few-frequency space. This design facilitates the modeling of high-dimensional spectrograms without compromising the speed. The results demonstrated that iSTFTNet2 made iSTFTNet faster and more lightweight with comparable speech quality. Audio samples are available at https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/istftnet2/.
翻訳日:2023-08-15 13:17:16 公開日:2023-08-14
# SCSC:CNNとトランスフォーマーの両方を強化する空間的クロススケールコンボリューションモジュール

SCSC: Spatial Cross-scale Convolution Module to Strengthen both CNNs and Transformers ( http://arxiv.org/abs/2308.07110v1 )

ライセンス: Link先を確認
Xijun Wang, Xiaojie Chu, Chunrui Han, Xiangyu Zhang(参考訳) 本稿では,CNNとトランスフォーマーの両方の改善に有効であることを示す,SCSC(Spatial Cross-scale Convolution)というモジュールを提案する。 現在、cnnとトランスフォーマーは様々なタスクで成功を収めている。 特にTransformersでは,コンピュータビジョンコミュニティにおける最先端のパフォーマンスを実現する。 そのため、研究者たちはこれらのアーキテクチャのメカニズムを探求し始めた。 大きな受容場、疎結合、重み共有、動的重み付けは、効果的なベースモデルを設計するための鍵と考えられている。 しかし、まだ対処すべき問題がいくつかある: 大規模な密集したカーネルと自己完結は非効率であり、大きな受容フィールドは局所的な特徴を捉えることが困難である。 本稿では,上記の解析に触発されて,上記の問題を解決するため,cnnとトランスフォーマーの両方を強化するために,これらの設計キーを取り入れた汎用モジュールを設計する。 SCSCは、空間的クロススケールエンコーダと空間埋め込みモジュールを導入し、一つの層に配置された特徴をキャプチャする。 顔認識タスクでは、FaceResNet with SCSCは2.7%、FLOPは68%、パラメータは79%改善できる。 ImageNetの分類タスクでは、SCSCのSwin TransformerはFLOPを22%減らしてさらにパフォーマンスが向上し、CSCSのResNetも同様の複雑さで5.3%改善できる。 さらに、SCSCに埋め込まれた従来のネットワーク(ResNetなど)は、Swin Transformerのパフォーマンスにマッチする。

This paper presents a module, Spatial Cross-scale Convolution (SCSC), which is verified to be effective in improving both CNNs and Transformers. Nowadays, CNNs and Transformers have been successful in a variety of tasks. Especially for Transformers, increasing works achieve state-of-the-art performance in the computer vision community. Therefore, researchers start to explore the mechanism of those architectures. Large receptive fields, sparse connections, weight sharing, and dynamic weight have been considered keys to designing effective base models. However, there are still some issues to be addressed: large dense kernels and self-attention are inefficient, and large receptive fields make it hard to capture local features. Inspired by the above analyses and to solve the mentioned problems, in this paper, we design a general module taking in these design keys to enhance both CNNs and Transformers. SCSC introduces an efficient spatial cross-scale encoder and spatial embed module to capture assorted features in one layer. On the face recognition task, FaceResNet with SCSC can improve 2.7% with 68% fewer FLOPs and 79% fewer parameters. On the ImageNet classification task, Swin Transformer with SCSC can achieve even better performance with 22% fewer FLOPs, and ResNet with CSCS can improve 5.3% with similar complexity. Furthermore, a traditional network (e.g., ResNet) embedded with SCSC can match Swin Transformer's performance.
翻訳日:2023-08-15 13:16:56 公開日:2023-08-14
# 情報検索のための大規模言語モデル:調査

Large Language Models for Information Retrieval: A Survey ( http://arxiv.org/abs/2308.07107v1 )

ライセンス: Link先を確認
Yutao Zhu, Huaying Yuan, Shuting Wang, Jiongnan Liu, Wenhan Liu, Chenlong Deng, Zhicheng Dou, and Ji-Rong Wen(参考訳) 情報取得の主要な手段として,検索エンジンなどの情報検索(IR)システムが,私たちの日常生活に組み込まれている。 これらのシステムは対話、質問応答、推薦システムの構成要素としても機能する。 IRの軌道は、項ベースの手法の起源から高度なニューラルモデルとの統合まで、動的に進化してきた。 ニューラルネットワークは複雑なコンテキスト信号やセマンティックなニュアンスを捉えるのに優れており、IRのランドスケープを再構築するが、データ不足、解釈可能性、文脈的に妥当で不正確な応答の生成といった課題に直面している。 この進化には従来の手法(項ベースのスパース検索法と迅速な応答法など)と現代のニューラルアーキテクチャ(強力な言語理解能力を持つ言語モデルなど)の組み合わせが必要である。 一方、ChatGPTとGPT-4に代表される大規模言語モデル(LLM)の出現は、言語理解、生成、一般化、推論能力によって自然言語処理に革命をもたらした。 その結果、最近の研究はLLMをIRシステムの改善に活用しようと試みている。 この研究軌道の急速な進化を考えると、既存の方法論を整理し、包括的概要を通して微妙な洞察を提供する必要がある。 本調査では,クエリリフレクタ,レトリバー,リランカ,リーダといった重要な側面を含む,LLMとIRシステムの合流点を探索する。 さらに,この拡大分野における有望な方向性を探究する。

As a primary means of information acquisition, information retrieval (IR) systems, such as search engines, have integrated themselves into our daily lives. These systems also serve as components of dialogue, question-answering, and recommender systems. The trajectory of IR has evolved dynamically from its origins in term-based methods to its integration with advanced neural models. While the neural models excel at capturing complex contextual signals and semantic nuances, thereby reshaping the IR landscape, they still face challenges such as data scarcity, interpretability, and the generation of contextually plausible yet potentially inaccurate responses. This evolution requires a combination of both traditional methods (such as term-based sparse retrieval methods with rapid response) and modern neural architectures (such as language models with powerful language understanding capacity). Meanwhile, the emergence of large language models (LLMs), typified by ChatGPT and GPT-4, has revolutionized natural language processing due to their remarkable language understanding, generation, generalization, and reasoning abilities. Consequently, recent research has sought to leverage LLMs to improve IR systems. Given the rapid evolution of this research trajectory, it is necessary to consolidate existing methodologies and provide nuanced insights through a comprehensive overview. In this survey, we delve into the confluence of LLMs and IR systems, including crucial aspects such as query rewriters, retrievers, rerankers, and readers. Additionally, we explore promising directions within this expanding field.
翻訳日:2023-08-15 13:16:34 公開日:2023-08-14
# 自動運転におけるTP、FP、FNオブジェクトのテストOracleを透過的に定義するチェックリスト

Checklist to Transparently Define Test Oracles for TP, FP, and FN Objects in Automated Driving ( http://arxiv.org/abs/2308.07106v1 )

ライセンス: Link先を確認
Michael Hoss(参考訳) 運転自動化システムの知覚サブシステムに対する一般的なテストオラクルは、真陽性(TP)、偽陽性(FP)、偽陰性(FN)のオブジェクトを識別する。 Oracleの透明性は、テスト結果と安全ケースを比較するために必要です。 今のところ、この分野にはTP、FP、FNの共通概念があるが、それらのオラクルを包括的に定義する方法は明らかにされていない。 そこで本稿では,オラクルの振る舞いに影響を与える機能面と実装の詳細のチェックリストを提供する。 テストセットのポリシーのラベル付けに加えて、視野、咬合処理、安全関連領域、基準の一致、時間的および確率的問題、その他の側面をカバーする。 私たちのチェックリストはほとんど形式化できませんが、実践者が託宣の透明性を最大化するのに役立ちます。

Popular test oracles for the perception subsystem of driving automation systems identify true-positive (TP), false-positive (FP), and false-negative (FN) objects. Oracle transparency is needed for comparing test results and for safety cases. To date, there exists a common notion of TPs, FPs, and FNs in the field, but apparently no published way to comprehensively define their oracles. Therefore, this paper provides a checklist of functional aspects and implementation details that affect the oracle behavior. Besides labeling policies of the test set, we cover fields of view, occlusion handling, safety-relevant areas, matching criteria, temporal and probabilistic issues, and further aspects. Even though our checklist can hardly be formalized, it can help practitioners maximize the transparency of their oracles, which, in turn, makes statements on object perception more reliable and comparable.
翻訳日:2023-08-15 13:16:10 公開日:2023-08-14
# SAMとロボット外科: 一般化、ロバスト性、適応に関する実証的研究

SAM Meets Robotic Surgery: An Empirical Study on Generalization, Robustness and Adaptation ( http://arxiv.org/abs/2308.07156v1 )

ライセンス: Link先を確認
An Wang, Mobarakol Islam, Mengya Xu, Yang Zhang, Hongliang Ren(参考訳) Segment Anything Model (SAM) はセマンティックセグメンテーションの基本モデルとして機能し、幅広い下流シナリオにまたがる顕著な一般化機能を示す。 本研究では,ロボット外科領域におけるSAMの堅牢性とゼロショットの一般化性について検討する。 我々は,障害や摂動を5つの重大度レベルで一般化する能力に加えて,刺激的および非刺激的な状況,境界ボックス,ポイントベースのプロンプトアプローチなど,さまざまなシナリオを包括的に検討する。 さらに,SAMの性能を最先端の教師付きモデルと比較した。 私たちは、MICCAI EndoVis 2017と2018の2つの有名なロボット機器セグメンテーションデータセットを用いて、すべての実験を行います。 広範な評価結果から,SAMはバウンディングボックスのプロンプトで顕著なゼロショット一般化能力を示すが,ポイントベースのプロンプトとアンプロンプトの設定で楽器全体をセグメント化することは困難であることがわかった。 さらに,このモデルでは,楽器マスクの特定の部分(顎,手首など)の予測に失敗したり,同じバウンディングボックス内やポイントベースのプロンプトで楽器が重なり合うようなシナリオにおいて,間違ったクラスとして楽器の部品を予測することができなかった。 実際SAMは、血液、反射、ぼやけ、陰といった複雑な手術シナリオにおける機器の特定に苦慮している。 さらにSAMは、さまざまな形式のデータ破壊を受けると、高いパフォーマンスを維持するには不十分である。 また,低ランク適応 (lora) を用いた sam の微調整を試み,手術用 sam を提案する。 したがって、さらにドメイン固有の微調整がなければ、SAMは下流の外科的タスクに準備ができていないと論じることができる。

The Segment Anything Model (SAM) serves as a fundamental model for semantic segmentation and demonstrates remarkable generalization capabilities across a wide range of downstream scenarios. In this empirical study, we examine SAM's robustness and zero-shot generalizability in the field of robotic surgery. We comprehensively explore different scenarios, including prompted and unprompted situations, bounding box and points-based prompt approaches, as well as the ability to generalize under corruptions and perturbations at five severity levels. Additionally, we compare the performance of SAM with state-of-the-art supervised models. We conduct all the experiments with two well-known robotic instrument segmentation datasets from MICCAI EndoVis 2017 and 2018 challenges. Our extensive evaluation results reveal that although SAM shows remarkable zero-shot generalization ability with bounding box prompts, it struggles to segment the whole instrument with point-based prompts and unprompted settings. Furthermore, our qualitative figures demonstrate that the model either failed to predict certain parts of the instrument mask (e.g., jaws, wrist) or predicted parts of the instrument as wrong classes in the scenario of overlapping instruments within the same bounding box or with the point-based prompt. In fact, SAM struggles to identify instruments in complex surgical scenarios characterized by the presence of blood, reflection, blur, and shade. Additionally, SAM is insufficiently robust to maintain high performance when subjected to various forms of data corruption. We also attempt to fine-tune SAM using Low-rank Adaptation (LoRA) and propose SurgicalSAM, which shows the capability in class-wise mask prediction without prompt. Therefore, we can argue that, without further domain-specific fine-tuning, SAM is not ready for downstream surgical tasks.
翻訳日:2023-08-15 13:08:52 公開日:2023-08-14
# DELO:部分最適輸送を用いた深部エビデンシャルLiDARオドメトリー

DELO: Deep Evidential LiDAR Odometry using Partial Optimal Transport ( http://arxiv.org/abs/2308.07153v1 )

ライセンス: Link先を確認
Sk Aziz Ali, Djamila Aouada, Gerd Reis, Didier Stricker(参考訳) 正確な、堅牢で、リアルタイムなLiDARベースのオドメトリー(LO)は、ロボットナビゲーション、グローバルに一貫した3Dシーンマップの再構築、安全なモーションプランニングなど、多くのアプリケーションに必須である。 LiDARセンサはその正確な距離測定で知られているが、不均一で不確実な点サンプリング密度は構造的不整合を引き起こす。 したがって、既存の教師付きおよび教師なしのポイントセット登録法は、LiDARフレーム間の1対1の対応を確立できない。 本稿では,フレーム間対応とモデル予測の不確実性(pu)を共同で学習し,loの予測を安全に保護する新しい深層学習型リアルタイム(フレーム当たり約35~40ms)lo法を提案する。 本研究で提案する 一 頑健なLO推定のためのLiDAR特徴記述子の部分的最適輸送 (ii)運転系列に対するオドメトリー学習における予測不確かさの合同学習 三 LOネットワークが下か過大かの場合に、PUが必要なポーズグラフ最適化の証拠となることを実証する。 提案手法をKITTIデータセット上で評価し,最近の最先端手法よりも優れた一般化能力を示す。 ソースコードは利用可能である。

Accurate, robust, and real-time LiDAR-based odometry (LO) is imperative for many applications like robot navigation, globally consistent 3D scene map reconstruction, or safe motion-planning. Though LiDAR sensor is known for its precise range measurement, the non-uniform and uncertain point sampling density induce structural inconsistencies. Hence, existing supervised and unsupervised point set registration methods fail to establish one-to-one matching correspondences between LiDAR frames. We introduce a novel deep learning-based real-time (approx. 35-40ms per frame) LO method that jointly learns accurate frame-to-frame correspondences and model's predictive uncertainty (PU) as evidence to safe-guard LO predictions. In this work, we propose (i) partial optimal transportation of LiDAR feature descriptor for robust LO estimation, (ii) joint learning of predictive uncertainty while learning odometry over driving sequences, and (iii) demonstrate how PU can serve as evidence for necessary pose-graph optimization when LO network is either under or over confident. We evaluate our method on KITTI dataset and show competitive performance, even superior generalization ability over recent state-of-the-art approaches. Source codes are available.
翻訳日:2023-08-15 13:08:19 公開日:2023-08-14
# iqpサンプリングと検証可能な量子アドバンテージ:安定化スキームと古典的セキュリティ

IQP Sampling and Verifiable Quantum Advantage: Stabilizer Scheme and Classical Security ( http://arxiv.org/abs/2308.07152v1 )

ライセンス: Link先を確認
Michael J. Bremner, Bin Cheng and Zhengfeng Ji(参考訳) ノイズ中間スケール量子(nisq)デバイスを用いた古典計算能力を超えたサンプリング問題は実験的に実現されている。 しかし、これらの実現においては、量子デバイスが要求されるサンプリング問題を忠実に解くという信頼は通常、小規模インスタンスのシミュレーションに限られており、間接的である。 検証可能な量子アドバンテージの問題は、この問題を解決し、主張されたアドバンテージに対する信頼性を高めることを目的としています。 量子多項式時間(iqp)サンプリングは、二次符号(qrc)に基づいた検証可能なスキームを用いて古典的能力を超えて実現するために提案されている。 残念なことに、この検証計画は、最近カハナモク・マイヤーが提案した攻撃によって破られた。 本研究では,2つの主要な貢献によってIQPに基づく検証可能な量子優位性を復活させる。 まず, iqp回路をリンクする結果, 安定化器形式, 符号化理論, iqp回路相関関数の効率的なキャラクタリゼーションに基づく, \emph{stabilizer scheme} と呼ばれる一連のiqpサンプリングプロトコルを導入する。 この構成は既存のiqpベースのスキームの範囲を拡張し、単純さと検証可能性を維持している。 第二に,安定化器スキームの根底にある数学的な課題として,hsc問題(enmph{hidden structured code})を導入する。 古典的セキュリティを評価するために,カハナモクメイヤー攻撃を特殊事例として,秘密抽出に基づく攻撃の種類を考察する。 我々は,HSC問題の硬さを前提として,安定化器方式の安全性を示す。 また、元のQRC方式で観測された脆弱性は主に不適切なパラメータ選択によるもので、適切なパラメータ設定で自然に修正可能であることも指摘した。

Sampling problems demonstrating beyond classical computing power with noisy intermediate-scale quantum (NISQ) devices have been experimentally realized. In those realizations, however, our trust that the quantum devices faithfully solve the claimed sampling problems is usually limited to simulations of smaller-scale instances and is, therefore, indirect. The problem of verifiable quantum advantage aims to resolve this critical issue and provides us with greater confidence in a claimed advantage. Instantaneous quantum polynomial-time (IQP) sampling has been proposed to achieve beyond classical capabilities with a verifiable scheme based on quadratic-residue codes (QRC). Unfortunately, this verification scheme was recently broken by an attack proposed by Kahanamoku-Meyer. In this work, we revive IQP-based verifiable quantum advantage by making two major contributions. Firstly, we introduce a family of IQP sampling protocols called the \emph{stabilizer scheme}, which builds on results linking IQP circuits, the stabilizer formalism, coding theory, and an efficient characterization of IQP circuit correlation functions. This construction extends the scope of existing IQP-based schemes while maintaining their simplicity and verifiability. Secondly, we introduce the \emph{Hidden Structured Code} (HSC) problem as a well-defined mathematical challenge that underlies the stabilizer scheme. To assess classical security, we explore a class of attacks based on secret extraction, including the Kahanamoku-Meyer's attack as a special case. We provide evidence of the security of the stabilizer scheme, assuming the hardness of the HSC problem. We also point out that the vulnerability observed in the original QRC scheme is primarily attributed to inappropriate parameter choices, which can be naturally rectified with proper parameter settings.
翻訳日:2023-08-15 13:07:47 公開日:2023-08-14
# 文化遺産におけるキャプションと検索のための拡散に基づく増補

Diffusion Based Augmentation for Captioning and Retrieval in Cultural Heritage ( http://arxiv.org/abs/2308.07151v1 )

ライセンス: Link先を確認
Dario Cioni, Lorenzo Berlincioni, Federico Becattini, Alberto del Bimbo(参考訳) 文化遺産アプリケーションと高度な機械学習モデルは、効果的でアクセス可能なアートワークとのインタラクション方法を提供するための実りあるシナジーを生み出しています。 スマートオーディオガイド、パーソナライズされたアート関連のコンテンツ、ゲーム化アプローチは、アーティストや展覧会に付加的な価値を提供するためにテクノロジーを活用できるいくつかの例にすぎない。 それでも、機械学習の観点からは、利用可能な芸術的データの量は、効果的なモデルをトレーニングするには不十分であることが多い。 既製のコンピュータビジョンモジュールはある程度は活用可能だが、アートイメージと、そのようなモデルのトレーニングに使用される標準的な自然画像データセットの間には、厳しいドメインシフトが存在する。 その結果、パフォーマンスが低下する可能性がある。 本稿では,文化遺産領域における限られた注釈付きデータとドメインシフトの課題に対処する新しいアプローチを提案する。 生成的視覚言語モデルを活用することで,キャプションを条件とした多種多様なアートワークを生成することにより,アートデータセットを拡張できる。 この拡張戦略はデータセットの多様性を高め、自然画像とアートワークのギャップを橋渡しし、汎用データセットからの知識と視覚手がかりのアラインメントを改善する。 生成されたバリエーションは、芸術的特徴をより深く理解し、適切なジャーゴンでより良いキャプションを生成することができる視覚と言語モデルのトレーニングを支援する。

Cultural heritage applications and advanced machine learning models are creating a fruitful synergy to provide effective and accessible ways of interacting with artworks. Smart audio-guides, personalized art-related content and gamification approaches are just a few examples of how technology can be exploited to provide additional value to artists or exhibitions. Nonetheless, from a machine learning point of view, the amount of available artistic data is often not enough to train effective models. Off-the-shelf computer vision modules can still be exploited to some extent, yet a severe domain shift is present between art images and standard natural image datasets used to train such models. As a result, this can lead to degraded performance. This paper introduces a novel approach to address the challenges of limited annotated data and domain shifts in the cultural heritage domain. By leveraging generative vision-language models, we augment art datasets by generating diverse variations of artworks conditioned on their captions. This augmentation strategy enhances dataset diversity, bridging the gap between natural images and artworks, and improving the alignment of visual cues with knowledge from general-purpose datasets. The generated variations assist in training vision and language models with a deeper understanding of artistic characteristics and that are able to generate better captions with appropriate jargon.
翻訳日:2023-08-15 13:07:18 公開日:2023-08-14
# 量子照明と量子パラメータ推定の関係

Relation between quantum illumination and quantum parameter estimation ( http://arxiv.org/abs/2308.07150v1 )

ライセンス: Link先を確認
Wei Zhong, Wen-Yi Zhu, Yang Li, Lan Zhou, Ming-Ming Du, Yu-Bo Sheng(参考訳) 量子照明(QI)は、絡み合った光を利用して、熱浴に囲まれた領域における低反射性物体の存在を検知する。 均質的に、量子パラメータ推定は非古典的プローブを用いて、システムに興味のある未知のパラメータの値を正確に推定する。 この2つの領域には一定の関係があるようだ。 しかし、それらは信号対雑音比と量子フィッシャー情報という、様々な効果の数値を用いて一般的に研究されている。 本研究では,2つの測度が対象反射率ゼロの極限においてQIと等価であることを示す。 さらに、この同値性は、光子付加と光子減算による2モード圧縮真空状態の脱ガウス化によって得られる非ガウス状態を用いたQIプロトコルを用いて調べることによって証明する。 しかし, この分析結果から, 脱ガス化操作はヌルの場合に比べて有利ではないことを示す結果が得られなかった。

Quantum illumination (QI) leverages entangled lights to detect the potential presence of low-reflective objects in a region surrounded by a thermal bath. Homologously, quantum parameter estimation utilizes non-classical probes to accurately estimate the value of the unknown parameter(s) of interest in a system. There appears to be a certain connection between these two areas. However, they are commonly studied using different figures of merit: signal-to-noise ratio and quantum Fisher information. In this study, we prove that the two measures are equivalent to QI in the limit of zero object reflectivity. We further demonstrate this equivalence by investigating QI protocols employing non-Gaussian states, which are obtained by de-Gaussifying the two-mode squeezed vacuum state with photon addition and photon subtraction. However, our analysis leads to a no-go result which demonstrates that de-Gaussification operations do not offer an advantage compared to the null case.
翻訳日:2023-08-15 13:06:56 公開日:2023-08-14
# CTP:コンパチブルモーメントコントラストとトポロジー保存によるビジョンランゲージ継続事前訓練に向けて

CTP: Towards Vision-Language Continual Pretraining via Compatible Momentum Contrast and Topology Preservation ( http://arxiv.org/abs/2308.07146v1 )

ライセンス: Link先を確認
Hongguang Zhu, Yunchao Wei, Xiaodan Liang, Chunjie Zhang, Yao Zhao(参考訳) Vision-Language Pretraining (VLP)は、大規模なデータセット上でのオフライントレーニングによって、さまざまな下流タスクに対して印象的な結果を示している。 実世界のデータの性質の増大については、モデルが常に知識を蓄積する継続的学習能力に欠けるため、常に拡大するデータのオフライントレーニングパラダイムは持続不可能である。 しかし、ほとんどの連続学習研究はユニモーダル分類に限定されており、既存のマルチモーダルデータセットは連続的な非定常データストリームシナリオをシミュレートすることはできない。 VLCP(Vision-Language Continual Pretraining)の研究を支援するために、9つの業界から100万以上の製品イメージテキストペアを含む、総合的で統一されたベンチマークデータセットP9Dを最初に提供します。 独立したタスクとしての各業界からのデータは継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。 我々は,VLCPの特徴と課題を包括的に研究し,新しいアルゴリズムを提案する。 互換運動量モデルは、現在のおよび以前のタスクモデルの知識を吸収し、そのモーダル特徴を柔軟に更新する。 さらにトポロジ保存は,機能調整の柔軟性を維持しつつ,タスク間の埋め込みに関する知識を伝達する。 実験の結果,本手法は他のベースラインと比較して優れた性能が得られるだけでなく,高いトレーニング負担をもたらさないことを示した。 データセットとコードはhttps://github.com/KevinLight831/CTPで入手できる。

Vision-Language Pretraining (VLP) has shown impressive results on diverse downstream tasks by offline training on large-scale datasets. Regarding the growing nature of real-world data, such an offline training paradigm on ever-expanding data is unsustainable, because models lack the continual learning ability to accumulate knowledge constantly. However, most continual learning studies are limited to uni-modal classification and existing multi-modal datasets cannot simulate continual non-stationary data stream scenarios. To support the study of Vision-Language Continual Pretraining (VLCP), we first contribute a comprehensive and unified benchmark dataset P9D which contains over one million product image-text pairs from 9 industries. The data from each industry as an independent task supports continual learning and conforms to the real-world long-tail nature to simulate pretraining on web data. We comprehensively study the characteristics and challenges of VLCP, and propose a new algorithm: Compatible momentum contrast with Topology Preservation, dubbed CTP. The compatible momentum model absorbs the knowledge of the current and previous-task models to flexibly update the modal feature. Moreover, Topology Preservation transfers the knowledge of embedding across tasks while preserving the flexibility of feature adjustment. The experimental results demonstrate our method not only achieves superior performance compared with other baselines but also does not bring an expensive training burden. Dataset and codes are available at https://github.com/KevinLight831/CTP.
翻訳日:2023-08-15 13:06:39 公開日:2023-08-14
# 位相的制約を持つフラストレーションジョセフソン接合配列から生じる長距離イジングスピンモデル

Long-range Ising spins models emerging from frustrated Josephson junctions arrays with topological constraints ( http://arxiv.org/abs/2308.07143v1 )

ライセンス: Link先を確認
Oliver Neyenhuys, Mikhail V. Fistul, and Ilya M. Eremin(参考訳) 相関系における幾何学的フラストレーションは、多くの新しい秩序状態と興味深い位相を引き起こす。 本稿では、ジョセフソン接合の頂点共有フラストレーションカゴメ格子を理論的に解析し、古典相と量子相を同定する。 フラストレーションは周期的に 0$- と $\pi$- Josephson 接合によって提供される。 フラストレーション状態において、マクロ位相は、カゴメ格子のそれぞれの基本要素、すなわち3つのジョセフソン接合によって遮断された超伝導三角形を貫通する渦/反渦の異なるパターンからなる。 ヘキサゴナルループのフラックス量子化に関連する多くのトポロジカル制約は、よく分離された渦(渦)間の高度に異方性と長距離の相互作用をもたらす。 この相互作用と単一超伝導三角形における渦と反渦の「トンネル」の可能性を考慮すると、強い異方性長距離相互作用を持つ効果的なイジング型スピンハミルトニアンが得られる。 古典的フラストレーションでは、温度依存性の空間平均スピン分極、$\overline{m}(t)$を数値的に計算し、順序と乱れた渦/反渦状態の交差を特徴付ける。 コヒーレント量子状態において、基底状態の退化と高度に絡み合った状態の出現を解析する。

Geometrical frustration in correlated systems can give rise to a plethora of novel ordered states and intriguing phases. Here, we analyze theoretically vertex-sharing frustrated Kagome lattice of Josephson junctions and identify various classical and quantum phases. The frustration is provided by periodically arranged $0$- and $\pi$- Josephson junctions. In the frustrated regime the macroscopic phases are composed of different patterns of vortex/antivortex penetrating each basic element of the Kagome lattice, i.e., a superconducting triangle interrupted by three Josephson junctions. We obtain that numerous topological constraints, related to the flux quantization in any hexagon loop, lead to highly anisotropic and long-range interaction between well separated vortices (antivortices). Taking into account this interaction and a possibility of macroscopic "tunneling" between vortex and antivortex in single superconducting triangles we derive an effective Ising-type spin Hamiltonian with strongly anisotropic long-range interaction. In the classically frustrated regime we calculate numerically the temperature-dependent spatially averaged spins polarization, $\overline{m}(T)$, characterizing the crossover between the ordered and disordered vortex/antivortex states. In the coherent quantum regime we analyze the lifting of the degeneracy of the ground state and the appearance of the highly entangled states.
翻訳日:2023-08-15 13:06:16 公開日:2023-08-14
# マスク言語モデリングを用いた相互作用するタンパク質配列のペアリング

Pairing interacting protein sequences using masked language modeling ( http://arxiv.org/abs/2308.07136v1 )

ライセンス: Link先を確認
Umberto Lupo, Damiano Sgarbossa, Anne-Florence Bitbol(参考訳) アミノ酸配列から相互作用するタンパク質を予測することは重要な課題である。 我々は,MSAトランスフォーマーやAlphaFoldのEvoFormerモジュールなど,複数の配列アライメントに基づいて訓練されたタンパク質言語モデルのパワーを活用する,相互作用するタンパク質配列のペア化手法を開発した。 異なる方法で2つのタンパク質ファミリーのパラログ間の相互作用パートナーのペアリングの問題を定式化する。 DiffPALMと呼ばれる手法は、MSAトランスフォーマーが周囲のコンテキストを用いて複数の配列配列でマスクされたアミノ酸を埋める能力を活用することで解決する。 MSAトランスフォーマーは機能的または構造的に結合したアミノ酸間の共進化をコードする。 チェーン間の共進化をキャプチャすると同時に、単一チェーンデータでトレーニングしたことも示しています。 DiffPALMは、微調整のないMSAトランスフォーマーを用いて、ユビキタスなプロカリアティックタンパク質データセットから抽出された浅い多重配列アライメントの難しいベンチマークにおいて、既存の共進化に基づくペアリング法より優れている。 また、単一の配列で訓練された最先端のタンパク質言語モデルに基づく代替手法よりも優れている。 相互作用するタンパク質配列のペアアライメントは、タンパク質複合体の3次元構造を予測するための教師付き深層学習法の重要な要素である。 DiffPALMはAlphaFold-Multimerによる真核生物のタンパク質複合体の構造予測を大幅に改善する。 整形学に基づくペアリングを使用することで、競争性能も向上する。

Predicting which proteins interact together from amino-acid sequences is an important task. We develop a method to pair interacting protein sequences which leverages the power of protein language models trained on multiple sequence alignments, such as MSA Transformer and the EvoFormer module of AlphaFold. We formulate the problem of pairing interacting partners among the paralogs of two protein families in a differentiable way. We introduce a method called DiffPALM that solves it by exploiting the ability of MSA Transformer to fill in masked amino acids in multiple sequence alignments using the surrounding context. MSA Transformer encodes coevolution between functionally or structurally coupled amino acids. We show that it captures inter-chain coevolution, while it was trained on single-chain data, which means that it can be used out-of-distribution. Relying on MSA Transformer without fine-tuning, DiffPALM outperforms existing coevolution-based pairing methods on difficult benchmarks of shallow multiple sequence alignments extracted from ubiquitous prokaryotic protein datasets. It also outperforms an alternative method based on a state-of-the-art protein language model trained on single sequences. Paired alignments of interacting protein sequences are a crucial ingredient of supervised deep learning methods to predict the three-dimensional structure of protein complexes. DiffPALM substantially improves the structure prediction of some eukaryotic protein complexes by AlphaFold-Multimer, without significantly deteriorating any of those we tested. It also achieves competitive performance with using orthology-based pairing.
翻訳日:2023-08-15 13:05:52 公開日:2023-08-14
# 自然言語はグラフに必要なもの

Natural Language is All a Graph Needs ( http://arxiv.org/abs/2308.07134v1 )

ライセンス: Link先を確認
Ruosong Ye, Caiqi Zhang, Runhui Wang, Shuyuan Xu, Yongfeng Zhang(参考訳) ChatGPTのような大規模な事前学習言語モデルの出現は、人工知能の様々な研究分野に革命をもたらした。 トランスフォーマーベースの大規模言語モデル(LLM)は、コンピュータビジョンと自然言語処理の分野を統合するためにCNNとRNNを徐々に置き換えている。 画像やビデオ、テキストなど、比較的独立したデータと比較すると、graphは構造的および関係的な情報を含むデータの一種である。 一方、自然言語は最も表現力のある媒体の1つであり、複雑な構造を記述するのに優れている。 しかし、グラフ学習問題を生成言語モデリングフレームワークに組み込む作業は依然として非常に限られている。 言語モデルの重要性が高まり続けており、LLMがグラフの基本モデルとしてGNNを置き換えることができるかどうかを検討することが不可欠である。 本稿では、自然言語命令に基づいて高度にスケーラブルなプロンプトを体系的に設計するインストラクションGLM(Instruction-finetuned Graph Language Model)を提案する。 提案手法は, ogbn-arxiv, Cora, PubMedデータセット上のGNNベースラインを全て越え, 提案手法の有効性を実証し, グラフ機械学習の基礎モデルとしてGNNを置き換える生成言語モデルに光を当てる。

The emergence of large-scale pre-trained language models, such as ChatGPT, has revolutionized various research fields in artificial intelligence. Transformers-based large language models (LLMs) have gradually replaced CNNs and RNNs to unify fields of computer vision and natural language processing. Compared with the data that exists relatively independently such as images, videos or texts, graph is a type of data that contains rich structural and relational information. Meanwhile, natural language, as one of the most expressive mediums, excels in describing complex structures. However, existing work on incorporating graph learning problems into the generative language modeling framework remains very limited. As the importance of language models continues to grow, it becomes essential to explore whether LLMs can also replace GNNs as the foundational model for graphs. In this paper, we propose InstructGLM (Instruction-finetuned Graph Language Model), systematically design highly scalable prompts based on natural language instructions, and use natural language to describe the geometric structure and node features of the graph for instruction tuning an LLMs to perform learning and inference on graphs in a generative manner. Our method exceeds all competitive GNN baselines on ogbn-arxiv, Cora and PubMed datasets, which demonstrates the effectiveness of our method and sheds light on generative language models replacing GNNs as the foundation model for graph machine learning.
翻訳日:2023-08-15 13:05:27 公開日:2023-08-14
# 時間対応テンソル分解による進行パターンの追跡

A Time-aware tensor decomposition for tracking evolving patterns ( http://arxiv.org/abs/2308.07126v1 )

ライセンス: Link先を確認
Christos Chatzis, Max Pfeffer, Pedro Lind, Evrim Acar(参考訳) 時間進化データセットは高階テンソルとして配置されることが多く、モードの1つがタイムモードである。 テンソル因子分解はそのような高次データセットの基本的なパターンを捉えるのにうまく使われてきたが、時間的側面はしばしば無視され、時間軸の再順序付けを可能にしている。 最近の研究では、時間正規化器が時間モードに組み込まれてこの問題に取り組んでいる。 それでも既存のアプローチでは,基盤となるパターンの時間的変化(脳の空間的変化やトピックのコンテキスト的変化など)は許可されていない。 本稿では, 時相正規化を用いた PARAFAC2 (tPARAFAC2) を用いた PARAFAC2 に基づくテンソル因子分解法を提案し, 時間的データから徐々に進化するパターンを抽出する。 合成データに関する広範な実験により, tPARAFAC2はPARAFAC2よりも正確に機能し, 時間的滑らか度正則化と組み合わせた行列因数分解を実現できることを示した。

Time-evolving data sets can often be arranged as a higher-order tensor with one of the modes being the time mode. While tensor factorizations have been successfully used to capture the underlying patterns in such higher-order data sets, the temporal aspect is often ignored, allowing for the reordering of time points. In recent studies, temporal regularizers are incorporated in the time mode to tackle this issue. Nevertheless, existing approaches still do not allow underlying patterns to change in time (e.g., spatial changes in the brain, contextual changes in topics). In this paper, we propose temporal PARAFAC2 (tPARAFAC2): a PARAFAC2-based tensor factorization method with temporal regularization to extract gradually evolving patterns from temporal data. Through extensive experiments on synthetic data, we demonstrate that tPARAFAC2 can capture the underlying evolving patterns accurately performing better than PARAFAC2 and coupled matrix factorization with temporal smoothness regularization.
翻訳日:2023-08-15 13:05:00 公開日:2023-08-14
# 誘引ポテンシャルで束縛された電子の光誘起非局在化

Optically induced delocalization of electrons bound by attractive potentials ( http://arxiv.org/abs/2308.07191v1 )

ライセンス: Link先を確認
O. V. Kibis, M. V. Boev, D. S. Eliseev, V. M. Kovalev(参考訳) 周期的に駆動される量子系のフロケ理論の中で、円形に偏極された非共鳴電磁場が3次元の誘電ポテンシャルで縛られた電子状態を破壊することを実証する。 その結果、結合した電子の光誘起非局在化が現れる。 この効果は、単連結の電位を二重連結の電位に変換する円偏波オフ共振電磁場下でのポテンシャル景観の位相構造の変化から生じる。 凝縮物質構造中の伝導電子について、この効果の可能性が議論されている。

Within the Floquet theory of periodically driven quantum systems, we demonstrate that a circularly polarized off-resonant electromagnetic field can destroy the electron states bound by three-dimensional attractive potentials. As a consequence, the optically induced delocalization of bound electrons appears. The effect arises from the changing of topological structure of a potential landscape under a circularly polarized off-resonant electromagnetic field which turns simply connected potentials into doubly connected ones. Possible manifestations of the effect are discussed for conduction electrons in condensed-matter structures.
翻訳日:2023-08-15 12:58:49 公開日:2023-08-14
# SEMI-CenterNet:半導体欠陥検査のための機械学習ファシリテートアプローチ

SEMI-CenterNet: A Machine Learning Facilitated Approach for Semiconductor Defect Inspection ( http://arxiv.org/abs/2308.07180v1 )

ライセンス: Link先を確認
Vic De Ridder, Bappaditya Dey, Enrique Dehaerne, Sandip Halder, Stefan De Gendt, Bartel Van Waeyenberge(参考訳) 半導体領域におけるパターン次元の連続的縮小は、確率的ノイズの存在や欠陥パターンやタイプの動的挙動などの要因により、欠陥の検査がますます困難になっている。 従来のルールベースの手法とKNNのような非パラメトリック教師付き機械学習アルゴリズムは、これらの先進ノードでの半導体欠陥検査の要求でほとんど失敗する。 ディープラーニング(DL)ベースの手法は、これらの困難なシナリオに対して堅牢であることが証明されたため、半導体欠陥検査領域で人気を集めている。 本研究では,SEM画像における欠陥の局所化と分類を効率的に行うためのDLベースの自動手法を提案する。 我々は半導体ウエハ欠陥のSEM画像に基づいて学習したカスタマイズCNアーキテクチャであるSEMI-CenterNet(SEMI-CN)を提案する。 提案手法を用いることで,従来のDLモデルと比較して計算効率が向上する。 SEMI-CNは、欠陥インスタンスの中心、クラス、サイズ、オフセットを出力するように訓練される。 これは、バウンディングボックス予測にアンカーを使用するほとんどのオブジェクト検出モデルのアプローチとは異なる。 従来の手法では冗長なバウンディングボックスを予測するが、そのほとんどが後処理で破棄される。 cnは、おそらく欠陥中心点のボックスを予測するだけでこれを緩和する。 2つのデータセットでSEMI-CNをトレーニングし、2つのResNetバックボーンをベンチマークします。 当初、ResNetモデルはCOCOデータセット上で2つのデータセットを別々にトレーニングしていた。 主に、SEMI-CNは、以前の研究結果に対する推論時間を大幅に改善した。 最後に、トランスファーラーニング(カスタムSEMデータセットの重みを使用する)をADIデータセットからAEIデータセットとバイスリバーサに適用することで、従来のトレーニング手法に対して最高のmAPに達するために必要なトレーニング時間を短縮する。

Continual shrinking of pattern dimensions in the semiconductor domain is making it increasingly difficult to inspect defects due to factors such as the presence of stochastic noise and the dynamic behavior of defect patterns and types. Conventional rule-based methods and non-parametric supervised machine learning algorithms like KNN mostly fail at the requirements of semiconductor defect inspection at these advanced nodes. Deep Learning (DL)-based methods have gained popularity in the semiconductor defect inspection domain because they have been proven robust towards these challenging scenarios. In this research work, we have presented an automated DL-based approach for efficient localization and classification of defects in SEM images. We have proposed SEMI-CenterNet (SEMI-CN), a customized CN architecture trained on SEM images of semiconductor wafer defects. The use of the proposed CN approach allows improved computational efficiency compared to previously studied DL models. SEMI-CN gets trained to output the center, class, size, and offset of a defect instance. This is different from the approach of most object detection models that use anchors for bounding box prediction. Previous methods predict redundant bounding boxes, most of which are discarded in postprocessing. CN mitigates this by only predicting boxes for likely defect center points. We train SEMI-CN on two datasets and benchmark two ResNet backbones for the framework. Initially, ResNet models pretrained on the COCO dataset undergo training using two datasets separately. Primarily, SEMI-CN shows significant improvement in inference time against previous research works. Finally, transfer learning (using weights of custom SEM dataset) is applied from ADI dataset to AEI dataset and vice-versa, which reduces the required training time for both backbones to reach the best mAP against conventional training method.
翻訳日:2023-08-15 12:58:42 公開日:2023-08-14
# 談話関係表現へのアノテーションの不確かさの導入

Incorporating Annotator Uncertainty into Representations of Discourse Relations ( http://arxiv.org/abs/2308.07179v1 )

ライセンス: Link先を確認
S. Magal\'i L\'opez Cortez and Cassandra L. Jacobs(参考訳) 談話関係のアノテーションは、特に非専門家の注釈家にとって、既知の難しいタスクである。 本稿では,音声対話データにおける談話関係の注釈に関する初級注釈者の不確実性について検討する。 対話の文脈(単回ターン、話者内の一対のターン、話者間の一対のターン)は信頼度スコアの重要な予測因子であることがわかった。 信頼度スコアと対話コンテキストに関する情報を組み込んだ共起統計から談話関係の分散表現を計算する。 本稿では,これらの表現を用いた階層的クラスタリング解析を行い,信頼度と対話コンテキストに関する情報を重み付けすることで,対話関係ラベルに関するアノテータの不確実性をモデル化することを示す。

Annotation of discourse relations is a known difficult task, especially for non-expert annotators. In this paper, we investigate novice annotators' uncertainty on the annotation of discourse relations on spoken conversational data. We find that dialogue context (single turn, pair of turns within speaker, and pair of turns across speakers) is a significant predictor of confidence scores. We compute distributed representations of discourse relations from co-occurrence statistics that incorporate information about confidence scores and dialogue context. We perform a hierarchical clustering analysis using these representations and show that weighting discourse relation representations with information about confidence and dialogue context coherently models our annotators' uncertainty about discourse relation labels.
翻訳日:2023-08-15 12:58:17 公開日:2023-08-14
# 非線形膜のde broglie-bohm解析:量子から古典カオスへ

de Broglie-Bohm analysis of a nonlinear membrane: From quantum to classical chaos ( http://arxiv.org/abs/2308.07178v1 )

ライセンス: Link先を確認
Henrique Santos Lima, Matheus M. A. Paix\~ao and Constantino Tsallis(参考訳) de broglie-bohm理論において、立方的相互作用と四次相互作用を含む2次元非調和振動子を数値的に研究した。 量子速度場と軌道の解析により,動的渦の発生が明らかになった。 周辺では、予測不能や初期状態に対する感受性などのカオス行動の指紋が検出される。 オフ対角および非線形項の同時存在は、その古典版と非常に類似した強固な量子カオスをもたらす。

Within the de Broglie-Bohm theory, we numerically study a generic two-dimensional anharmonic oscillator including cubic and quartic interactions. Our analysis of the quantum velocity fields and trajectories reveals the emergence of dynamical vortices. In their vicinity, fingerprints of chaotic behavior such as unpredictability and sensitivity to initial conditions are detected. The simultaneous presence of off-diagonal and nonlinear terms leads to robust quantum chaos very analogous to its classical version.
翻訳日:2023-08-15 12:58:07 公開日:2023-08-14
# 非クリフォードゲートの少ない量子状態の効率的な学習 II:単一コピー計測

Efficient Learning of Quantum States Prepared With Few Non-Clifford Gates II: Single-Copy Measurements ( http://arxiv.org/abs/2308.07175v1 )

ライセンス: Link先を確認
Sabee Grewal, Vishnu Iyer, William Kretschmer, Daniel Liang(参考訳) 最近の研究で、回路が出力する$n$-qubitの量子状態が少なくとも$t$の非クリフォードゲートを持つ場合、$\epsilon$を$\mathsf{poly}(n,2^t,1/\epsilon)$時間とサンプルで追跡することができることが示されている。 このランタイムを実現する前のアルゴリズムはすべて、入力状態の2つのコピーに絡み合った測定値を使用する。 そこで本研究では,単一コピー計測のみを用いて,同じ状態のクラスを学習するアルゴリズムを提案する。

Recent work has shown that $n$-qubit quantum states output by circuits with at most $t$ single-qubit non-Clifford gates can be learned to trace distance $\epsilon$ using $\mathsf{poly}(n,2^t,1/\epsilon)$ time and samples. All prior algorithms achieving this runtime use entangled measurements across two copies of the input state. In this work, we give a similarly efficient algorithm that learns the same class of states using only single-copy measurements.
翻訳日:2023-08-15 12:57:59 公開日:2023-08-14
# 超流動ヘリウム中の単一電子スピン検出法の提案

A proposal for detecting the spin of a single electron in superfluid helium ( http://arxiv.org/abs/2308.07174v1 )

ライセンス: Link先を確認
Jinyong Ma, Y. S. S. Patil, Jiaxin Yu, Yiqi Wang, J. G. E. Harris(参考訳) 超流動ヘリウム中の電子バブルは、電子のスピンと気泡の運動という非常に低い散逸をもたらす2つの自由度を持つ。 これらの自由度が十分な感度で読み出され、制御できるなら、様々な量子技術を実現し、超流動ヘリウムの物理学におけるオープンな疑問を探求するための新しいプラットフォームを提供するだろう。 本稿では,超流動充填光音響キャビティ内で電子気泡を捕捉し,これを実現するための実用的な手法を提案する。

The electron bubble in superfluid helium has two degrees of freedom that may offer exceptionally low dissipation: the electron's spin and the bubble's motion. If these degrees of freedom can be read out and controlled with sufficient sensitivity, they would provide a novel platform for realizing a range of quantum technologies and for exploring open questions in the physics of superfluid helium. Here we propose a practical scheme for accomplishing this by trapping an electron bubble inside a superfluid-filled opto-acoustic cavity.
翻訳日:2023-08-15 12:57:39 公開日:2023-08-14
# 多成分系における一般化ghz状態の真の非局所性

Genuine nonlocality of generalized GHZ states in many-partite systems ( http://arxiv.org/abs/2308.07171v1 )

ライセンス: Link先を確認
Zong-Xing Xiong, Yongli Zhang(参考訳) 直交多部量子状態の集合が判別可能性に基づく真の非局所的(あるいは真の非局所的)であるとは、状態が部分系の任意の分割にわたって局所的に区別不能であるときに言う。 本研究では,一般化されたghz状態の(識別可能性に基づく)真の非局所性について,主に多数のパータイトが考慮された場合について検討する。 N-qubit の場合、GHZ 基底の真の非局所部分集合がカルディアンリティ {\Theta}(2^(N/2)) が存在することを示す。 また、この結果を d > 2 が偶数である場合に一般化する。

A set of orthogonal multipartite quantum states is said to be distinguishability-based genuinely nonlocal (also genuinely nonlocal, for abbreviation) if the states are locally indistinguishable across any bipartition of the subsystems. In this work, we study the (distinguishability-based) genuine nonlocality of the generalized GHZ states, primarily for the case when a large number of partites are considered. For the N-qubit case, we show that genuinely nonlocal subsets of the GHZ basis with cardianlity {\Theta}(2^(N/2)) exist. We also generalize this result to the cases when d > 2 is an even number.
翻訳日:2023-08-15 12:57:23 公開日:2023-08-14
# PitchNet: ピッチ推定のための完全な畳み込みニューラルネットワーク

PitchNet: A Fully Convolutional Neural Network for Pitch Estimation ( http://arxiv.org/abs/2308.07170v1 )

ライセンス: Link先を確認
Jeremy Cochoy(参考訳) 音楽と音処理の分野では、ピッチ抽出が重要な役割を果たす。 本研究では,アカペラ演奏を含む人間の歌声からのピッチ抽出に適した畳み込みニューラルネットワークである"PitchNet"を紹介する。 PitchNetは、自己相関とディープラーニング技術を統合することで、ピッチ検出の精度を最適化することを目指している。 合成音、オペラ録音、時間伸長母音からなるデータセット間の評価は、その有効性を示す。 この作品は、音楽と音声の両方の設定でピッチ抽出を強化している。

In the domain of music and sound processing, pitch extraction plays a pivotal role. This research introduces "PitchNet", a convolutional neural network tailored for pitch extraction from the human singing voice, including acapella performances. Integrating autocorrelation with deep learning techniques, PitchNet aims to optimize the accuracy of pitch detection. Evaluation across datasets comprising synthetic sounds, opera recordings, and time-stretched vowels demonstrates its efficacy. This work paves the way for enhanced pitch extraction in both music and voice settings.
翻訳日:2023-08-15 12:57:02 公開日:2023-08-14
# ハイパースパースニューラルネットワーク:適応正規化による探索から搾取への移行

HyperSparse Neural Networks: Shifting Exploration to Exploitation through Adaptive Regularization ( http://arxiv.org/abs/2308.07163v1 )

ライセンス: Link先を確認
Patrick Glandorf and Timo Kaiser and Bodo Rosenhahn(参考訳) スパースニューラルネットワークは、リソース効率のよい機械学習アプリケーションを開発する上で重要な要素である。 本稿では,分散ネットワークに密圧縮する新しい,かつ強力なスパース学習手法である適応正規化学習(art)を提案する。 モデルの重量を減らすためにトレーニング中によく使われるバイナリマスクの代わりに、私たちは、重みの正規化を増加させながら、反復的に重みをゼロに縮小する。 本手法は,事前学習したモデル知識を最大重みに圧縮する。 そこで本研究では,重みの探索能力を維持しながら最大重みを生かすハイパースパースという新しい正規化損失を導入する。 CIFARとTinyImageNetの大規模な実験により、我々の手法は他のスパーシフィケーション法と比較して顕著な性能向上をもたらすことが示されている。 さらなる調査は、大きな大きさの重みでエンコードされるパターンに対する新たな洞察を提供する。

Sparse neural networks are a key factor in developing resource-efficient machine learning applications. We propose the novel and powerful sparse learning method Adaptive Regularized Training (ART) to compress dense into sparse networks. Instead of the commonly used binary mask during training to reduce the number of model weights, we inherently shrink weights close to zero in an iterative manner with increasing weight regularization. Our method compresses the pre-trained model knowledge into the weights of highest magnitude. Therefore, we introduce a novel regularization loss named HyperSparse that exploits the highest weights while conserving the ability of weight exploration. Extensive experiments on CIFAR and TinyImageNet show that our method leads to notable performance gains compared to other sparsification methods, especially in extremely high sparsity regimes up to 99.8 percent model sparsity. Additional investigations provide new insights into the patterns that are encoded in weights with high magnitudes.
翻訳日:2023-08-15 12:56:38 公開日:2023-08-14
# チップ上のハイブリッド量子系におけるスピン光子界面のナノエレクトロメカニクス制御

Nanoelectromechanical control of spin-photon interfaces in a hybrid quantum system on chip ( http://arxiv.org/abs/2308.07161v1 )

ライセンス: Link先を確認
Genevieve Clark, Hamza Raniwala, Matthew Koppa, Kevin Chen, Andrew Leenheer, Matthew Zimmermann, Mark Dong, Linsen Li, Y. Henry Wen, Daniel Dominguez, Matthew Trusheim, Gerald Gilbert, Matt Eichenfield, Dirk Englund(参考訳) ナノ構造ダイヤモンドにおける原子様欠陥やカラーセンター(cc)は、メモリエンハンス量子通信、マルチノード量子ネットワーク、スピン媒介によるフォトニッククラスター状態の生成など、光学結合量子技術の主要なプラットフォームである。 C1 スピン量子ビットの個別の光アドレス化、CCスピン依存光遷移のC2周波数チューニング、CC基底状態のC3コヒーレントスピン制御、C4 アクティブ光子ルーティング、C5 スケーラブルな製造性、低温操作のためのC6 オンチップ電力分散。 しかし、今のところC1-C6のアーキテクチャは示されていない。 本稿では,C1-C6を同時に実現するハイブリッド量子システム(HQ-SoC)アーキテクチャを提案する。 この進歩の鍵となるのは、ダイヤモンド導波管結合型スズ空孔中心の圧電ひずみ制御の実現であり、C2とC3に匹敵する。 本装置の直流応答はエミッタ遷移チューニングを20GHz以上可能とし,大周波数域(2GHz以上)は低消費電力交流制御を実現する。 本研究では, 結合したスズ空隙スピンの音響操作と, 1kHz以上の単フォノン結合速度を推定する。 このHQ-SoCプラットフォームは、高速な光ルーティングと無視可能な静的ホールドパワーを組み合わせることで、光を介するエンタングゲートによるスケーラブルな単一ビット制御への道を開く。

Atom-like defects or color centers (CC's) in nanostructured diamond are a leading platform for optically linked quantum technologies, with recent advances including memory-enhanced quantum communication, multi-node quantum networks, and spin-mediated generation of photonic cluster states. Scaling to practically useful applications motivates architectures meeting the following criteria: C1 individual optical addressing of spin qubits; C2 frequency tuning of CC spin-dependent optical transitions; C3 coherent spin control in CC ground states; C4 active photon routing; C5 scalable manufacturability; and C6 low on-chip power dissipation for cryogenic operations. However, no architecture meeting C1-C6 has thus far been demonstrated. Here, we introduce a hybrid quantum system-on-chip (HQ-SoC) architecture that simultaneously achieves C1-C6. Key to this advance is the realization of piezoelectric strain control of diamond waveguide-coupled tin vacancy centers to meet C2 and C3, with ultra-low power dissipation necessary for C6. The DC response of our device allows emitter transition tuning by over 20 GHz, while the large frequency range (exceeding 2 GHz) enables low-power AC control. We show acoustic manipulation of integrated tin vacancy spins and estimate single-phonon coupling rates over 1 kHz in the resolved sideband regime. Combined with high-speed optical routing with negligible static hold power, this HQ-SoC platform opens the path to scalable single-qubit control with optically mediated entangling gates.
翻訳日:2023-08-15 12:56:14 公開日:2023-08-14
# CBTN-CONNECT-ASNR-MICCAI BraTS-PEDs 2023 チャレンジデータを用いた小児脳腫瘍のアンサンブル分類

Automated Ensemble-Based Segmentation of Pediatric Brain Tumors: A Novel Approach Using the CBTN-CONNECT-ASNR-MICCAI BraTS-PEDs 2023 Challenge Data ( http://arxiv.org/abs/2308.07212v1 )

ライセンス: Link先を確認
Shashidhar Reddy Javaji, Sovesh Mohapatra, Advait Gosai, Gottfried Schlaug(参考訳) 脳腫瘍は依然として世界的な健康問題であり、診断技術や治療方法論の進歩を必要としている。 年齢別セグメンテーションモデル(特に小児患者)の必要性が高まっている中で,MRIを用いた深層学習技術の展開について検討した。 ONetとUNetの修正版と革新的な損失関数を組み合わせた新しいアンサンブルアプローチを導入することにより、BraTS-PEDs 2023 Challengeの正確なセグメンテーションモデルを実現する。 単一および複合変換を含むデータ拡張は、異なるスキャンプロトコル間でモデルの堅牢性と正確性を保証する。 onetとunetを統合したアンサンブル戦略は、特定の特徴を捉え、mri画像の多様な側面をモデル化し、それぞれ腫瘍、腫瘍コア、および腫瘍ラベルを増強するために、 lesion_wise diceスコアが 0.52, 0.72, 0.78 となる。 視覚的比較により, 腫瘍領域の正確な範囲において, アンサンブル法が優れていることが確認できた。 その結果、この高度なアンサンブルアプローチは、個々のモデルの特異な強みに基づいており、小児脳腫瘍の診断精度の向上と効果的な治療計画に有望な可能性を示している。

Brain tumors remain a critical global health challenge, necessitating advancements in diagnostic techniques and treatment methodologies. In response to the growing need for age-specific segmentation models, particularly for pediatric patients, this study explores the deployment of deep learning techniques using magnetic resonance imaging (MRI) modalities. By introducing a novel ensemble approach using ONet and modified versions of UNet, coupled with innovative loss functions, this study achieves a precise segmentation model for the BraTS-PEDs 2023 Challenge. Data augmentation, including both single and composite transformations, ensures model robustness and accuracy across different scanning protocols. The ensemble strategy, integrating the ONet and UNet models, shows greater effectiveness in capturing specific features and modeling diverse aspects of the MRI images which result in lesion_wise dice scores of 0.52, 0.72 and 0.78 for enhancing tumor, tumor core and whole tumor labels respectively. Visual comparisons further confirm the superiority of the ensemble method in accurate tumor region coverage. The results indicate that this advanced ensemble approach, building upon the unique strengths of individual models, offers promising prospects for enhanced diagnostic accuracy and effective treatment planning for brain tumors in pediatric brains.
翻訳日:2023-08-15 12:48:47 公開日:2023-08-14
# 統一データフリー圧縮:微調整なしプルーニングと量子化

Unified Data-Free Compression: Pruning and Quantization without Fine-Tuning ( http://arxiv.org/abs/2308.07209v1 )

ライセンス: Link先を確認
Shipeng Bai, Jun Chen, Xintian Shen, Yixuan Qian, Yong Liu(参考訳) 構造化プルーニングと量子化は、ニューラルネットワークの推論時間とメモリフットプリントを削減するための有望なアプローチである。 しかし、既存のほとんどのメソッドはモデルを微調整するためにオリジナルのトレーニングデータセットを必要とする。 これは大量のリソース消費をもたらすだけでなく、プライバシやセキュリティ上の懸念から、機密データやプロプライエタリなデータを持つアプリケーションでは不可能である。 そのため、この問題に対処するためにいくつかのデータフリー手法が提案されているが、データフリープルーニングと量子化を別々に行うため、プルーニングと量子化の相補性を探求しない。 本稿では,データや微調整処理を伴わずに,プルーニングと量子化を同時に行うUDFC(Unified Data-Free Compression)という新しいフレームワークを提案する。 具体的には、UDFCは、破損した(プルーニングまたは量子化された)チャネルの部分情報を他のチャネルの線形結合で保存できるという仮定から始まり、その仮定から再構成形式を導出し、圧縮による情報損失を回復する。 最後に、元のネットワークとその圧縮ネットワーク間の再構成誤差を定式化し、理論的に閉形式解を導出する。 大規模画像分類タスクにおいてUDFCを評価し,様々なネットワークアーキテクチャや圧縮手法に対して大幅な改善が得られた。 例えば、イメージネットデータセットにおいて、30%のプルーニング比とResNet-34上の6ビット量子化を持つSOTA法と比較して、20.54%の精度向上を実現している。

Structured pruning and quantization are promising approaches for reducing the inference time and memory footprint of neural networks. However, most existing methods require the original training dataset to fine-tune the model. This not only brings heavy resource consumption but also is not possible for applications with sensitive or proprietary data due to privacy and security concerns. Therefore, a few data-free methods are proposed to address this problem, but they perform data-free pruning and quantization separately, which does not explore the complementarity of pruning and quantization. In this paper, we propose a novel framework named Unified Data-Free Compression(UDFC), which performs pruning and quantization simultaneously without any data and fine-tuning process. Specifically, UDFC starts with the assumption that the partial information of a damaged(e.g., pruned or quantized) channel can be preserved by a linear combination of other channels, and then derives the reconstruction form from the assumption to restore the information loss due to compression. Finally, we formulate the reconstruction error between the original network and its compressed network, and theoretically deduce the closed-form solution. We evaluate the UDFC on the large-scale image classification task and obtain significant improvements over various network architectures and compression methods. For example, we achieve a 20.54% accuracy improvement on ImageNet dataset compared to SOTA method with 30% pruning ratio and 6-bit quantization on ResNet-34.
翻訳日:2023-08-15 12:48:17 公開日:2023-08-14
# FOLT:光学的流れに基づくUAVキャプチャ映像からの高速複数物体追跡

FOLT: Fast Multiple Object Tracking from UAV-captured Videos Based on Optical Flow ( http://arxiv.org/abs/2308.07207v1 )

ライセンス: Link先を確認
Mufeng Yao, Jiaqi Wang, Jinlong Peng, Mingmin Chi, Chao Liu(参考訳) 複数物体追跡(MOT)はコンピュータビジョンにおいて成功した。 しかし、無人航空機(UAV)が撮影したビデオのMOTは、小さな物体の大きさ、ぼやけた物体の外観、地上の物体とUAVプラットフォームの両方で非常に大きく不規則な動きのために、依然として困難である。 本稿では,これらの問題を緩和し,UAVビューで高速かつ正確なMOTに到達するためのFOLTを提案する。 FOLTは速度精度のトレードオフを目標とし、近代的な検出器と軽量な光フロー抽出器を採用し、最小限のコストで物体検出特徴と運動特徴を抽出する。 抽出した流れを考慮に入れ, フロー誘導型特徴増強法は, 微小物体の検出を改善する光学的フローに基づいて物体検出機能を増強するように設計されている。 次に,次のフレームにおける物体の位置を予測するためにフロー誘導運動予測も提案し,隣接フレーム間の変位が大きい物体の追従性能を向上させる。 最後に、検出されたオブジェクトと予測されたオブジェクトとを空間的マッチングスキームでマッチングし、各オブジェクトのトラックを生成する。 Visdrone と UAVDT のデータセットを用いた実験により,提案手法は大規模で不規則な動きを持つ小さな物体の追跡に成功し,UAV-MOT タスクにおける既存の最先端手法よりも優れていた。

Multiple object tracking (MOT) has been successfully investigated in computer vision. However, MOT for the videos captured by unmanned aerial vehicles (UAV) is still challenging due to small object size, blurred object appearance, and very large and/or irregular motion in both ground objects and UAV platforms. In this paper, we propose FOLT to mitigate these problems and reach fast and accurate MOT in UAV view. Aiming at speed-accuracy trade-off, FOLT adopts a modern detector and light-weight optical flow extractor to extract object detection features and motion features at a minimum cost. Given the extracted flow, the flow-guided feature augmentation is designed to augment the object detection feature based on its optical flow, which improves the detection of small objects. Then the flow-guided motion prediction is also proposed to predict the object's position in the next frame, which improves the tracking performance of objects with very large displacements between adjacent frames. Finally, the tracker matches the detected objects and predicted objects using a spatially matching scheme to generate tracks for every object. Experiments on Visdrone and UAVDT datasets show that our proposed model can successfully track small objects with large and irregular motion and outperform existing state-of-the-art methods in UAV-MOT tasks.
翻訳日:2023-08-15 12:47:53 公開日:2023-08-14
# ニューラルネットワーク支援ベクトルマシンの学習アルゴリズム

Algorithms for the Training of Neural Support Vector Machines ( http://arxiv.org/abs/2308.07204v1 )

ライセンス: Link先を確認
Lars Simon and Manuel Radons(参考訳) ニューラルサポートベクトルマシン(NSVM)は、モデルアーキテクチャの設計にドメイン知識を組み込むことができる。 本稿では、ペガソスアルゴリズムを利用したNSVMのためのトレーニングアルゴリズムのセットを紹介し、標準的な機械学習タスクの集合を解くことによって概念実証を行う。

Neural support vector machines (NSVMs) allow for the incorporation of domain knowledge in the design of the model architecture. In this article we introduce a set of training algorithms for NSVMs that leverage the Pegasos algorithm and provide a proof of concept by solving a set of standard machine learning tasks.
翻訳日:2023-08-15 12:47:27 公開日:2023-08-14
# ロバストリアルタイムシーンテキスト検出に向けて:セマンティックからインスタンス表現学習へ

Towards Robust Real-Time Scene Text Detection: From Semantic to Instance Representation Learning ( http://arxiv.org/abs/2308.07202v1 )

ライセンス: Link先を確認
Xugong Qin, Pengyuan Lyu, Chengquan Zhang, Yu Zhou, Kun Yao, Peng Zhang, Hailun Lin, Weiping Wang(参考訳) 任意のシーンテキストの柔軟な表現と単純なパイプラインにより、ボトムアップセグメンテーションベースの手法がリアルタイムシーンテキスト検出において主流になりつつある。 大きな進歩にもかかわらず、これらの手法は堅牢性の欠如を示し、いまだに偽陽性とインスタンス接着に悩まされている。 マルチグラニュラリティ特徴や複数の出力を統合する既存の方法とは異なり、最適化中のピクセル単位の分類のメインタスクと協調してロバスト特徴を学習できるように補助タスクを利用する表現学習の観点に依拠する。 意味表現学習には,大域的意味表現のためにベクトルを抽出し,高密度グリッド特徴と要素的に対比するGDSC(Global-dense semantic contrast)を提案する。 インスタンス認識表現を学習するために,トップダウンモデリング(TDM)とボトムアップフレームワークを組み合わせて,エンコーダの暗黙的なインスタンスレベルの手がかりを提供することを提案する。 提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。 非常に軽いデコーダを備えた検出器は、より堅牢なリアルタイムシーンテキスト検出を実現することができる。 4つの公開データセットの実験結果から,提案手法は精度と速度の両面で,最先端の手法よりも優れているか,あるいは同等であることが示された。 具体的には、単一のgeforce rtx 2080 ti gpu上で、87.2%のf-measureと48.2 fps、89.6%のf-measureと36.9 fpsのmsra-td500を実現する。

Due to the flexible representation of arbitrary-shaped scene text and simple pipeline, bottom-up segmentation-based methods begin to be mainstream in real-time scene text detection. Despite great progress, these methods show deficiencies in robustness and still suffer from false positives and instance adhesion. Different from existing methods which integrate multiple-granularity features or multiple outputs, we resort to the perspective of representation learning in which auxiliary tasks are utilized to enable the encoder to jointly learn robust features with the main task of per-pixel classification during optimization. For semantic representation learning, we propose global-dense semantic contrast (GDSC), in which a vector is extracted for global semantic representation, then used to perform element-wise contrast with the dense grid features. To learn instance-aware representation, we propose to combine top-down modeling (TDM) with the bottom-up framework to provide implicit instance-level clues for the encoder. With the proposed GDSC and TDM, the encoder network learns stronger representation without introducing any parameters and computations during inference. Equipped with a very light decoder, the detector can achieve more robust real-time scene text detection. Experimental results on four public datasets show that the proposed method can outperform or be comparable to the state-of-the-art on both accuracy and speed. Specifically, the proposed method achieves 87.2% F-measure with 48.2 FPS on Total-Text and 89.6% F-measure with 36.9 FPS on MSRA-TD500 on a single GeForce RTX 2080 Ti GPU.
翻訳日:2023-08-15 12:47:22 公開日:2023-08-14
# ChatEval: マルチエージェントディベートによるLCMベースの評価ツールの改善

ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate ( http://arxiv.org/abs/2308.07201v1 )

ライセンス: Link先を確認
Chi-Min Chan, Weize Chen, Yusheng Su, Jianxuan Yu, Wei Xue, Shanghang Zhang, Jie Fu, Zhiyuan Liu(参考訳) テキスト評価は歴史的に重大な課題となり、しばしばかなりの労働力と時間的コストが要求された。 大規模言語モデル (LLMs) の出現に伴い、研究者は人間の評価の代替手段として LLMs の可能性を探った。 これらの単一エージェントベースのアプローチは有望であるが、実験結果は、現在の有効性と人間レベルの評価品質のギャップを埋めるためにさらなる進歩が必要であることを示唆している。 人間の評価プロセスのベストプラクティスは、評価に複数のアノテータが協力することが多いことを認識し、我々は、単一エージェントの促進戦略を超えて、マルチエージェントの議論フレームワークを利用する。 マルチエージェントベースのアプローチにより、llmのグループは、異なる能力と専門知識を活用して、複雑なタスクの処理における効率と効率を高めることができる。 本稿では,オープンエンド質問や従来の自然言語生成(NLG)タスクにおいて,異なるモデルから生成した応答の質を自律的に議論し,評価するために,ChatEvalと呼ばれるマルチエージェントレフェリーチームを構築した。 分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。 私たちのコードはhttps://github.com/chanchimin/ChatEval.comから入手可能です。

Text evaluation has historically posed significant challenges, often demanding substantial labor and time cost. With the emergence of large language models (LLMs), researchers have explored LLMs' potential as alternatives for human evaluation. While these single-agent-based approaches show promise, experimental results suggest that further advancements are needed to bridge the gap between their current effectiveness and human-level evaluation quality. Recognizing that best practices of human evaluation processes often involve multiple human annotators collaborating in the evaluation, we resort to a multi-agent debate framework, moving beyond single-agent prompting strategies. The multi-agent-based approach enables a group of LLMs to synergize with an array of intelligent counterparts, harnessing their distinct capabilities and expertise to enhance efficiency and effectiveness in handling intricate tasks. In this paper, we construct a multi-agent referee team called ChatEval to autonomously discuss and evaluate the quality of generated responses from different models on open-ended questions and traditional natural language generation (NLG) tasks. Our analysis shows that ChatEval transcends mere textual scoring, offering a human-mimicking evaluation process for reliable assessments. Our code is available at https://github.com/chanchimin/ChatEval.
翻訳日:2023-08-15 12:46:51 公開日:2023-08-14
# 物理に基づく文字制御のためのニューラルカテゴリー

Neural Categorical Priors for Physics-Based Character Control ( http://arxiv.org/abs/2308.07200v1 )

ライセンス: Link先を確認
Qingxu Zhu, He Zhang, Mengting Lan, Lei Han(参考訳) 最近の再利用可能な運動優先学習の進歩は、自然主義的行動の生成における効果を実証している。 本稿では,既存の最先端手法よりも動作品質と多様性が大幅に向上した物理ベースの文字を制御するための新しい学習フレームワークを提案する。 提案手法は,ベクトル量子化変分オートエンコーダ (vq-vae) で採用されている離散的情報ボトルネックを用いた非構造化モーションクリップからの生命運動を追跡・模倣するために強化学習 (rl) を用いる。 この構造は、モーションクリップから最も関連する情報をコンパクトで情報的な潜在空間、すなわちベクトル量子化された符号上の離散空間に圧縮する。 訓練されたカテゴリの事前分布から空間内のコードをサンプリングすることにより、コンピュータビジョンにおけるVQ-VAEと同様に、高品質なライフライクな振る舞いを生成することができる。 この事前分布はエンコーダの出力を監督して訓練することができるが、データセット内の元のモーションクリップ分布に従い、設定における不均衡な動作につながる可能性がある。 この問題に対処するため,好奇心駆動型RLを用いて事前分布を調整するための先行シフト方式を提案する。 結果分布は十分な行動多様性を示し、下流タスクの上位レベルの政策学習を著しく促進する。 ソードシールド打撃と2人のボクシングの2つの課題に対して,ヒューマノイド文字を用いた包括的実験を行った。 提案手法は,行動戦略,多様性,リアリズムの観点から,キャラクタをかなり高品質な動作に制御できることを示す。 ビデオ、コード、データはhttps://tencent-roboticsx.github.io/ncp/で入手できる。

Recent advances in learning reusable motion priors have demonstrated their effectiveness in generating naturalistic behaviors. In this paper, we propose a new learning framework in this paradigm for controlling physics-based characters with significantly improved motion quality and diversity over existing state-of-the-art methods. The proposed method uses reinforcement learning (RL) to initially track and imitate life-like movements from unstructured motion clips using the discrete information bottleneck, as adopted in the Vector Quantized Variational AutoEncoder (VQ-VAE). This structure compresses the most relevant information from the motion clips into a compact yet informative latent space, i.e., a discrete space over vector quantized codes. By sampling codes in the space from a trained categorical prior distribution, high-quality life-like behaviors can be generated, similar to the usage of VQ-VAE in computer vision. Although this prior distribution can be trained with the supervision of the encoder's output, it follows the original motion clip distribution in the dataset and could lead to imbalanced behaviors in our setting. To address the issue, we further propose a technique named prior shifting to adjust the prior distribution using curiosity-driven RL. The outcome distribution is demonstrated to offer sufficient behavioral diversity and significantly facilitates upper-level policy learning for downstream tasks. We conduct comprehensive experiments using humanoid characters on two challenging downstream tasks, sword-shield striking and two-player boxing game. Our results demonstrate that the proposed framework is capable of controlling the character to perform considerably high-quality movements in terms of behavioral strategies, diversity, and realism. Videos, codes, and data are available at https://tencent-roboticsx.github.io/NCP/.
翻訳日:2023-08-15 12:46:28 公開日:2023-08-14
# 反事実によるブラックボックスモデルの説明

Explaining Black-Box Models through Counterfactuals ( http://arxiv.org/abs/2308.07198v1 )

ライセンス: Link先を確認
Patrick Altmeyer and Arie van Deursen and Cynthia C. S. Liem(参考訳) We present CounterfactualExplanations.jl: a package for generate Counterfactual Explanations (CE) and Algorithmic Recourse (AR) for black-box model in Julia。 ce モデルへの入力がどのようにして特定のモデル予測を生成する必要があるかを説明します。 現実的で実行可能な変更を含む説明は、arを提供するのに使うことができる: 個人が望ましくない結果を改善するための一連の提案アクション。 本稿では,CE の Explainable Artificial Intelligence における有用性について論じ,パッケージの機能について述べる。 パッケージは使いやすく、カスタマイズと拡張性を重視して設計されている。 私たちは、juliaの任意の予測モデルを説明するために、さまざまな反事実生成器のスイートを通して、ある日それがゴートな場所になることを想定しています。

We present CounterfactualExplanations.jl: a package for generating Counterfactual Explanations (CE) and Algorithmic Recourse (AR) for black-box models in Julia. CE explain how inputs into a model need to change to yield specific model predictions. Explanations that involve realistic and actionable changes can be used to provide AR: a set of proposed actions for individuals to change an undesirable outcome for the better. In this article, we discuss the usefulness of CE for Explainable Artificial Intelligence and demonstrate the functionality of our package. The package is straightforward to use and designed with a focus on customization and extensibility. We envision it to one day be the go-to place for explaining arbitrary predictive models in Julia through a diverse suite of counterfactual generators.
翻訳日:2023-08-15 12:45:58 公開日:2023-08-14
# 医療におけるスマートグラスのタスクオフロード : 体温上昇検出の強化

Task Offloading for Smart Glasses in Healthcare: Enhancing Detection of Elevated Body Temperature ( http://arxiv.org/abs/2308.07193v1 )

ライセンス: Link先を確認
Abdenacer Naouri, Nabil Abdelkader Nouri, Attia Qammar, Feifei Shi, Huansheng Ning and Sahraoui Dhelim(参考訳) スマートグラスのようなウェアラブルデバイスは、さまざまなアプリケーションで人気を集めている。 しかし、その限られた計算能力は、画像処理やビデオ処理のような広範囲な処理を必要とするタスクに課題を生じさせ、排水されたデバイスバッテリーに繋がる。 これを解決するために、モバイルデバイスやリモートサーバなど、近くの強力なリモートデバイスにタスクをオフロードすることが、有望なソリューションとして浮上した。 本稿では,スマートウェアラブルグラス上で実施した医療監視アプリケーションのタスクオフロードシナリオを分析し,オフロードの最適条件を特定することを目的とした。 本研究は,現実的な条件下でのタスク完了時間,計算能力,エネルギー消費などのパフォーマンス指標を評価する。 特定のユースケースは、空港のような屋内エリアで調査され、スマートグラスを着用した警備員が個人の体温上昇を検出する。 この調査結果は、医療機器におけるウェアラブルデバイスのタスクオフロードの潜在的な利点を強調し、その実用性と関連性を実証している。

Wearable devices like smart glasses have gained popularity across various applications. However, their limited computational capabilities pose challenges for tasks that require extensive processing, such as image and video processing, leading to drained device batteries. To address this, offloading such tasks to nearby powerful remote devices, such as mobile devices or remote servers, has emerged as a promising solution. This paper focuses on analyzing task-offloading scenarios for a healthcare monitoring application performed on smart wearable glasses, aiming to identify the optimal conditions for offloading. The study evaluates performance metrics including task completion time, computing capabilities, and energy consumption under realistic conditions. A specific use case is explored within an indoor area like an airport, where security agents wearing smart glasses to detect elevated body temperature in individuals, potentially indicating COVID-19. The findings highlight the potential benefits of task offloading for wearable devices in healthcare settings, demonstrating its practicality and relevance.
翻訳日:2023-08-15 12:45:43 公開日:2023-08-14
# gSASRec:負のサンプリングでトレーニングしたシークエンシャルレコメンデーションにおける過信を減らす

gSASRec: Reducing Overconfidence in Sequential Recommendation Trained with Negative Sampling ( http://arxiv.org/abs/2308.07192v1 )

ライセンス: Link先を確認
Aleksandr Petrov and Craig Macdonald(参考訳) 大規模なカタログサイズは、トレーニングレコメンデーションモデルにおける中心的な課題の1つである: 大量のアイテムは、トレーニング中にすべてのアイテムのスコアを計算するためにメモリと計算的に非効率にする。 しかし、負のサンプリングはトレーニングデータにおける正の相互作用の割合を増加させるため、負のサンプリングで訓練されたモデルは、過信と呼ばれる現象である正の相互作用の確率を過大評価する傾向にある。 検索された推奨項目のランク付けには,予測スコアや確率の絶対値が重要ではないが,信頼度の高いモデルでは上位項目のニュアンスの違いを推定できず,結果としてパフォーマンスが低下する可能性がある。 本稿では, BERT4Recと比較して, 人気のSASRecモデルが低性能である理由を, 自信過剰が説明できることを示す。 これはbert4recの著者たちの説明に反して、パフォーマンスの違いは双方向の注意機構によるものである。 過信を緩和するために,新しい2元クロスエントロピー損失関数(gBCE)を提案し,過信を緩和できることを理論的に証明する。 さらに, 負数の増加とgBCE損失を増大させるSASRecに対する改良であるgSASRecモデルを提案する。 本稿では,gSASRecが過信問題を示さない3つのデータセットについて詳細な実験を行った。 その結果、gSASRecはBERT4Rec(例:MovieLens-1Mデータセットで+9.47%のNDCG)を上回り、トレーニング時間(例:MovieLens-1Mで73%のトレーニング時間)を短縮できる。 さらに、BERT4Recとは対照的に、gSASRecは100万以上のアイテムを含む大規模なデータセットに適している。

A large catalogue size is one of the central challenges in training recommendation models: a large number of items makes them memory and computationally inefficient to compute scores for all items during training, forcing these models to deploy negative sampling. However, negative sampling increases the proportion of positive interactions in the training data, and therefore models trained with negative sampling tend to overestimate the probabilities of positive interactions a phenomenon we call overconfidence. While the absolute values of the predicted scores or probabilities are not important for the ranking of retrieved recommendations, overconfident models may fail to estimate nuanced differences in the top-ranked items, resulting in degraded performance. In this paper, we show that overconfidence explains why the popular SASRec model underperforms when compared to BERT4Rec. This is contrary to the BERT4Rec authors explanation that the difference in performance is due to the bi-directional attention mechanism. To mitigate overconfidence, we propose a novel Generalised Binary Cross-Entropy Loss function (gBCE) and theoretically prove that it can mitigate overconfidence. We further propose the gSASRec model, an improvement over SASRec that deploys an increased number of negatives and the gBCE loss. We show through detailed experiments on three datasets that gSASRec does not exhibit the overconfidence problem. As a result, gSASRec can outperform BERT4Rec (e.g. +9.47% NDCG on the MovieLens-1M dataset), while requiring less training time (e.g. -73% training time on MovieLens-1M). Moreover, in contrast to BERT4Rec, gSASRec is suitable for large datasets that contain more than 1 million items.
翻訳日:2023-08-15 12:45:26 公開日:2023-08-14
# 具体化エージェントの指示のための文脈認識計画と環境認識メモリ

Context-Aware Planning and Environment-Aware Memory for Instruction Following Embodied Agents ( http://arxiv.org/abs/2308.07241v1 )

ライセンス: Link先を確認
Byeonghwi Kim, Jinyeon Kim, Yuyeong Kim, Cheolhong Min, Jonghyun Choi(参考訳) 「水を飲む」などの家事課題には、物体の空間配置や過去の行動の結果に関する知識を維持することによって、ステップバイステップのアクションを計画する必要がある。 しかし、現在の具体化されたaiエージェントの知覚モデルは、そのような知識の欠如によって誤りを犯すことが多いが、前回の行動による環境の変化に関する知識のないエージェントやアルゴリズムプランナーの非完全学習に依存している。 この問題に対処するために,物体の空間配置をその状態(例えば,物体が移動したか否か)に計画・維持するための前回の動作の文脈情報を,視覚ナビゲーションとオブジェクトインタラクションの両方を改善する知覚モデルに組み込むcpem(context-aware planner and environment-aware memory)を提案する。 CPEMは,目視環境と目視環境の両方において,目視環境と目視環境の双方で(見当たらない環境において+10.70%まで)、挑戦的な対話的インストラクションを用いて,様々な指標のタスク成功性能を達成している。 ECLAIRという名前のテンプレートアクションを持つCPEMは、CVPR'23のEmbodied AI Workshopで第1回ジェネラリスト言語接地エージェントコンテストでも優勝した。

Accomplishing household tasks such as 'bringing a cup of water' requires planning step-by-step actions by maintaining knowledge about the spatial arrangement of objects and the consequences of previous actions. Perception models of the current embodied AI agents, however, often make mistakes due to a lack of such knowledge but rely on imperfect learning of imitating agents or an algorithmic planner without knowledge about the changed environment by the previous actions. To address the issue, we propose CPEM (Context-aware Planner and Environment-aware Memory) to incorporate the contextual information of previous actions for planning and maintaining spatial arrangement of objects with their states (e.g., if an object has been moved or not) in an environment to the perception model for improving both visual navigation and object interaction. We observe that CPEM achieves state-of-the-art task success performance in various metrics using a challenging interactive instruction following benchmark both in seen and unseen environments by large margins (up to +10.70% in unseen env.). CPEM with the templated actions, named ECLAIR, also won the 1st generalist language grounding agents challenge at Embodied AI Workshop in CVPR'23.
翻訳日:2023-08-15 12:39:56 公開日:2023-08-14
# UniWorld:世界モデルによる自動運転事前トレーニング

UniWorld: Autonomous Driving Pre-training via World Models ( http://arxiv.org/abs/2308.07234v1 )

ライセンス: Link先を確認
Chen Min, Dawei Zhao, Liang Xiao, Yiming Nie, Bin Dai(参考訳) 本稿では,1989年にアルベルト・エルフェスの先駆的研究から着想を得て,ロボットの世界モデルとして占有グリッドの概念を紹介した。 このロボットは、UniWorldと呼ばれる空間的時間的世界モデルを用いて周囲を知覚し、他の参加者の将来の行動を予測する。 UniWorldは4次元幾何学的占有率を基本段階のワールドモデルとして予測し、その後下流のタスクを微調整する。 ユニワールドは、世界状態に関する行方不明情報を推定し、世界の有望な将来の状態を予測することができる。 さらに、UniWorldの事前学習プロセスはラベルフリーであり、大量の画像-LiDARペアを使って基礎モデルを構築することが可能であり、この統合事前学習フレームワークは、モーション予測、マルチカメラ3Dオブジェクト検出、周囲のセマンティックシーンの完了といった重要なタスクにおける有望な結果を示す。 nuScenesデータセットの単分子事前学習法と比較して、UniWorldは動き予測におけるIoUの約1.5%、マルチカメラ3Dオブジェクト検出におけるmAPの2.0%、NDSの約2.0%、セマンティックシーン補完のためのmIoUの3%の大幅な改善を示した。 統合事前学習手法を採用することにより、3Dトレーニングアノテーションのコストを25%削減することが可能となり、現実の自律運転の実現に重要な実用的価値が提供される。 コードはhttps://github.com/chaytonmin/uniworldで公開されている。

In this paper, we draw inspiration from Alberto Elfes' pioneering work in 1989, where he introduced the concept of the occupancy grid as World Models for robots. We imbue the robot with a spatial-temporal world model, termed UniWorld, to perceive its surroundings and predict the future behavior of other participants. UniWorld involves initially predicting 4D geometric occupancy as the World Models for foundational stage and subsequently fine-tuning on downstream tasks. UniWorld can estimate missing information concerning the world state and predict plausible future states of the world. Besides, UniWorld's pre-training process is label-free, enabling the utilization of massive amounts of image-LiDAR pairs to build a Foundational Model.The proposed unified pre-training framework demonstrates promising results in key tasks such as motion prediction, multi-camera 3D object detection, and surrounding semantic scene completion. When compared to monocular pre-training methods on the nuScenes dataset, UniWorld shows a significant improvement of about 1.5% in IoU for motion prediction, 2.0% in mAP and 2.0% in NDS for multi-camera 3D object detection, as well as a 3% increase in mIoU for surrounding semantic scene completion. By adopting our unified pre-training method, a 25% reduction in 3D training annotation costs can be achieved, offering significant practical value for the implementation of real-world autonomous driving. Codes are publicly available at https://github.com/chaytonmin/UniWorld.
翻訳日:2023-08-15 12:39:34 公開日:2023-08-14
# 生成逆ネットワークのための統一電源損失関数

A Unifying Generator Loss Function for Generative Adversarial Networks ( http://arxiv.org/abs/2308.07233v1 )

ライセンス: Link先を確認
Justin Veiner, Fady Alajaji, Bahman Gharesifard(参考訳) 従来のGAN(VanillaGAN)システムのように、標準的な(または古典的な)判別器損失関数を使用する二重目的生成逆数ネットワーク(GAN)に対して、$\alpha$-parametrized generator loss関数を導入する。 ジェネレータ損失関数は対称クラス確率推定型関数である$\mathcal{L}_\alpha$に基づいており、結果として得られるGANシステムは$\mathcal{L}_\alpha$-GANと呼ばれる。 最適判別器の下では、ジェネレータの最適化問題は、jensen-$f_\alpha$-divergence(jensen-shannon divergenceの自然な一般化)を最小化することであり、ここで、$f_\alpha$は損失関数$\mathcal{l}_\alpha$で表される凸関数である。 また、この$\mathcal{L}_\alpha$-GAN問題は、VanillaGAN、Least Squares GAN (LSGAN)、Least $k$th order GAN (L$k$GAN)、最近導入された$(\alpha_D,\alpha_G)$-GAN with $\alpha_D=1$など、文学における多くのGAN問題として回復することを示した。 最後に、MNIST、CIFAR-10、Stacked MNISTの3つのデータセットを用いて実験を行い、$\mathcal{L}_\alpha$-GANシステムの様々な例のパフォーマンスを示す。

A unifying $\alpha$-parametrized generator loss function is introduced for a dual-objective generative adversarial network (GAN), which uses a canonical (or classical) discriminator loss function such as the one in the original GAN (VanillaGAN) system. The generator loss function is based on a symmetric class probability estimation type function, $\mathcal{L}_\alpha$, and the resulting GAN system is termed $\mathcal{L}_\alpha$-GAN. Under an optimal discriminator, it is shown that the generator's optimization problem consists of minimizing a Jensen-$f_\alpha$-divergence, a natural generalization of the Jensen-Shannon divergence, where $f_\alpha$ is a convex function expressed in terms of the loss function $\mathcal{L}_\alpha$. It is also demonstrated that this $\mathcal{L}_\alpha$-GAN problem recovers as special cases a number of GAN problems in the literature, including VanillaGAN, Least Squares GAN (LSGAN), Least $k$th order GAN (L$k$GAN) and the recently introduced $(\alpha_D,\alpha_G)$-GAN with $\alpha_D=1$. Finally, experimental results are conducted on three datasets, MNIST, CIFAR-10, and Stacked MNIST to illustrate the performance of various examples of the $\mathcal{L}_\alpha$-GAN system.
翻訳日:2023-08-15 12:39:07 公開日:2023-08-14
# RestoreFormer++: 劣化しないキーバリューペアから現実のブラインド顔の復元を目指す

RestoreFormer++: Towards Real-World Blind Face Restoration from Undegraded Key-Value Pairs ( http://arxiv.org/abs/2308.07228v1 )

ライセンス: Link先を確認
Zhouxia Wang, Jiawei Zhang, Tianshui Chen, Wenping Wang, and Ping Luo(参考訳) ブラインド顔復元は、未知の劣化のあるものから高品質な顔画像の復元を目的としている。 現在のアルゴリズムは、主に高品質な詳細を補完し、印象的な進歩を達成するためにプリエントを導入する。 しかし、これらのアルゴリズムのほとんどは、顔の豊富な文脈情報を無視し、それ以前のものとの相互作用を無視し、準最適性能をもたらす。 さらに、合成シナリオと実世界のシナリオのギャップにはあまり注意を払わず、実世界のアプリケーションに対する堅牢性と一般化を制限する。 本研究では,RestoreFormer++を提案する。その一方で,コンテキスト情報と先行情報との相互作用をモデル化するための空間的アテンション機構を導入し,さらに,よりリアルに劣化した顔画像を生成するための拡張分解モデルを提案する。 現在のアルゴリズムと比較してrestoreformer++にはいくつかの重要なメリットがある。 まず、従来の視覚変換器のようなマルチヘッド自己注意機構の代わりに、マルチスケール機能に対するマルチヘッドクロスアテンションを導入し、劣化した情報と高品質な事前の空間的相互作用を十分に探求する。 このようにしてrestoreformer++は、よりリアルで忠実な顔画像を復元することができる。 第2に、認識指向辞書とは対照的に、より多様な高品質の顔の詳細と、より優れた復元ターゲットを含む、再構成指向辞書を事前学習する。 第3に、データ合成をトレーニングするためのより現実的な劣化シナリオを含む拡張分解モデルを導入し、RestoreFormer++モデルの堅牢性と一般化を強化するのに役立ちます。 広範な実験により、restoreformer++は、合成データと実世界のデータセットの両方で最先端のアルゴリズムよりも優れています。

Blind face restoration aims at recovering high-quality face images from those with unknown degradations. Current algorithms mainly introduce priors to complement high-quality details and achieve impressive progress. However, most of these algorithms ignore abundant contextual information in the face and its interplay with the priors, leading to sub-optimal performance. Moreover, they pay less attention to the gap between the synthetic and real-world scenarios, limiting the robustness and generalization to real-world applications. In this work, we propose RestoreFormer++, which on the one hand introduces fully-spatial attention mechanisms to model the contextual information and the interplay with the priors, and on the other hand, explores an extending degrading model to help generate more realistic degraded face images to alleviate the synthetic-to-real-world gap. Compared with current algorithms, RestoreFormer++ has several crucial benefits. First, instead of using a multi-head self-attention mechanism like the traditional visual transformer, we introduce multi-head cross-attention over multi-scale features to fully explore spatial interactions between corrupted information and high-quality priors. In this way, it can facilitate RestoreFormer++ to restore face images with higher realness and fidelity. Second, in contrast to the recognition-oriented dictionary, we learn a reconstruction-oriented dictionary as priors, which contains more diverse high-quality facial details and better accords with the restoration target. Third, we introduce an extending degrading model that contains more realistic degraded scenarios for training data synthesizing, and thus helps to enhance the robustness and generalization of our RestoreFormer++ model. Extensive experiments show that RestoreFormer++ outperforms state-of-the-art algorithms on both synthetic and real-world datasets.
翻訳日:2023-08-15 12:38:32 公開日:2023-08-14
# DS深度:核融合コストによる動的および静的深さ推定

DS-Depth: Dynamic and Static Depth Estimation via a Fusion Cost Volume ( http://arxiv.org/abs/2308.07225v1 )

ライセンス: Link先を確認
Xingyu Miao, Yang Bai, Haoran Duan, Yawen Huang, Fan Wan, Xinxing Xu, Yang Long, Yefeng Zheng(参考訳) 自己教師付き単眼深度推定法は通常、静的環境における連続するフレーム間の幾何学的関係を捉えるために再射誤差に依存する。 しかし、この仮定はシナリオ内の動的オブジェクトには当てはまらないため、特徴ミスマッチや閉塞といったビュー合成の段階でエラーが発生し、それによって生成された深度マップの精度が大幅に低下する。 この問題に対処するために,移動物体を記述するために残留光学的フローを利用する新しい動的コストボリュームを提案し,前回の作業で使用した静的コストボリュームにおいて,不正に排除された領域を改善した。 それでも動的コストボリュームは必然的に余分なオクルージョンとノイズを発生させるため、静的および動的コストボリュームを相互に補償する融合モジュールを設計することにより、これを軽減します。 言い換えると、静的ボリュームからの閉塞はダイナミックボリュームによって洗練され、静的ボリュームによって動的ボリュームからの誤情報が排除される。 さらに,低分解能領域における光度誤差の精度を低下させるピラミッド蒸留損失と,オクルージョン領域における大きな勾配の流れ方向を緩和する適応光度誤差損失を提案する。 我々は,kittiおよびcityscapesデータセットの広範な実験を行い,本モデルが自己教師付き単眼深度推定のベースラインよりも優れていることを示した。

Self-supervised monocular depth estimation methods typically rely on the reprojection error to capture geometric relationships between successive frames in static environments. However, this assumption does not hold in dynamic objects in scenarios, leading to errors during the view synthesis stage, such as feature mismatch and occlusion, which can significantly reduce the accuracy of the generated depth maps. To address this problem, we propose a novel dynamic cost volume that exploits residual optical flow to describe moving objects, improving incorrectly occluded regions in static cost volumes used in previous work. Nevertheless, the dynamic cost volume inevitably generates extra occlusions and noise, thus we alleviate this by designing a fusion module that makes static and dynamic cost volumes compensate for each other. In other words, occlusion from the static volume is refined by the dynamic volume, and incorrect information from the dynamic volume is eliminated by the static volume. Furthermore, we propose a pyramid distillation loss to reduce photometric error inaccuracy at low resolutions and an adaptive photometric error loss to alleviate the flow direction of the large gradient in the occlusion regions. We conducted extensive experiments on the KITTI and Cityscapes datasets, and the results demonstrate that our model outperforms previously published baselines for self-supervised monocular depth estimation.
翻訳日:2023-08-15 12:38:03 公開日:2023-08-14
# 共変量シフトによる性能評価改善のための距離問題

Distance Matters For Improving Performance Estimation Under Covariate Shift ( http://arxiv.org/abs/2308.07223v1 )

ライセンス: Link先を確認
M\'elanie Roschewitz and Ben Glocker(参考訳) covariateシフトによるパフォーマンス推定は、特に機密性の高いユースケースにおいて、安全なaiモデルのデプロイの重要なコンポーネントである。 近年,モデル予測やソフトマックスの信頼性を利用して精度推定を導出する手法が提案されている。 しかし、データセットのシフトの下では、サンプルがトレーニング分布から遠すぎると、信頼性スコアが低下する可能性がある。 そこで本研究では,テストサンプルと期待トレーニング分布の距離を考慮すれば,共変量シフト下での性能推定が著しく向上することを示す。 正確には、精度推定ステップにおいて、信頼できないモデル出力に依存するのを避けるため、期待される分布から遠すぎるサンプルをフラグする「距離チェック」を導入する。 本手法は, 画像分類タスクにおいて, 自然分布と合成分布の幅広いシフトと数百のモデルにおいて有効であり, 全タスクにおいて最良ベースラインに対して27%, 13タスク中10タスクにおいてSOTA性能が27%向上した。 私たちのコードはhttps://github.com/melanibe/distance_matters_ performance_estimationで公開されています。

Performance estimation under covariate shift is a crucial component of safe AI model deployment, especially for sensitive use-cases. Recently, several solutions were proposed to tackle this problem, most leveraging model predictions or softmax confidence to derive accuracy estimates. However, under dataset shifts, confidence scores may become ill-calibrated if samples are too far from the training distribution. In this work, we show that taking into account distances of test samples to their expected training distribution can significantly improve performance estimation under covariate shift. Precisely, we introduce a "distance-check" to flag samples that lie too far from the expected distribution, to avoid relying on their untrustworthy model outputs in the accuracy estimation step. We demonstrate the effectiveness of this method on 13 image classification tasks, across a wide-range of natural and synthetic distribution shifts and hundreds of models, with a median relative MAE improvement of 27% over the best baseline across all tasks, and SOTA performance on 10 out of 13 tasks. Our code is publicly available at https://github.com/melanibe/distance_matters_performance_estimation.
翻訳日:2023-08-15 12:37:38 公開日:2023-08-14
# mm-gef:マルチモーダル表現と協調フィルタリング

MM-GEF: Multi-modal representation meet collaborative filtering ( http://arxiv.org/abs/2308.07222v1 )

ライセンス: Link先を確認
Hao Wu and Alejandro Ariza-Casabona and Bart{\l}omiej Twardowski and Tri Kurniawan Wijaya(参考訳) 現代のeコマースでは、様々なモダリティのアイテムコンテンツ機能によって、推奨システムに正確かつ包括的な情報を提供する。 これまでの研究の大部分は、ユーザとイテムの相互作用をモデル化する際の効果的なアイテム表現の学習や、マルチモーダルな特徴の分析によるアイテムとイテムの関係の探索に重点を置いていた。 しかし、これらの手法は、協調的なアイテム-ユーザ-イテム関係をマルチモーダルな特徴ベースのアイテム構造に組み込むことができない。 本研究では,マルチモーダルコンテンツを構成する潜在アイテム構造と協調的な信号とを効果的に結合するグラフ・アーリー・フュージョンを用いたマルチモーダル推薦手法mm-gefを提案する。 異なるモダリティでコンテンツ特徴を個別に処理する代わりに、マルチモーダル機能の早期融合が大きな改善をもたらすことを示す。 MM-GEFはマルチモーダル信号と協調信号の両方から得られる構造情報を注入することにより、洗練された項目表現を学習する。 公開されている4つのデータセットに対する広範な実験を通じて、最先端のマルチモーダルレコメンデーション手法よりも、提案手法の体系的な改善を実証する。

In modern e-commerce, item content features in various modalities offer accurate yet comprehensive information to recommender systems. The majority of previous work either focuses on learning effective item representation during modelling user-item interactions, or exploring item-item relationships by analysing multi-modal features. Those methods, however, fail to incorporate the collaborative item-user-item relationships into the multi-modal feature-based item structure. In this work, we propose a graph-based item structure enhancement method MM-GEF: Multi-Modal recommendation with Graph Early-Fusion, which effectively combines the latent item structure underlying multi-modal contents with the collaborative signals. Instead of processing the content feature in different modalities separately, we show that the early-fusion of multi-modal features provides significant improvement. MM-GEF learns refined item representations by injecting structural information obtained from both multi-modal and collaborative signals. Through extensive experiments on four publicly available datasets, we demonstrate systematical improvements of our method over state-of-the-art multi-modal recommendation methods.
翻訳日:2023-08-15 12:37:18 公開日:2023-08-14
# AudioFormer:Audio Transformerは個々の音響コードから音声特徴表現を学習する

AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes ( http://arxiv.org/abs/2308.07221v1 )

ライセンス: Link先を確認
Zhaohui Li and Haitao Wang and Xinghua Jiang(参考訳) 本研究では,離散音響符号の取得により音声特徴表現を学習し,その後,音声分類タスクに対して微調整を行う,audioformerという手法を提案する。 まず,音声分類タスクを自然言語理解(nlu)の一形態として考えることにより,新しい視点を提案する。 既存のニューラルオーディオコーデックモデルを利用して、離散音響コードを生成し、それをマスク付き言語モデル(MLM)の訓練に利用し、音響特徴表現を得る。 さらに,<textbf{M}ulti-\textbf{P}ositive sample \textbf{C}ontrastive (MPC) 学習アプローチの統合を開拓した。 同一音声入力における複数の離散音響符号間の関節表現の学習を可能にする。 実験では、離散音響符号をテキストデータとして扱い、clozeのような手法を用いてマスキング言語モデルを訓練し、最終的に高品質な音声表現を導出する。 特に、mpc学習技術は、異なる正のサンプル間の協調表現を効果的に捉える。 その結果,複数のデータセットにまたがる単調な音声分類モデルに比べ,オーディオフォーマーの性能は著しく向上し,選択したデータセット上では視聴覚型マルチモーダル分類モデルよりも優れていた。 具体的には,AudioSet(2M,20K),FSD50Kなどのデータセットに対して,それぞれ53.9,45.1,65.6のパフォーマンススコアを達成している。 コードとモデルの両方をオープンに共有した。 \url{https://github.com/lzh-0225/audioformer.git}。

We propose a method named AudioFormer, which learns audio feature representations through the acquisition of discrete acoustic codes and subsequently fine-tunes them for audio classification tasks. Initially, we introduce a novel perspective by considering the audio classification task as a form of natural language understanding (NLU). Leveraging an existing neural audio codec model, we generate discrete acoustic codes and utilize them to train a masked language model (MLM), thereby obtaining audio feature representations. Furthermore, we pioneer the integration of a \textbf{M}ulti-\textbf{P}ositive sample \textbf{C}ontrastive (MPC) learning approach. This method enables the learning of joint representations among multiple discrete acoustic codes within the same audio input. In our experiments, we treat discrete acoustic codes as textual data and train a masked language model using a cloze-like methodology, ultimately deriving high-quality audio representations. Notably, the MPC learning technique effectively captures collaborative representations among distinct positive samples. Our research outcomes demonstrate that AudioFormer attains significantly improved performance compared to prevailing monomodal audio classification models across multiple datasets, and even outperforms audio-visual multimodal classification models on select datasets. Specifically, our approach achieves remarkable results on datasets including AudioSet (2M, 20K), and FSD50K, with performance scores of 53.9, 45.1, and 65.6, respectively. We have openly shared both the code and models: \url{https://github.com/LZH-0225/AudioFormer.git}.
翻訳日:2023-08-15 12:36:55 公開日:2023-08-14
# 成人脳腫瘍のアンサンブル・ベース・セグメンテーションの自動化: BraTS AFRICA Challenge Data を用いた新しいアプローチ

Automated Ensemble-Based Segmentation of Adult Brain Tumors: A Novel Approach Using the BraTS AFRICA Challenge Data ( http://arxiv.org/abs/2308.07214v1 )

ライセンス: Link先を確認
Chiranjeewee Prasad Koirala, Sovesh Mohapatra, Advait Gosai, Gottfried Schlaug(参考訳) 脳腫瘍、特にグリオ芽腫は、世界中で診断や治療に挑戦し続けている。 本稿では,サブサハラアフリカにおける脳腫瘍の領域分割精度向上のための多モード磁気共鳴画像(MRI)データへのディープラーニングの適用について検討する。 UNet3D, ONet3D, SphereNet3D, 修正損失関数の3つのコアアーキテクチャに基づいて, 11種類のユニークなバリエーションを含むアンサンブル方式を提案する。 この研究は、脳の複雑さを完全に説明するために、年齢と人口ベースのセグメンテーションモデルの両方の必要性を強調している。 その結果,異なるアーキテクチャを組み合わせるアンサンブルアプローチが単一モデルより優れており,評価基準が向上していることがわかった。 具体的には, 腫瘍, 腫瘍コア, 腫瘍ラベルをそれぞれ0.82点, 0.82点, 0.87点のdiceスコアを示した。 これらの結果は、脳腫瘍を正確に分類し、将来の研究のために、様々な脳領域にまたがるモデルを微調整し、性能を評価するために、適切な深層学習技術の可能性を示している。

Brain tumors, particularly glioblastoma, continue to challenge medical diagnostics and treatments globally. This paper explores the application of deep learning to multi-modality magnetic resonance imaging (MRI) data for enhanced brain tumor segmentation precision in the Sub-Saharan Africa patient population. We introduce an ensemble method that comprises eleven unique variations based on three core architectures: UNet3D, ONet3D, SphereNet3D and modified loss functions. The study emphasizes the need for both age- and population-based segmentation models, to fully account for the complexities in the brain. Our findings reveal that the ensemble approach, combining different architectures, outperforms single models, leading to improved evaluation metrics. Specifically, the results exhibit Dice scores of 0.82, 0.82, and 0.87 for enhancing tumor, tumor core, and whole tumor labels respectively. These results underline the potential of tailored deep learning techniques in precisely segmenting brain tumors and lay groundwork for future work to fine-tune models and assess performance across different brain regions.
翻訳日:2023-08-15 12:36:29 公開日:2023-08-14
# 人間中心のNLP Fact-checking:Matchmaking for AIを用いたFact-checkersの共同設計

Human-centered NLP Fact-checking: Co-Designing with Fact-checkers using Matchmaking for AI ( http://arxiv.org/abs/2308.07213v1 )

ライセンス: Link先を確認
Houjiang Liu, Anubrata Das, Alexander Boltz, Didi Zhou, Daisy Pinaroc, Matthew Lease, Min Kyung Lee(参考訳) 専門家のファクトチェックにおける重要な課題は、誤った情報の大きさに関するスケーラビリティの制限である。 ファクトチェックの効率とスケーラビリティを高めるために、多くの自然言語処理(NLP)ツールが提案されているが、学術研究とファクトチェックの組織は、ファクトチェックのプラクティスや価値観、ニーズとの整合性が不十分なため、そのようなツールの採用が制限されていると報告している。 このギャップに対処するために,ファクトチェッカー,デザイナ,nlp研究者が,テクノロジによってどのようなファクトチェッカーが必要か,どのように対処すべきかを協調的に発見するための,aiのためのマッチメイキング手法を検討する。 22のプロのファクトチェッカーによる共同設計セッションでは,11の斬新なデザインアイデアが得られました。 情報検索、処理、タスクの執筆を支援し、効率的でパーソナライズされたファクトチェックを行い、ファクトチェックを積極的に支援し、将来の誤報に備え、潜在的なバイアスを監視し、組織内のコラボレーションを支援する。 我々の研究は、人間中心の事実チェック研究と実践、そしてAIの共同設計研究に影響を及ぼす。

A key challenge in professional fact-checking is its limited scalability in relation to the magnitude of false information. While many Natural Language Processing (NLP) tools have been proposed to enhance fact-checking efficiency and scalability, both academic research and fact-checking organizations report limited adoption of such tooling due to insufficient alignment with fact-checker practices, values, and needs. To address this gap, we investigate a co-design method, Matchmaking for AI, which facilitates fact-checkers, designers, and NLP researchers to collaboratively discover what fact-checker needs should be addressed by technology and how. Our co-design sessions with 22 professional fact-checkers yielded a set of 11 novel design ideas. They assist in information searching, processing, and writing tasks for efficient and personalized fact-checking; help fact-checkers proactively prepare for future misinformation; monitor their potential biases; and support internal organization collaboration. Our work offers implications for human-centered fact-checking research and practice and AI co-design research.
翻訳日:2023-08-15 12:36:10 公開日:2023-08-14
# プロンプトのための対話:マイナショット学習のための政策段階に基づく離散的プロンプト最適化

Dialogue for Prompting: a Policy-Gradient-Based Discrete Prompt Optimization for Few-shot Learning ( http://arxiv.org/abs/2308.07272v1 )

ライセンス: Link先を確認
Chengzhengxu Li, Xiaoming Liu, Yichen Wang, Duyi Li, Yu Lan, Chao Shen(参考訳) プロンプトベースの事前学習言語モデル(PLM)パラダイムは、NLPタスクにおいて大きく成功している。 しかし、事前の離散的なプロンプト最適化手法は、基本プロンプトセットを設計し、高品質なプロンプトを識別する専門家の知識を必要とする。 一方,従来の連続的プロンプト最適化手法は,計算コストが高く,可読性や一般化性が低いPLMの勾配情報から理想的プロンプトを学習することで,性能を向上させる。 本研究のギャップに対処するため,対話型政策段階型離散プロンプト最適化法(DP_2O$)を提案する。 まず,GPT-4に基づく可読性プロンプトセット生成のための多ラウンド対話アライメント戦略を設計する。 さらに,線形複雑度の高い高品質なプロンプトを同定するための効率的なプロンプトスクリーニング指標を提案する。 最後に、ポリシー勾配に基づく強化学習(RL)フレームワークを構築し、入力のプロンプトを最適に一致させる。 PLMパラメータサイズのわずか0.67%のポリシネットワークを数ショット設定でトレーニングすることで、$DP_2O$は4つのオープンソースデータセットで平均1.52%の精度で最先端(SOTA)メソッドを上回ります。 さらに、その後の実験では、$DP_2O$ が優れた普遍性、堅牢性、一般化能力を持つことも示されている。

Prompt-based pre-trained language models (PLMs) paradigm have succeeded substantially in few-shot natural language processing (NLP) tasks. However, prior discrete prompt optimization methods require expert knowledge to design the base prompt set and identify high-quality prompts, which is costly, inefficient, and subjective. Meanwhile, existing continuous prompt optimization methods improve the performance by learning the ideal prompts through the gradient information of PLMs, whose high computational cost, and low readability and generalizability are often concerning. To address the research gap, we propose a Dialogue-comprised Policy-gradient-based Discrete Prompt Optimization ($DP_2O$) method. We first design a multi-round dialogue alignment strategy for readability prompt set generation based on GPT-4. Furthermore, we propose an efficient prompt screening metric to identify high-quality prompts with linear complexity. Finally, we construct a reinforcement learning (RL) framework based on policy gradients to match the prompts to inputs optimally. By training a policy network with only 0.67% of the PLM parameter size on the tasks in the few-shot setting, $DP_2O$ outperforms the state-of-the-art (SOTA) method by 1.52% in accuracy on average on four open-source datasets. Moreover, subsequent experiments also demonstrate that $DP_2O$ has good universality, robustness, and generalization ability.
翻訳日:2023-08-15 12:28:41 公開日:2023-08-14
# easyedit: 大きな言語モデルのための使いやすい知識編集フレームワーク

EasyEdit: An Easy-to-use Knowledge Editing Framework for Large Language Models ( http://arxiv.org/abs/2308.07269v1 )

ライセンス: Link先を確認
Peng Wang, Ningyu Zhang, Xin Xie, Yunzhi Yao, Bozhong Tian, Mengru Wang, Zekun Xi, Siyuan Cheng, Kangwei Liu, Guozhou Zheng, Huajun Chen(参考訳) 大規模言語モデル(llm)は、通常、知識のカットオフや誤認の問題に苦しんでいる。 更新された知識を微妙に注入/編集したり、望ましくない振る舞いを調整したりしながら、無関係な入力への影響を最小限に抑えることを目的としている。 それにもかかわらず、様々な知識編集方法とタスク設定のバリエーションの間に大きな違いがあるため、コミュニティで利用可能な標準実装フレームワークは存在せず、アプリケーションへの知識編集の適用を妨げている。 これらの問題に対処するため,LLM のための知識編集フレームワーク EasyEdit を提案する。 様々な最先端の知識編集アプローチをサポートしており、T5、GPT-J、LlaMAなど、よく知られたLLMにも容易に適用できる。 実験的に,LlaMA-2の知識編集結果をEasyEditで報告し,信頼性と一般化の観点から,知識編集が従来の微調整を上回ることを示した。 ソースコードはgithubのhttps://github.com/zjunlp/easyeditで公開しています。 さらに,リアルタイム知識編集のためのオンラインシステムと,http://knowlm.zjukg.cn/easyedit.mp4でデモビデオを提供する。

Large Language Models (LLMs) usually suffer from knowledge cutoff or fallacy issues, which means they are unaware of unseen events or generate text with incorrect facts owing to the outdated/noisy data. To this end, many knowledge editing approaches for LLMs have emerged -- aiming to subtly inject/edit updated knowledge or adjust undesired behavior while minimizing the impact on unrelated inputs. Nevertheless, due to significant differences among various knowledge editing methods and the variations in task setups, there is no standard implementation framework available for the community, which hinders practitioners to apply knowledge editing to applications. To address these issues, we propose EasyEdit, an easy-to-use knowledge editing framework for LLMs. It supports various cutting-edge knowledge editing approaches and can be readily apply to many well-known LLMs such as T5, GPT-J, LlaMA, etc. Empirically, we report the knowledge editing results on LlaMA-2 with EasyEdit, demonstrating that knowledge editing surpasses traditional fine-tuning in terms of reliability and generalization. We have released the source code on GitHub at https://github.com/zjunlp/EasyEdit, along with Google Colab tutorials and comprehensive documentation for beginners to get started. Besides, we present an online system for real-time knowledge editing, and a demo video at http://knowlm.zjukg.cn/easyedit.mp4.
翻訳日:2023-08-15 12:28:14 公開日:2023-08-14
# ペンギンの潜水:深層学習による動物の水中映像におけるペンギンとその餌の検出

Diving with Penguins: Detecting Penguins and their Prey in Animal-borne Underwater Videos via Deep Learning ( http://arxiv.org/abs/2308.07267v1 )

ライセンス: Link先を確認
Kejia Zhang, Mingyu Yang, Stephen D. J. Lang, Alistair M. McInnes, Richard B. Sherley, Tilo Burghardt(参考訳) アフリカペンギン(spheniscus demersus)は絶滅危惧種である。 水中での狩猟戦略とそれに伴う捕食の成功率についてはほとんど知られていないが、これは保存の指導に不可欠である。 現代のバイオログ技術は、貴重な洞察を提供する可能性があるが、動物由来のビデオレコーダー(AVR)から大量のデータを手動で分析することは、時間を要する。 本稿では,ペンギンの動物による水中ビデオデータセットを公開し,ペンギン(mAP50@98.0%)と魚類(mAP50@73.3%)を頑健に検出できる深層学習システムを導入する。 検知器はエアバブル学習の恩恵を受け、精度を向上させることに留意する。 また,この検出器をデュアルストリーム行動認識ネットワークへと拡張し,ペンギン水中ビデオにおける捕食行動の同定のための最初の結果を提供する。 結果が期待できる一方で、フィールドシナリオにおける捕食行動検出の有効な適用にはさらなる作業が必要である。 要約すると、高度に信頼性の高い水中ペンギン検出器、魚検知器、および海洋捕食者における複雑な行動の自動視覚検出のための貴重な最初の試みを提供する。 私たちは、ネットワーク、divivewithpenguinsビデオデータセット、アノテーション、分割、重み付けを公開して、完全な再現性と、実践者による即時使用性を実現しています。

African penguins (Spheniscus demersus) are an endangered species. Little is known regarding their underwater hunting strategies and associated predation success rates, yet this is essential for guiding conservation. Modern bio-logging technology has the potential to provide valuable insights, but manually analysing large amounts of data from animal-borne video recorders (AVRs) is time-consuming. In this paper, we publish an animal-borne underwater video dataset of penguins and introduce a ready-to-deploy deep learning system capable of robustly detecting penguins (mAP50@98.0%) and also instances of fish (mAP50@73.3%). We note that the detectors benefit explicitly from air-bubble learning to improve accuracy. Extending this detector towards a dual-stream behaviour recognition network, we also provide the first results for identifying predation behaviour in penguin underwater videos. Whilst results are promising, further work is required for useful applicability of predation behaviour detection in field scenarios. In summary, we provide a highly reliable underwater penguin detector, a fish detector, and a valuable first attempt towards an automated visual detection of complex behaviours in a marine predator. We publish the networks, the DivingWithPenguins video dataset, annotations, splits, and weights for full reproducibility and immediate usability by practitioners.
翻訳日:2023-08-15 12:27:49 公開日:2023-08-14
# 自律的不均質ロボットシステムによる3次元LiDARによる効率的なリアルタイム煙流ろ過

Efficient Real-time Smoke Filtration with 3D LiDAR for Search and Rescue with Autonomous Heterogeneous Robotic Systems ( http://arxiv.org/abs/2308.07264v1 )

ライセンス: Link先を確認
Alexander Kyuroson, Anton Koval and George Nikolakopoulos(参考訳) エアロゾル粒子の存在下では, 厳密で非構造的なサブテラナン環境におけるSAR(Search and Rescue)ミッションが, ロボット工学の分野における主要な焦点となっている。 煙やダストなどのエアロゾル粒子は、地球航法衛星システム(gnss)の環境における自律的な航法と位置決めのための搭載認知システムに依存するため、あらゆる移動ロボットプラットフォームの性能に直接影響する。 障害物回避アルゴリズムや物体検出アルゴリズムはある程度ノイズの存在に頑健であるが、その性能は光検出・追跡(LiDAR)やカメラなどの搭載センサーによる捕捉データの品質に直接依存している。 そこで本研究では,衝突検出に先立って検出された煙粒子をポイントクラウド(pcl)から除去するための局所点密度などの強度と空間情報に基づく新しいモジュラー非依存濾過パイプラインを提案する。 さらに,複数のフロンティア探査ミッションにおける煙の存在に対する提案手法の有効性について検討し,他の手法との比較と計算効果について実験結果を提示した。 これは、モバイルロボットの安全な自律的ナビゲーションを考慮しながら、利用可能な計算リソースに基づく濾過スキームのより良い利用のために研究コミュニティに貴重な洞察を与える。

Search and Rescue (SAR) missions in harsh and unstructured Sub-Terranean (Sub-T) environments in the presence of aerosol particles have recently become the main focus in the field of robotics. Aerosol particles such as smoke and dust directly affect the performance of any mobile robotic platform due to their reliance on their onboard perception systems for autonomous navigation and localization in Global Navigation Satellite System (GNSS)-denied environments. Although obstacle avoidance and object detection algorithms are robust to the presence of noise to some degree, their performance directly relies on the quality of captured data by onboard sensors such as Light Detection And Ranging (LiDAR) and camera. Thus, this paper proposes a novel modular agnostic filtration pipeline based on intensity and spatial information such as local point density for removal of detected smoke particles from Point Cloud (PCL) prior to its utilization for collision detection. Furthermore, the efficacy of the proposed framework in the presence of smoke during multiple frontier exploration missions is investigated while the experimental results are presented to facilitate comparison with other methodologies and their computational impact. This provides valuable insight to the research community for better utilization of filtration schemes based on available computation resources while considering the safe autonomous navigation of mobile robots.
翻訳日:2023-08-15 12:27:24 公開日:2023-08-14
# 量子最適速度と精度によるサブ回折物体の変化検出

Detecting changes to sub-diffraction objects with quantum-optimal speed and accuracy ( http://arxiv.org/abs/2308.07262v1 )

ライセンス: Link先を確認
Michael R Grace, Saikat Guha, Zachary Dutton(参考訳) 動的シーンのパッシブサブディフュージョンイメージングでは、オブジェクトが変化しても検出することが難しい。 サブ回折非コヒーレントイメージングの文脈において、ある任意の物体モデルから別の物体への変化を検出するための応答性と精度の最良のトレードオフを考える。 有限2次元アパーチャによって収集された光学場の物理的に許容されるすべての測定を最適化し、固定された偽アラームレートに対して最適な平均レイテンシを解析的に評価する。 入射光強度の直接焦点平面検出は、最良な平均レイテンシと比較すると、サブ最適検出遅延を達成するが、よく知られたcusumアルゴリズムを用いたオンライン統計処理と連動して、3モード空間モード多重化測定により、このサブディフュージョンオブジェクトの量子限界が達成される。 変化検出手順のモンテカルロシミュレーションによりこれらの結果を検証し, 物体の回折限界が増大するにつれて, 従来と量子光学受信機とのギャップを定量化する。

Detecting if and when objects change is difficult in passive sub-diffraction imaging of dynamic scenes. We consider the best possible tradeoff between responsivity and accuracy for detecting a change from one arbitrary object model to another in the context of sub-diffraction incoherent imaging. We analytically evaluate the best possible average latency, for a fixed false alarm rate, optimizing over all physically allowed measurements of the optical field collected by a finite 2D aperture. We find that direct focal-plane detection of the incident optical intensity achieves sub-optimal detection latencies compared to the best possible average latency, but that a three-mode spatial-mode demultiplexing measurement in concert with on-line statistical processing using the well-known CUSUM algorithm achieves this quantum limit for sub-diffraction objects. We verify these results via Monte Carlo simulation of the change detection procedure and quantify a growing gap between the conventional and quantum-optimal receivers as the objects are more and more diffraction-limited.
翻訳日:2023-08-15 12:27:05 公開日:2023-08-14
# 明示的相関基底を用いたH$_2$分子のqubit-ADAPT実装

A qubit-ADAPT Implementation for H$_2$ Molecules using an Explicitly Correlated Basis ( http://arxiv.org/abs/2308.07259v1 )

ライセンス: Link先を確認
Hakon Volkmann (1), Raamamurthy Sathyanarayanan (1), Alejandro Saenz (1), Karl Jansen (2), and Stefan K\"uhn (2) ((1) AG Moderne Optik, Institut f\"ur Physik, Humboldt-Universit\"at zu Berlin, Germany, (2) CQTA, DESY Zeuthen, Germany, and Computation-Based Science and Technology Research Center, The Cyprus Institute, Nicosia, Cyprus)(参考訳) 近年、量子計算が可能なデバイスの開発が進み、科学の多くの分野において、短期的な応用を見つけることへの関心が高まっている。 非フォールトトレラント量子デバイスの時代において、高い繰り返し率を伴う比較可能な短い回路のみを必要とするアルゴリズムは、計算の難しい問題に対する解決策を見つけるために古典機械を支援する有望なアプローチであると考えられている。 Natで導入されたADAPTアプローチ。 共産。 10,3007 (2019) は変分量子固有ソルバ(vqe)アルゴリズムのクラスを拡張し、分子の基底および励起状態エネルギーの近似を求めるために、ans\"atzeを動的に成長させた。 本研究では,j. chem で導入された明示的相関基底関数を用いて,ボルン-オッペンハイマー近似における水素分子の最初の定量化法と適応アルゴリズムを組み合わせる。 Phys 43, 2429 (1965). その明示的な電子相関特性により、比較的短い回路が、ユニタリ結合クラスターのような第2の量子化アプローチと競合する基底および励起状態ポテンシャル曲線に対して化学的精度(<1.6$ mha)を与えるという古典的なシミュレーションで示されている。

With the recent advances in the development of devices capable of performing quantum computations, a growing interest in finding near-term applications has emerged in many areas of science. In the era of non-fault tolerant quantum devices, algorithms that only require comparably short circuits accompanied by high repetition rates are considered to be a promising approach for assisting classical machines with finding solution on computationally hard problems. The ADAPT approach previously introduced in Nat. Commun. 10, 3007 (2019) extends the class of variational quantum eigensolver (VQE) algorithms with dynamically growing ans\"atze in order to find approximations to ground and excited state energies of molecules. In this work, the ADAPT algorithm has been combined with a first-quantized formulation for the hydrogen molecule in the Born-Oppenheimer approximation, employing the explicitly correlated basis functions introduced in J. Chem. Phys. 43, 2429 (1965). By the virtue of their explicit electronic correlation properties, it is shown in classically performed simulations that relatively short circuits yield chemical accuracy ($< 1.6$ mHa) for ground and excited state potential curves that can compete with second quantized approaches such as Unitary Coupled Cluster.
翻訳日:2023-08-15 12:26:42 公開日:2023-08-14
# 効率・ロバスト脳損傷分節に対する大カーネル注意

Large-kernel Attention for Efficient and Robust Brain Lesion Segmentation ( http://arxiv.org/abs/2308.07251v1 )

ライセンス: Link先を確認
Liam Chalcroft, Ruben Louren\c{c}o Pereira, Mikael Brudfors, Andrew S. Kayser, Mark D'Esposito, Cathy J. Price, Ioannis Pappas, John Ashburner(参考訳) ビジョントランスフォーマーは、医用画像セグメンテーションを含む視覚タスクのための効果的なディープラーニングモデルである。 しかし、畳み込みニューラルネットワーク(CNN)とは異なり、効率性と翻訳の不変性を欠いている。 3次元脳病変セグメンテーションにおける長距離相互作用をモデル化するために,u-netアーキテクチャの完全畳み込みトランスフォーマーブロックを提案する。 我々は,本モデルが最先端技術との競合性,CNNのパラメータ効率,変圧器の帰納バイアスの3つの要因において最大の妥協をもたらすことを示した。 公開実装はhttps://github.com/liamchalcroft/mdunetで利用可能です。

Vision transformers are effective deep learning models for vision tasks, including medical image segmentation. However, they lack efficiency and translational invariance, unlike convolutional neural networks (CNNs). To model long-range interactions in 3D brain lesion segmentation, we propose an all-convolutional transformer block variant of the U-Net architecture. We demonstrate that our model provides the greatest compromise in three factors: performance competitive with the state-of-the-art; parameter efficiency of a CNN; and the favourable inductive biases of a transformer. Our public implementation is available at https://github.com/liamchalcroft/MDUNet .
翻訳日:2023-08-15 12:26:17 公開日:2023-08-14
# LCE -- Pythonにおけるバッグングとブースティングの強化された組み合わせ

LCE -- An Augmented Combination of Bagging and Boosting in Python ( http://arxiv.org/abs/2308.07250v1 )

ライセンス: Link先を確認
Kevin Fauvel, \'Elisa Fromont, V\'eronique Masson, Philippe Faverdin and Alexandre Termier(参考訳) lcensembleは、分類と回帰の一般的なタスクのための、高性能でスケーラブルでユーザフレンドリーなpythonパッケージである。 このパッケージは、現在の最先端メソッドであるRandom ForestとXGBoostの予測性能をさらに向上する機械学習手法であるLocal Cascade Ensemble (LCE)を実装している。 LCEはその強みを結合し、より良い一般化予測子を得るために相補的な多様化アプローチを採用する。 パッケージはScikit-learnと互換性があるため、Scikit-learnパイプラインやモデル選択ツールと対話することができる。 Apache 2.0ライセンス下で配布されており、ソースコードはhttps://github.com/LocalCascadeEnsemble/LCEで入手できる。

lcensemble is a high-performing, scalable and user-friendly Python package for the general tasks of classification and regression. The package implements Local Cascade Ensemble (LCE), a machine learning method that further enhances the prediction performance of the current state-of-the-art methods Random Forest and XGBoost. LCE combines their strengths and adopts a complementary diversification approach to obtain a better generalizing predictor. The package is compatible with scikit-learn, therefore it can interact with scikit-learn pipelines and model selection tools. It is distributed under the Apache 2.0 license, and its source code is available at https://github.com/LocalCascadeEnsemble/LCE.
翻訳日:2023-08-15 12:26:06 公開日:2023-08-14
# 同意できますか? Rash\=omon効果とポストホック説明可能なAIの信頼性について

Can we Agree? On the Rash\=omon Effect and the Reliability of Post-Hoc Explainable AI ( http://arxiv.org/abs/2308.07247v1 )

ライセンス: Link先を確認
Clement Poiret, Antoine Grigis, Justin Thomas, Marion Noulhiane(参考訳) rash\=omon効果は、機械学習モデルから信頼できる知識を引き出すための課題を提起する。 本研究は,shapを用いたrash\=omon集合のモデルによる説明に対するサンプルサイズの影響について検討した。 5つの公開データセットの実験では、サンプルサイズが大きくなるにつれて、説明は徐々に収束した。 128サンプルからの説明は、高い多様性を示し、信頼性のある知識抽出を制限した。 しかし、モデル間の合意はより多くのデータで改善され、合意が得られた。 袋詰めの合奏はしばしば高い合意に達した。 結果は,説明を信頼するための十分なデータに関するガイダンスを提供する。 低いサンプルでの変数は、検証なしで結論が信頼できないことを示唆している。 さらに多くのモデルタイプ、データドメイン、説明方法を扱う必要がある。 ニューラルネットワークとモデル固有の説明手法による収束テストは、影響が大きい。 ここでのアプローチは、あいまいなモデルから知識を引き出すための原則的手法に向けられている。

The Rash\=omon effect poses challenges for deriving reliable knowledge from machine learning models. This study examined the influence of sample size on explanations from models in a Rash\=omon set using SHAP. Experiments on 5 public datasets showed that explanations gradually converged as the sample size increased. Explanations from <128 samples exhibited high variability, limiting reliable knowledge extraction. However, agreement between models improved with more data, allowing for consensus. Bagging ensembles often had higher agreement. The results provide guidance on sufficient data to trust explanations. Variability at low samples suggests that conclusions may be unreliable without validation. Further work is needed with more model types, data domains, and explanation methods. Testing convergence in neural networks and with model-specific explanation methods would be impactful. The approaches explored here point towards principled techniques for eliciting knowledge from ambiguous models.
翻訳日:2023-08-15 12:25:54 公開日:2023-08-14
# AAFACE: 顔認識のための属性認識型注意ネットワーク

AAFACE: Attribute-aware Attentional Network for Face Recognition ( http://arxiv.org/abs/2308.07243v1 )

ライセンス: Link先を確認
Niloufar Alipour Talemi, Hossein Kashiani, Sahar Rahimi Malakshan, Mohammad Saeed Ebrahimi Saadabadi, Nima Najafzadeh, Mohammad Akyash, Nasser M. Nasrabadi(参考訳) 本稿では,ソフトバイオメトリック(SB)予測を補助モダリティとして同時に実行し,顔認識(FR)を主課題とするマルチブランチニューラルネットワークを提案する。 提案するネットワークAAFaceは、SB属性を利用してFR表現の識別能力を向上する。 この目的を達成するために,属性対応注意統合(AAI)モジュールを提案し,FRとSB特徴マップの重み付け統合を行う。 提案するAAIモジュールは,コンテキスト認識だけでなく,逐次マルチスケールチャネルと空間サブモジュールを用いて入力特徴間の複雑な関係を学習することができる。 実験により,提案するネットワークの優位性を,最先端SB予測とFR法と比較した。

In this paper, we present a new multi-branch neural network that simultaneously performs soft biometric (SB) prediction as an auxiliary modality and face recognition (FR) as the main task. Our proposed network named AAFace utilizes SB attributes to enhance the discriminative ability of FR representation. To achieve this goal, we propose an attribute-aware attentional integration (AAI) module to perform weighted integration of FR with SB feature maps. Our proposed AAI module is not only fully context-aware but also capable of learning complex relationships between input features by means of the sequential multi-scale channel and spatial sub-modules. Experimental results verify the superiority of our proposed network compared with the state-of-the-art (SoTA) SB prediction and FR methods.
翻訳日:2023-08-15 12:25:45 公開日:2023-08-14
# DiffSED:デノイング拡散による音事象検出

DiffSED: Sound Event Detection with Denoising Diffusion ( http://arxiv.org/abs/2308.07293v1 )

ライセンス: Link先を確認
Swapnil Bhosale, Sauradip Nag, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu(参考訳) Sound Event Detection (SED) は、制約のないオーディオサンプルから、興味のあるすべてのイベントとそのクラスラベルの時間的境界を予測することを目的としている。 スプリット・アンド・クラス化(フレームレベル)戦略やより原則化されたイベントレベルのモデリングアプローチを採用すると、既存のすべての手法は差別的な学習の観点からSEDの問題を考慮する。 本研究では、生成学習の観点からSED問題を再構築する。 具体的には,対象の音声サンプルに条件付けした雑音拡散過程において,雑音のある提案から音の時間境界を生成することを目的とする。 トレーニング中,我々のモデルは,ノイズの多い遅延クエリをエレガントなTransformerデコーダフレームワークの基底バージョンに変換することで,ノイズ発生プロセスの反転を学習する。 そうすることで、モデルは推論中にノイズの多いクエリから正確なイベント境界を生成することができる。 urban-sedとepic-soundsデータセットに関する広範な実験は、トレーニングの収束が40%以上速く、既存の代替案を大幅に上回っていることを示している。

Sound Event Detection (SED) aims to predict the temporal boundaries of all the events of interest and their class labels, given an unconstrained audio sample. Taking either the splitand-classify (i.e., frame-level) strategy or the more principled event-level modeling approach, all existing methods consider the SED problem from the discriminative learning perspective. In this work, we reformulate the SED problem by taking a generative learning perspective. Specifically, we aim to generate sound temporal boundaries from noisy proposals in a denoising diffusion process, conditioned on a target audio sample. During training, our model learns to reverse the noising process by converting noisy latent queries to the groundtruth versions in the elegant Transformer decoder framework. Doing so enables the model generate accurate event boundaries from even noisy queries during inference. Extensive experiments on the Urban-SED and EPIC-Sounds datasets demonstrate that our model significantly outperforms existing alternatives, with 40+% faster convergence in training.
翻訳日:2023-08-15 12:20:05 公開日:2023-08-14
# the devil is in the error: きめ細かな機械翻訳の評価に大規模な言語モデルを活用する

The Devil is in the Errors: Leveraging Large Language Models for Fine-grained Machine Translation Evaluation ( http://arxiv.org/abs/2308.07286v1 )

ライセンス: Link先を確認
Patrick Fernandes, Daniel Deutsch, Mara Finkelstein, Parker Riley, Andr\'e F. T. Martins, Graham Neubig, Ankush Garg, Jonathan H. Clark, Markus Freitag, Orhan Firat(参考訳) 機械翻訳(MT)の自動評価は,MTシステムの迅速な反復的開発を促進する重要なツールである。 単一のスカラー品質スコアの推定にはかなりの進歩があったが、現在のメトリクスは、多次元品質メトリクス(MQM)のような個々のエラーを注釈付けするより詳細なスキームの情報を欠いている。 本稿では,大規模言語モデル(llms)の推論と文脈内学習機能を活用し,翻訳におけるエラーの識別と分類を行うプロンプト手法であるautomqmを提案することで,このギャップを埋めることを支援する。 まず,PALM や PaLM-2 などの最近の LLM の評価を,簡単なスコア予測による評価から始め,テキスト内学習と微調整によるラベル付きデータの影響について検討する。 次に、PALM-2モデルでAutoMQMを評価し、単にスコアのプロンプト(特に大型モデルでは大きなゲイン)よりもパフォーマンスを向上し、ヒューマンアノテーションと整合したエラースパンによる解釈可能性を提供する。

Automatic evaluation of machine translation (MT) is a critical tool driving the rapid iterative development of MT systems. While considerable progress has been made on estimating a single scalar quality score, current metrics lack the informativeness of more detailed schemes that annotate individual errors, such as Multidimensional Quality Metrics (MQM). In this paper, we help fill this gap by proposing AutoMQM, a prompting technique which leverages the reasoning and in-context learning capabilities of large language models (LLMs) and asks them to identify and categorize errors in translations. We start by evaluating recent LLMs, such as PaLM and PaLM-2, through simple score prediction prompting, and we study the impact of labeled data through in-context learning and finetuning. We then evaluate AutoMQM with PaLM-2 models, and we find that it improves performance compared to just prompting for scores (with particularly large gains for larger models) while providing interpretability through error spans that align with human annotations.
翻訳日:2023-08-15 12:19:45 公開日:2023-08-14
# 量子ベルトラミ面における電子状態

Electronic states in a quantum Beltrami surface ( http://arxiv.org/abs/2308.07285v1 )

ライセンス: Link先を確認
J. Furtado(参考訳) 本稿では,量子ベルトラミ曲面の電子状態における幾何学の影響について検討する。 我々は、ダコスタポテンシャルが現れる閉じ込めポテンシャルのため、ベルトラミ表面上で動くように制約されたスピンレス定常シュル\"{o}dinger方程式によって制御される電子を考える。 システムの電子状態における幾何および軌道角運動量の役割について検討する。

In this paper, we investigate the influence of the geometry in the electronic states of a quantum Beltrami surface. We have considered an electron governed by the spinless stationary Schr\"{o}dinger equation constrained to move on the Beltrami surface due to a confining potential from which the Da Costa potential emerges. We investigate the role played by the geometry and orbital angular momentum on the electronic states of the system.
翻訳日:2023-08-15 12:19:25 公開日:2023-08-14
# 共有ユーザ埋め込みを用いたクロス属性行列分解モデル

Cross-Attribute Matrix Factorization Model with Shared User Embedding ( http://arxiv.org/abs/2308.07284v1 )

ライセンス: Link先を確認
Wen Liang, Zeng Fan, Youzhi Liang, Jianguo Jia(参考訳) 過去数年間、ディープラーニングは、コンピュータビジョン、音声認識、自然言語処理など、さまざまな領域で確固たる地位を確立してきた。 その優れた成功に動機づけられた研究者たちは、レコメンダシステムへのディープラーニング技術の適用への取り組みを指示している。 neural collaborative filtering(ncf)とneural matrix factorization(neumf)は、複雑なデータ駆動関数を学習可能なニューラルネットワークアーキテクチャによって、マトリックスファクタライゼーションにおける従来の内積をリフレッシュする。 これらのモデルは、ユーザとイテムのインタラクションを効果的にキャプチャするが、ユーザとアイテムの両方の特定の属性を見落としている。 これは特に"ロングテール"に属するアイテムやユーザにとって、堅牢性の問題につながる可能性がある。 このような課題は、コールドスタート問題の一部としてレコメンデーションシステムで一般的に認識されている。 この問題に対処するための直接的で直感的なアプローチは、アイテムとユーザ自身の機能と属性を活用することだ。 本稿では,ユーザとアイテム間のインタラクションだけでなく,関連する属性の相互参照も考慮した改良されたNeuMFモデルを提案する。 さらに,提案アーキテクチャでは,ユーザ埋め込みをシームレスに統合することにより,ロバスト性を損なうとともに,コールドスタート問題に効果的に対処する。 MovielensとPinterestのデータセットに関する厳密な実験は、私たちのクロス属性行列分解モデルの優位性を実証しています。

Over the past few years, deep learning has firmly established its prowess across various domains, including computer vision, speech recognition, and natural language processing. Motivated by its outstanding success, researchers have been directing their efforts towards applying deep learning techniques to recommender systems. Neural collaborative filtering (NCF) and Neural Matrix Factorization (NeuMF) refreshes the traditional inner product in matrix factorization with a neural architecture capable of learning complex and data-driven functions. While these models effectively capture user-item interactions, they overlook the specific attributes of both users and items. This can lead to robustness issues, especially for items and users that belong to the "long tail". Such challenges are commonly recognized in recommender systems as a part of the cold-start problem. A direct and intuitive approach to address this issue is by leveraging the features and attributes of the items and users themselves. In this paper, we introduce a refined NeuMF model that considers not only the interaction between users and items, but also acrossing associated attributes. Moreover, our proposed architecture features a shared user embedding, seamlessly integrating with user embeddings to imporve the robustness and effectively address the cold-start problem. Rigorous experiments on both the Movielens and Pinterest datasets demonstrate the superiority of our Cross-Attribute Matrix Factorization model, particularly in scenarios characterized by higher dataset sparsity.
翻訳日:2023-08-15 12:19:19 公開日:2023-08-14
# スマートグリッドにおける電力線検査のための自律点雲分割

Autonomous Point Cloud Segmentation for Power Lines Inspection in Smart Grid ( http://arxiv.org/abs/2308.07283v1 )

ライセンス: Link先を確認
Alexander Kyuroson, Anton Koval and George Nikolakopoulos(参考訳) LiDARは現在、電力線の現状を効果的に監視し、遠隔電力配電ネットワークや関連インフラの検査を容易にするために最も利用されているセンサーの1つである。 スマートグリッドの安全な運用を確保するため、航空機レーザー走査(als)、移動レーザー走査(mls)、地上レーザー走査(tsl)といった様々なリモートデータ取得戦略が活用され、通常密集した植生に囲まれた地域電力ネットワークの継続的な監視を可能にしている。 本稿では,LiDARデータのみを用いたPLC(Power Line Corridor)における高電圧と低電圧の両方の電力線の特性の検出,抽出,解析を行う,教師なし機械学習(ML)フレームワークを提案する。 当初,提案手法は,密度基準とヒストグラム閾値を適用した統計的解析に基づいて,高い標高地点から基底点を除去する。 原理成分分析(PCA)およびKd木を適用して残りの候補点を復調・変換した後、二段階DBSCANクラスタリングを利用して各電力線を個別に識別する。 最後に、新たに分断された電力線との距離に基づいて、PLC内の高高度点を同定する。 実験により,提案手法は電力線を効率よく検出し,PLCに基づくハザード解析を行うことができることを示す。

LiDAR is currently one of the most utilized sensors to effectively monitor the status of power lines and facilitate the inspection of remote power distribution networks and related infrastructures. To ensure the safe operation of the smart grid, various remote data acquisition strategies, such as Airborne Laser Scanning (ALS), Mobile Laser Scanning (MLS), and Terrestrial Laser Scanning (TSL) have been leveraged to allow continuous monitoring of regional power networks, which are typically surrounded by dense vegetation. In this article, an unsupervised Machine Learning (ML) framework is proposed, to detect, extract and analyze the characteristics of power lines of both high and low voltage, as well as the surrounding vegetation in a Power Line Corridor (PLC) solely from LiDAR data. Initially, the proposed approach eliminates the ground points from higher elevation points based on statistical analysis that applies density criteria and histogram thresholding. After denoising and transforming of the remaining candidate points by applying Principle Component Analysis (PCA) and Kd-tree, power line segmentation is achieved by utilizing a two-stage DBSCAN clustering to identify each power line individually. Finally, all high elevation points in the PLC are identified based on their distance to the newly segmented power lines. Conducted experiments illustrate that the proposed framework is an agnostic method that can efficiently detect the power lines and perform PLC-based hazard analysis.
翻訳日:2023-08-15 12:18:57 公開日:2023-08-14
# パラメータ効率とフル微調整の比較:多言語ニュース記事分類の事例研究

Comparison between parameter-efficient techniques and full fine-tuning: A case study on multilingual news article classification ( http://arxiv.org/abs/2308.07282v1 )

ライセンス: Link先を確認
Olesya Razuvayevskaya, Ben Wu, Joao A. Leite, Freddy Heppell, Ivan Srba, Carolina Scarton, Kalina Bontcheva, Xingyi Song(参考訳) Adapters and Low-Rank Adaptation (LoRA)は、言語モデルのトレーニングをより効率的にするために設計されたパラメータ効率の良い微調整技術である。 過去の結果は,これらの手法がいくつかの分類タスクの性能を向上させることさえできることを示した。 本稿では,多言語テキスト分類タスク(生成,フレーミング,説得技術検出,入力長,予測クラス数,分類難易度など)に適用される場合の完全微調整と比較して,これらの手法が分類性能と計算コストにどのような影響を及ぼすかを検討することにより,既存の研究を補完する。 さらに,異なる学習シナリオ(元の多言語データ,英語への翻訳,英語のみのデータの一部)と異なる言語に対して,その効果を深く分析する。 本研究は,パラメータ効率の高い微調整技術,特に複雑な多言語・多ラベル分類タスクの適用性に関する貴重な知見を提供する。

Adapters and Low-Rank Adaptation (LoRA) are parameter-efficient fine-tuning techniques designed to make the training of language models more efficient. Previous results demonstrated that these methods can even improve performance on some classification tasks. This paper complements the existing research by investigating how these techniques influence the classification performance and computation costs compared to full fine-tuning when applied to multilingual text classification tasks (genre, framing, and persuasion techniques detection; with different input lengths, number of predicted classes and classification difficulty), some of which have limited training data. In addition, we conduct in-depth analyses of their efficacy across different training scenarios (training on the original multilingual data; on the translations into English; and on a subset of English-only data) and different languages. Our findings provide valuable insights into the applicability of the parameter-efficient fine-tuning techniques, particularly to complex multilingual and multilabel classification tasks.
翻訳日:2023-08-15 12:18:32 公開日:2023-08-14
# 分散ガバナンス:データガバナンスに対するプリンシパルエージェントアプローチ -その1 背景とコア定義-

Distributed Governance: a Principal-Agent Approach to Data Governance -- Part 1 Background & Core Definitions ( http://arxiv.org/abs/2308.07280v1 )

ライセンス: Link先を確認
Philippe Page, Paul Knowles, Robert Mitwicki(参考訳) イノベーションやデジタルトランスフォーメーションの規制フレームワークを妨げることなく、デジタルテクノロジの規制の必要性に対処するために、情報ガバナンスに向けてデータガバナンスを進化させ、これら2つの用語の関係を精密化するためのモデルを提供する。 このモデルはデジタルおよび非デジタル情報交換を橋渡しする。 プリンシパルエージェントの問題の角度から管理データの利用の問題を考えることで、選択可能なエンティティとして定義された自律的なプリンシパルに基づいた分散ガバナンスモデルを構築し、トランザクションの主権を行使することができる。 プライバシー分野の法的概念をデジタル空間における機能的等価性に拡張することで、権利と説明責任を付与できるデジタル自己の構築につながる。 正当な権威によって束縛された自律的プリンシパルの共同体として定義される生態系は、物理的な世界統治システムを反映した自己複製性を持つ複雑さの増加の相互作用構造の基礎を提供する。 このモデルは、管轄区域間で運用されるマルチステークホルダー情報システムのガバナンス概念を提案する。 分散化された認証とセマンティクスにおける最近のソフトウェアエンジニアリングの進歩を利用して、人間と技術のガバナンス間のチェックとバランスを埋めた分散ガバナンスモデルをデプロイするための動的データ経済というフレームワークを提供します。 ドメイン固有のガバナンスモデルは、さらなる出版のために残されています。 同様に、デジタル自己と物理世界コントローラ(バイオメトリックバインディングなど)の接続に関する技術的な質問は、今後の出版物で扱われる予定である。

To address the need for regulating digital technologies without hampering innovation or pre-digital transformation regulatory frameworks, we provide a model to evolve Data governance toward Information governance and precise the relation between these two terms. This model bridges digital and non-digital information exchange. By considering the question of governed data usage through the angle of the Principal-Agent problem, we build a distributed governance model based on Autonomous Principals defined as entities capable of choice, therefore capable of exercising a transactional sovereignty. Extending the legal concept of the privacy sphere to a functional equivalent in the digital space leads to the construction of a digital self to which rights and accountability can be attached. Ecosystems, defined as communities of autonomous principals bound by a legitimate authority, provide the basis of interacting structures of increasing complexity endowed with a self-replicating property that mirrors physical world governance systems. The model proposes a governance concept for multi-stakeholder information systems operating across jurisdictions. Using recent software engineering advances in decentralised authentication and semantics, we provide a framework, Dynamic Data Economy to deploy a distributed governance model embedding checks and balance between human and technological governance. Domain specific governance models are left for further publications. Similarly, the technical questions related to the connection between a digital-self and its physical world controller (e.g biometric binding) will be treated in upcoming publications.
翻訳日:2023-08-15 12:18:12 公開日:2023-08-14
# マルチカラー・フューズド・エンリッチ・ビジョン・トランスを用いた自然画像とコンピュータ画像の識別に向けたロバストなアプローチ

A Robust Approach Towards Distinguishing Natural and Computer Generated Images using Multi-Colorspace fused and Enriched Vision Transformer ( http://arxiv.org/abs/2308.07279v1 )

ライセンス: Link先を確認
Manjary P Gangan, Anoop Kadan, and Lajish V L(参考訳) 自然画像とコンピュータ生成画像の分類における研究は、自然画像とコンピュータグラフィックス画像のみを考慮し、自然画像とGAN生成画像のみを考慮し、自然画像と生成された画像の両クラスを比較検討した。 また、自然画像とコンピュータ画像とを区別するこの法医学的分類タスクは、顕著な分類精度を与える新しい畳み込みニューラルネットワークとトランスフォーマーベースのアーキテクチャのサポートを受けるが、JPEG圧縮やガウス雑音などの法医学的アルゴリズムを騙すために通常実行される後処理操作のいくつかの画像に対して失敗する。 本研究は,コンピュータグラフィックスとGAN生成画像を含む自然画像とコンピュータ画像の区別に,各トランスフォーマーネットワークがそれぞれ異なる色空間で動作し,一方がRGBで,他方がYCbCr色空間で動作している2つの視覚トランスフォーマーを融合した手法を提案する。 提案手法は,ベースラインの集合と比較して高い性能向上を実現するとともに,ベースラインよりも高い堅牢性と一般化性を実現する。 提案モデルの特徴を可視化すると,入力画像特徴やベースライン特徴よりもクラス間の分離性が高いことが分かる。 本研究は,融合モデルのネットワークのアテンションマップの可視化も研究し,本手法が自然画像と生成画像の分類を行う法医学的タスクに関連するより多くの画像情報を収集できることを観察する。

The works in literature classifying natural and computer generated images are mostly designed as binary tasks either considering natural images versus computer graphics images only or natural images versus GAN generated images only, but not natural images versus both classes of the generated images. Also, even though this forensic classification task of distinguishing natural and computer generated images gets the support of the new convolutional neural networks and transformer based architectures that can give remarkable classification accuracies, they are seen to fail over the images that have undergone some post-processing operations usually performed to deceive the forensic algorithms, such as JPEG compression, gaussian noise, etc. This work proposes a robust approach towards distinguishing natural and computer generated images including both, computer graphics and GAN generated images using a fusion of two vision transformers where each of the transformer networks operates in different color spaces, one in RGB and the other in YCbCr color space. The proposed approach achieves high performance gain when compared to a set of baselines, and also achieves higher robustness and generalizability than the baselines. The features of the proposed model when visualized are seen to obtain higher separability for the classes than the input image features and the baseline features. This work also studies the attention map visualizations of the networks of the fused model and observes that the proposed methodology can capture more image information relevant to the forensic task of classifying natural and generated images.
翻訳日:2023-08-15 12:17:47 公開日:2023-08-14
# ベル状態の特徴的な対称性

The distinctive symmetry of Bell states ( http://arxiv.org/abs/2308.07274v1 )

ライセンス: Link先を確認
Alejandro Hnilo(参考訳) ベル基底はベル状態と呼ばれる2つの量子ビットの4つの最大絡み合った状態で構成されている。 これらは多くの理論研究や実験において一般的な道具である。 本論文の目的はベル状態を決定する対称性を明らかにすることである。 この目的のために、一般密度行列から始まり、ベル基底の要素が明示的に決定されるまで物理的制約と対称性条件が加えられる。 通常の物理的制約や対称性条件はベル状態を決定するのに十分ではないことが判明した。 追加の制限はここで原子対称性と呼ばれる。 これは系の大域対称性の一種であり、アクション=反応則に由来するものではない。 また、原子対称性を満たすための不完全性は、その最大値からの収束の偏差に線形に比例することを示した。 原子対称性は、絡み合いの性質について異なる洞察を与え、二ビット以上の状態に対する最大絡み合いの条件を定義するための基準として有用かもしれない。

The Bell's basis is composed of four maximally entangled states of two qubits, named Bell states. They are usual tools in many theoretical studies and experiments. The aim of this paper is to find out the symmetries that determine a Bell state. For this purpose, starting from a general density matrix, physical constraints and symmetry conditions are added until the elements of the Bell's basis are univocally determined. It is found that the usual physical constraints and symmetry conditions do not suffice to determine a Bell state. The additional restriction needed is named here atomic symmetry. It is a sort of global symmetry of the system, not derived from the action = reaction law. It is also found that the imperfection in fulfilling the atomic symmetry is linearly proportional to the deviation of the Concurrence from its maximum value. The atomic symmetry allows a different insight on the nature of entanglement, and might be useful as a criterion to define the condition of maximal entanglement for states with more than two qubits.
翻訳日:2023-08-15 12:17:16 公開日:2023-08-14
# uav対応連合学習のためのデータ効率の高いエネルギー・アウェア参加者選択

Data-Efficient Energy-Aware Participant Selection for UAV-Enabled Federated Learning ( http://arxiv.org/abs/2308.07273v1 )

ライセンス: Link先を確認
Youssra Cheriguene, Wael Jaafar, Chaker Abdelaziz Kerrache, Halim Yanikomeroglu, Fatima Zohra Bousbaa, and Nasreddine Lagraa(参考訳) 無人航空機(UAV)対応エッジフェデレーション学習(FL)は、UAVが収集した大規模で異質なデータと、UAVデータ送信に関するプライバシー上の懸念の結果、研究の関心を喚起している。 しかし、UAV収集データの冗長性、例えば撮像データ、非剛性FL選択の選択により、FL学習過程の収束時間とFLモデルのバイアスが増大する可能性がある。 そこで本稿では,エネルギー消費,通信品質,局所データセットの不均一性の制約の下で,FLモデルの精度向上を目的としたエッジFLのUAV参加者選択の問題について検討する。 本稿では,そのローカルデータセットのssim(structure similarity index measure)平均スコアとその消費電力プロファイルに基づいて,各サブリージョンにおける最良fl参加者を選択することからなる,データ効率の高いエネルギー・アウェア参加者選択戦略(deeps)と呼ばれる新しいuav参加者選択手法を提案する。 実験により,提案手法はモデル精度,トレーニング時間,UAVエネルギー消費の観点から,ベンチマークランダム選択法よりも優れていることを示した。

Unmanned aerial vehicle (UAV)-enabled edge federated learning (FL) has sparked a rise in research interest as a result of the massive and heterogeneous data collected by UAVs, as well as the privacy concerns related to UAV data transmissions to edge servers. However, due to the redundancy of UAV collected data, e.g., imaging data, and non-rigorous FL participant selection, the convergence time of the FL learning process and bias of the FL model may increase. Consequently, we investigate in this paper the problem of selecting UAV participants for edge FL, aiming to improve the FL model's accuracy, under UAV constraints of energy consumption, communication quality, and local datasets' heterogeneity. We propose a novel UAV participant selection scheme, called data-efficient energy-aware participant selection strategy (DEEPS), which consists of selecting the best FL participant in each sub-region based on the structural similarity index measure (SSIM) average score of its local dataset and its power consumption profile. Through experiments, we demonstrate that the proposed selection scheme is superior to the benchmark random selection method, in terms of model accuracy, training time, and UAV energy consumption.
翻訳日:2023-08-15 12:17:00 公開日:2023-08-14
# platypus: 高速、安価、かつ強力なllmの改良

Platypus: Quick, Cheap, and Powerful Refinement of LLMs ( http://arxiv.org/abs/2308.07317v1 )

ライセンス: Link先を確認
Ariel N. Lee, Cole J. Hunter, Nataniel Ruiz(参考訳) 我々は,HuggingFace の Open LLM Leaderboard において,この作業のリリース日時点で最強のパフォーマンスを達成し,現在一位に立っている,細かな調整と統合されたLarge Language Models (LLMs) のファミリーである $\textbf{Platypus}$ を提示する。 本研究では,(1)他のオープンデータセットのサブセットであり,(2)loraモジュールの微調整とマージを行うプロセスである$\textbf{open-platypus}$を,(1)事前訓練済みllmの強みを保ちつつ,(3)テストデータの漏洩やトレーニングデータへの汚染を検査する,(3)特定のドメイン知識を表面に持ち込むことによって,今後の研究に役立てることができる。 具体的には、Platypusファミリーは、モデルサイズをまたいだ定量的LLMメトリクスにおいて強力なパフォーマンスを達成し、グローバルなOpen LLMリーダーボードをトッピングし、その他の最先端の細調整LLMに必要な、わずかな微調整データと全体的な計算を使用する。 特に、13b platypusモデルは、5時間で25kの質問を使って$\textit{a single}$ a100 gpuでトレーニングできる。 これはOpen-Platypusデータセットの品質の証明であり、この分野におけるさらなる改善の機会を開くものです。 プロジェクトページ: https://platypus-llm.github.io

We present $\textbf{Platypus}$, a family of fine-tuned and merged Large Language Models (LLMs) that achieves the strongest performance and currently stands at first place in HuggingFace's Open LLM Leaderboard as of the release date of this work. In this work we describe (1) our curated dataset $\textbf{Open-Platypus}$, that is a subset of other open datasets and which $\textit{we release to the public}$ (2) our process of fine-tuning and merging LoRA modules in order to conserve the strong prior of pretrained LLMs, while bringing specific domain knowledge to the surface (3) our efforts in checking for test data leaks and contamination in the training data, which can inform future research. Specifically, the Platypus family achieves strong performance in quantitative LLM metrics across model sizes, topping the global Open LLM leaderboard while using just a fraction of the fine-tuning data and overall compute that are required for other state-of-the-art fine-tuned LLMs. In particular, a 13B Platypus model can be trained on $\textit{a single}$ A100 GPU using 25k questions in 5 hours. This is a testament of the quality of our Open-Platypus dataset, and opens opportunities for more improvements in the field. Project page: https://platypus-llm.github.io
翻訳日:2023-08-15 12:10:01 公開日:2023-08-14
# ジュラシック・ワールドリメイク:ゼロショットの長い画像から画像への翻訳で古代の化石を生き返らせる

Jurassic World Remake: Bringing Ancient Fossils Back to Life via Zero-Shot Long Image-to-Image Translation ( http://arxiv.org/abs/2308.07316v1 )

ライセンス: Link先を確認
Alexander Martin and Haitian Zheng and Jie An and Jiebo Luo(参考訳) 対象とするドメインを自然言語から強く理解することで、大きなドメインギャップを渡り、スケルトンを生き返らせるという有望な結果が得られます。 本研究では,テキスト誘導の潜時拡散モデルを用いて,対象領域に入るために大量の新しい視覚的特徴と新しい幾何学を生成する必要がある大領域ギャップ(longI2I)をまたいだゼロショット画像・画像変換(I2I)を行う。 大きな領域の隙間をまたいで翻訳を実行できることは、犯罪学、占星術、環境保全、古生物学における様々な現実世界の応用がある。 本研究では,頭蓋骨と生体動物を翻訳するSkull2Animalを新たに導入する。 このタスクでは,GAN(unguided Generative Adversarial Networks)は大きなドメインギャップをまたいで翻訳することができない。 これらの従来のI2I手法の代わりに、ガイド付き拡散モデルと画像編集モデルの使用を検討し、テキストプロンプト遅延拡散モデルを用いてゼロショットI2Iを実行できる新しいベンチマークモデルRevive-2Iを提供する。 longi2iには、大きなドメインギャップを埋めるために、ターゲットドメインに関する事前知識が必要であるため、ガイダンスが必要であることが分かりました。 さらに,分類器誘導拡散モデルとして,対象領域に関する最良の,最もスケーラブルな情報の提供には,特定のユースケースに対する再訓練が必要であり,訓練対象領域に対する強い制約が欠如していることが判明した。

With a strong understanding of the target domain from natural language, we produce promising results in translating across large domain gaps and bringing skeletons back to life. In this work, we use text-guided latent diffusion models for zero-shot image-to-image translation (I2I) across large domain gaps (longI2I), where large amounts of new visual features and new geometry need to be generated to enter the target domain. Being able to perform translations across large domain gaps has a wide variety of real-world applications in criminology, astrology, environmental conservation, and paleontology. In this work, we introduce a new task Skull2Animal for translating between skulls and living animals. On this task, we find that unguided Generative Adversarial Networks (GANs) are not capable of translating across large domain gaps. Instead of these traditional I2I methods, we explore the use of guided diffusion and image editing models and provide a new benchmark model, Revive-2I, capable of performing zero-shot I2I via text-prompting latent diffusion models. We find that guidance is necessary for longI2I because, to bridge the large domain gap, prior knowledge about the target domain is needed. In addition, we find that prompting provides the best and most scalable information about the target domain as classifier-guided diffusion models require retraining for specific use cases and lack stronger constraints on the target domain because of the wide variety of images they are trained on.
翻訳日:2023-08-15 12:09:30 公開日:2023-08-14
# 顔修復用デュアル関連エンコーダ

Dual Associated Encoder for Face Restoration ( http://arxiv.org/abs/2308.07314v1 )

ライセンス: Link先を確認
Yu-Ju Tsai, Yu-Lun Liu, Lu Qi, Kelvin C.K. Chan, Ming-Hsuan Yang(参考訳) 低品質(LQ)画像から顔の細部を復元することは、野生の様々な劣化によって引き起こされる不作為、依然として困難な問題である。 既存のコードブックは、オートエンコーダと高品質(HQ)機能の学習コードブックを活用することで、予期せぬ品質を達成することで、その不備を軽減します。 しかし、このパラダイムの既存のアプローチは、LQとHQイメージ間のドメインギャップを無視して、HQイメージの復元のためにHQデータに事前訓練された単一のエンコーダに依存することが多い。 結果として、LQ入力の符号化が不十分になり、最適化性能が低下する可能性がある。 そこで本研究では,DAEFRという新しいデュアルブランチフレームワークを提案する。 提案手法では,LQ入力から重要な情報を抽出する補助的なLQ分岐を導入する。 さらに,2つのブランチ間の効果的なシナジーを促進し,コード予測と出力品質を向上させるためのアソシエーショントレーニングも取り入れた。 合成および実世界のデータセットにおけるDAEFRの有効性を評価し,顔の詳細の復元において優れた性能を示す。

Restoring facial details from low-quality (LQ) images has remained a challenging problem due to its ill-posedness induced by various degradations in the wild. The existing codebook prior mitigates the ill-posedness by leveraging an autoencoder and learned codebook of high-quality (HQ) features, achieving remarkable quality. However, existing approaches in this paradigm frequently depend on a single encoder pre-trained on HQ data for restoring HQ images, disregarding the domain gap between LQ and HQ images. As a result, the encoding of LQ inputs may be insufficient, resulting in suboptimal performance. To tackle this problem, we propose a novel dual-branch framework named DAEFR. Our method introduces an auxiliary LQ branch that extracts crucial information from the LQ inputs. Additionally, we incorporate association training to promote effective synergy between the two branches, enhancing code prediction and output quality. We evaluate the effectiveness of DAEFR on both synthetic and real-world datasets, demonstrating its superior performance in restoring facial details.
翻訳日:2023-08-15 12:09:00 公開日:2023-08-14
# Group Pose: エンドツーエンドのマルチパーソン・ポース推定のためのシンプルなベースライン

Group Pose: A Simple Baseline for End-to-End Multi-person Pose Estimation ( http://arxiv.org/abs/2308.07313v1 )

ライセンス: Link先を確認
Huan Liu, Qiang Chen, Zichang Tan, Jiang-Jiang Liu, Jian Wang, Xiangbo Su, Xiaolong Li, Kun Yao, Junyu Han, Errui Ding, Yao Zhao, Jingdong Wang(参考訳) 本稿では,エンドツーエンド多人数ポーズ推定の問題について検討する。 最先端のソリューションはDETRライクなフレームワークを採用し、例えば、ポーズ推定をキーポイントボックスの検出として開発し、ED-Poseで人間の検出と組み合わせ、PETRでポーズデコーダとジョイント(キーポイント)デコーダで階層的に予測する。 単純だが効果的なトランスフォーマーアプローチであるGroup Poseを提案する。 単に$K$-keypointのポーズ推定を、キーポイントクエリからそれぞれ$N\times K$のキーポイント位置を予測し、各ポーズを、$N$のポーズ予測をスコアするインスタンスクエリで表現しているとみなす。 異なるタイプのインスタンス間クエリ間のインタラクションが直接的に役に立たないという直感に感銘を受け、デコーダの自己注意を簡易に修正する。 すべての$N\times(K+1)$クエリに対して単一の自己アテンションを、次の2つのグループ自己アテンションで置き換える。 (i)$n$ in-instance self-attention、それぞれ$k$ keypointクエリと1インスタンスクエリ (ii)$(k+1)$ same-type across-instance self-attention、それぞれが同じタイプの$n$クエリである。 結果としてデコーダは、インスタンス間型差分クエリ間の相互作用を取り除き、最適化を緩和し、パフォーマンスを改善する。 MS COCO と CrowdPose の実験結果から,人間の箱の監督を伴わないアプローチは,従来の複雑なデコーダを用いた手法よりも優れていることが示唆された。 $\href{https://github.com/Michel-liu/GroupPose-Paddle}{\rm Paddle}$と$\href{https://github.com/Michel-liu/GroupPose}{\rm PyTorch}$コードは利用可能である。

In this paper, we study the problem of end-to-end multi-person pose estimation. State-of-the-art solutions adopt the DETR-like framework, and mainly develop the complex decoder, e.g., regarding pose estimation as keypoint box detection and combining with human detection in ED-Pose, hierarchically predicting with pose decoder and joint (keypoint) decoder in PETR. We present a simple yet effective transformer approach, named Group Pose. We simply regard $K$-keypoint pose estimation as predicting a set of $N\times K$ keypoint positions, each from a keypoint query, as well as representing each pose with an instance query for scoring $N$ pose predictions. Motivated by the intuition that the interaction, among across-instance queries of different types, is not directly helpful, we make a simple modification to decoder self-attention. We replace single self-attention over all the $N\times(K+1)$ queries with two subsequent group self-attentions: (i) $N$ within-instance self-attention, with each over $K$ keypoint queries and one instance query, and (ii) $(K+1)$ same-type across-instance self-attention, each over $N$ queries of the same type. The resulting decoder removes the interaction among across-instance type-different queries, easing the optimization and thus improving the performance. Experimental results on MS COCO and CrowdPose show that our approach without human box supervision is superior to previous methods with complex decoders, and even is slightly better than ED-Pose that uses human box supervision. $\href{https://github.com/Michel-liu/GroupPose-Paddle}{\rm Paddle}$ and $\href{https://github.com/Michel-liu/GroupPose}{\rm PyTorch}$ code are available.
翻訳日:2023-08-15 12:08:43 公開日:2023-08-14
# llm自己防衛:自己検査によって、llmは彼らが騙されていることを知っている

LLM Self Defense: By Self Examination, LLMs Know They Are Being Tricked ( http://arxiv.org/abs/2308.07308v1 )

ライセンス: Link先を確認
Alec Helbling, Mansi Phute, Matthew Hull and Duen Horng Chau(参考訳) 近年、人間のプロンプトに応じて高品質なテキストを生成する能力から、大規模言語モデル(llm)の人気が高まっている。 しかし、これらのモデルは、ユーザープロンプト(例えば、ユーザーが犯罪を犯す方法を指示するなど)に応じて有害なコンテンツを生成する可能性があることが示されている。 強化学習によるモデルと人間の価値を整合させる手法を通じて、これらのリスクの緩和に関する文献に焦点が当てられている。 しかし、アライメントされた言語モデルでさえ、有害テキスト生成の制限を回避できる敵攻撃の影響を受けやすいことが示されている。 本稿では,大規模な言語モデルで独自の応答をフィルタすることで,これらの攻撃を防御する簡単な手法を提案する。 現在の結果から,モデルが人間の価値観に適合するように微調整されていなくても,言語モデルを用いてコンテンツを検証することで,有害なコンテンツをユーザに提示することを止めることができる。

Large language models (LLMs) have skyrocketed in popularity in recent years due to their ability to generate high-quality text in response to human prompting. However, these models have been shown to have the potential to generate harmful content in response to user prompting (e.g., giving users instructions on how to commit crimes). There has been a focus in the literature on mitigating these risks, through methods like aligning models with human values through reinforcement learning. However, it has been shown that even aligned language models are susceptible to adversarial attacks that bypass their restrictions on generating harmful text. We propose a simple approach to defending against these attacks by having a large language model filter its own responses. Our current results show that even if a model is not fine-tuned to be aligned with human values, it is possible to stop it from presenting harmful content to users by validating the content using a language model.
翻訳日:2023-08-15 12:08:08 公開日:2023-08-14
# 大規模コンテンツ生成への拡張波動関数の崩壊

Extend Wave Function Collapse to Large-Scale Content Generation ( http://arxiv.org/abs/2308.07307v1 )

ライセンス: Link先を確認
Yuhe Nie, Shaoming Zheng, Zhan Zhuang, Xuan Song(参考訳) Wave Function Collapse (WFC) は、テクスチャ、オブジェクト、シーンを含む手続き的コンテンツ生成において広く使われているタイルベースのアルゴリズムである。 しかし、現在のWFCアルゴリズムと関連する研究は、制約競合や時間的複雑さのコストにより、商業化された大規模または無限のコンテンツを生成する能力に欠ける。 本稿では,Nested WFC (N-WFC) アルゴリズムフレームワークを提案する。 コンフリクトやバックトラッキングの問題を避けるために,完全なタイルセット作成戦略を提案し,非周期的かつ決定論的な無限コンテンツを生成するのに少数のタイルしか必要としない。 また,N-WFCとサブコンプリートタイルセットを組み合わせた重量ブラシシステムを導入し,ゲーム設計に適合することを示す。 コントリビューションは,WFCの大規模コンテンツ生成における課題に対処し,具体的なゲームの実装のための理論的基盤を提供する。

Wave Function Collapse (WFC) is a widely used tile-based algorithm in procedural content generation, including textures, objects, and scenes. However, the current WFC algorithm and related research lack the ability to generate commercialized large-scale or infinite content due to constraint conflict and time complexity costs. This paper proposes a Nested WFC (N-WFC) algorithm framework to reduce time complexity. To avoid conflict and backtracking problems, we offer a complete and sub-complete tileset preparation strategy, which requires only a small number of tiles to generate aperiodic and deterministic infinite content. We also introduce the weight-brush system that combines N-WFC and sub-complete tileset, proving its suitability for game design. Our contribution addresses WFC's challenge in massive content generation and provides a theoretical basis for implementing concrete games.
翻訳日:2023-08-15 12:07:50 公開日:2023-08-14
# ニューラルオーサシップの属性:大規模言語モデルにおけるスティロメトリ解析

Neural Authorship Attribution: Stylometric Analysis on Large Language Models ( http://arxiv.org/abs/2308.07305v1 )

ライセンス: Link先を確認
Tharindu Kumarage and Huan Liu(参考訳) GPT-4、PaLM、Llamaのような大規模言語モデル(LLM)はAIによるテキスト生成を著しく推進している。 誤用の可能性に対する懸念が高まっているため、AI生成テキストの鑑識の必要性が高まっている。 ニューラルオーサシップの帰属は法医学的な取り組みであり、AI生成したテキストを元のLLMに遡ろうとしている。 LLMの展望はプロプライエタリとオープンソースという2つの主要なカテゴリに分けられる。 本研究では,ニューラルオーサシップ帰属のニュアンスに焦点をあてて,これらのLLMの新たなカテゴリを掘り下げる。 理解を深めるために、我々はllm書き込み署名の実証分析を行い、プロプライエタリモデルとオープンソースモデルの対比を強調し、各グループ内のバリエーションを精査する。 語彙的・構文的・構造的な言語特徴を統合することで,解釈可能な結果が得られる可能性を探究し,ニューラルオーサシップ属性に活用される事前学習された言語モデルに基づく分類器を強化する。 我々の発見は、最先端のLSMに基づいて、ニューラルネットワークの作者の帰属に関する実証的な洞察を提供し、AIが生成した誤報による脅威を軽減することを目的とした将来の調査の道を開く。

Large language models (LLMs) such as GPT-4, PaLM, and Llama have significantly propelled the generation of AI-crafted text. With rising concerns about their potential misuse, there is a pressing need for AI-generated-text forensics. Neural authorship attribution is a forensic effort, seeking to trace AI-generated text back to its originating LLM. The LLM landscape can be divided into two primary categories: proprietary and open-source. In this work, we delve into these emerging categories of LLMs, focusing on the nuances of neural authorship attribution. To enrich our understanding, we carry out an empirical analysis of LLM writing signatures, highlighting the contrasts between proprietary and open-source models, and scrutinizing variations within each group. By integrating stylometric features across lexical, syntactic, and structural aspects of language, we explore their potential to yield interpretable results and augment pre-trained language model-based classifiers utilized in neural authorship attribution. Our findings, based on a range of state-of-the-art LLMs, provide empirical insights into neural authorship attribution, paving the way for future investigations aimed at mitigating the threats posed by AI-generated misinformation.
翻訳日:2023-08-15 12:07:35 公開日:2023-08-14
# 運動合成のための整合骨格を持つ一様マスケオートエンコーダ

A Unified Masked Autoencoder with Patchified Skeletons for Motion Synthesis ( http://arxiv.org/abs/2308.07301v1 )

ライセンス: Link先を確認
Esteve Valls Mascaro, Hyemin Ahn, Dongheui Lee(参考訳) 人間の動作の合成は、伝統的にタスクに依存したモデルによって扱われており、将来の動きの予測や、既知のキーの場所を条件とした中間ポーズの記入など、特定の課題に焦点を当てている。 本稿では,UNIMASK-Mと呼ばれる新しいタスク独立モデルを提案する。 このモデルは,各分野の最先端技術と同等あるいは優れた性能を得る。 視覚変換器(ViT)にインスパイアされたUNIMASK-Mモデルは、人間のポーズを身体の一部に分解し、人間の動きに存在する時空間的関係を活用する。 さらに,様々なポーズ条件動作合成タスクを,入力として与えられたマスキングパターンの異なる再構成問題として再構成する。 マスクされた関節についてモデルに明示的に通知することで、UNIMASK-Mは閉塞に対してより堅牢になる。 実験の結果,本モデルはヒト3.6mのデータセット上で人間の動きを予測できることがわかった。 さらに、LaFAN1データセット、特に長い遷移期間における動きインテグレーションの最先端の結果を達成する。 詳しい情報はプロジェクトのwebサイトhttps://sites.google.com/view/estevevallsmascaro/publications/unimask-mにある。

The synthesis of human motion has traditionally been addressed through task-dependent models that focus on specific challenges, such as predicting future motions or filling in intermediate poses conditioned on known key-poses. In this paper, we present a novel task-independent model called UNIMASK-M, which can effectively address these challenges using a unified architecture. Our model obtains comparable or better performance than the state-of-the-art in each field. Inspired by Vision Transformers (ViTs), our UNIMASK-M model decomposes a human pose into body parts to leverage the spatio-temporal relationships existing in human motion. Moreover, we reformulate various pose-conditioned motion synthesis tasks as a reconstruction problem with different masking patterns given as input. By explicitly informing our model about the masked joints, our UNIMASK-M becomes more robust to occlusions. Experimental results show that our model successfully forecasts human motion on the Human3.6M dataset. Moreover, it achieves state-of-the-art results in motion inbetweening on the LaFAN1 dataset, particularly in long transition periods. More information can be found on the project website https://sites.google.com/view/estevevallsmascaro/publications/unimask-m.
翻訳日:2023-08-15 12:06:53 公開日:2023-08-14
# シングルショットデフレクトメトリーによる高密度3次元表面再構成からの正確な視線追跡

Accurate Eye Tracking from Dense 3D Surface Reconstructions using Single-Shot Deflectometry ( http://arxiv.org/abs/2308.07298v1 )

ライセンス: Link先を確認
Jiazhang Wang, Tianfu Wang, Bingjie Xu, Oliver Cossairt And Florian Willomitzer(参考訳) 視線追跡は、仮想現実デバイス、神経科学研究、心理学の発展において重要な役割を果たす。 多くのアプリケーションでその重要性はあったが、正確で堅牢で高速な視線追跡ソリューションの実現は、現在の最先端の手法にとって大きな課題である。 既存の反射に基づく技術(例えば「グリントトラッキング」)は最も正確であると考えられているが、その性能は角膜表面からのみ取得されたスパース3D表面データに依存しているため限られている。 本稿では,視線追跡における鏡面反射の応用法を再考し,単発位相計測法(pmd)からの指導を生かした視線方向の高精度かつ高速評価法を提案する。 現状の反射法とは対照的に,本手法は1枚のカメラフレーム(単一ショット)で角膜と頭蓋の密集した3次元表面情報を取得する。 取得された係数$>3300 \times$の反射面点("glints")の改善は容易に達成できる。 実験で評価した視線誤差は$\leq 0.25^\circ$であり,現状よりも大幅に改善した。

Eye-tracking plays a crucial role in the development of virtual reality devices, neuroscience research, and psychology. Despite its significance in numerous applications, achieving an accurate, robust, and fast eye-tracking solution remains a considerable challenge for current state-of-the-art methods. While existing reflection-based techniques (e.g., "glint tracking") are considered the most accurate, their performance is limited by their reliance on sparse 3D surface data acquired solely from the cornea surface. In this paper, we rethink the way how specular reflections can be used for eye tracking: We propose a novel method for accurate and fast evaluation of the gaze direction that exploits teachings from single-shot phase-measuring-deflectometry (PMD). In contrast to state-of-the-art reflection-based methods, our method acquires dense 3D surface information of both cornea and sclera within only one single camera frame (single-shot). Improvements in acquired reflection surface points("glints") of factors $>3300 \times$ are easily achievable. We show the feasibility of our approach with experimentally evaluated gaze errors of only $\leq 0.25^\circ$ demonstrating a significant improvement over the current state-of-the-art.
翻訳日:2023-08-15 12:06:19 公開日:2023-08-14
# なぜだ? $\rm e{\scriptsize vee}$による補足の欠如を説明する(技術報告)

Why Not? Explaining Missing Entailments with $\rm E{\scriptsize VEE}$ (Technical Report) ( http://arxiv.org/abs/2308.07294v1 )

ライセンス: Link先を確認
Christian Alrabbaa, Stefan Borgwardt, Tom Friese, Patrick Koopmann, Mikhail Kotlov(参考訳) 記述論理推論器が引き起こす論理的含意を理解することは、オントロジー利用者にとって必ずしもまっすぐではない。 このため, オントロジーエディタProt\'eg\'eのプラグインとして, 正当性や証明を用いた細部説明法が開発され, 実装されている。 しかし、ユーザが欠落結果が保持されることを期待する場合、なぜそれがオントロジーから従わないのかを説明するのも同様に重要である。 本稿では,<sup>e</sup> プラグインである $\rm E{\scriptsize VEE}$ の新バージョンについて述べる。

Understanding logical entailments derived by a description logic reasoner is not always straight-forward for ontology users. For this reason, various methods for explaining entailments using justifications and proofs have been developed and implemented as plug-ins for the ontology editor Prot\'eg\'e. However, when the user expects a missing consequence to hold, it is equally important to explain why it does not follow from the ontology. In this paper, we describe a new version of $\rm E{\scriptsize VEE}$, a Prot\'eg\'e plugin that now also provides explanations for missing consequences, via existing and new techniques based on abduction and counterexamples.
翻訳日:2023-08-15 12:05:58 公開日:2023-08-14
# 統一テキスト型人物検索に向けて:大規模マルチ属性と言語検索ベンチマーク

Towards Unified Text-based Person Retrieval: A Large-scale Multi-Attribute and Language Search Benchmark ( http://arxiv.org/abs/2306.02898v4 )

ライセンス: Link先を確認
Shuyu Yang, Yinan Zhou, Yaxiong Wang, Yujiao Wu, Li Zhu, Zhedong Zheng(参考訳) 本稿では,テキストベース人物検索のための大規模多属性・言語検索データセットmalsを紹介し,属性認識と画像テキストマッチングタスクの両方で事前学習を行う可能性について検討する。 特にMALSには1,510,330のイメージテキストペアがあり、CUHK-PEDESの約37.5倍の大きさで、すべてのイメージに27の属性が付加されている。 プライバシの懸念とアノテーションのコストを考慮すると、オフザシェルフ拡散モデルを利用してデータセットを生成する。 生成されたデータから学習する可能性を検証するため,属性とテキストの共有知識を考慮し,新たにaptm(joint attribute prompt learning and text matching learning)フレームワークを開発した。 名前が示すように、APTMには属性プロンプト学習ストリームとテキストマッチング学習ストリームが含まれている。 1)属性プロンプト学習は属性プロンプトを利用して画像-属性アライメントを行い,テキストマッチング学習を強化する。 2) テキストマッチング学習は, きめ細かな細部での表現学習を促進するとともに, 属性のプロンプト学習を促進させる。 大規模な実験により、MALSの事前学習の有効性が検証され、3つの挑戦的な実世界のベンチマーク上でAPTMによる最先端の検索性能が達成された。 特にAPTMは、CUHK-PEDES、ICFG-PEDES、RSTPReidデータセットをそれぞれ明確なマージンで、+6.96%、+7.68%、+16.95%のリコール@1精度で一貫した改善を実現している。

In this paper, we introduce a large Multi-Attribute and Language Search dataset for text-based person retrieval, called MALS, and explore the feasibility of performing pre-training on both attribute recognition and image-text matching tasks in one stone. In particular, MALS contains 1,510,330 image-text pairs, which is about 37.5 times larger than prevailing CUHK-PEDES, and all images are annotated with 27 attributes. Considering the privacy concerns and annotation costs, we leverage the off-the-shelf diffusion models to generate the dataset. To verify the feasibility of learning from the generated data, we develop a new joint Attribute Prompt Learning and Text Matching Learning (APTM) framework, considering the shared knowledge between attribute and text. As the name implies, APTM contains an attribute prompt learning stream and a text matching learning stream. (1) The attribute prompt learning leverages the attribute prompts for image-attribute alignment, which enhances the text matching learning. (2) The text matching learning facilitates the representation learning on fine-grained details, and in turn, boosts the attribute prompt learning. Extensive experiments validate the effectiveness of the pre-training on MALS, achieving state-of-the-art retrieval performance via APTM on three challenging real-world benchmarks. In particular, APTM achieves a consistent improvement of +6.96%, +7.68%, and +16.95% Recall@1 accuracy on CUHK-PEDES, ICFG-PEDES, and RSTPReid datasets by a clear margin, respectively.
翻訳日:2023-08-15 10:21:48 公開日:2023-08-14
# インストラクション・バックトランスレーションによる自己アライメント

Self-Alignment with Instruction Backtranslation ( http://arxiv.org/abs/2308.06259v2 )

ライセンス: Link先を確認
Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Luke Zettlemoyer, Omer Levy, Jason Weston, Mike Lewis(参考訳) 本稿では,人文テキストに対応する命令を自動ラベル付けすることで,高品質な言語モデルを構築するためのスケーラブルな手法を提案する。 我々の手法は命令バックトランスレーションと呼ばれ、少量のシードデータと与えられたWebコーパスに基づいて微調整された言語モデルから始まります。 シードモデルは、Webドキュメント(自己拡張)の命令プロンプトを生成し、これらの候補の中から高品質なサンプルを選択することで、トレーニング例を構築するために使用される。 このデータは、より強力なモデルを微調整するために使用される。 LLaMaを2回繰り返して微調整することで、Alpacaのリーダーボード上の他のLLaMaモデルよりも優れており、高い有効自己整合性を示すことができる。

We present a scalable method to build a high quality instruction following language model by automatically labelling human-written text with corresponding instructions. Our approach, named instruction backtranslation, starts with a language model finetuned on a small amount of seed data, and a given web corpus. The seed model is used to construct training examples by generating instruction prompts for web documents (self-augmentation), and then selecting high quality examples from among these candidates (self-curation). This data is then used to finetune a stronger model. Finetuning LLaMa on two iterations of our approach yields a model that outperforms all other LLaMa-based models on the Alpaca leaderboard not relying on distillation data, demonstrating highly effective self-alignment.
翻訳日:2023-08-15 10:17:13 公開日:2023-08-14
# 大型言語モデルによる財務監査のためのゼロショットテキストマッチングの改善

Improving Zero-Shot Text Matching for Financial Auditing with Large Language Models ( http://arxiv.org/abs/2308.06111v2 )

ライセンス: Link先を確認
Lars Hillebrand, Armin Berger, Tobias Deu{\ss}er, Tim Dilmaghani, Mohamed Khaled, Bernd Kliem, R\"udiger Loitz, Maren Pielka, David Leonhard, Christian Bauckhage, Rafet Sifa(参考訳) 財務文書の監査は非常に面倒で時間を要するプロセスです。 今日では、厳格な会計基準の法的要件ごとにレポートから関連するテキストを推奨するために、AIベースのソリューションを使用することで、すでに単純化されている。 しかし、これらの手法は定期的に微調整される必要があり、産業環境に欠ける豊富な注釈付きデータを必要とする。 そこでZeroShotALIは,最先端の大規模言語モデル(LLM)と,ドメイン固有に最適化されたトランスフォーマーベースのテキストマッチングソリューションを併用した,新しいレコメンデーションシステムである。 2段階のアプローチでは、まず、独自のBERTモデルを用いて、法的な要件ごとに最適な文書セクションを抽出し、次に、LLMを用いてこれらの選択をフィルタリングすることで、既存のアプローチよりも大幅に性能が向上することがわかった。

Auditing financial documents is a very tedious and time-consuming process. As of today, it can already be simplified by employing AI-based solutions to recommend relevant text passages from a report for each legal requirement of rigorous accounting standards. However, these methods need to be fine-tuned regularly, and they require abundant annotated data, which is often lacking in industrial environments. Hence, we present ZeroShotALI, a novel recommender system that leverages a state-of-the-art large language model (LLM) in conjunction with a domain-specifically optimized transformer-based text-matching solution. We find that a two-step approach of first retrieving a number of best matching document sections per legal requirement with a custom BERT-based model and second filtering these selections using an LLM yields significant performance improvements over existing approaches.
翻訳日:2023-08-15 10:16:58 公開日:2023-08-14
# Miroによるメモリ階層によるデバイス上連続学習の費用対効果

Cost-effective On-device Continual Learning over Memory Hierarchy with Miro ( http://arxiv.org/abs/2308.06053v2 )

ライセンス: Link先を確認
Xinyue Ma, Suyeon Jeong, Minjia Zhang, Di Wang, Jonghyun Choi, Myeongjae Jeon(参考訳) 連続学習(CL)は、タスクの連続ストリームからNNモデルを漸進的に訓練する。 以前に学んだ知識を思い出すために、以前の研究は古いサンプルをメモリ階層上に保存し、新しいタスクが到着したら再生する。 データプライバシを保存するためにCLを採用するエッジデバイスは、通常、エネルギーに敏感であり、エネルギー効率、すなわちコスト効率を損なうことなく、高いモデル精度を必要とする。 我々の研究は、階層型メモリリプレイベースのCLの設計空間を初めて探求し、エッジデバイスでコスト効率を達成するための洞察を得た。 我々は,資源状態に基づいてCLシステムを動的に構成し,コスト効率を最大化することにより,CLフレームワークに対する洞察を注意深く統合するシステムランタイムであるMiroを紹介する。 この目標を達成するために、Miroは、精度とエネルギーのトレードオフを明確にしたパラメータのオンラインプロファイリングを行い、オーバーヘッドの少ない最適な値に適応する。 大規模な評価の結果、Miroは私たちが構築するベースラインシステムを大幅に上回り、高いコスト効率を実現している。

Continual learning (CL) trains NN models incrementally from a continuous stream of tasks. To remember previously learned knowledge, prior studies store old samples over a memory hierarchy and replay them when new tasks arrive. Edge devices that adopt CL to preserve data privacy are typically energy-sensitive and thus require high model accuracy while not compromising energy efficiency, i.e., cost-effectiveness. Our work is the first to explore the design space of hierarchical memory replay-based CL to gain insights into achieving cost-effectiveness on edge devices. We present Miro, a novel system runtime that carefully integrates our insights into the CL framework by enabling it to dynamically configure the CL system based on resource states for the best cost-effectiveness. To reach this goal, Miro also performs online profiling on parameters with clear accuracy-energy trade-offs and adapts to optimal values with low overhead. Extensive evaluations show that Miro significantly outperforms baseline systems we build for comparison, consistently achieving higher cost-effectiveness.
翻訳日:2023-08-15 10:16:45 公開日:2023-08-14
# 音声は一つだ:wavlm事前学習モデルを用いた音声駆動ジェスチャー合成

Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model ( http://arxiv.org/abs/2308.05995v2 )

ライセンス: Link先を確認
Fan Zhang, Naye Ji, Fuxing Gao, Siyuan Zhao, Zhaohan Wang, Shunman Li(参考訳) デジタル人間のための共同ジェスチャーの生成は、仮想人間の創造の分野における新しい分野である。 従来の研究では、音声と意味情報を入力として使用し、その人物のIDと感情を識別する分類法を採用し、共同音声ジェスチャ生成を推進してきた。 しかし、この取り組みは依然として大きな課題に直面している。 これらの課題は、共同音声ジェスチャー、音声音響、意味論の複雑な相互作用を超えており、人格、感情、その他の不明瞭だが重要な要素に関連する複雑さも含む。 本稿では,WavLM事前学習モデルを用いた音声条件拡散モデルと非自己回帰変換器生成モデルである「diffmotion-v2」を紹介する。 生音声のみを使用して、個別でスタイリングされたフルボディの音声ジェスチャーを作成でき、複雑なマルチモーダル処理や手動のアノテートを必要としない。 まず,音声の音響的特徴や意味的特徴だけでなく,関連するジェスチャーに関連する性格的特徴や感情,さらに微妙な情報を伝達することを考えると,大規模事前学習モデルであるWavLMの応用を開拓し,低レベルかつ高レベルな音声情報を抽出する。 第2に,変換器をベースとした適応層ノルムアーキテクチャを導入し,音声情報と随伴ジェスチャーの関係を学習する。 The Trinity, ZEGGS, BEATデータセットを用いて広範囲な主観評価実験を行い、WavLMとモデルが様々なスタイルで自然な音声合成を行う能力を確認する。

The generation of co-speech gestures for digital humans is an emerging area in the field of virtual human creation. Prior research has made progress by using acoustic and semantic information as input and adopting classify method to identify the person's ID and emotion for driving co-speech gesture generation. However, this endeavour still faces significant challenges. These challenges go beyond the intricate interplay between co-speech gestures, speech acoustic, and semantics; they also encompass the complexities associated with personality, emotion, and other obscure but important factors. This paper introduces "diffmotion-v2," a speech-conditional diffusion-based and non-autoregressive transformer-based generative model with WavLM pre-trained model. It can produce individual and stylized full-body co-speech gestures only using raw speech audio, eliminating the need for complex multimodal processing and manually annotated. Firstly, considering that speech audio not only contains acoustic and semantic features but also conveys personality traits, emotions, and more subtle information related to accompanying gestures, we pioneer the adaptation of WavLM, a large-scale pre-trained model, to extract low-level and high-level audio information. Secondly, we introduce an adaptive layer norm architecture in the transformer-based layer to learn the relationship between speech information and accompanying gestures. Extensive subjective evaluation experiments are conducted on the Trinity, ZEGGS, and BEAT datasets to confirm the WavLM and the model's ability to synthesize natural co-speech gestures with various styles.
翻訳日:2023-08-15 10:16:09 公開日:2023-08-14
# 2d3d-matr : 2d-3dマッチングトランスによる画像と点雲の認識フリー登録

2D3D-MATR: 2D-3D Matching Transformer for Detection-free Registration between Images and Point Clouds ( http://arxiv.org/abs/2308.05667v2 )

ライセンス: Link先を確認
Minhao Li, Zheng Qin, Zhirui Gao, Renjiao Yi, Chenyang Zhu, Yulan Guo, Kai Xu(参考訳) 一般的に採用されている登録法では,キーポイント検出の不整合性や特徴記述の不整合性により,モダリティ間のケースでは困難が生じる。 2d3d-matrという,画像と点雲の高精度かつロバストな登録手法を提案する。 本手法では,まず,入力画像と点雲のサンプルダウンパッチ間の粗い対応を計算し,それを拡張して,パッチ領域内の画素と点間の密接な対応を形成する。 粗いレベルのパッチマッチングは、セルフアテンションによるグローバルコンテキスト制約とクロスアテンションによるクロスモダリティ相関を共同で学習するトランスフォーマーに基づいている。 パッチマッチングにおけるスケールあいまいさを解消するために,画像パッチ毎にマルチスケールのピラミッドを構築し,適切な解像度レベルで最適な画像パッチを見つけることを学ぶ。 2D3D-MATRは、2D3D-MATRが従来のP2-Netよりも約20ドル高いインヤ比で、登録リコールで10ドル以上のパフォーマンスを示している。 私たちのコードとモデルはhttps://github.com/minhaolee/2d3dmatrで利用可能です。

The commonly adopted detect-then-match approach to registration finds difficulties in the cross-modality cases due to the incompatible keypoint detection and inconsistent feature description. We propose, 2D3D-MATR, a detection-free method for accurate and robust registration between images and point clouds. Our method adopts a coarse-to-fine pipeline where it first computes coarse correspondences between downsampled patches of the input image and the point cloud and then extends them to form dense correspondences between pixels and points within the patch region. The coarse-level patch matching is based on transformer which jointly learns global contextual constraints with self-attention and cross-modality correlations with cross-attention. To resolve the scale ambiguity in patch matching, we construct a multi-scale pyramid for each image patch and learn to find for each point patch the best matching image patch at a proper resolution level. Extensive experiments on two public benchmarks demonstrate that 2D3D-MATR outperforms the previous state-of-the-art P2-Net by around $20$ percentage points on inlier ratio and over $10$ points on registration recall. Our code and models are available at https://github.com/minhaolee/2D3DMATR.
翻訳日:2023-08-15 10:15:28 公開日:2023-08-14
# 埋め込みディスタングとドメインアライメントを用いたマルチドメインレコメンデーション

Multi-domain Recommendation with Embedding Disentangling and Domain Alignment ( http://arxiv.org/abs/2308.05508v2 )

ライセンス: Link先を確認
Wentao Ning, Xiao Yan, Weiwen Liu, Reynold Cheng, Rui Zhang and Bo Tang(参考訳) マルチドメインレコメンデーション(MDR)は、複数のドメイン(製品の種類など)に対して、重複するユーザ/イテムを持つレコメンデーションを提供することを目的としており、複数のサービスをホストするAmazon、Facebook、LinkedInなどのプラットフォームに共通している。 既存のMDRモデルは2つの課題に直面している: まず、ドメインをまたいで一般化する知識(例えば、ユーザが安価なアイテムを好む)と単一のドメイン固有の知識(例えば、ユーザが青い服を好むが、青い車ではない)を分離することは困難である。 第二に、ドメイン間の知識を小さな重複で伝達する能力に制限がある。 そこで本稿では, EDDA という2つのキーコンポーネント,すなわちドメインアライメントを組み込んだ新しい MDR 手法を提案する。 特に、埋め込みディエンタングリングレコメンダはドメイン間部分とドメイン内部分の両方のモデルと埋め込みを分離するが、既存のMDRメソッドのほとんどはモデルレベルのディエンタングリングにのみフォーカスする。 ドメインアライメントは、グラフ処理からのランダムなウォークを活用して、異なるドメインから類似のユーザ/アイテムペアを特定し、類似のユーザ/アイテムペアに類似の埋め込みを持たせ、知識転送を強化する。 EDDAと12の最先端のベースラインを3つの実データセットで比較する。 その結果、EDDAはすべてのデータセットやドメインのベースラインを一貫して上回ります。 すべてのデータセットとコードは、https://github.com/stevenn9981/eddaで入手できる。

Multi-domain recommendation (MDR) aims to provide recommendations for different domains (e.g., types of products) with overlapping users/items and is common for platforms such as Amazon, Facebook, and LinkedIn that host multiple services. Existing MDR models face two challenges: First, it is difficult to disentangle knowledge that generalizes across domains (e.g., a user likes cheap items) and knowledge specific to a single domain (e.g., a user likes blue clothing but not blue cars). Second, they have limited ability to transfer knowledge across domains with small overlaps. We propose a new MDR method named EDDA with two key components, i.e., embedding disentangling recommender and domain alignment, to tackle the two challenges respectively. In particular, the embedding disentangling recommender separates both the model and embedding for the inter-domain part and the intra-domain part, while most existing MDR methods only focus on model-level disentangling. The domain alignment leverages random walks from graph processing to identify similar user/item pairs from different domains and encourages similar user/item pairs to have similar embeddings, enhancing knowledge transfer. We compare EDDA with 12 state-of-the-art baselines on 3 real datasets. The results show that EDDA consistently outperforms the baselines on all datasets and domains. All datasets and codes are available at https://github.com/Stevenn9981/EDDA.
翻訳日:2023-08-15 10:14:29 公開日:2023-08-14
# セマンティックスを超えて:自己教師型学習による行動強化関連モデル学習

Beyond Semantics: Learning a Behavior Augmented Relevance Model with Self-supervised Learning ( http://arxiv.org/abs/2308.05379v2 )

ライセンス: Link先を確認
Zeyuan Chen, Wei Chen, Jia Xu, Zhongyi Liu, Wei Zhang(参考訳) 関連モデリングは,検索エンジンがユーザエクスペリエンスを確保する上で重要な,対応するクエリに対して望ましい項目を見つけることを目的としている。 ほとんどの従来の手法では、クエリとアイテム間のセマンティックな類似性を評価することでこの問題に対処するが、純粋なセマンティックマッチングは、すべてではない。 実際、検索ログのユーザ履歴行動データから抽出された補助的なクエリ-イテム相互作用は、ユーザの検索意図をさらに明らかにするためのヒントを与えることができる。 そこで我々は,Alipay Search (BARL-ASe) のための新しい行動拡張関連学習モデルを提案し,ターゲットクエリの隣のクエリと隣のクエリの隣のクエリを利用して,ターゲットクエリと項目のセマンティックマッチングを補完する。 具体的には,隣接と対象の両方のビューから粗粒度および細粒度の意味表現を蒸留するマルチレベルコアテンションを構築した。 このモデルはその後,BARL-ASeの精度とロジット学習の強化により頑健性を向上させるために,隣接目標の自己教師型学習を採用する。 さらに、alipayのミニアプリの検索シナリオのロングテールクエリ項目マッチングを実際に扱う方法について論じる。 実業界データとオンラインa/bテストによる実験により,提案手法が低レイテンシで有望な性能を実現することを実証した。

Relevance modeling aims to locate desirable items for corresponding queries, which is crucial for search engines to ensure user experience. Although most conventional approaches address this problem by assessing the semantic similarity between the query and item, pure semantic matching is not everything. In reality, auxiliary query-item interactions extracted from user historical behavior data of the search log could provide hints to reveal users' search intents further. Drawing inspiration from this, we devise a novel Behavior Augmented Relevance Learning model for Alipay Search (BARL-ASe) that leverages neighbor queries of target item and neighbor items of target query to complement target query-item semantic matching. Specifically, our model builds multi-level co-attention for distilling coarse-grained and fine-grained semantic representations from both neighbor and target views. The model subsequently employs neighbor-target self-supervised learning to improve the accuracy and robustness of BARL-ASe by strengthening representation and logit learning. Furthermore, we discuss how to deal with the long-tail query-item matching of the mini apps search scenario of Alipay practically. Experiments on real-world industry data and online A/B testing demonstrate our proposal achieves promising performance with low latency.
翻訳日:2023-08-15 10:14:02 公開日:2023-08-14