このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240309となっている論文です。

PDF登録状況(公開日: 20240309)

TitleAuthorsAbstract論文公表日・翻訳日
# 飛行時間非視線画像用小型時間相関単光子計数モジュール

Miniaturized time-correlated single-photon counting module for time-of-flight non-line-of-sight imaging applications ( http://arxiv.org/abs/2404.07218v1 )

ライセンス: Link先を確認
Jie Wu, Chao Yu, Jian-Wei Zeng, Chen Dai, Feihu Xu, Jun Zhang, (参考訳) 単光子時間(TOF)非視線(NLOS)イメージングにより、視野外の物体を高分解能で再現することができる。 TOF NLOSイメージングシステムの小型化は, 実用化に不可欠である。 そこで本研究では,TOF NLOSイメージング専用の小型4チャンネル時間関連単一光子計数モジュールを提案する。 このモジュールは10psのビンサイズと27.4psのルート平均2乗時間分解能で優れた性能を発揮する。 InGaAs/InP単光子検出器と時間相関単光子計数モジュールを用いたTOF NLOS撮像実験の結果,5mの撮像距離と1msのダウエル時間で6.3cmの側方分解能と2.3cmの深さ分解能が得られることを示した。

Single-photon time-of-flight (TOF) non-line-of-sight (NLOS) imaging enables the high-resolution reconstruction of objects outside the field of view. The compactness of TOF NLOS imaging systems, entailing the miniaturization of key components within such systems is crucial for practical applications. Here, we present a miniaturized four-channel time-correlated single-photon counting module dedicated to TOF NLOS imaging applications. The module achieves excellent performance with a 10 ps bin size and 27.4 ps minimum root-mean-square time resolution. We present the results of TOF NLOS imaging experiment using an InGaAs/InP single-photon detector and the time-correlated single-photon counting module, and show that a 6.3 cm lateral resolution and 2.3 cm depth resolution can be achieved under the conditions of 5 m imaging distance and 1 ms pixel dwell time.
翻訳日:2024-04-14 13:13:23 公開日:2024-03-09
# Apache Sparkによるヘルスケアデータの分散レコードリンク

Distributed Record Linkage in Healthcare Data with Apache Spark ( http://arxiv.org/abs/2404.07939v1 )

ライセンス: Link先を確認
Mohammad Heydari, Reza Sarshar, Mohammad Ali Soltanshahi, (参考訳) 医療データは医療分野の研究、分析、意思決定に貴重な資源である。 しかし、医療データは断片化され、様々なソースに分散されることが多いため、効果的に組み合わせて分析することは困難である。 データマッチングとしても知られるレコードリンクは、データ品質と正確性を保証するために、医療データの統合とクリーニングにおいて重要なステップである。 オープンソースの分散ビッグデータ処理フレームワークApache Sparkは、同社の機械学習ライブラリの助けを借りて、レコードリンケージタスクを実行するための堅牢なプラットフォームを提供する。 本研究では,Apache Spark Machine Learningライブラリに基づく分散データマッチングモデルを開発した。 モデルの正しい機能を保証するため、トレーニングデータ上で検証フェーズが実施されている。 主な課題は、大量のデータが偽であるとラベル付けされ、少数のレコードが真であるとラベル付けされるため、データの不均衡である。 SVMとRegressionのアルゴリズムを利用することで、研究データが過度に適合したり、不適当であったりすることはなく、我々の分散モデルがデータに対してうまく機能していることを示す。

Healthcare data is a valuable resource for research, analysis, and decision-making in the medical field. However, healthcare data is often fragmented and distributed across various sources, making it challenging to combine and analyze effectively. Record linkage, also known as data matching, is a crucial step in integrating and cleaning healthcare data to ensure data quality and accuracy. Apache Spark, a powerful open-source distributed big data processing framework, provides a robust platform for performing record linkage tasks with the aid of its machine learning library. In this study, we developed a new distributed data-matching model based on the Apache Spark Machine Learning library. To ensure the correct functioning of our model, the validation phase has been performed on the training data. The main challenge is data imbalance because a large amount of data is labeled false, and a small number of records are labeled true. By utilizing SVM and Regression algorithms, our results demonstrate that research data was neither over-fitted nor under-fitted, and this shows that our distributed model works well on the data.
翻訳日:2024-04-14 13:13:23 公開日:2024-03-09
# パキスタンのIT産業におけるプロジェクトリスクが従業員の転職意図に及ぼす影響の検討

Investigating the Impact of Project Risks on Employee Turnover Intentions in the IT Industry of Pakistan ( http://arxiv.org/abs/2403.14675v1 )

ライセンス: Link先を確認
Ghalib Ahmed Tahir, Murtaza Ashraf, (参考訳) 従業員の転職は、IT企業や研究センターのようなハイテク部門において、組織的な成功は従業員のスキルに大きく依存している。 インセンスの競争と、業界における熟練したプロフェッショナルの不足は、高い資格を持つ従業員の永続的な需要に寄与し、組織が才能を維持するための課題を提起している。 多くの研究が、これらの産業における従業員の転職に影響を与える様々な要因を探求してきたが、それらの焦点は、特定の組織的文脈ではなく、概観的な傾向に置かれることがしばしばある。 特に、プロジェクト固有のリスクがプロジェクトの成功とタイムリーなデリバリに大きな影響を与えるソフトウェア業界では、彼らの仕事の満足度や転職意図に対する影響を理解することが重要です。 本研究は,IT産業におけるプロジェクトリスクが雇用満足度や従業員の転職意図に与える影響について検討することを目的とする。 さらに,職能の認知形成における外的・内的ソーシャルリンクの役割について検討した。

Employee turnover remains a pressing issue within high-tech sectors such as IT firms and research centers, where organizational success heavily relies on the skills of their workforce. Intense competition and a scarcity of skilled professionals in the industry contribute to a perpetual demand for highly qualified employees, posing challenges for organizations to retain talent. While numerous studies have explored various factors affecting employee turnover in these industries, their focus often remains on overarching trends rather than specific organizational contexts. In particular, within the software industry, where projectspecific risks can significantly impact project success and timely delivery, understanding their influence on job satisfaction and turnover intentions is crucial. This study aims to investigate the influence of project risks in the IT industry on job satisfaction and employee turnover intentions. Furthermore, it examines the role of both external and internal social links in shaping perceptions of job satisfaction.
翻訳日:2024-04-01 03:33:23 公開日:2024-03-09
# 認知診断モデルの統一的不確かさ推定

Unified Uncertainty Estimation for Cognitive Diagnosis Models ( http://arxiv.org/abs/2403.14676v1 )

ライセンス: Link先を確認
Fei Wang, Qi Liu, Enhong Chen, Chuanren Liu, Zhenya Huang, Jinze Wu, Shijin Wang, (参考訳) 認知診断モデルは、特に知的教育において、ユーザがパーソナライズされた指示を得られることに基づいて、知識概念におけるユーザの習熟度を測定するために広く使われている。 モデルとデータの弱いリンクのため、測定が常に信頼できるとは限らないため、測定の不確実性も決定に重要な情報を提供する。 しかし、その背景にある不確実性推定ラグに関する研究は、認知診断のための高度なモデル構造に関するものである。 既存のアプローチは効率が限られており、相互作用関数パラメータ(例えばディープラーニングベースのモデル)を持つ洗練されたモデルには学術的な空白を残している。 これらの問題に対処するために,幅広い認知診断モデルに対する統一的不確実性推定手法を提案する。 具体的には、認知診断モデルパラメータの後方分布を推定するアイデアに基づいて、まず、広範囲のモデルや大規模なデータセットにより効率的に適用可能な、ミニバッチに基づく最適化のための統一目的関数を提供する。 そして、異なる領域で定義されたパラメータに適応するために、再パラメータ化アプローチを変更する。 さらに、診断パラメータの不確かさをデータ的側面とモデル的側面に分解し、不確実性の原因を説明する。 広範囲にわたる実験により,本手法は有効であり,認知診断の不確実性に関する有用な知見が得られることが示された。

Cognitive diagnosis models have been widely used in different areas, especially intelligent education, to measure users' proficiency levels on knowledge concepts, based on which users can get personalized instructions. As the measurement is not always reliable due to the weak links of the models and data, the uncertainty of measurement also offers important information for decisions. However, the research on the uncertainty estimation lags behind that on advanced model structures for cognitive diagnosis. Existing approaches have limited efficiency and leave an academic blank for sophisticated models which have interaction function parameters (e.g., deep learning-based models). To address these problems, we propose a unified uncertainty estimation approach for a wide range of cognitive diagnosis models. Specifically, based on the idea of estimating the posterior distributions of cognitive diagnosis model parameters, we first provide a unified objective function for mini-batch based optimization that can be more efficiently applied to a wide range of models and large datasets. Then, we modify the reparameterization approach in order to adapt to parameters defined on different domains. Furthermore, we decompose the uncertainty of diagnostic parameters into data aspect and model aspect, which better explains the source of uncertainty. Extensive experiments demonstrate that our method is effective and can provide useful insights into the uncertainty of cognitive diagnosis.
翻訳日:2024-04-01 03:33:23 公開日:2024-03-09
# 複雑なテキストからSQLへのスキーマ対応マルチタスク学習

Schema-Aware Multi-Task Learning for Complex Text-to-SQL ( http://arxiv.org/abs/2403.09706v1 )

ライセンス: Link先を確認
Yangjun Wu, Han Wang, (参考訳) 従来のテキスト・トゥ・SQLパーサは、複数のテーブルや列を含む複雑なSQLクエリの合成が得意ではない。 上記の問題に対処するため、複雑なSQLクエリのためのスキーマ対応マルチタスク学習フレームワーク(MTSQL)を提案する。 具体的には、有効な質問スキーマリンクを識別するために、スキーマリンクディミネータモジュールを設計し、特徴的リンク関係によってエンコーダを明示的に指示し、アライメント品質を向上させる。 デコーダ側では、テーブルと列(例えば、WHERE_TC)間の接続を記述するための6種類の関係を定義し、事前に定義された関係で関連するスキーマ項目を認識する演算子中心のトリプル抽出器を導入する。 また、予測三重項による文法制約のルールセットを確立し、SQL生成中に適切なSQL演算子とスキーマ項目をフィルタリングする。 クロスドメインなテキスト-SQLベンチマークであるSpiderでは、実験結果からMTSQLがベースラインよりも効果的であることが示されている。 さらに、さらなる分析により、我々のアプローチが複雑なSQLクエリに対して有望な改善をもたらすことが確認される。

Conventional text-to-SQL parsers are not good at synthesizing complex SQL queries that involve multiple tables or columns, due to the challenges inherent in identifying the correct schema items and performing accurate alignment between question and schema items. To address the above issue, we present a schema-aware multi-task learning framework (named MTSQL) for complicated SQL queries. Specifically, we design a schema linking discriminator module to distinguish the valid question-schema linkings, which explicitly instructs the encoder by distinctive linking relations to enhance the alignment quality. On the decoder side, we define 6-type relationships to describe the connections between tables and columns (e.g., WHERE_TC), and introduce an operator-centric triple extractor to recognize those associated schema items with the predefined relationship. Also, we establish a rule set of grammar constraints via the predicted triples to filter the proper SQL operators and schema items during the SQL generation. On Spider, a cross-domain challenging text-to-SQL benchmark, experimental results indicate that MTSQL is more effective than baselines, especially in extremely hard scenarios. Moreover, further analyses verify that our approach leads to promising improvements for complicated SQL queries.
翻訳日:2024-03-25 07:56:27 公開日:2024-03-09
# 新しい自然言語処理アルゴリズムパイプラインを用いた免疫チェックポイントインヒビターIrAEの施設レベルモニタリング

Institutional-Level Monitoring of Immune Checkpoint Inhibitor IrAEs Using a Novel Natural Language Processing Algorithmic Pipeline ( http://arxiv.org/abs/2403.09708v1 )

ライセンス: Link先を確認
Michael Shapiro, Herut Dor, Anna Gurevich-Shapiro, Tal Etan, Ido Wolf, (参考訳) 背景:免疫チェックポイントインヒビター(ICIs)はがん治療に革命をもたらしたが、深刻な免疫関連有害事象(IrAEs)を引き起こす可能性がある。 IrAEを大規模に監視することは、パーソナライズされたリスクプロファイリングと治療決定の支援に不可欠である。 方法:本研究はテルアビブ・ソウラスキー医療センターでICIを受けた患者の臨床ノートの分析を行った。 自然言語処理アルゴリズムを用いて、7つの共通または重篤なIrAEを体系的に同定した。 治療中の有害事象の発生を可視化するための生存曲線を構築し, コルチコステロイドの使用状況, 治療中止率について検討した。 結果: ICI療法を施行した1,635人の患者を対象に, 臨床検査を108,280名実施した。 検出されたIrAEsは、以前の報告と一致し、異なるICI間でかなりの変動を示した。 コルチコステロイドによる治療は、甲状腺炎では17.3%から心筋炎では57.4%まで、特定のIraEによって異なる。 調査対象7項目中5項目のF1スコアが0.87以上,AUCが0.89以下であった。 結論:本研究では,IrAEのためのディープニューラルネットワークを利用した,新しい大規模モニタリング手法を提案する。 ICI治療患者が経験した有害な結果の理解を深め, 正確な結果を提供する。 さらに、他の医薬品の監視の可能性も秘めており、総合的なマーケティング後監視により、感受性のある人口を特定し、パーソナライズされた医薬品の安全性プロファイルを確立することができる。

Background: Immune checkpoint inhibitors (ICIs) have revolutionized cancer treatment but can result in severe immune-related adverse events (IrAEs). Monitoring IrAEs on a large scale is essential for personalized risk profiling and assisting in treatment decisions. Methods: In this study, we conducted an analysis of clinical notes from patients who received ICIs at the Tel Aviv Sourasky Medical Center. By employing a Natural Language Processing algorithmic pipeline, we systematically identified seven common or severe IrAEs. We examined the utilization of corticosteroids, treatment discontinuation rates following IrAEs, and constructed survival curves to visualize the occurrence of adverse events during treatment. Results: Our analysis encompassed 108,280 clinical notes associated with 1,635 patients who had undergone ICI therapy. The detected incidence of IrAEs was consistent with previous reports, exhibiting substantial variation across different ICIs. Treatment with corticosteroids varied depending on the specific IrAE, ranging from 17.3% for thyroiditis to 57.4% for myocarditis. Our algorithm demonstrated high accuracy in identifying IrAEs, as indicated by an area under the curve (AUC) of 0.89 for each suspected note and F1 scores of 0.87 or higher for five out of the seven IrAEs examined at the patient level. Conclusions: This study presents a novel, large-scale monitoring approach utilizing deep neural networks for IrAEs. Our method provides accurate results, enhancing understanding of detrimental consequences experienced by ICI-treated patients. Moreover, it holds potential for monitoring other medications, enabling comprehensive post-marketing surveillance to identify susceptible populations and establish personalized drug safety profiles.
翻訳日:2024-03-25 07:56:27 公開日:2024-03-09
# コードミキシングミソジニスティックコメントの探索的データ解析

Exploratory Data Analysis on Code-mixed Misogynistic Comments ( http://arxiv.org/abs/2403.09709v1 )

ライセンス: Link先を確認
Sargam Yadav, Abhishek Kaushik, Kevin McDaid, (参考訳) オンラインヘイトスピーチやサイバーいじめの問題は、YouTubeやTwitter(X)といったソーシャルメディアプラットフォームの人気が高まり、大幅に悪化している。 自然言語処理(NLP)技術は、このような有害なコンテンツを自動フィルタリングする上で大きな利点をもたらすことが証明されている。 女性はオンライン虐待の被害者になりがちだ。 しかし、アンダーリソース言語における誤検出に対処する研究が不足しているようである。 本稿では,YouTube ビデオから収集したミックスコード Hinglish に,YouTube コメントの新たなデータセットを提示する。 データセットに事前処理と探索データ分析(EDA)技術を適用し,その特性について考察した。 このプロセスは、感情スコアやワードクラウドなどを通じてデータセットをよりよく理解している。

The problems of online hate speech and cyberbullying have significantly worsened since the increase in popularity of social media platforms such as YouTube and Twitter (X). Natural Language Processing (NLP) techniques have proven to provide a great advantage in automatic filtering such toxic content. Women are disproportionately more likely to be victims of online abuse. However, there appears to be a lack of studies that tackle misogyny detection in under-resourced languages. In this short paper, we present a novel dataset of YouTube comments in mix-code Hinglish collected from YouTube videos which have been weak labelled as `Misogynistic' and `Non-misogynistic'. Pre-processing and Exploratory Data Analysis (EDA) techniques have been applied on the dataset to gain insights on its characteristics. The process has provided a better understanding of the dataset through sentiment scores, word clouds, etc.
翻訳日:2024-03-25 07:56:27 公開日:2024-03-09
# SoK:人間中心のワイヤレスセンシングをセキュアに

SoK: Secure Human-centered Wireless Sensing ( http://arxiv.org/abs/2211.12087v2 )

ライセンス: Link先を確認
Wei Sun, Tingjun Chen, Neil Gong, (参考訳) 人間中心型無線センシング(HCWS)は、周囲の多様な無線信号を用いて、人間の環境や活動のきめ細かい理解を目的としている。 人間の感覚情報は、生活の質を高めるなど、多くの良い目的に利用することができるが、敵はそれを悪用して、人間の私的情報(例えば、場所や人物の身元)を盗むこともできる。 しかし、この文献は、無線センシングのプライバシーの脆弱性とそれらに対する防御に関する体系的な理解が欠如しており、その結果、プライバシーを侵害するHCWS設計がもたらされる。 本研究では,このギャップを埋めて,セキュアな人間中心ワイヤレスセンシングの実現を目指す。 まず,個人の情報漏洩を識別する信号処理パイプラインを提案し,無線センシングによる推論攻撃と防御の利点とトレードオフを更に理解する。 この枠組みに基づき、既存の推論攻撃と防御の分類を提示する。 その結果、機械学習の時代において、プライバシー保護による人間中心の無線センシングを実現する上でのオープンな課題とギャップを特定し、さらにこの分野における今後の研究の方向性を提案することができる。

Human-centered wireless sensing (HCWS) aims to understand the fine-grained environment and activities of a human using the diverse wireless signals around him/her. While the sensed information about a human can be used for many good purposes such as enhancing life quality, an adversary can also abuse it to steal private information about the human (e.g., location and person's identity). However, the literature lacks a systematic understanding of the privacy vulnerabilities of wireless sensing and the defenses against them, resulting in the privacy-compromising HCWS design. In this work, we aim to bridge this gap to achieve the vision of secure human-centered wireless sensing. First, we propose a signal processing pipeline to identify private information leakage and further understand the benefits and tradeoffs of wireless sensing-based inference attacks and defenses. Based on this framework, we present the taxonomy of existing inference attacks and defenses. As a result, we can identify the open challenges and gaps in achieving privacy-preserving human-centered wireless sensing in the era of machine learning and further propose directions for future research in this field.
翻訳日:2024-03-17 17:20:31 公開日:2024-03-09
# zkFi:ゼロ知識証明を用いたプライバシ保護とコンプライアンストランザクションの規制

zkFi: Privacy-Preserving and Regulation Compliant Transactions using Zero Knowledge Proofs ( http://arxiv.org/abs/2307.00521v4 )

ライセンス: Link先を確認
Naveen Sahu, Mitul Gajera, Amit Chaudhary, (参考訳) 本稿では,DeFi,ゲーム,ソーシャルネットワーク,DAO,eコマース,メタバースなどのドメインを含むマルチチェーンプロトコルにおけるゼロ知識証明を用いて,プライバシーのシームレスな統合を容易にするミドルウェアソリューションを提案する。 我々の設計は2つの異なる目標を達成する。 zkFiは、ゼロ知識証明を通じて規制コンプライアンスを達成しつつ、消費者プライバシの保護を目指している。 これらの終了は同時に達成可能である。 zkFiプロトコルは、ゼロ知識証明に関連する複雑さを抽象化しながら、トランザクションアセットを処理する柔軟性を提供する、プラグイン・アンド・プレイソリューションとして機能するように設計されている。 特にゼロ知識証明(ZKP)の特定の専門知識はオプションであり、zkFiのモジュラーアプローチとソフトウェア開発キット(SDK)の可用性に起因する。

We propose a middleware solution designed to facilitate seamless integration of privacy using zero-knowledge proofs within various multi-chain protocols, encompassing domains such as DeFi, gaming, social networks, DAOs, e-commerce, and the metaverse. Our design achieves two divergent goals. zkFi aims to preserve consumer privacy while achieving regulation compliance through zero-knowledge proofs. These ends are simultaneously achievable. zkFi protocol is designed to function as a plug-and-play solution, offering developers the flexibility to handle transactional assets while abstracting away the complexities associated with zero-knowledge proofs. Notably, specific expertise in zero-knowledge proofs (ZKP) is optional, attributed to zkFi's modular approach and software development kit (SDK) availability.
翻訳日:2024-03-17 17:20:31 公開日:2024-03-09
# SeDe: 選択的な匿名化によるブロックチェーンのプライバシと規制コンプライアンスのバランス

SeDe: Balancing Blockchain Privacy and Regulatory Compliance by Selective De-Anonymization ( http://arxiv.org/abs/2311.08167v3 )

ライセンス: Link先を確認
Naveen Sahu, Mitul Gajera, Amit Chaudhary, Hamish Ivey-Law, (参考訳) プライバシはブロックチェーンの普及に不可欠な柱のひとつですが、公開ブロックチェーンは本質的に透過的です。 現代の分析技術は、ブロックチェーンユーザーの匿名性を簡単に抑制することができる。 一部のアプリケーションは、プライバシ保存暗号技術を使用して、実用的なプライバシ保護を提供することができた。 しかし、悪意のあるアクターはそれらを違法に悪用し、誠実なアクターがプライバシー保護アプリケーションの使用を「混合」ユーザインタラクションと匿名の悪アクターとの資金の混合」として禁止し、コンプライアンスと規制上の懸念を引き起こした。 本稿では,Selective De-Anonymization (SeDe) と呼ばれる規制および準拠のフレームワークを確立することにより,プライバシ保護機能のバランスをとるフレームワークを提案する。 このフレームワークの採用により、ブロックチェーン上のプライバシ保護アプリケーションは、リンクされたトランザクションのサブグラフの再帰的トラバースによって不正なトランザクションを匿名化することができる。 我々の技術は、匿名化の決定や制御を単一のエンティティに残さずに、複数のエンティティに分散させながら、それぞれのアクションに責任を負うことなく、これを実現する。 我々のフレームワークは、しきい値暗号スキームとZKP(Zero-Knowledge Proofs)を使用する。

Privacy is one of the essential pillars for the widespread adoption of blockchains, but public blockchains are transparent by nature. Modern analytics techniques can easily subdue the pseudonymity feature of a blockchain user. Some applications have been able to provide practical privacy protections using privacy-preserving cryptography techniques. However, malicious actors have abused them illicitly, discouraging honest actors from using privacy-preserving applications as "mixing" user interactions and funds with anonymous bad actors, causing compliance and regulatory concerns. In this paper, we propose a framework that balances privacy-preserving features by establishing a regulatory and compliant framework called Selective De-Anonymization (SeDe). The adoption of this framework allows privacy-preserving applications on blockchains to de-anonymize illicit transactions by recursive traversal of subgraphs of linked transactions. Our technique achieves this without leaving de-anonymization decisions or control in the hands of a single entity but distributing it among multiple entities while holding them accountable for their respective actions. To instantiate, our framework uses threshold encryption schemes and Zero-Knowledge Proofs (ZKPs).
翻訳日:2024-03-17 17:10:47 公開日:2024-03-09
# センサアタックによるサイバー物理システムのロバスト性測定

Measuring Robustness in Cyber-Physical Systems under Sensor Attacks ( http://arxiv.org/abs/2403.05829v1 )

ライセンス: Link先を確認
Jian Xiang, Ruggero Lanotte, Simone Tini, Stephen Chong, Massimo Merro, (参考訳) 本稿では,差動論理の定式化を用いて,サイバー物理システムに対する境界センサ攻撃の定量的解析のための形式的枠組みを提案する。 システムの前処理条件と後処理条件が与えられた場合,(1) システムの最も強い後処理条件がどの程度強いか,(2) 指定された後処理条件を満たすために必要なシステムの最も弱い前処理条件がどれほど強いか,という2つの量的安全性概念を定式化する。 本稿では,センサ攻撃に対するシステムの堅牢性を安全性の喪失として特徴付けるために,前向きと後向きの堅牢性という2つの概念を導入する。 そこで本研究では,従来のシステムとセンサを妥協したシステムとの動作距離に基づいて,前向きと後向きのシミュレーション距離という2つのシミュレーション距離を導入する。 前方及び後方距離はそれぞれ、センサー攻撃による前方及び後方安全損失の上限を特徴付ける。 この2つのシミュレーション距離を,微分力学の公式をモダリティとして表現することで検証し,そのような式を推論するためのアドホックな証明システムを開発する。 我々は、衝突を避ける自律走行車と水槽システムという2つの非自明なケーススタディについて、我々の正式な概念と推論技術を紹介した。

This paper contributes a formal framework for quantitative analysis of bounded sensor attacks on cyber-physical systems, using the formalism of differential dynamic logic. Given a precondition and postcondition of a system, we formalize two quantitative safety notions, quantitative forward and backward safety, which respectively express (1) how strong the strongest postcondition of the system is with respect to the specified postcondition, and (2) how strong the specified precondition is with respect to the weakest precondition of the system needed to ensure the specified postcondition holds. We introduce two notions, forward and backward robustness, to characterize the robustness of a system against sensor attacks as the loss of safety. To reason about robustness, we introduce two simulation distances, forward and backward simulation distances, which are defined based on the behavioral distances between the original system and the system with compromised sensors. Forward and backward distances, respectively, characterize upper bounds of the degree of forward and backward safety loss caused by the sensor attacks. We verify the two simulation distances by expressing them as modalities, i.e., formulas of differential dynamic logic, and develop an ad-hoc proof system to reason with such formulas. We showcase our formal notions and reasoning techniques on two non-trivial case studies: an autonomous vehicle that needs to avoid collision and a water tank system.
翻訳日:2024-03-17 16:41:26 公開日:2024-03-09
# ヒューマンファクターから見た情報基盤の安全・最適設計手法の検討

Contemplating Secure and Optimal Design Practices for Information Infrastructure From a Human Factors Perspective ( http://arxiv.org/abs/2403.07018v1 )

ライセンス: Link先を確認
Niroop Sugunaraj, (参考訳) セキュアな情報基盤を設計することは、設計とユーザビリティの関数である。 しかし、システムの開発時にセキュリティが優先されることは滅多にない。 セキュアな設計プラクティスは、最小限の要件とユーザフレンドリさを満たすために、機能(すなわち適切な設計)間でバランスをとるべきである。 ユーザ中心のアプローチ(すなわち、関連する情報のみを包含する)や適切なコンテキスト内の情報を明確かつ魅力的な方法で提示するといったデザインレコメンデーションは、ユーザの反応や経験を改善するために科学的に示されている。

Designing secure information infrastructure is a function of design and usability. However, security is seldom given priority when systems are being developed. Secure design practices should balance between functionality (i.e., proper design) to meet minimum requirements and user-friendliness. Design recommendations such as those with a user-centric approach (i.e., inclusive of only relevant information, user liberty) and presenting information within its proper context in a clear and engaging manner has been scientifically shown to improve user response and experience.
翻訳日:2024-03-17 16:41:26 公開日:2024-03-09
# メンタルヘルスにおける非ティプカル感情の測定 : 計算的アプローチに関する調査

Measuring Non-Typical Emotions for Mental Health: A Survey of Computational Approaches ( http://arxiv.org/abs/2403.08824v1 )

ライセンス: Link先を確認
Puneet Kumar, Alexander Vedernikov, Xiaobai Li, (参考訳) ストレス、抑うつ、エンゲージメントなどの非典型的感情の分析は、幸福、悲しみ、恐怖、怒りといった頻繁に議論される感情と比較すると、あまり一般的で複雑ではない。 これらの非典型的感情の重要性は、精神的な健康と幸福に影響を及ぼすため、ますます認識されるようになった。 ストレスと抑うつは日々のタスクにおけるエンゲージメントに影響を与え、彼らの相互作用を理解する必要性を強調します。 この調査は、ストレス、抑うつ、エンゲージメントを分析する計算手法を同時に探求した最初のものである。 本稿では、最もよく使われているデータセット、入力モダリティ、データ処理技術、およびストレス、抑うつ、エンゲージメントの計算解析に使用される情報融合手法について論じる。 非典型的感情分析手法の時系列と分類と、それらの一般的なパイプラインとカテゴリについて述べる。 次に,非典型的感情分析における最先端の計算手法について述べる。 これに続いて、我々は、関連する課題、制限、将来の研究方向性とともに、応用について検討する。

Analysis of non-typical emotions, such as stress, depression and engagement is less common and more complex compared to that of frequently discussed emotions like happiness, sadness, fear, and anger. The importance of these non-typical emotions has been increasingly recognized due to their implications on mental health and well-being. Stress and depression impact the engagement in daily tasks, highlighting the need to understand their interplay. This survey is the first to simultaneously explore computational methods for analyzing stress, depression, and engagement. We discuss the most commonly used datasets, input modalities, data processing techniques, and information fusion methods used for the computational analysis of stress, depression and engagement. A timeline and taxonomy of non-typical emotion analysis approaches along with their generic pipeline and categories are presented. Subsequently, we describe state-of-the-art computational approaches for non-typical emotion analysis, including a performance summary on the most commonly used datasets. Following this, we explore the applications, along with the associated challenges, limitations, and future research directions.
翻訳日:2024-03-16 00:51:27 公開日:2024-03-09
# NeurAll: 自動走行のための統一視覚知覚モデルを目指して

NeurAll: Towards a Unified Visual Perception Model for Automated Driving ( http://arxiv.org/abs/1902.03589v3 )

ライセンス: Link先を確認
Ganesh Sistu, Isabelle Leang, Sumanth Chennupati, Senthil Yogamani, Ciaran Hughes, Stefan Milz and Samir Rawashdeh(参考訳) 畳み込みニューラルネットワーク(CNN)は、物体認識、動きと深さの推定、視覚SLAMなどの重要な視覚認知タスクに成功している。 しかし、これらのタスクは一般的に独立して探索され、モデル化される。 本稿では,複数のタスクを同時に学習するためのマルチタスクネットワーク設計を提案する。 我々の主な動機は、全てのタスク間で高価な初期畳み込み層を共有することで達成される計算効率である。 実際、自動運転システムの主なボトルネックは、デプロイメントハードウェアで利用可能な限られた処理能力である。 また、いくつかのタスクの正確性を改善し、開発作業の緩和に他の利点があるという証拠もある。 また、既存の機能を活用し、より良い一般化を達成するために、より多くのタスクを追加する拡張性も提供する。 自動走行における視覚知覚タスクに対する様々なCNNベースのソリューションを調査した。 次に,重要なタスクに対する統一CNNモデルを提案し,ベースラインモデルを改善するためのいくつかの高度な最適化とアーキテクチャ設計手法について議論する。 本論文は, 今後の研究を約束するいくつかの予備的な成果を実証するために, 一部をレビューし, 一部を位置づけている。 まず,大規模マルチタスクモデルにスケールする上で重要な要素であるマルチストリーム学習と補助学習の結果を示す。 最後に、2ストリーム3タスクネットワークを実装し、ネットワークサイズを維持しながら、対応するシングルタスクモデルと比較して多くのケースで性能が向上する。

Convolutional Neural Networks (CNNs) are successfully used for the important automotive visual perception tasks including object recognition, motion and depth estimation, visual SLAM, etc. However, these tasks are typically independently explored and modeled. In this paper, we propose a joint multi-task network design for learning several tasks simultaneously. Our main motivation is the computational efficiency achieved by sharing the expensive initial convolutional layers between all tasks. Indeed, the main bottleneck in automated driving systems is the limited processing power available on deployment hardware. There is also some evidence for other benefits in improving accuracy for some tasks and easing development effort. It also offers scalability to add more tasks leveraging existing features and achieving better generalization. We survey various CNN based solutions for visual perception tasks in automated driving. Then we propose a unified CNN model for the important tasks and discuss several advanced optimization and architecture design techniques to improve the baseline model. The paper is partly review and partly positional with demonstration of several preliminary results promising for future research. We first demonstrate results of multi-stream learning and auxiliary learning which are important ingredients to scale to a large multi-task model. Finally, we implement a two-stream three-task network which performs better in many cases compared to their corresponding single-task models, while maintaining network size.
翻訳日:2024-03-14 19:26:20 公開日:2024-03-09
# 非相対論的およびQEDに基づく経路積分をブリッジする新しい理論 量子力学だけでなく

A new theory bridging non-relativistic and QED-based path integrals unveils more than quantum mechanics ( http://arxiv.org/abs/2403.07941v1 )

ライセンス: Link先を確認
W. Wen(参考訳) ファインマン経路積分は量子力学において重要な役割を担い、古典的作用とプロパゲータの相互作用に関する重要な洞察を与え、量子力学(QED)とファインマン図を結びつける。 しかし、古典的な量子力学とQEDにおける経路積分の定式化は統一も相互接続もせず、量子力学において既存のパズルを解く鍵となる重要なブリッジ理論の存在を示唆している。 本研究では, 理論的整合性, 完全性, 確立された経路積分理論との整合性について検討し, この隠蔽された経路積分形式を明らかにする。 この新たに発見された形式は、様々な経路積分アプローチを結び付けるだけでなく、スピンの起源や量子非局所相関のような量子現象を説明する可能性も示している。 従来の量子力学を超越し、より深遠で基本的な物理原理を提唱する。

The Feynman path integral plays a crucial role in quantum mechanics, offering significant insights into the interaction between classical action and propagators, and linking quantum electrodynamics (QED) with Feynman diagrams. However, the formulations of path integrals in classical quantum mechanics and QED are neither unified nor interconnected, suggesting the potential existence of an important bridging theory that could be key to solving existing puzzles in quantum mechanics. In this work, we delve into the theoretical consistency, completeness, and integration with established path integral theories, revealing this concealed path integral form. This newly uncovered form not only connects various path integral approaches but also demonstrates its potential in explaining quantum phenomena like the origin of spin and quantum nonlocal correlations. It transcends conventional quantum mechanics, proposing a more profound and fundamental physical principle.
翻訳日:2024-03-14 17:27:49 公開日:2024-03-09
# 深層学習を用いた毛髪・頭皮疾患の検出

Hair and scalp disease detection using deep learning ( http://arxiv.org/abs/2403.07940v1 )

ライセンス: Link先を確認
Kavita Sultanpure, Bhairavi Shirsath, Bhakti Bhande, Harshada Sawai, Srushti Gawade, Suraj Samgir(参考訳) 近年、医療と技術の統合において顕著な進歩が見られ、特に医用画像解析の分野で顕著である。 本稿では, 皮膚科における先駆的アプローチについて紹介し, 最先端の深層学習技術を用いて, 髪と頭皮の病気を検出する堅牢な方法を提案する。 本手法は, 画像認識における有効性でよく知られている畳み込みニューラルネットワーク(CNN)を用いて, 髪や頭皮に影響を及ぼす様々な皮膚疾患の画像を慎重に解析する。 本システムは, 早期診断・診断の非侵襲的かつ高効率な手段として, 皮膚科診断の進歩を示す。 CNNの機能を活用することで、私たちのモデルは皮膚科に革命をもたらす可能性を持ち、アクセス可能でタイムリーな医療ソリューションを提供します。 さらに、Djangoフレームワークで開発されたWebベースのプラットフォームにトレーニングされたモデルのシームレスな統合により、幅広いアクセシビリティとユーザビリティが保証され、高度な診断を民主化できます。 機械学習アルゴリズムをWebアプリケーションに統合することは、医療提供者および患者の両方に力を与える、医療デリバリーにおいて重要な瞬間である。 本稿では, 技術と医療の相乗効果を通じて, 厳密な方法論, 技術的複雑さ, 将来展望について概説する。 医療のフロンティアを推し進めることへの確固たるコミットメントによって、私たちのゴールは、世界中の医療成果の改善にテクノロジーを活用することに大きく貢献することにあります。 この取り組みは、ヘルスケアデリバリーと患者ケアの未来を形作る上で、技術革新の重大な影響を浮き彫りにして、私たちのアプローチの変革の可能性を強調します。

In recent years, there has been a notable advancement in the integration of healthcare and technology, particularly evident in the field of medical image analysis. This paper introduces a pioneering approach in dermatology, presenting a robust method for the detection of hair and scalp diseases using state-of-the-art deep learning techniques. Our methodology relies on Convolutional Neural Networks (CNNs), well-known for their efficacy in image recognition, to meticulously analyze images for various dermatological conditions affecting the hair and scalp. Our proposed system represents a significant advancement in dermatological diagnostics, offering a non-invasive and highly efficient means of early detection and diagnosis. By leveraging the capabilities of CNNs, our model holds the potential to revolutionize dermatology, providing accessible and timely healthcare solutions. Furthermore, the seamless integration of our trained model into a web-based platform developed with the Django framework ensures broad accessibility and usability, democratizing advanced medical diagnostics. The integration of machine learning algorithms into web applications marks a pivotal moment in healthcare delivery, promising empowerment for both healthcare providers and patients. Through the synergy between technology and healthcare, our paper outlines the meticulous methodology, technical intricacies, and promising future prospects of our system. With a steadfast commitment to advancing healthcare frontiers, our goal is to significantly contribute to leveraging technology for improved healthcare outcomes globally. This endeavor underscores the profound impact of technological innovation in shaping the future of healthcare delivery and patient care, highlighting the transformative potential of our approach.
翻訳日:2024-03-14 17:27:49 公開日:2024-03-09
# 全スライドのための動的ポリシー駆動型適応型マルチインスタンス学習 画像分類

Dynamic Policy-Driven Adaptive Multi-Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2403.07939v1 )

ライセンス: Link先を確認
Tingting Zheng, Kui Jiang, Hongxun Yao(参考訳) マルチインスタンスラーニング (MIL) は, バッグや疑似バッグを用いた病理組織像全体(WSI)解析において, 優れた性能を示した。 これにはインスタンスサンプリング、特徴表現、意思決定が含まれる。 しかし、既存のMILベースの技術は、少なくとも以下の1つ以上の問題に悩まされている。 1) 多数のインスタンス(サンプリング)に対して高いストレージと集中的な前処理を必要とすること。 2 バッグラベルの予測の知識に乏しい潜在的な過度な適合(特徴表現) 3)擬似バグ数と先行バイアスはモデル堅牢性と一般化可能性(意思決定)に影響を及ぼす。 臨床診断にインスパイアされた過去のサンプリングインスタンスの使用は、最終WSI分析を容易にするが、以前の技術ではほとんど調査されていない。 これらの制限を解消するために、動的インスタンスサンプリングと強化学習を統一されたフレームワークに統合し、インスタンスの選択と機能集約を改善し、より信頼性の高い意思決定のための新しい動的ポリシーインスタンス選択(DPIS)スキームを作成します。 具体的には、連続インスタンスサンプリングを促進するために、特徴距離と報酬関数の測定を用いる。 過度な適合を緩和するために、より堅牢で差別的な特徴表現のためのインスタンス間の潜伏したグローバルな関係を探求し、一方で、対照的な学習を用いて擬似バグのバイアスを補正するための報酬と罰則を確立した。 これらの戦略は、WSIタスクのための最後の動的ポリシー駆動適応型マルチインスタンス学習(PAMIL)メソッドを形成する。 我々のPAMIL法はCAMELYON16では3.8 %,TCGA肺がんデータセットでは4.4 %,最先端では3.8 %より優れていた。

Multi-Instance Learning (MIL) has shown impressive performance for histopathology whole slide image (WSI) analysis using bags or pseudo-bags. It involves instance sampling, feature representation, and decision-making. However, existing MIL-based technologies at least suffer from one or more of the following problems: 1) requiring high storage and intensive pre-processing for numerous instances (sampling); 2) potential over-fitting with limited knowledge to predict bag labels (feature representation); 3) pseudo-bag counts and prior biases affect model robustness and generalizability (decision-making). Inspired by clinical diagnostics, using the past sampling instances can facilitate the final WSI analysis, but it is barely explored in prior technologies. To break free these limitations, we integrate the dynamic instance sampling and reinforcement learning into a unified framework to improve the instance selection and feature aggregation, forming a novel Dynamic Policy Instance Selection (DPIS) scheme for better and more credible decision-making. Specifically, the measurement of feature distance and reward function are employed to boost continuous instance sampling. To alleviate the over-fitting, we explore the latent global relations among instances for more robust and discriminative feature representation while establishing reward and punishment mechanisms to correct biases in pseudo-bags using contrastive learning. These strategies form the final Dynamic Policy-Driven Adaptive Multi-Instance Learning (PAMIL) method for WSI tasks. Extensive experiments reveal that our PAMIL method outperforms the state-of-the-art by 3.8\% on CAMELYON16 and 4.4\% on TCGA lung cancer datasets.
翻訳日:2024-03-14 17:27:48 公開日:2024-03-09
# AutoEval Done Right: モデル評価に合成データを使用する

AutoEval Done Right: Using Synthetic Data for Model Evaluation ( http://arxiv.org/abs/2403.07008v1 )

ライセンス: Link先を確認
Pierre Boyeau, Anastasios N. Angelopoulos, Nir Yosef, Jitendra Malik, Michael I. Jordan(参考訳) 人間のラベルによる検証データを用いた機械学習モデルの評価は、高価で時間がかかる。 aiラベルの合成データは、自動評価と呼ばれるプロセスにおいて、この目的に必要な人間のアノテーションの数を減らすために使用できる。 この目的のために, 偏りのないままサンプル効率を向上させるアルゴリズムを提案する。 これらのアルゴリズムは、GPT-4の実験において、有効にラベル付けされたサンプルサイズを最大50%増加させる。

The evaluation of machine learning models using human-labeled validation data can be expensive and time-consuming. AI-labeled synthetic data can be used to decrease the number of human annotations required for this purpose in a process called autoevaluation. We suggest efficient and statistically principled algorithms for this purpose that improve sample efficiency while remaining unbiased. These algorithms increase the effective human-labeled sample size by up to 50% on experiments with GPT-4.
翻訳日:2024-03-14 00:27:12 公開日:2024-03-09
# 確率量子ダイナミクス安定化:ホモジン媒介フィルタを用いたリアプノフ制御手法

Stochastic Quantum Dynamics Stabilization: A Lyapunov-Based Control Approach with Homodyne-Mediated Filtering ( http://arxiv.org/abs/2403.07021v1 )

ライセンス: Link先を確認
Nahid Binandeh Dehaghani, A. Pedro Aguiar, Rafal Wisniewski(参考訳) 量子システムにおける確率力学の効率的な制御は、量子情報処理やメトロジーを含む様々な応用において重要である。 本稿では, ホモダインによるフィルタリングを用いたリアプノフ制御手法を提案する。 我々は、逐次ホモダイン電流の測定を考慮し、量子密度演算子$\rho$の進化を直接推定するために拡張カルマンフィルタ法を用いる。 本手法は,確率マスター方程式と相関雑音のダイナミクスを明示的に取り上げ,推定状態変数 $\hat\rho$ の量子特性を構築できる。 さらに,提案するスイッチングベースのリアプノフ制御スキームは$\hat\rho$を供給し,推定誤差分散に関して所望の量子定常目標集合の確率を実質的に安定に保証する。 ホモダイン検出において, 漏れキャビティに結合したキュービットを安定化させる手法の有効性を実証した。

Efficient control of stochastic dynamics in quantum systems is pivotal for various applications, including quantum information processing and metrology. This paper introduces a Lyapunov-based control approach with homodyne-mediated filtering. We employ a modified extended Kalman filtering method to directly estimate the evolution of the quantum density operator $\rho$, considering sequential homodyne current measurements. Our method explicitly addresses the dynamics of a stochastic master equation with correlated noise, ensuring by construction the quantum properties of the estimated state variable $\hat\rho$. Moreover, our proposed switching based Lyapunov control scheme that is fed with $\hat\rho$, guarantees noise-to-state practically stable in probability of the desired quantum stationary target set with respect to the estimation error variance. We demonstrate our approach's efficacy in stabilizing a qubit coupled to a leaky cavity under homodyne detection.
翻訳日:2024-03-14 00:12:35 公開日:2024-03-09
# ゲーム理論と人工知能のインターフェイスにおけるマルチエージェント学習システムの数学

Mathematics of multi-agent learning systems at the interface of game theory and artificial intelligence ( http://arxiv.org/abs/2403.07017v1 )

ライセンス: Link先を確認
Long Wang, Feng Fu, Xingru Chen(参考訳) 進化ゲーム理論 (EGT) と人工知能 (AI) は、一見すると異なるように見える2つの分野であるが、それらは顕著なつながりと交差を持っている。 前者は集団における行動(または戦略)の進化に焦点を当て、個人が他人と対話し、模倣(または社会学習)に基づいて戦略を更新する。 戦略が成功すれば成功すればするほど、時間とともに広まります。 一方後者は、機械学習アルゴリズムと(深い)ニューラルネットワークを中心にしている。 多くの場合、単一エージェントの観点から考えるが、次第にマルチエージェント環境が関与し、インテリジェントエージェントはフィードバックと経験に基づいて戦略を調整する。 現実世界の問題に対処するために必要な重要なコンポーネントに照らして (i)学習・適応、 (ii)協力・競争 (iii)ロバスト性、安定性、及び全部 (iv)戦略が発達する個々のエージェントの集団動態、両分野間のアイデアの相互受精は、多エージェント学習システムの数学の進歩、特に「集合的協調知能」の生まれたばかりの領域において進化のダイナミクスと多エージェント強化学習に寄与する。

Evolutionary Game Theory (EGT) and Artificial Intelligence (AI) are two fields that, at first glance, might seem distinct, but they have notable connections and intersections. The former focuses on the evolution of behaviors (or strategies) in a population, where individuals interact with others and update their strategies based on imitation (or social learning). The more successful a strategy is, the more prevalent it becomes over time. The latter, meanwhile, is centered on machine learning algorithms and (deep) neural networks. It is often from a single-agent perspective but increasingly involves multi-agent environments, in which intelligent agents adjust their strategies based on feedback and experience, somewhat akin to the evolutionary process yet distinct in their self-learning capacities. In light of the key components necessary to address real-world problems, including (i) learning and adaptation, (ii) cooperation and competition, (iii) robustness and stability, and altogether (iv) population dynamics of individual agents whose strategies evolve, the cross-fertilization of ideas between both fields will contribute to the advancement of mathematics of multi-agent learning systems, in particular, to the nascent domain of ``collective cooperative intelligence'' bridging evolutionary dynamics and multi-agent reinforcement learning.
翻訳日:2024-03-14 00:12:18 公開日:2024-03-09
# 連続学習シナリオに対する適応型ハイパーパラメータ最適化

Adaptive Hyperparameter Optimization for Continual Learning Scenarios ( http://arxiv.org/abs/2403.07015v1 )

ライセンス: Link先を確認
Rudy Semola, Julio Hurtado, Vincenzo Lomonaco, Davide Bacciu(参考訳) 連続学習シナリオにおけるハイパーパラメータの選択は、特に実用的な非定常環境において、難解で未熟な側面である。 すべてのタスクから保持された検証データを持つグリッド検索のような従来のアプローチは、正確な生涯学習システムを構築するには非現実的です。 本稿では,継続学習におけるハイパーパラメータ選択の役割と,作業の複雑さに応じて継続的に自動調整する必要性について検討する。 そこで我々は,超パラメータ最適化の効率を向上させるために,逐次タスク学習の性質を活用することを提案する。 分散に基づく手法の機能解析を用いて,性能に影響を及ぼす最も重要なハイパーパラメータを特定する。 提案手法は,連続的なシナリオや戦略に依存しない手法で,タスク間のハイパーパラメータ最適化を継続的に高速化し,逐次的なタスク順序に直面する場合においても堅牢性を示す。 本研究は,より効率的で堅牢で適応可能な実世界の応用モデルへの継続的な学習手法の進歩に寄与すると考えられる。

Hyperparameter selection in continual learning scenarios is a challenging and underexplored aspect, especially in practical non-stationary environments. Traditional approaches, such as grid searches with held-out validation data from all tasks, are unrealistic for building accurate lifelong learning systems. This paper aims to explore the role of hyperparameter selection in continual learning and the necessity of continually and automatically tuning them according to the complexity of the task at hand. Hence, we propose leveraging the nature of sequence task learning to improve Hyperparameter Optimization efficiency. By using the functional analysis of variance-based techniques, we identify the most crucial hyperparameters that have an impact on performance. We demonstrate empirically that this approach, agnostic to continual scenarios and strategies, allows us to speed up hyperparameters optimization continually across tasks and exhibit robustness even in the face of varying sequential task orders. We believe that our findings can contribute to the advancement of continual learning methodologies towards more efficient, robust and adaptable models for real-world applications.
翻訳日:2024-03-14 00:11:59 公開日:2024-03-09
# AdaNovo: 条件付き相互情報を用いたアダプティブ \emph{De Novo} ペプチドシークエンシング

AdaNovo: Adaptive \emph{De Novo} Peptide Sequencing with Conditional Mutual Information ( http://arxiv.org/abs/2403.07013v1 )

ライセンス: Link先を確認
Jun Xia, Shaorong Chen, Jingbo Zhou, Tianze Lin, Wenjie Du, Sizhe Liu, Stan Z. Li(参考訳) タンデム質量分析はプロテオミクスの進歩において重要な役割を担い、生体試料中のタンパク質組成の分析を可能にした。 観察されたスペクトルに責任を持つアミノ酸配列(ペプチド)を同定するための様々な深層学習法の開発にもかかわらず、課題は 'emph{de novo} peptide sequencing' に持続する。 第一に、以前の方法は、標準アミノ酸と比較してトレーニングデータの頻度が低いため、翻訳後修飾(ptm)によってアミノ酸の同定に苦労し、さらにペプチドレベルの同定精度が低下した。 第二に、質量スペクトルにおける様々なノイズやピークの欠如により、トレーニングデータの信頼性が低下する(ペプチド-スペクトルマッチング、PSMs)。 これらの課題に対処するために、適応モデルトレーニングにCMIを用いて、スペクトルと各アミノ酸/ペプチド間の条件相互情報(CMI)を計算する新しいフレームワークであるAdaNovoを提案する。 広範な実験により、アダノヴォの9種ベンチマークにおける最先端のパフォーマンスが示され、トレーニングセット内のペプチドがテストセットのペプチドとほぼ完全に無関係である。 さらに、AdaNovoはアミノ酸をPTMで同定し、データノイズに対して堅牢性を示す。 補充資料には公式コードが含まれている。

Tandem mass spectrometry has played a pivotal role in advancing proteomics, enabling the analysis of protein composition in biological samples. Despite the development of various deep learning methods for identifying amino acid sequences (peptides) responsible for observed spectra, challenges persist in \emph{de novo} peptide sequencing. Firstly, prior methods struggle to identify amino acids with post-translational modifications (PTMs) due to their lower frequency in training data compared to canonical amino acids, further resulting in decreased peptide-level identification precision. Secondly, diverse types of noise and missing peaks in mass spectra reduce the reliability of training data (peptide-spectrum matches, PSMs). To address these challenges, we propose AdaNovo, a novel framework that calculates conditional mutual information (CMI) between the spectrum and each amino acid/peptide, using CMI for adaptive model training. Extensive experiments demonstrate AdaNovo's state-of-the-art performance on a 9-species benchmark, where the peptides in the training set are almost completely disjoint from the peptides of the test sets. Moreover, AdaNovo excels in identifying amino acids with PTMs and exhibits robustness against data noise. The supplementary materials contain the official code.
翻訳日:2024-03-14 00:11:42 公開日:2024-03-09
# テンソル分解に基づくミスデータ計算による非侵入負荷モニタリング

Non-Intrusive Load Monitoring with Missing Data Imputation Based on Tensor Decomposition ( http://arxiv.org/abs/2403.07012v1 )

ライセンス: Link先を確認
DengYu Shi(参考訳) エネルギー管理における非侵入負荷モニタリング(Non-Intrusive Load Monitoring, NILM)の普及に伴い, NILMデータの高品質化が不可欠となった。 しかし、NILMの実践的な応用は、データ損失に関連する課題に直面し、エネルギー管理の精度と信頼性に大きな影響を及ぼす。 本稿では,2次元のアイデアを持つテンソル(pnlft)の比例積分型導出型(pid)-非負因数分解による革新的テンソル補完(tc)モデルを導入することで,nilmデータ損失問題に対処する。 1) 確率勾配降下(sgd)を用いたテンソルの潜在因子分解(lft)の遅い収束問題に対処するために, 学習過程中に比例積分型導出制御器を導入する。 PIDコントローラは、過去の情報と現在の情報を利用して学習残差を制御する。 2) NILMデータの特徴を考慮すると, モデル学習方式では非負の更新規則が提案される。 3つのデータセットの実験結果は、最先端モデルと比較して、提案モデルが収束速度と精度の両方において注目すべき拡張を示すことを示した。

With the widespread adoption of Non-Intrusive Load Monitoring (NILM) in building energy management, ensuring the high quality of NILM data has become imperative. However, practical applications of NILM face challenges associated with data loss, significantly impacting accuracy and reliability in energy management. This paper addresses the issue of NILM data loss by introducing an innovative tensor completion(TC) model- Proportional-Integral-Derivative (PID)-incorporated Non-negative Latent Factorization of Tensors (PNLFT) with twofold ideas: 1) To tackle the issue of slow convergence in Latent Factorization of Tensors (LFT) using Stochastic Gradient Descent (SGD), a Proportional-Integral-Derivative controller is introduced during the learning process. The PID controller utilizes historical and current information to control learning residuals. 2) Considering the characteristics of NILM data, non-negative update rules are proposed in the model's learning scheme. Experimental results on three datasets demonstrate that, compared to state-of-the-art models, the proposed model exhibits noteworthy enhancements in both convergence speed and accuracy.
翻訳日:2024-03-14 00:11:19 公開日:2024-03-09
# 球状T球状ファジィ(G-TSF)集合とG-TSF多重行列群決定法への応用

On Globular T-Spherical Fuzzy (G-TSF) Sets with Application to G-TSF Multi-Criteria Group Decision-Making ( http://arxiv.org/abs/2403.07010v1 )

ライセンス: Link先を確認
Miin-Shen Yang, Yasir Akhtar, Mehboob Ali(参考訳) 本稿では,球面ファジィ集合(TSFS)と球面ファジィ集合(C-SFS)の革新的な拡張として,球面ファジィ集合(G-TSF)の概念を提案する。 G-TSFSは、曖昧で曖昧で不正確な情報のより正確な描写を提供する球体/球体境界を用いて、会員、不決定性、非メンバーシップの学位を表す。 このモデルは、特定の中心と半径を持つ球面上のデータポイントの構造化表現を使用することにより、柔軟な領域内のオブジェクトをより包括的に評価することで、意思決定プロセスを強化する。 新たに定義されたG-TSFSに続いて、いくつかの基本集合演算を確立し、G-TSF値(G-TSFV)の基本代数演算を導入する。 これらの操作は意思決定者の評価能力を拡大し、より広い地域でより敏感な意思決定プロセスを促進する。 GTSFV間の類似度測度(SM)を定量化するために、SMはG-TSFSの半径に基づいて定義される。 また、G-TSFSにはハミング距離とユークリッド距離が導入された。 また,計算機構を解明するための定理や例も提示する。 さらに、G-TSF重み付き平均演算子(G-TSFWA)とG-TSF重み付き幾何演算子(G-TSFWG)を与える。 G-TSFSのためのMCGDM(Multi-Criteria Group Decision-Making)方式であるG-TSF MCGDM(G-TSFMCGDM)を開発した。 g-tsfmcgdm法の適用性および有効性は,企業における専門的開発訓練セッションにおける最適な会場の選択問題に適用することにより実証される。 その結果, MCGDM問題の解決法として提案手法の妥当性と有用性を確認し, 実践的な意思決定シナリオにおける有効性を確立した。

In this paper, we give the concept of Globular T-Spherical Fuzzy (G-TSF) Sets (G-TSFSs) as an innovative extension of T-Spherical Fuzzy Sets (TSFSs) and Circular Spherical Fuzzy Sets (C-SFSs). G-TSFSs represent membership, indeterminacy, and non-membership degrees using a globular/sphere bound that can offer a more accurate portrayal of vague, ambiguous, and imprecise information. By employing a structured representation of data points on a sphere with a specific center and radius, this model enhances decision-making processes by enabling a more comprehensive evaluation of objects within a flexible region. Following the newly defined G-TSFSs, we establish some basic set operations and introduce fundamental algebraic operations for G-TSF Values (G-TSFVs). These operations expand the evaluative capabilities of decision-makers, facilitating more sensitive decision-making processes in a broader region. To quantify a similarity measure (SM) between GTSFVs, the SM is defined based on the radius of G-TSFSs. Additionally, Hamming distance and Euclidean distance are introduced for G-TSFSs. We also present theorems and examples to elucidate computational mechanisms. Furthermore, we give the G-TSF Weighted Average (G-TSFWA) and G-TSF Weighted Geometric (G-TSFWG) operators. Leveraging our proposed SM, a Multi-Criteria Group Decision-Making (MCGDM) scheme for G-TSFSs, named G-TSF MCGDM (G-TSFMCGDM), is developed to address group decision-making problems. The applicability and effectiveness of the proposed G-TSFMCGDM method are demonstrated by applying it to solve the selection problem of the best venue for professional development training sessions in a firm. The analysis results affirm the suitability and utility of the proposed method for resolving MCGDM problems, establishing its effectiveness in practical decision-making scenarios.
翻訳日:2024-03-14 00:10:59 公開日:2024-03-09
# 多目的進化型ニューラルアーキテクチャ探索のためのパレートワイド分類器

Pareto-wise Ranking Classifier for Multi-objective Evolutionary Neural Architecture Search ( http://arxiv.org/abs/2109.07582v2 )

ライセンス: Link先を確認
Lianbo Ma, Nan Li, Guo Yu, Xiaoyu Geng, Min Huang and Xingwei Wang(参考訳) ディープニューラルモデルのデプロイでは、さまざまな設計目標の下で、効果的かつ自動的に実行可能なディープモデルを見つける方法が基本です。 既存のニューラルネットワーク検索(nas)メソッドの多くは、サーロゲートを使用して、検索中の候補アーキテクチャの詳細なパフォーマンス(精度やモデルサイズなど)を予測するが、複雑で非効率である。 対照的に、複雑な多目的NASタスクを単純なPareto-dominanceタスクに変換することで、NASの探索プロセスを簡素化する効率的なPareto分類器を学習することを目指している。 そこで本研究では,対象関数に適合するサロゲートを使わずに,候補と構築した参照アーキテクチャ間の支配関係を予測するオンライン分類器を訓練した,ワンショットnasのための分類指向パレート進化手法を提案する。 本研究の主な貢献は,スーパーネット適応をパレート分類器に変更することである。 また,2つの適応スキームを設計,分類境界を構築するためのアーキテクチャの参照集合を選定し,それぞれ負のサンプルに対する正のサンプルの割合を規制する。 提案手法を,広く使用されているベンチマークデータセットにおける最先端手法と比較し,提案手法が他の手法よりも優れており,様々な目的や制約の下で,モデルサイズが2mから6mの異なる複数のニューラルアーキテクチャを見出した。

In the deployment of deep neural models, how to effectively and automatically find feasible deep models under diverse design objectives is fundamental. Most existing neural architecture search (NAS) methods utilize surrogates to predict the detailed performance (e.g., accuracy and model size) of a candidate architecture during the search, which however is complicated and inefficient. In contrast, we aim to learn an efficient Pareto classifier to simplify the search process of NAS by transforming the complex multi-objective NAS task into a simple Pareto-dominance classification task. To this end, we propose a classification-wise Pareto evolution approach for one-shot NAS, where an online classifier is trained to predict the dominance relationship between the candidate and constructed reference architectures, instead of using surrogates to fit the objective functions. The main contribution of this study is to change supernet adaption into a Pareto classifier. Besides, we design two adaptive schemes to select the reference set of architectures for constructing classification boundary and regulate the rate of positive samples over negative ones, respectively. We compare the proposed evolution approach with state-of-the-art approaches on widely-used benchmark datasets, and experimental results indicate that the proposed approach outperforms other approaches and have found a number of neural architectures with different model sizes ranging from 2M to 6M under diverse objectives and constraints.
翻訳日:2024-03-13 18:16:35 公開日:2024-03-09
# ガウス混合モデルにおける局所最小構造

Local Minima Structures in Gaussian Mixture Models ( http://arxiv.org/abs/2009.13040v3 )

ライセンス: Link先を確認
Yudong Chen, Dogyoon Song, Xumei Xi and Yuqian Zhang(参考訳) ガウス混合モデル(GMM)の負の対数様機能(負の対数様機能)のランドスケープを,個体数制限の総数で検討した。 目的関数は凸でないので、十分に分離された混合モデルであっても、グローバルに最適ではない複数の局所極小が存在する。 本研究は,すべての局所的ミニマが,真の位置混合のクラスター中心(すなわちガウス成分)を部分的に識別する共通構造を共有していることを明らかにする。 具体的には、各局所最小値は2つのサブコンフィギュレーションの重複しない組み合わせとして表現できる: 単一の平均推定を複数のガウス成分に適合させるか、または単一の真の成分に複数の推定を適合させる。 これらの結果は、真の混合成分が特定の分離条件を満たす設定に適用され、コンポーネントの数が過大に指定されている場合でも有効である。 また、3つの成分からなる1次元GMMの設定についてよりきめ細かな解析を行い、分離への依存性を改善した近似誤差境界を提供する。

We investigate the landscape of the negative log-likelihood function of Gaussian Mixture Models (GMMs) with a general number of components in the population limit. As the objective function is non-convex, there can be multiple local minima that are not globally optimal, even for well-separated mixture models. Our study reveals that all local minima share a common structure that partially identifies the cluster centers (i.e., means of the Gaussian components) of the true location mixture. Specifically, each local minimum can be represented as a non-overlapping combination of two types of sub-configurations: fitting a single mean estimate to multiple Gaussian components or fitting multiple estimates to a single true component. These results apply to settings where the true mixture components satisfy a certain separation condition, and are valid even when the number of components is over- or under-specified. We also present a more fine-grained analysis for the setting of one-dimensional GMMs with three components, which provide sharper approximation error bounds with improved dependence on the separation.
翻訳日:2024-03-13 18:15:00 公開日:2024-03-09
# 上位対実的信頼境界--文脈帯域に対する新しい最適化原理

Upper Counterfactual Confidence Bounds: a New Optimism Principle for Contextual Bandits ( http://arxiv.org/abs/2007.07876v4 )

ライセンス: Link先を確認
Yunbei Xu and Assaf Zeevi(参考訳) 不確実性に直面した楽観主義の原理は、多武装の盗賊や強化学習において最も広く使われ、成功したアイデアの1つである。 しかし、既存の楽観的なアルゴリズム(主に UCB とその変種)は、一般的な関数クラスや大きなコンテキスト空間を扱うのにしばしば苦労する。 本稿では,オフライン回帰オラクルを用いた一般文脈帯域幅について検討し,"Upper Counterfactual Confidence Bounds"(UCCB)と呼ばれる楽観的アルゴリズムを設計するためのシンプルで汎用的な原理を提案する。 UCCBの鍵となる革新は、UCCBで行われているような行動空間ではなく、政策空間に信頼境界を構築することである。 これらのアルゴリズムは汎用関数クラスや大きなコンテキスト空間を扱う際に最適かつ計算効率が良いことを示す。 さらに、UCCBの原理を無限アクションの一般的な文脈的包帯にシームレスに拡張することができ、オフライン回帰オラクルを用いる場合のこれらの設定に対する最初の解決策を提供する。

The principle of optimism in the face of uncertainty is one of the most widely used and successful ideas in multi-armed bandits and reinforcement learning. However, existing optimistic algorithms (primarily UCB and its variants) often struggle to deal with general function classes and large context spaces. In this paper, we study general contextual bandits with an offline regression oracle and propose a simple, generic principle to design optimistic algorithms, dubbed "Upper Counterfactual Confidence Bounds" (UCCB). The key innovation of UCCB is building confidence bounds in policy space, rather than in action space as is done in UCB. We demonstrate that these algorithms are provably optimal and computationally efficient in handling general function classes and large context spaces. Furthermore, we illustrate that the UCCB principle can be seamlessly extended to infinite-action general contextual bandits, provide the first solutions to these settings when employing an offline regression oracle.
翻訳日:2024-03-13 18:14:42 公開日:2024-03-09
# nas-bench-graph:ベンチマークグラフニューラルネットワーク検索

NAS-Bench-Graph: Benchmarking Graph Neural Architecture Search ( http://arxiv.org/abs/2206.09166v2 )

ライセンス: Link先を確認
Yijian Qin, Ziwei Zhang, Xin Wang, Zeyang Zhang, Wenwu Zhu(参考訳) graph neural architecture search(graphnas)は最近、学界と業界の両方でかなりの注目を集めている。 しかし、2つの重要な課題がGraphNASのさらなる研究を妨げる。 第一に、実験的な設定にコンセンサスがないため、異なる研究論文の実証結果は、しばしば比較できない、再現できない、不公平な比較に繋がる。 第二に、GraphNASはしばしば広範な計算を必要とするため、大規模な計算にアクセスできることなく、研究者にとって非常に非効率でアクセスし難い。 これらの課題を解決するために、我々は、GraphNASの統一的で再現可能で効率的な評価をサポートする調整済みベンチマークであるNAS-Bench-Graphを提案する。 具体的には,26,206のユニークなグラフニューラルネットワーク(GNN)アーキテクチャを網羅した,統一的で表現力のあるコンパクトな検索空間を構築し,基本的評価プロトコルを提案する。 不要な反復トレーニングを避けるため、私たちは9つの代表的なグラフデータセットでこれらのアーキテクチャをすべてトレーニングし、評価し、各エポック、レイテンシ、パラメータの数など、トレイン、バリデーション、テストパフォーマンスなどの詳細なメトリクスを記録しました。 提案したベンチマークに基づいて、GNNアーキテクチャの性能は、余分な計算を行わないルックアップテーブルで直接得られるので、公平で再現性があり、効率的な比較が可能になる。 提案したNAS-Bench-Graphの詳細な分析を行い,GraphNASの興味深い発見をいくつか明らかにした。 また、ベンチマークがAutoGLやNNIといったGraphNASオープンライブラリと容易に互換性があることを示す。 私たちの知る限りでは、私たちの研究はグラフニューラルネットワークアーキテクチャ検索の最初のベンチマークです。

Graph neural architecture search (GraphNAS) has recently aroused considerable attention in both academia and industry. However, two key challenges seriously hinder the further research of GraphNAS. First, since there is no consensus for the experimental setting, the empirical results in different research papers are often not comparable and even not reproducible, leading to unfair comparisons. Secondly, GraphNAS often needs extensive computations, which makes it highly inefficient and inaccessible to researchers without access to large-scale computation. To solve these challenges, we propose NAS-Bench-Graph, a tailored benchmark that supports unified, reproducible, and efficient evaluations for GraphNAS. Specifically, we construct a unified, expressive yet compact search space, covering 26,206 unique graph neural network (GNN) architectures and propose a principled evaluation protocol. To avoid unnecessary repetitive training, we have trained and evaluated all of these architectures on nine representative graph datasets, recording detailed metrics including train, validation, and test performance in each epoch, the latency, the number of parameters, etc. Based on our proposed benchmark, the performance of GNN architectures can be directly obtained by a look-up table without any further computation, which enables fair, fully reproducible, and efficient comparisons. To demonstrate its usage, we make in-depth analyses of our proposed NAS-Bench-Graph, revealing several interesting findings for GraphNAS. We also showcase how the benchmark can be easily compatible with GraphNAS open libraries such as AutoGL and NNI. To the best of our knowledge, our work is the first benchmark for graph neural architecture search.
翻訳日:2024-03-13 18:09:32 公開日:2024-03-09
# ゼロサムニューロシンボリック同時確率ゲームのための戦略合成

Strategy Synthesis for Zero-Sum Neuro-Symbolic Concurrent Stochastic Games ( http://arxiv.org/abs/2202.06255v6 )

ライセンス: Link先を確認
Rui Yan, Gabriel Santos, Gethin Norman, David Parker and Marta Kwiatkowska(参考訳) ニューラルネットワークと古典的な記号技法を組み合わせた人工知能へのニューロシンボリックアプローチは、その正しさを判断するために正式なアプローチを必要とする。 本稿では,2つの確率的有限状態エージェントが共有連続状態環境で相互作用するニューロシンボリック同時確率ゲーム(ns-csgs)と呼ばれる新しいモデリング形式を提案する。 各エージェントは、画像などの入力をシンボリックな知覚に変換し、シンボル的に決定する神経知覚機構を用いて環境を観察する。 本稿では,ボレル状態空間を持つNS-CSGのクラスに着目し,このモデルの成分に対する一括的制約の下でゼロサム割引累積報酬に対する値関数の存在と可測性を示す。 価値の計算と合成戦略を行うため,我々はこの新たな連続的csgのサブクラスを解決するために,実用的価値反復 (vi) とポリシー反復 (pi) のアルゴリズムを初めて提示する。 これらはエージェントの神経知覚機構によって引き起こされる環境の有限分解を必要とし、VI または PI の下に閉じた値関数と戦略の有限抽象表現に依存する。 まず、値関数のボレル可測なピースワイズ定数(B-PWC)表現を導入し、ミニマックスバックアップをこの表現に拡張し、B-PWC VIと呼ばれる値反復アルゴリズムを提案する。 第二に、値関数と戦略に対する2つの新しい表現、それぞれ定数ピースリニア(CON-PWL)と定数ピースリニア(CON-PWC)を導入し、有限状態空間のプレイヤー選択の交互化に基づく最近のPI法をボレル状態空間に拡張し、通常の形式ゲームを必要としないミニマックスアクションフリーPIを提案する。

Neuro-symbolic approaches to artificial intelligence, which combine neural networks with classical symbolic techniques, are growing in prominence, necessitating formal approaches to reason about their correctness. We propose a novel modelling formalism called neuro-symbolic concurrent stochastic games (NS-CSGs), which comprise two probabilistic finite-state agents interacting in a shared continuous-state environment. Each agent observes the environment using a neural perception mechanism, which converts inputs such as images into symbolic percepts, and makes decisions symbolically. We focus on the class of NS-CSGs with Borel state spaces and prove the existence and measurability of the value function for zero-sum discounted cumulative rewards under piecewise-constant restrictions on the components of this class of models. To compute values and synthesise strategies, we present, for the first time, practical value iteration (VI) and policy iteration (PI) algorithms to solve this new subclass of continuous-state CSGs. These require a finite decomposition of the environment induced by the neural perception mechanisms of the agents and rely on finite abstract representations of value functions and strategies closed under VI or PI. First, we introduce a Borel measurable piecewise-constant (B-PWC) representation of value functions, extend minimax backups to this representation and propose a value iteration algorithm called B-PWC VI. Second, we introduce two novel representations for the value functions and strategies, constant-piecewise-linear (CON-PWL) and constant-piecewise-constant (CON-PWC) respectively, and propose Minimax-action-free PI by extending a recent PI method based on alternating player choices for finite state spaces to Borel state spaces, which does not require normal-form games to be solved.
翻訳日:2024-03-13 18:08:29 公開日:2024-03-09
# 閉じ込められたイオン量子コンピュータのための簡易M{\o}lmer-S{\o}rensenゲート

A simplified M{\o}lmer-S{\o}rensen gate for the trapped ion quantum computer ( http://arxiv.org/abs/2112.07855v3 )

ライセンス: Link先を確認
Hiroo Azuma(参考訳) トラップされたイオン量子コンピュータで使用されるMolmer-Sorensen(MS)ゲートの簡易化について論じる。 元のMSゲートは、2つのイオンにバイクロマチックコヒーレント光電場を同時に照射することで実装されている。 本稿では,単色コヒーレント光電界を持つ2つのイオンを個別に照明することにより,2つのイオンの分離可能な状態をベル状態の1つに変換する方法を提案する。 提案するゲートの実行時間の長さは,元のMSゲートの時間に匹敵するが,数値計算により,提案ゲートはフォノンの熱ゆらぎに弱いことが示されている。 絡み合いを発生できるが、熱ゆらぎに弱い単純な2イオンゲートの別の例を示すことで、単純化したMSゲートが通常よりもマークされていることを示す。

We discuss how to simplify the Molmer-Sorensen (MS) gate which is used for the trapped ion quantum computer. The original MS gate is implemented by illuminating two ions with bichromatic coherent light fields separately at the same time. In this paper, we propose a method for transforming a separable state of two ions into one of the Bell states by illuminating the two ions with monochromatic coherent light fields individually and this point is the advantage of our scheme over the original MS gate. The length of the execution time of our proposed gate is comparable to that of the original MS gate, however, numerical calculations show that our proposed gate is weakly sensitive to thermal fluctuations of the phonons. By giving another example of a simple two-ion gate that can generate entanglement but is strongly vulnerable to thermal fluctuations, we show that our simplified MS gate is more marked than usual.
翻訳日:2024-03-13 18:06:28 公開日:2024-03-09
# pmfl:異種課題に対する部分的メタフェデレート学習とその実世界医療記録への応用

PMFL: Partial Meta-Federated Learning for heterogeneous tasks and its applications on real-world medical records ( http://arxiv.org/abs/2112.05321v2 )

ライセンス: Link先を確認
Tianyi Zhang, Shirui Zhang, Ziwei Chen, Dianbo Liu(参考訳) フェデレーション機械学習は、特に通信技術が急速に発達し、最近のモバイルデバイスで前例のない量のデータが収集される場合に、さまざまなソースから分散データを活用するための多用途で柔軟なツールである。 フェデレーション学習法は、データだけでなく、ネットワーク内のすべてのデバイスの計算能力を活用し、より効率的なモデルトレーニングを実現する。 しかしながら、従来のフェデレーション学習手法は、同種データやタスクに対してうまく機能するが、異なる異種データやタスク分布にメソッドを適用することは困難である。 この制限は、現実世界のコンテキスト、特に医療環境での連合学習の応用を制限している。 本稿では,メタラーニングの基本的な考え方に触発されて,この課題に取り組むために,フェデレートラーニングとメタラーニングを統合した新しいアルゴリズムを提案する。 さらに,モデル一般化における伝達学習の利点から,部分的パラメータ共有を導入してアルゴリズムをさらに改良する。 本手法をPMFL(Partial Meta-federated Learning)と呼ぶ。 最後に、このアルゴリズムを2つの医療データセットに適用する。 我々は,異種医療データセットを扱う際に,アルゴリズムが最速のトレーニング速度を得ることができ,最高の性能が得られることを示す。

Federated machine learning is a versatile and flexible tool to utilize distributed data from different sources, especially when communication technology develops rapidly and an unprecedented amount of data could be collected on mobile devices nowadays. Federated learning method exploits not only the data but the computational power of all devices in the network to achieve more efficient model training. Nevertheless, while most traditional federated learning methods work well for homogeneous data and tasks, adapting the method to a different heterogeneous data and task distribution is challenging. This limitation has constrained the applications of federated learning in real-world contexts, especially in healthcare settings. Inspired by the fundamental idea of meta-learning, in this study we propose a new algorithm, which is an integration of federated learning and meta-learning, to tackle this issue. In addition, owing to the advantage of transfer learning for model generalization, we further improve our algorithm by introducing partial parameter sharing. We name this method partial meta-federated learning (PMFL). Finally, we apply the algorithms to two medical datasets. We show that our algorithm could obtain the fastest training speed and achieve the best performance when dealing with heterogeneous medical datasets.
翻訳日:2024-03-13 18:06:12 公開日:2024-03-09
# cape: 大規模言語モデルを用いた前提条件エラーの修正動作

CAPE: Corrective Actions from Precondition Errors using Large Language Models ( http://arxiv.org/abs/2211.09935v3 )

ライセンス: Link先を確認
Shreyas Sundara Raman, Vanya Cohen, Ifrah Idrees, Eric Rosen, Ray Mooney, Stefanie Tellex and David Paulius(参考訳) 大型言語モデル(LLM)からコモンセンス知識を抽出することは、インテリジェントなロボットを設計するための道筋を提供する。 LLMを計画に活用する既存のアプローチは、アクションが失敗したときに回復できず、エラーの根本原因を解決することなく、しばしば失敗したアクションを再試行する。 計画中の前提条件エラーを解決するための修正措置を提案する新しいアプローチ(cape)を提案する。 CAPEは、アクション前提条件からの少数ショット推論を活用することにより、生成されたプランの品質を改善する。 本手法は, エージェントがベースラインメソッドよりも多くのタスクを実行し, 意味的正確性を確保しつつ, 再プロポーティングを最小化することを可能にする。 仮想ホームでは、ケープは人間の注釈による計画の正しさを28.89%から49.63%に改善しながら実行可能な計画を生成する。 私たちの改良はboston dynamics spotロボットに(言語で特定された)一連のスキルと関連する前提条件で初期化され、capeはsaycanと比較して実行されたタスクプランの正しい測定基準を76.49%改善しました。 我々のアプローチは、ロボットが自然言語コマンドに従い、失敗から頑健に回復することを可能にする。

Extracting commonsense knowledge from a large language model (LLM) offers a path to designing intelligent robots. Existing approaches that leverage LLMs for planning are unable to recover when an action fails and often resort to retrying failed actions, without resolving the error's underlying cause. We propose a novel approach (CAPE) that attempts to propose corrective actions to resolve precondition errors during planning. CAPE improves the quality of generated plans by leveraging few-shot reasoning from action preconditions. Our approach enables embodied agents to execute more tasks than baseline methods while ensuring semantic correctness and minimizing re-prompting. In VirtualHome, CAPE generates executable plans while improving a human-annotated plan correctness metric from 28.89% to 49.63% over SayCan. Our improvements transfer to a Boston Dynamics Spot robot initialized with a set of skills (specified in language) and associated preconditions, where CAPE improves the correctness metric of the executed task plans by 76.49% compared to SayCan. Our approach enables the robot to follow natural language commands and robustly recover from failures, which baseline approaches largely cannot resolve or address inefficiently.
翻訳日:2024-03-13 17:59:41 公開日:2024-03-09
# オンライン変更点検出のためのニューラルネットワークによるCUSUM

Neural network-based CUSUM for online change-point detection ( http://arxiv.org/abs/2210.17312v6 )

ライセンス: Link先を確認
Tingnan Gong, Junghwan Lee, Xiuyuan Cheng, Yao Xie(参考訳) 逐次データからデータ分布の急変を検出する変化点検出は、統計学や機械学習における根本的な問題である。 CUSUMは、再帰的計算と一定のメモリ要求から効率よくオンライン変更点検出を行うための一般的な統計手法であり、統計的最適性を持っている。 CUSUMは、変更前と変更後の正確な分布を知る必要がある。 しかし、変遷後の分布は、通常、異常と新規性を表すため、事前性が不明である。 従来のCUSUMは、実際のデータとモデルミスマッチがある場合、性能が良くない。 確率比に基づく手法は高次元データに直面する課題に直面するが、ニューラルネットワークは計算効率とスケーラビリティを備えた変化点検出の新たなツールになりつつある。 本稿では,オンライン変更点検出のためのニューラルネットワークCUSUM(NN-CUSUM)を提案する。 また、トレーニングされたニューラルネットワークが変化点検出を行い、損失が目標を達成する場合の一般的な理論的条件を示す。 平均ラン長(ARL)や予測検出遅延(EDD)など,標準的なパフォーマンス指標の学習保証を確立するために,ニューラルタンジェントカーネル理論と組み合わせることで,分析をさらに拡張する。 NN-CUSUMの強靭な性能は、合成データと実世界のデータの両方を用いて高次元データの変化点を検出する。

Change-point detection, detecting an abrupt change in the data distribution from sequential data, is a fundamental problem in statistics and machine learning. CUSUM is a popular statistical method for online change-point detection due to its efficiency from recursive computation and constant memory requirement, and it enjoys statistical optimality. CUSUM requires knowing the precise pre- and post-change distribution. However, post-change distribution is usually unknown a priori since it represents anomaly and novelty. Classic CUSUM can perform poorly when there is a model mismatch with actual data. While likelihood ratio-based methods encounter challenges facing high dimensional data, neural networks have become an emerging tool for change-point detection with computational efficiency and scalability. In this paper, we introduce a neural network CUSUM (NN-CUSUM) for online change-point detection. We also present a general theoretical condition when the trained neural networks can perform change-point detection and what losses can achieve our goal. We further extend our analysis by combining it with the Neural Tangent Kernel theory to establish learning guarantees for the standard performance metrics, including the average run length (ARL) and expected detection delay (EDD). The strong performance of NN-CUSUM is demonstrated in detecting change-point in high-dimensional data using both synthetic and real-world data.
翻訳日:2024-03-13 17:58:56 公開日:2024-03-09
# Text2Model:ゼロショット画像分類のためのテキストベースモデル誘導

Text2Model: Text-based Model Induction for Zero-shot Image Classification ( http://arxiv.org/abs/2210.15182v2 )

ライセンス: Link先を確認
Ohad Amosy, Tomer Volk, Eilam Shapira, Eyal Ben-David, Roi Reichart and Gal Chechik(参考訳) テキスト記述のみを用いてタスク非依存の分類器を構築することの課題に対処し、画像分類、3Dポイントクラウド分類、シーンからのアクション認識に対する統一的なアプローチを示す。 出力クラスの固定表現を学習するアプローチとは異なり、クエリ分類タスクに適合したモデルを推論時に生成する。 タスクベースのゼロショット分類器を生成するために,クラス記述を受信し,マルチクラスモデルを出力するハイパーネットワークを訓練する。 ハイパーネットワークは記述の集合や分類層に対して同変的に設計されており、この問題の対称性に従い一般化を改善する。 提案手法は非線形分類器を生成し,リッチテキスト記述を扱える。 本手法は,画像,ポイントクラウド,アクション認識などのゼロショット分類タスクにおいて,単一単語からリッチ記述まで,さまざまなテキスト記述を用いて評価する。 以上の結果から,ゼロショット学習を学習データに応用できることが示唆された。 さらに、基礎的なビジョンと言語モデルを用いて分析を行い、クラスに欠けている属性を記述する際に、一般化に苦慮していることを示す。

We address the challenge of building task-agnostic classifiers using only text descriptions, demonstrating a unified approach to image classification, 3D point cloud classification, and action recognition from scenes. Unlike approaches that learn a fixed representation of the output classes, we generate at inference time a model tailored to a query classification task. To generate task-based zero-shot classifiers, we train a hypernetwork that receives class descriptions and outputs a multi-class model. The hypernetwork is designed to be equivariant with respect to the set of descriptions and the classification layer, thus obeying the symmetries of the problem and improving generalization. Our approach generates non-linear classifiers and can handle rich textual descriptions. We evaluate this approach in a series of zero-shot classification tasks, for image, point-cloud, and action recognition, using a range of text descriptions: From single words to rich descriptions. Our results demonstrate strong improvements over previous approaches, showing that zero-shot learning can be applied with little training data. Furthermore, we conduct an analysis with foundational vision and language models, demonstrating that they struggle to generalize when describing what attributes the class lacks.
翻訳日:2024-03-13 17:58:33 公開日:2024-03-09
# 機械学習を活用したコース割り当て

Machine Learning-Powered Course Allocation ( http://arxiv.org/abs/2210.00954v3 )

ライセンス: Link先を確認
Ermis Soumalias, Behnoosh Zamanlooy, Jakob Weissteiner and Sven Seuken(参考訳) 大学が授業スケジュールを学生に割り当てるコース割り当て問題について検討する。 現在の最先端のメカニズムであるコースマッチには、大きな欠点がある。生徒が自分の好みを報告する際に重大な間違いを犯し、それが福祉や公平に悪影響を及ぼす。 この問題に対処するため,MLCM(Machine Learning-powered Course Match)という新しいメカニズムを導入する。 mlcmの中核は、機械学習による選好誘発モジュールであり、学生の報告ミスを軽減するために、パーソナライズされたペアによる比較クエリを反復的に要求する。 実世界データに基づく広範囲な計算実験により, mlcmは, 比較クエリが10回に過ぎず, 学生の有効利用率を7%-11%, および17%-29%向上させた。 最後に,環境変化に対するmlcmの頑健性を強調し,我々の設計がmlcmへのアップグレードのリスクを最小化するとともに,大学へのアップグレードプロセスを簡単にし,学生をシームレスにする方法を示す。

We study the course allocation problem, where universities assign course schedules to students. The current state-of-the-art mechanism, Course Match, has one major shortcoming: students make significant mistakes when reporting their preferences, which negatively affects welfare and fairness. To address this issue, we introduce a new mechanism, Machine Learning-powered Course Match (MLCM). At the core of MLCM is a machine learning-powered preference elicitation module that iteratively asks personalized pairwise comparison queries to alleviate students' reporting mistakes. Extensive computational experiments, grounded in real-world data, demonstrate that MLCM, with only ten comparison queries, significantly increases both average and minimum student utility by 7%-11% and 17%-29%, respectively. Finally, we highlight MLCM's robustness to changes in the environment and show how our design minimizes the risk of upgrading to MLCM while making the upgrade process simple for universities and seamless for their students.
翻訳日:2024-03-13 17:56:30 公開日:2024-03-09
# テンソル場の因子埋め込みのサンプル効率的な学習

Sample Efficient Learning of Factored Embeddings of Tensor Fields ( http://arxiv.org/abs/2209.00372v2 )

ライセンス: Link先を確認
Taemin Heo, Chandrajit Bajaj(参考訳) 順序 2 以上のデータテンソルが日常的に生成されるようになった。 これらのデータ収集はますます大きくなりつつある。 多くの科学データテンソルや医学データテンソルはテンソル場(画像、ビデオ、地理データなど)であり、空間近傍には重要な情報が含まれている。 このような大規模なデータテンソルコレクションに直接アクセスすることは、ますます禁じられている。 我々は、テンソル場のコンパクト空間、時間およびスペクトル埋め込みを提供する非共有表現を用いた近似フルランクおよびコンパクトテンソルスケッチを学習する。 元のテンソル場における全ての情報クエリと後処理は、潜在生成空間におけるこれらのコンパクトなファクタ付きスケッチで実行されるように、より効率的かつカスタマイズ可能な精度で達成できる。 テンソルスライスのサンプル効率のよい部分サンプリングからコンパクトな因子行列を構築し,任意の順序データテンソルの rank-r sketchy tucker 分解を最適化する。 提案手法は,共役前駆体を用いたディリクレ分布を用いた適応確率トンプソンサンプリングにより学習した。

Data tensors of orders 2 and greater are now routinely being generated. These data collections are increasingly huge and growing. Many scientific and medical data tensors are tensor fields (e.g., images, videos, geographic data) in which the spatial neighborhood contains important information. Directly accessing such large data tensor collections for information has become increasingly prohibitive. We learn approximate full-rank and compact tensor sketches with decompositive representations providing compact space, time and spectral embeddings of tensor fields. All information querying and post-processing on the original tensor field can now be achieved more efficiently and with customizable accuracy as they are performed on these compact factored sketches in latent generative space. We produce optimal rank-r sketchy Tucker decomposition of arbitrary order data tensors by building compact factor matrices from a sample-efficient sub-sampling of tensor slices. Our sample efficient policy is learned via an adaptable stochastic Thompson sampling using Dirichlet distributions with conjugate priors.
翻訳日:2024-03-13 17:56:14 公開日:2024-03-09
# 対話型ボリュームセグメンテーションにおけるサイクル一貫性学習の探索

Exploring Cycle Consistency Learning in Interactive Volume Segmentation ( http://arxiv.org/abs/2303.06493v2 )

ライセンス: Link先を確認
Qin Liu, Meng Zheng, Benjamin Planche, Zhongpai Gao, Terrence Chen, Marc Niethammer, and Ziyan Wu(参考訳) 自動的な医療ボリュームセグメンテーションは、しばしば臨床精度を欠き、さらなる改善を必要とする。 本研究では,2つの分離モジュールによる医学的ボリュームセグメンテーション(interaction-to-segmentation)とセグメンテーション伝播(segmentation propagation)に対話的にアプローチする。 医療ボリュームが与えられたら、ユーザはまず対話モジュールを介してスライス(またはいくつかのスライス)を分割し、残りのスライスにセグメンテーション(s)を伝搬する。 十分なボリュームセグメンテーション品質が達成されるまで、ユーザはこのプロセスを何度も繰り返すことができる。 しかし, 伝搬中の人為的補正の欠如により, 中間スライスにセグメンテーション誤差が蓄積しやすくなり, 準最適性能につながる可能性がある。 この問題を緩和するために、開始スライス中の正確なセグメンテーションを参照することにより中間セグメンテーションを規則化する、単純で効果的なサイクル整合損失を提案する。 この目的のために,同じ伝搬ネットワークを用いて中間セグメント化を開始スライスに戻す後方セグメント化経路を導入する。 サイクル整合性トレーニングでは、伝播ネットワークは標準のフォワードオンリーのトレーニングアプローチよりも規則化された。 また,AbdomenCT-1KとOAI-ZIBデータセットを用いた評価の結果,本手法の有効性を示した。

Automatic medical volume segmentation often lacks clinical accuracy, necessitating further refinement. In this work, we interactively approach medical volume segmentation via two decoupled modules: interaction-to-segmentation and segmentation propagation. Given a medical volume, a user first segments a slice (or several slices) via the interaction module and then propagates the segmentation(s) to the remaining slices. The user may repeat this process multiple times until a sufficiently high volume segmentation quality is achieved. However, due to the lack of human correction during propagation, segmentation errors are prone to accumulate in the intermediate slices and may lead to sub-optimal performance. To alleviate this issue, we propose a simple yet effective cycle consistency loss that regularizes an intermediate segmentation by referencing the accurate segmentation in the starting slice. To this end, we introduce a backward segmentation path that propagates the intermediate segmentation back to the starting slice using the same propagation network. With cycle consistency training, the propagation network is better regularized than in standard forward-only training approaches. Evaluation results on challenging AbdomenCT-1K and OAI-ZIB datasets demonstrate the effectiveness of our method.
翻訳日:2024-03-13 17:49:47 公開日:2024-03-09
# 非共有多センターデータセットに基づく統計モデル推定のためのベイズ連立推論

Bayesian Federated Inference for estimating Statistical Models based on Non-shared Multicenter Data sets ( http://arxiv.org/abs/2302.07677v2 )

ライセンス: Link先を確認
Marianne A. Jonker, Hassan Pazira, Anthony CC Coolen(参考訳) 多変量解析によって利子結果の予測因子を特定することは、データセットが小さい場合、しばしば難しい。 異なる医療センターからのデータを単一の(より大きな)データベースに組み込むことでこの問題が軽減されるが、実際には規制とロジスティックの問題のために困難である。 Federated Learning(FL)は、データセットがマージされた場合に推論されたであろう、別のデータセンターのローカル推論から構築することを目的とした機械学習アプローチである。 実際にデータを生成することなく、より大きなデータセットの統計力を収集しようとしている。 FL戦略は必ずしも効率的で正確ではない。 そこで本稿では,FLと同じ目的のマルチセンターデータに対して,ベイズ連邦推論(BFI)フレームワークを改良し,実装する。 BFIフレームワークは、最適なパラメータ値だけでなく、後続パラメータ分布の付加的な特徴を局所的に推測することで、小さなデータセットに対処するように設計されている。 BFIには、中心をまたいだ単一の推論サイクルが十分であるという利点があるが、FLには複数のサイクルが必要である。 シミュレーションおよび実生活データに基づいて提案手法の性能を定量化する。

Identifying predictive factors for an outcome of interest via a multivariable analysis is often difficult when the data set is small. Combining data from different medical centers into a single (larger) database would alleviate this problem, but is in practice challenging due to regulatory and logistic problems. Federated Learning (FL) is a machine learning approach that aims to construct from local inferences in separate data centers what would have been inferred had the data sets been merged. It seeks to harvest the statistical power of larger data sets without actually creating them. The FL strategy is not always efficient and precise. Therefore, in this paper we refine and implement an alternative Bayesian Federated Inference (BFI) framework for multicenter data with the same aim as FL. The BFI framework is designed to cope with small data sets by inferring locally not only the optimal parameter values, but also additional features of the posterior parameter distribution, capturing information beyond what is used in FL. BFI has the additional benefit that a single inference cycle across the centers is sufficient, whereas FL needs multiple cycles. We quantify the performance of the proposed methodology on simulated and real life data.
翻訳日:2024-03-13 17:48:58 公開日:2024-03-09
# fMRIとDTIデータに基づく脳効果コネクトーム:ベイジアン因果学習と評価

Brain Effective Connectome based on fMRI and DTI Data: Bayesian Causal Learning and Assessment ( http://arxiv.org/abs/2302.05451v3 )

ライセンス: Link先を確認
Abdolmahdi Bagheri, Mahdi Dehshiri, Yamin Bagheri, Alireza Akhondi-Asl, Babak Nadjar Araabi(参考訳) 神経科学的研究は、正確で信頼性の高い脳有効コネクトーム(ec)を見つけることを目的としている。 現在の心電図発見法は脳組織の理解に寄与しているが,fMRIデータの短いサンプルサイズと時間分解能,脳コネクトームの高次元性により,その性能は著しく制約されている。 DTIデータを事前の知識として活用することにより、ベイジアンGOLEM(BGOLEM)とベイジアンFGES(BFGES)という2つの因果発見フレームワークを導入し、より正確で信頼性の高いECを提供し、fMRIデータのみに基づくECの発見における既存の因果発見手法の欠点に対処する。 The Human Connectome Project (HCP) subject and synthetic fMRI(Human Connectome Project, HCP) dataの合成とハイブリッド(DTI)に関する一連のシミュレーション研究を通じて,提案手法の有効性を実証した。 実験データを用いたecsの精度向上を数値的に評価するために,まず疑似偽発見率(pseudo false discovery rate, pfdr)を脳内因果発見のための新しい計算精度指標として導入する。 その結果,本手法は従来のhcp法よりも精度が高いことがわかった。 さらに,Rogers-Tanimoto指数を用いて検出されたECの信頼性を測定し,ベイズ法の方が従来の手法よりも再現性が高いことを示す。 本研究の数値的およびグラフィカルな結果は、これらのフレームワークが脳機能や組織に対する理解を深める可能性を明確に示している。

Neuroscientific studies aim to find an accurate and reliable brain Effective Connectome (EC). Although current EC discovery methods have contributed to our understanding of brain organization, their performances are severely constrained by the short sample size and poor temporal resolution of fMRI data, and high dimensionality of the brain connectome. By leveraging the DTI data as prior knowledge, we introduce two Bayesian causal discovery frameworks -- the Bayesian GOLEM (BGOLEM) and Bayesian FGES (BFGES) methods -- that offer significantly more accurate and reliable ECs and address the shortcomings of the existing causal discovery methods in discovering ECs based on only fMRI data. Through a series of simulation studies on synthetic and hybrid (DTI of the Human Connectome Project (HCP) subjects and synthetic fMRI) data, we demonstrate the effectiveness of the proposed methods in discovering EC. To numerically assess the improvement in the accuracy of ECs with our method on empirical data, we first introduce the Pseudo False Discovery Rate (PFDR) as a new computational accuracy metric for causal discovery in the brain. We show that our Bayesian methods achieve higher accuracy than traditional methods on HCP data. Additionally, we measure the reliability of discovered ECs using the Rogers-Tanimoto index for test-retest data and show that our Bayesian methods provide significantly more reproducible ECs than traditional methods. Overall, our study's numerical and graphical results highlight the potential for these frameworks to advance our understanding of brain function and organization significantly.
翻訳日:2024-03-13 17:48:24 公開日:2024-03-09
# 言語理解における神経機能向上のためのクロスモデル比較損失

Cross-Model Comparative Loss for Enhancing Neuronal Utility in Language Understanding ( http://arxiv.org/abs/2301.03765v2 )

ライセンス: Link先を確認
Yunchang Zhu, Liang Pang, Kangxi Wu, Yanyan Lan, Huawei Shen, Xueqi Cheng(参考訳) 現在の自然言語理解(NLU)モデルは、モデルサイズと入力コンテキストの両方の観点から継続的にスケールアップされ、より隠された入力ニューロンが導入されている。 これは概して平均的なパフォーマンスを改善するが、余分なニューロンは全てのインスタンスに対して一貫した改善をもたらすわけではない。 これは、いくつかの隠れたニューロンが冗長であり、入力ニューロンに混ざったノイズがモデルに注意をそらす傾向があるためである。 従来の研究は主に、この問題を避けるために、ネットワークプルーニングやコンテキスト選択といった後処理や前処理を追加することで、低ユーティリティニューロンを極端に削減することに焦点を当てていた。 さらに、各ニューロンの有用性を本質的に強化することにより、冗長パラメータの削減と入力ノイズの抑制が可能であるか? モデルがニューロンを効果的に活用できる場合、どのニューロンが消滅したとしても(無効)、そのサブモデルは元の完全モデルに勝るものでなければならない。 このようなモデル間の比較原理に基づいて,幅広いタスクに対するクロスモデル比較損失を提案する。 比較損失は、基本的に、フルモデルとアブレーションモデルのタスク固有の損失の上位のランキングロスであり、フルモデルのタスク固有の損失は最小であると予想されている。 5つの広く使われている事前学習言語モデルに基づく3つのNLUタスクから14個のデータセットに対する広範な実験を行い、比較損失の普遍的な有効性を示し、パラメータが少ないモデルや長い入力モデルに特に優れていることを示した。

Current natural language understanding (NLU) models have been continuously scaling up, both in terms of model size and input context, introducing more hidden and input neurons. While this generally improves performance on average, the extra neurons do not yield a consistent improvement for all instances. This is because some hidden neurons are redundant, and the noise mixed in input neurons tends to distract the model. Previous work mainly focuses on extrinsically reducing low-utility neurons by additional post- or pre-processing, such as network pruning and context selection, to avoid this problem. Beyond that, can we make the model reduce redundant parameters and suppress input noise by intrinsically enhancing the utility of each neuron? If a model can efficiently utilize neurons, no matter which neurons are ablated (disabled), the ablated submodel should perform no better than the original full model. Based on such a comparison principle between models, we propose a cross-model comparative loss for a broad range of tasks. Comparative loss is essentially a ranking loss on top of the task-specific losses of the full and ablated models, with the expectation that the task-specific loss of the full model is minimal. We demonstrate the universal effectiveness of comparative loss through extensive experiments on 14 datasets from 3 distinct NLU tasks based on 5 widely used pretrained language models and find it particularly superior for models with few parameters or long input.
翻訳日:2024-03-13 17:46:18 公開日:2024-03-09
# 大規模な言語モデルを使ってJUnitテストを生成する:実証的研究

Using Large Language Models to Generate JUnit Tests: An Empirical Study ( http://arxiv.org/abs/2305.00418v4 )

ライセンス: Link先を確認
Mohammed Latif Siddiq, Joanna C. S. Santos, Ridwanul Hasan Tanvir, Noshin Ulfat, Fahmid Al Rifat, Vinicius Carvalho Lopes(参考訳) コード生成モデルは、コードコメント、既存のコード、または両方の組み合わせからプロンプトを受け取り、コードを生成する。 コード生成モデル(GitHub Copilotなど)が実際に採用されているが、Javaのような強く型付けされた言語を微調整することなく、ユニットテスト生成にうまく使えるかどうかは不明だ。 このギャップを埋めるために,我々は3つのモデル(Codex, GPT-3.5-Turbo, StarCoder)がどの程度単体テストを生成するかを検討した。 HumanEval と Evosuite SF110 の2つのベンチマークを用いて、コンテキスト生成が単体テスト生成プロセスに与える影響を調べた。 モデルのコンパイル率,テストの正確性,テストカバレッジ,テストの臭いなどに基づいて評価した。 CodexモデルはHumanEvalデータセットの80%以上のカバレッジを達成したが、EvoSuite SF110ベンチマークの2%以上のカバレッジを持つモデルはない。 生成されたテストは、Duplicated AssertsやEmpty Testsといったテストの臭いにも悩まされた。

A code generation model generates code by taking a prompt from a code comment, existing code, or a combination of both. Although code generation models (e.g., GitHub Copilot) are increasingly being adopted in practice, it is unclear whether they can successfully be used for unit test generation without fine-tuning for a strongly typed language like Java. To fill this gap, we investigated how well three models (Codex, GPT-3.5-Turbo, and StarCoder) can generate unit tests. We used two benchmarks (HumanEval and Evosuite SF110) to investigate the effect of context generation on the unit test generation process. We evaluated the models based on compilation rates, test correctness, test coverage, and test smells. We found that the Codex model achieved above 80% coverage for the HumanEval dataset, but no model had more than 2% coverage for the EvoSuite SF110 benchmark. The generated tests also suffered from test smells, such as Duplicated Asserts and Empty Tests.
翻訳日:2024-03-13 17:41:55 公開日:2024-03-09
# 画像間変換のためのスペクトル正規化とデュアルコントラスト正規化

Spectral Normalization and Dual Contrastive Regularization for Image-to-Image Translation ( http://arxiv.org/abs/2304.11319v3 )

ライセンス: Link先を確認
Chen Zhao, Wei-Ling Cai, Zheng Yuan(参考訳) 既存のイメージ・ツー・イメージ(i2i)翻訳手法は,パッチ単位でのコントラスト学習を生成的敵ネットワークに組み込むことで,最先端のパフォーマンスを実現している。 しかしながら、パッチによるコントラスト学習は局所的なコンテンツの類似性のみに焦点を当てるが、生成された画像の品質に影響を与えるグローバル構造制約を無視する。 本稿では,2つのコントラスト正規化とスペクトル正規化に基づく新しい非ペアI2I翻訳フレームワーク,SN-DCRを提案する。 グローバルな構造とテクスチャの整合性を維持するため,異なる深層特徴空間を用いて2つのコントラスト正規化を設計する。 生成した画像のグローバルな構造情報を改善するため、意味的特徴空間における対象領域の実際の画像と類似した生成画像のグローバルな意味構造を構築するために、意味的コントラストロスを定式化する。 画像からテクスチャのスタイルを抽出するためにGram Matricesを使用します。 同様に、生成した画像のグローバルなテクスチャ情報を改善するために、スタイルコントラスト損失を設計する。 さらに,モデルの安定性を高めるため,スペクトル正規化畳み込みネットワークを発生器の設計に用いた。 SN-DCRの有効性を評価するための総合実験を行い,本手法が複数のタスクにおいてSOTAを実現することを示す。

Existing image-to-image (I2I) translation methods achieve state-of-the-art performance by incorporating the patch-wise contrastive learning into Generative Adversarial Networks. However, patch-wise contrastive learning only focuses on the local content similarity but neglects the global structure constraint, which affects the quality of the generated images. In this paper, we propose a new unpaired I2I translation framework based on dual contrastive regularization and spectral normalization, namely SN-DCR. To maintain consistency of the global structure and texture, we design the dual contrastive regularization using different deep feature spaces respectively. In order to improve the global structure information of the generated images, we formulate a semantic contrastive loss to make the global semantic structure of the generated images similar to the real images from the target domain in the semantic feature space. We use Gram Matrices to extract the style of texture from images. Similarly, we design a style contrastive loss to improve the global texture information of the generated images. Moreover, to enhance the stability of the model, we employ the spectral normalized convolutional network in the design of our generator. We conduct comprehensive experiments to evaluate the effectiveness of SN-DCR, and the results prove that our method achieves SOTA in multiple tasks.
翻訳日:2024-03-13 17:41:20 公開日:2024-03-09
# マスタリング記号演算: コンパイルされたニューラルネットワークによる言語モデルの拡張

Mastering Symbolic Operations: Augmenting Language Models with Compiled Neural Networks ( http://arxiv.org/abs/2304.01665v3 )

ライセンス: Link先を確認
Yixuan Weng, Minjun Zhu, Fei Xia, Bin Li, Shizhu He, Kang Liu, Jun Zhao(参考訳) 言語モデル(lms) 決定論的シンボリック推論と規則に基づくタスクを扱う能力は、テキストデータに暗黙的な学習に依存するため、まだ限られている。 我々は,lmsに真のルール理解能力を与えるために,コンパイルされたニューラルネットワーク(conns)を標準のトランスフォーマーアーキテクチャに統合するフレームワーク「neural comprehension」を提案する。 CoNNは、人工的に生成された注意重みを通してルールを明示的にエンコードするように設計されたニューラルネットワークモジュールである。 CoNNモジュールを組み込むことで、Neural Comprehensionフレームワークは、LMがルール集約的なシンボリックタスクを正確かつ堅牢に実行できるようにする。 拡張実験は, シンボル操作における長さ一般化, 効率, 解釈可能性の観点から, 既存の手法よりも優れていることを示す。 さらに、様々なモデルスケールのlmsに適用でき、優れた推論効率を維持しつつ、算術推論タスクにおけるツール呼び出しメソッドを上回っている。 我々の研究は、CNNによる明示的なルール学習とLMにおける暗黙的なパターン学習をシームレスに統一する可能性を強調し、真の象徴的理解能力の道を開いた。

Language models' (LMs) proficiency in handling deterministic symbolic reasoning and rule-based tasks remains limited due to their dependency implicit learning on textual data. To endow LMs with genuine rule comprehension abilities, we propose "Neural Comprehension" - a framework that synergistically integrates compiled neural networks (CoNNs) into the standard transformer architecture. CoNNs are neural modules designed to explicitly encode rules through artificially generated attention weights. By incorporating CoNN modules, the Neural Comprehension framework enables LMs to accurately and robustly execute rule-intensive symbolic tasks. Extensive experiments demonstrate the superiority of our approach over existing techniques in terms of length generalization, efficiency, and interpretability for symbolic operations. Furthermore, it can be applied to LMs across different model scales, outperforming tool-calling methods in arithmetic reasoning tasks while maintaining superior inference efficiency. Our work highlights the potential of seamlessly unifying explicit rule learning via CoNNs and implicit pattern learning in LMs, paving the way for true symbolic comprehension capabilities.
翻訳日:2024-03-13 17:38:56 公開日:2024-03-09
# ガウス過程による非線形PDEのスパースコレスキー分解

Sparse Cholesky Factorization for Solving Nonlinear PDEs via Gaussian Processes ( http://arxiv.org/abs/2304.01294v3 )

ライセンス: Link先を確認
Yifan Chen, Houman Owhadi, Florian Sch\"afer(参考訳) 近年、偏微分方程式(PDE)の解法を自動化する機械学習ベースのアプローチが広く採用されている。 これらのアプローチのうち、ガウス過程(gps)とカーネル法は、その柔軟性、強固な理論的保証、および伝統的な方法との密接な関係からかなりの関心を集めている。 一般非線形PDEの解法を非線形PDE誘導制約を伴う二次最適化問題に変換することができる。 しかし、複雑性のボトルネックは、共分散カーネルのポイントワイズ評価から得られる密集したカーネル行列と、pde制約の結果であり、高速アルゴリズムが不足している \textit{partial derivatives} との計算にある。 本論文の主な目的は,そのような核行列を扱うためのニアリニア複雑性アルゴリズムを提供することである。 本稿では,これらの行列に対するスパース・チョルスキー分解アルゴリズムについて,ポイントワイズと微分測定の新たな順序付けの下でのチョルスキー因子の親和性に基づいて述べる。 近親性は、数値的均質化における因子とgp回帰と基底関数の指数的減衰を直接結びつけることで厳密に正当化される。 次に、Kulback-Leibler分散において最適であるGPのヴェッキア近似を用いて近似係数を計算する。 これにより、空間上の複雑性 $o(n\log^d(n/\epsilon))$ と時間内に $o(n\log^{2d}(n/\epsilon))$ を持つカーネル行列の逆コレスキー係数を計算できる。 スパースチョレスキー分解を最適化アルゴリズムに統合し、非線形PDEの高速解法を得る。 非線形楕円型, バーガー型, モンジュアンプ型といった幅広い非線形pdesに対して, アルゴリズムの近似空間/時間複雑性を数値的に示す。

In recent years, there has been widespread adoption of machine learning-based approaches to automate the solving of partial differential equations (PDEs). Among these approaches, Gaussian processes (GPs) and kernel methods have garnered considerable interest due to their flexibility, robust theoretical guarantees, and close ties to traditional methods. They can transform the solving of general nonlinear PDEs into solving quadratic optimization problems with nonlinear, PDE-induced constraints. However, the complexity bottleneck lies in computing with dense kernel matrices obtained from pointwise evaluations of the covariance kernel, and its \textit{partial derivatives}, a result of the PDE constraint and for which fast algorithms are scarce. The primary goal of this paper is to provide a near-linear complexity algorithm for working with such kernel matrices. We present a sparse Cholesky factorization algorithm for these matrices based on the near-sparsity of the Cholesky factor under a novel ordering of pointwise and derivative measurements. The near-sparsity is rigorously justified by directly connecting the factor to GP regression and exponential decay of basis functions in numerical homogenization. We then employ the Vecchia approximation of GPs, which is optimal in the Kullback-Leibler divergence, to compute the approximate factor. This enables us to compute $\epsilon$-approximate inverse Cholesky factors of the kernel matrices with complexity $O(N\log^d(N/\epsilon))$ in space and $O(N\log^{2d}(N/\epsilon))$ in time. We integrate sparse Cholesky factorizations into optimization algorithms to obtain fast solvers of the nonlinear PDE. We numerically illustrate our algorithm's near-linear space/time complexity for a broad class of nonlinear PDEs such as the nonlinear elliptic, Burgers, and Monge-Amp\`ere equations.
翻訳日:2024-03-13 17:38:34 公開日:2024-03-09
# 学習に基づく適応最適化による量子近似最適化

Quantum approximate optimization via learning-based adaptive optimization ( http://arxiv.org/abs/2303.14877v3 )

ライセンス: Link先を確認
Lixue Cheng, Yu-Qin Chen, Shi-Xin Zhang, Shengyu Zhang(参考訳) 組合せ最適化問題はユビキタスであり、一般には計算が難しい。 最も代表的な量子古典ハイブリッドアルゴリズムの1つである量子近似最適化アルゴリズム(QAOA)は、離散最適化問題を連続回路パラメータよりも古典的な最適化問題に変換することで組合せ最適化問題を解決するように設計されている。 QAOAの客観的景観は広範に局所的なミニマで悪名高く、その生存性は古典的なオプティマイザの有効性に大きく依存している。 本研究では、QAOAのための二重適応領域ベイズ最適化(DARBO)を設計する。 計算結果から,アルゴリズムは速度,精度,安定性の点で従来の最適化よりも優れていた。 また,超伝導量子プロセッサの完全最適化ループを概念実証として実施することにより,測定効率と量子ノイズ抑制の問題にも対処する。 この研究はqaoaの全力を解き放ち、実用的な古典的タスクにおいて量子優位を達成する道を開くのに役立つ。

Combinatorial optimization problems are ubiquitous and computationally hard to solve in general. Quantum approximate optimization algorithm (QAOA), one of the most representative quantum-classical hybrid algorithms, is designed to solve combinatorial optimization problems by transforming the discrete optimization problem into a classical optimization problem over continuous circuit parameters. QAOA objective landscape is notorious for pervasive local minima, and its viability significantly relies on the efficacy of the classical optimizer. In this work, we design double adaptive-region Bayesian optimization (DARBO) for QAOA. Our numerical results demonstrate that the algorithm greatly outperforms conventional optimizers in terms of speed, accuracy, and stability. We also address the issues of measurement efficiency and the suppression of quantum noise by conducting the full optimization loop on a superconducting quantum processor as a proof of concept. This work helps to unlock the full power of QAOA and paves the way toward achieving quantum advantage in practical classical tasks.
翻訳日:2024-03-13 17:36:55 公開日:2024-03-09
# 多出力ニューラルネットワークの変動空間:マルチタスク学習とネットワーク圧縮に関する考察

Variation Spaces for Multi-Output Neural Networks: Insights on Multi-Task Learning and Network Compression ( http://arxiv.org/abs/2305.16534v2 )

ライセンス: Link先を確認
Joseph Shenouda, Rahul Parhi, Kangwook Lee, Robert D. Nowak(参考訳) 本稿では,ベクトル値変動空間(新しいカーネルバナッハ空間)の開発を通じて,ベクトル値ニューラルネットワークの解析のための新しい理論的枠組みを提案する。 これらの空間は、整流線形単位 (relu) のような活性化を持つトレーニングネットワークにおける重み減衰の正規化効果の研究から生じる。 このフレームワークは、複数出力ネットワークとその関数空間特性をより深く理解する。 この研究の重要な貢献は、ベクトル値変分空間に対する表現子定理の開発である。 この表現型定理は、浅いベクトル値のニューラルネットワークが、ネットワーク幅がトレーニングデータの2乗数で区切られるような、これらの無限次元空間上のデータフィッティング問題の解であることを示すものである。 この観察により、ベクトル値変動空間に関連するノルムが、複数のタスクに有用な特徴の学習を促進し、ニューラルネットワークによるマルチタスク学習に新たな光を当てることが明らかになった。 最後に,重み付き正規化とマルチタスクラッソ問題との関連性について述べる。 この接続は、トレーニングデータ表現の本質的な次元に依存するディープネットワークにおける層幅の新たな境界をもたらす。 この洞察は、ディープネットワークアーキテクチャ要求の理解を深めるだけでなく、ディープニューラルネットワーク圧縮のための単純な凸最適化手法も提供する。 この圧縮手順の性能は様々なアーキテクチャで評価される。

This paper introduces a novel theoretical framework for the analysis of vector-valued neural networks through the development of vector-valued variation spaces, a new class of reproducing kernel Banach spaces. These spaces emerge from studying the regularization effect of weight decay in training networks with activations like the rectified linear unit (ReLU). This framework offers a deeper understanding of multi-output networks and their function-space characteristics. A key contribution of this work is the development of a representer theorem for the vector-valued variation spaces. This representer theorem establishes that shallow vector-valued neural networks are the solutions to data-fitting problems over these infinite-dimensional spaces, where the network widths are bounded by the square of the number of training data. This observation reveals that the norm associated with these vector-valued variation spaces encourages the learning of features that are useful for multiple tasks, shedding new light on multi-task learning with neural networks. Finally, this paper develops a connection between weight-decay regularization and the multi-task lasso problem. This connection leads to novel bounds for layer widths in deep networks that depend on the intrinsic dimensions of the training data representations. This insight not only deepens the understanding of the deep network architectural requirements, but also yields a simple convex optimization method for deep neural network compression. The performance of this compression procedure is evaluated on various architectures.
翻訳日:2024-03-13 17:30:08 公開日:2024-03-09
# 経験的条件付き一貫した最適輸送

Consistent Optimal Transport with Empirical Conditional Measures ( http://arxiv.org/abs/2305.15901v5 )

ライセンス: Link先を確認
Piyushi Manupriya, Rachit Keerti Das, Sayantan Biswas, Saketha Nath Jagarlapudi(参考訳) 2つの連接分布からのサンプルを仮定し,共通変数上での最適輸送(OT)の問題を考える。 条件付き変数が連続であるような一般的な設定に注目し、2つのジョイント分布におけるこの変数の限界は同じではないかもしれない。 このような設定では、標準ot変種は採用できず、新しい推定技術が必要である。 主な課題は条件分布が明確には利用できないことであるが、我々のot定式化における重要なアイデアは、共同サンプル上で計算されたカーネル化されたleast-squares項を、輸送計画の限界と経験的な条件条件とを暗黙的に一致させることである。 軽度条件下では,条件付き変数の関数として推定された輸送計画が漸近的に最適であることを示す。 有限標本に対しては、正規化対象の偏差が$O(1/m^{1/4})$で有界であることを示し、$m$はサンプルの数である。 また,明示的な確率モデルと暗黙的な生成モデルを用いて条件付き輸送計画をモデル化する方法についても論じる。 最適計画が解析的に知られている合成データセット上の推定器の一貫性を実証的に検証する。 治療に対する細胞応答予測の文脈において, プロンプト・ラーニングや条件生成などのアプリケーションで採用すると, 最先端の手法が改善される。

Given samples from two joint distributions, we consider the problem of Optimal Transportation (OT) between them when conditioned on a common variable. We focus on the general setting where the conditioned variable may be continuous, and the marginals of this variable in the two joint distributions may not be the same. In such settings, standard OT variants cannot be employed, and novel estimation techniques are necessary. Since the main challenge is that the conditional distributions are not explicitly available, the key idea in our OT formulation is to employ kernelized-least-squares terms computed over the joint samples, which implicitly match the transport plan's marginals with the empirical conditionals. Under mild conditions, we prove that our estimated transport plans, as a function of the conditioned variable, are asymptotically optimal. For finite samples, we show that the deviation in terms of our regularized objective is bounded by $O(1/m^{1/4})$, where $m$ is the number of samples. We also discuss how the conditional transport plan could be modelled using explicit probabilistic models as well as using implicit generative ones. We empirically verify the consistency of our estimator on synthetic datasets, where the optimal plan is analytically known. When employed in applications like prompt learning for few-shot classification and conditional-generation in the context of predicting cell responses to treatment, our methodology improves upon state-of-the-art methods.
翻訳日:2024-03-13 17:28:54 公開日:2024-03-09
# 弱教師付き物体定位におけるバイアス軽減のための対実的共起学習

Counterfactual Co-occurring Learning for Bias Mitigation in Weakly-supervised Object Localization ( http://arxiv.org/abs/2305.15354v2 )

ライセンス: Link先を確認
Feifei Shao, Yawei Luo, Lei Chen, Ping Liu, Wei Yang, Yi Yang, Jun Xiao(参考訳) 現代の弱教師付きオブジェクトローカライゼーション(WSOL)手法は、主に、最も差別的な領域をローカライズするという課題に対処することに焦点を当てている。 本稿では,バイアスド・アクティベーションの起源を調査するために,徹底的な因果分析を行う。 分析の結果,この現象は共同設立者の存在によるものと考えられた。 この深い洞察に基づいて,前景を共起する背景要素から適切に分離することにより,反事実的表現に細心の注意を払い、共起的学習(ccl)として知られる先駆的パラダイムを導入する。 さらに,CAMと呼ばれる革新的なネットワークアーキテクチャを提案する。 このアーキテクチャは、逆ファクト表現の摂動機構をバニラCAMベースのモデルにシームレスに組み込む。 これらの摂動表現を用いてWSOLモデルをトレーニングすることにより、一貫した前景のコンテンツを優先し、同時に混在する背景の影響を緩和する。 我々の知る限り、本研究は、この研究の方向性の最初の探索を表している。 複数のベンチマークで実施した広範囲な実験により,提案手法の有効性が検証された。

Contemporary weakly-supervised object localization (WSOL) methods have primarily focused on addressing the challenge of localizing the most discriminative region while largely overlooking the relatively less explored issue of biased activation -- incorrectly spotlighting co-occurring background with the foreground feature. In this paper, we conduct a thorough causal analysis to investigate the origins of biased activation. Based on our analysis, we attribute this phenomenon to the presence of co-occurring background confounders. Building upon this profound insight, we introduce a pioneering paradigm known as Counterfactual Co-occurring Learning (CCL), meticulously engendering counterfactual representations by adeptly disentangling the foreground from the co-occurring background elements. Furthermore, we propose an innovative network architecture known as Counterfactual-CAM. This architecture seamlessly incorporates a perturbation mechanism for counterfactual representations into the vanilla CAM-based model. By training the WSOL model with these perturbed representations, we guide the model to prioritize the consistent foreground content while concurrently reducing the influence of distracting co-occurring backgrounds. To the best of our knowledge, this study represents the initial exploration of this research direction. Our extensive experiments conducted across multiple benchmarks validate the effectiveness of the proposed Counterfactual-CAM in mitigating biased activation.
翻訳日:2024-03-13 17:28:13 公開日:2024-03-09
# markov $\alpha$-potential games (英語)

Markov $\alpha$-Potential Games ( http://arxiv.org/abs/2305.12553v5 )

ライセンス: Link先を確認
Xin Guo and Xinyu Li and Chinmay Maheshwari and Shankar Sastry and Manxi Wu(参考訳) 本稿ではマルコフゲームを研究するためのMarkov $\alpha$-potentialゲームの新しいフレームワークを提案する。 この新しいフレームワークでは、マルコフゲームはmarkov $\alpha$-potential gamesであることが示され、関連する$\alpha$-potential関数の存在が確立される。 $\alpha$-potential 関数の任意の最適化子は $\alpha$-stationary NE であることが示される。 実質的に重要なマルコフゲームであるマルコフ混雑ゲームと摂動マルコフチームゲームの2つの重要なクラスは、マルコフ$\alpha$-potential gamesのこの枠組みを通して研究され、上界の$\alpha$の明示的な特徴付けとゲームパラメータとの関係が研究されている。 さらに、半無限線型プログラミングに基づく定式化が示され、任意のマルコフゲームに対して$\alpha$の上限が得られる。 さらに,2つの平衡近似アルゴリズム,すなわち投影勾配上昇アルゴリズムと逐次最大改善アルゴリズムをnashの後悔解析とともに提示し,数値実験により検証した。

This paper proposes a new framework of Markov $\alpha$-potential games to study Markov games. In this new framework, Markov games are shown to be Markov $\alpha$-potential games, and the existence of an associated $\alpha$-potential function is established. Any optimizer of an $\alpha$-potential function is shown to be an $\alpha$-stationary NE. Two important classes of practically significant Markov games, Markov congestion games and the perturbed Markov team games, are studied via this framework of Markov $\alpha$-potential games, with explicit characterization of an upper bound for $\alpha$ and its relation to game parameters. Additionally, a semi-infinite linear programming based formulation is presented to obtain an upper bound for $\alpha$ for any Markov game. Furthermore, two equilibrium approximation algorithms, namely the projected gradient-ascent algorithm and the sequential maximum improvement algorithm, are presented along with their Nash regret analysis, and corroborated by numerical experiments.
翻訳日:2024-03-13 17:27:07 公開日:2024-03-09
# スコアオペレータニュートン輸送

Score Operator Newton transport ( http://arxiv.org/abs/2305.09792v3 )

ライセンス: Link先を確認
Nisha Chandramoorthy, Florian Schaefer and Youssef Marzouk(参考訳) 対象分布のスコアを用いて,与えられた参照分布から対象分布へのトランスポートを構成する,サンプリングおよびベイズ計算のための新しい手法を提案する。 我々のアプローチは、'score-residual'演算子の零点を求める線形PDEを含む無限次元ニュートン法である。 有効な輸送地図に収束するための十分な条件を証明する。 我々のニュートンイテレートは楕円型PDEの高速解法を利用して計算することができ、ベイズ推論やその他のサンプリングタスクのための新しいアルゴリズムがもたらされる。 スコア演算Newtonトランスポートは,モード崩壊を回避しつつ,高速収束を実現する。

We propose a new approach for sampling and Bayesian computation that uses the score of the target distribution to construct a transport from a given reference distribution to the target. Our approach is an infinite-dimensional Newton method, involving a linear PDE, for finding a zero of a ``score-residual'' operator. We prove sufficient conditions for convergence to a valid transport map. Our Newton iterates can be computed by exploiting fast solvers for elliptic PDEs, resulting in new algorithms for Bayesian inference and other sampling tasks. We identify elementary settings where score-operator Newton transport achieves fast convergence while avoiding mode collapse.
翻訳日:2024-03-13 17:26:46 公開日:2024-03-09
# クラス増分学習のための予測誤差に基づく分類

Prediction Error-based Classification for Class-Incremental Learning ( http://arxiv.org/abs/2305.18806v2 )

ライセンス: Link先を確認
Micha{\l} Zaj\k{a}c, Tinne Tuytelaars, Gido M. van de Ven(参考訳) class-incremental learning (cil) は、インクリメンタルな方法で提示されるすべてのクラスを識別することを学ぶことを目的とした、継続学習の特に難しい変種である。 既存のアプローチは、トレーニング中に一緒に見られなかったクラスに割り当てられたスコアの過度な忘れと不均衡に苦しむことが多い。 本研究では,従来の識別的・生成的分類パラダイムとは異なる予測誤りに基づく分類法(PEC)を提案する。 PECは、そのクラスのデータ上で凍結ランダムニューラルネットワークの出力を複製するために訓練されたモデルの予測誤差を測定することで、クラススコアを算出する。 この方法はガウス過程の後方分散に基づく分類規則の近似として解釈できる。 PECは、サンプル効率、チューニングの容易さ、データを一度に1つのクラスに提示しても有効性など、いくつかの実用的な利点を提供している。 実験の結果,PECはシングルパススルーデータCILにおいて高い性能を示し,全てのケースにおいて他のリハーサルフリーベースラインよりも優れており,多くのベンチマークにおいて中程度のリプレイバッファサイズを持つリハーサルベースメソッドよりも優れていた。

Class-incremental learning (CIL) is a particularly challenging variant of continual learning, where the goal is to learn to discriminate between all classes presented in an incremental fashion. Existing approaches often suffer from excessive forgetting and imbalance of the scores assigned to classes that have not been seen together during training. In this study, we introduce a novel approach, Prediction Error-based Classification (PEC), which differs from traditional discriminative and generative classification paradigms. PEC computes a class score by measuring the prediction error of a model trained to replicate the outputs of a frozen random neural network on data from that class. The method can be interpreted as approximating a classification rule based on Gaussian Process posterior variance. PEC offers several practical advantages, including sample efficiency, ease of tuning, and effectiveness even when data are presented one class at a time. Our empirical results show that PEC performs strongly in single-pass-through-data CIL, outperforming other rehearsal-free baselines in all cases and rehearsal-based methods with moderate replay buffer size in most cases across multiple benchmarks.
翻訳日:2024-03-13 17:19:20 公開日:2024-03-09
# スイッチ付き構造物の最適ベクトル化:高効率畳み込みチャネル-スイッチハイブリダイゼーション戦略

Optimized Vectorizing of Building Structures with Switch: High-Efficiency Convolutional Channel-Switch Hybridization Strategy ( http://arxiv.org/abs/2306.15035v2 )

ライセンス: Link先を確認
Moule Lin, Weipeng Jing, Chao Li and Andr\'as Jung(参考訳) コンピュータビジョンとジオインフォマティクスの領域にある建物平面グラフの再構築、すなわち足跡の再構築は、従来の畳み込みモデルにおける冗長なパラメータの課題に長い間悩まされてきた。 そこで,本稿では,高次元畳み込み操作に似た局所特徴空間情報を統合するために,類似機能を維持しながら非指数成長パラメータを組み込んだ,高度かつ適応的なシフトアーキテクチャ,すなわちスイッチ演算子を提案する。 スイッチ演算子、クロスチャネル操作、アーキテクチャはxor操作を実装し、隣接または対角的な特徴を交互に交換し、1x1畳み込み操作で交互にチャンネルをブレンドし、異なるチャネルからの情報を統合する。 一方、SwitchNNアーキテクチャでは、畳み込みニューラルネットワークプロセスにインスパイアされたグループベースのパラメータ共有機構を導入し、パラメータの数を著しく削減している。 提案したアプローチは、ロサンゼルス、ラスベガス、パリの各都市に2,001の建物がある公開データセットであるSpaceNet corpusでの実験を通じて検証しました。 本研究では,2次元建築画像から平面グラフを再構成する手法の有効性を示す。

The building planar graph reconstruction, a.k.a. footprint reconstruction, which lies in the domain of computer vision and geoinformatics, has been long afflicted with the challenge of redundant parameters in conventional convolutional models. Therefore, in this letter, we proposed an advanced and adaptive shift architecture, namely the Switch operator, which incorporates non-exponential growth parameters while retaining analogous functionalities to integrate local feature spatial information, resembling a high-dimensional convolution operation. The Switch operator, cross-channel operation, architecture implements the XOR operation to alternately exchange adjacent or diagonal features, and then blends alternating channels through a 1x1 convolution operation to consolidate information from different channels. The SwitchNN architecture, on the other hand, incorporates a group-based parameter-sharing mechanism inspired by the convolutional neural network process and thereby significantly reducing the number of parameters. We validated our proposed approach through experiments on the SpaceNet corpus, a publicly available dataset annotated with 2,001 buildings across the cities of Los Angeles, Las Vegas, and Paris. Our results demonstrate the effectiveness of this innovative architecture in building planar graph reconstruction from 2D building images.
翻訳日:2024-03-13 17:11:13 公開日:2024-03-09
# TransERR:効率的な関係回転による知識グラフ埋め込み

TransERR: Translation-based Knowledge Graph Embedding via Efficient Relation Rotation ( http://arxiv.org/abs/2306.14580v2 )

ライセンス: Link先を確認
Jiang Li and Xiangdong Su and Fujun Zhang and Guanglai Gao(参考訳) 本稿では,従来の翻訳型知識グラフ埋め込みモデルに対して,効率の良い関係回転(TransERR)を用いた翻訳型知識グラフ埋め込み手法を提案する。 従来の翻訳ベースモデルとは異なり、TransERRは超複素数値空間の知識グラフを符号化し、頭と尾のエンティティ間の潜伏情報をマイニングする際の翻訳の自由度を高める。 さらに翻訳距離を最小化するため、TransERRは、モデルのトレーニングで学習可能な、対応する単位四元数でヘッドエンティティとテールエンティティを適応的に回転させる。 また, 対称性, 反対称性, 逆転, 組成, 部分関係パターンなど, 様々な関係パターンをモデル化するTransERRの能力を示す数学的証明も提供する。 10のベンチマークデータセットの実験は、TransERRの有効性と一般化を検証する。 結果は、TransERRが以前の翻訳ベースモデルよりも少ないパラメータで大規模データセットをエンコードできることを示している。 私たちのコードとデータセットは、~\url{https://github.com/dellixx/TransERR}で利用可能です。

This paper presents a translation-based knowledge geraph embedding method via efficient relation rotation (TransERR), a straightforward yet effective alternative to traditional translation-based knowledge graph embedding models. Different from the previous translation-based models, TransERR encodes knowledge graphs in the hypercomplex-valued space, thus enabling it to possess a higher degree of translation freedom in mining latent information between the head and tail entities. To further minimize the translation distance, TransERR adaptively rotates the head entity and the tail entity with their corresponding unit quaternions, which are learnable in model training. We also provide mathematical proofs to demonstrate the ability of TransERR in modeling various relation patterns, including symmetry, antisymmetry, inversion, composition, and subrelation patterns. The experiments on 10 benchmark datasets validate the effectiveness and the generalization of TransERR. The results also indicate that TransERR can better encode large-scale datasets with fewer parameters than the previous translation-based models. Our code and datasets are available at~\url{https://github.com/dellixx/TransERR}.
翻訳日:2024-03-13 17:10:52 公開日:2024-03-09
# コンセンサスによる協調的分散ベイズ最適化:最適な設計のための協調の力を示す

Collaborative and Distributed Bayesian Optimization via Consensus: Showcasing the Power of Collaboration for Optimal Design ( http://arxiv.org/abs/2306.14348v2 )

ライセンス: Link先を確認
Xubo Yue, Raed Al Kontar, Albert S. Berahas, Yang Liu, Blake N. Johnson(参考訳) 最適設計は多くのアプリケーションにおいて重要な課題である。 この課題は広範囲な試行錯誤が必要であり、しばしばシミュレーションやフィールド実験を通じて行われる。 幸いなことに、ベイズ風味のサロゲートを使用する際にベイズ最適化とも呼ばれるシーケンシャル最適設計は、効率的なシーケンシャルサンプリング戦略を通じて設計プロセスの加速に重要な役割を果たしている。 しかし、現在では重要な機会が存在している。 エッジデバイスの接続性が高まり、ベイズ最適化のための新しいコラボレーティブパラダイムが確立された。 最適な設計プロセスを改善し、迅速に追跡するために、実験を効果的に分散することで、異なるクライアントが互いに協力して力を借りるパラダイム。 この目的のために、我々はベイズ最適化にコンセンサスの概念をもたらし、クライアントは次のサンプル設計で合意する(すなわちコンセンサスに達する)。 私たちのアプローチは、異なるコラボレーションメカニズムを組み込める汎用的で柔軟なフレームワークを提供します。 これの代わりに、私たちは、クライアントが当初、スキャンされたデータで早期に操作するために、より多くのクライアントに依存する過渡的協調メカニズムを提案し、そして、後期には、クライアント固有のソリューションを得るために、それぞれの目標に焦点を当てる。 理論的には,提案フレームワークに対する後悔のサブ線形成長を示す。 実験により,シミュレーションデータセットと実世界の協調センサ設計実験を通じて,我々のフレームワークが最適な設計プロセスを効果的に加速し,改善し,すべての参加者に利益をもたらすことを示す。

Optimal design is a critical yet challenging task within many applications. This challenge arises from the need for extensive trial and error, often done through simulations or running field experiments. Fortunately, sequential optimal design, also referred to as Bayesian optimization when using surrogates with a Bayesian flavor, has played a key role in accelerating the design process through efficient sequential sampling strategies. However, a key opportunity exists nowadays. The increased connectivity of edge devices sets forth a new collaborative paradigm for Bayesian optimization. A paradigm whereby different clients collaboratively borrow strength from each other by effectively distributing their experimentation efforts to improve and fast-track their optimal design process. To this end, we bring the notion of consensus to Bayesian optimization, where clients agree (i.e., reach a consensus) on their next-to-sample designs. Our approach provides a generic and flexible framework that can incorporate different collaboration mechanisms. In lieu of this, we propose transitional collaborative mechanisms where clients initially rely more on each other to maneuver through the early stages with scant data, then, at the late stages, focus on their own objectives to get client-specific solutions. Theoretically, we show the sub-linear growth in regret for our proposed framework. Empirically, through simulated datasets and a real-world collaborative sensor design experiment, we show that our framework can effectively accelerate and improve the optimal design process and benefit all participants.
翻訳日:2024-03-13 17:10:33 公開日:2024-03-09
# 自己蒸留マスク式オートエンコーダは効率的なビデオ異常検出装置である

Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors ( http://arxiv.org/abs/2306.12041v2 )

ライセンス: Link先を確認
Nicolae-Catalin Ristea, Florinel-Alin Croitoru, Radu Tudor Ionescu, Marius Popescu, Fahad Shahbaz Khan, Mubarak Shah(参考訳) ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。 提案モデルの新規性は3倍である。 まず,動き勾配に基づくウェイトトークンのアプローチを導入することで,フォーカスを静的背景シーンからフォアグラウンドオブジェクトにシフトさせる。 第2に,教師用デコーダと学生用デコーダをアーキテクチャに統合し,2つのデコーダの出力間の不一致を利用して異常検出を改善した。 第3に,トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いて原フレームと対応する画素レベルの異常マップを共同で再構築する。 提案手法は,街路,上海技術,UBnormal,UCSD Ped2の4つのベンチマークで実施した大規模な実験によって実証された。 実験の結果,1655 FPSを処理しながら,速度と精度の優れたトレードオフを実現し,競合するAUCスコアを得ることができた。 したがって、我々のモデルは競合する手法の8倍から70倍高速である。 デザインを正当化するためのアブレーション研究も行います。 私たちのコードは、https://github.com/ristea/aed-mae.comで無料で利用可能です。

We propose an efficient abnormal event detection model based on a lightweight masked auto-encoder (AE) applied at the video frame level. The novelty of the proposed model is threefold. First, we introduce an approach to weight tokens based on motion gradients, thus shifting the focus from the static background scene to the foreground objects. Second, we integrate a teacher decoder and a student decoder into our architecture, leveraging the discrepancy between the outputs given by the two decoders to improve anomaly detection. Third, we generate synthetic abnormal events to augment the training videos, and task the masked AE model to jointly reconstruct the original frames (without anomalies) and the corresponding pixel-level anomaly maps. Our design leads to an efficient and effective model, as demonstrated by the extensive experiments carried out on four benchmarks: Avenue, ShanghaiTech, UBnormal and UCSD Ped2. The empirical results show that our model achieves an excellent trade-off between speed and accuracy, obtaining competitive AUC scores, while processing 1655 FPS. Hence, our model is between 8 and 70 times faster than competing methods. We also conduct an ablation study to justify our design. Our code is freely available at: https://github.com/ristea/aed-mae.
翻訳日:2024-03-13 17:09:33 公開日:2024-03-09
# 共形予測集合の期待サイズについて

On the Expected Size of Conformal Prediction Sets ( http://arxiv.org/abs/2306.07254v3 )

ライセンス: Link先を確認
Guneet S. Dhillon and George Deligiannidis and Tom Rainforth(参考訳) 共形予測器は誤差周波数に対する厳密な統計的保証の利点を享受するが、それに対応する予測セットのサイズは実用上重要である。 残念ながら、現在有限サンプル解析が欠如しており、予測セットのサイズが保証されている。 この欠点に対処するため、我々は分割共形予測フレームワークの下で予測セットの予測サイズを理論的に定量化する。 この正確な定式化は通常は直接計算できないため、経験的に計算できる点推定と高確率区間境界を導出し、期待される設定サイズを特徴づける実用的な方法を提供する。 回帰と分類の両問題に対する実世界のデータセットを用いた実験により,結果の有効性を裏付ける。

While conformal predictors reap the benefits of rigorous statistical guarantees on their error frequency, the size of their corresponding prediction sets is critical to their practical utility. Unfortunately, there is currently a lack of finite-sample analysis and guarantees for their prediction set sizes. To address this shortfall, we theoretically quantify the expected size of the prediction sets under the split conformal prediction framework. As this precise formulation cannot usually be calculated directly, we further derive point estimates and high-probability interval bounds that can be empirically computed, providing a practical method for characterizing the expected set size. We corroborate the efficacy of our results with experiments on real-world datasets for both regression and classification problems.
翻訳日:2024-03-13 17:08:12 公開日:2024-03-09
# エラーフィードバックはプリコンディショナーを正確に圧縮できる

Error Feedback Can Accurately Compress Preconditioners ( http://arxiv.org/abs/2306.06098v4 )

ライセンス: Link先を確認
Ionut-Vlad Modoranu, Aleksei Kalinov, Eldar Kurtic, Elias Frantar, Dan Alistarh(参考訳) ディープネットワークのスケールにおける損失に関する2次情報を活用することは、ディープラーニングのための現在の最適化器のパフォーマンスを改善するための主要なアプローチの1つです。 しかし、フルマトリクスアダグラード (ggt) やマトリクスフリー近似曲率 (m-fac) のような、正確なフルマトリクスプリコンディショニングのための既存のアプローチは、モデル次元でメモリ要求が乗算されるような勾配のスライディングウィンドウを格納しなければならないため、小規模モデルでも大きなストレージコストがかかる。 本稿では, コンバージェンスを損なうことなく, 実用上最大2桁の圧縮プリコンディショナーに適用可能な, 新規かつ効率的なエラーフィードバック手法を用いてこの問題に対処する。 具体的には、スペーシフィケーションや低ランク圧縮 \emph{before} を用いて勾配情報をプレコンディショナーに入力し、圧縮誤差を将来の繰り返しにフィードバックする。 ディープニューラルネットワークの実験により、このアプローチは完全行列プレコンディショナーを精度損失なく99\%まで圧縮することができ、GGTやM-FACのような完全行列プレコンディショナーのメモリオーバーヘッドを効果的に除去できることが示された。 私たちのコードは \url{https://github.com/IST-DASLab/EFCP} で利用可能です。

Leveraging second-order information about the loss at the scale of deep networks is one of the main lines of approach for improving the performance of current optimizers for deep learning. Yet, existing approaches for accurate full-matrix preconditioning, such as Full-Matrix Adagrad (GGT) or Matrix-Free Approximate Curvature (M-FAC) suffer from massive storage costs when applied even to small-scale models, as they must store a sliding window of gradients, whose memory requirements are multiplicative in the model dimension. In this paper, we address this issue via a novel and efficient error-feedback technique that can be applied to compress preconditioners by up to two orders of magnitude in practice, without loss of convergence. Specifically, our approach compresses the gradient information via sparsification or low-rank compression \emph{before} it is fed into the preconditioner, feeding the compression error back into future iterations. Experiments on deep neural networks show that this approach can compress full-matrix preconditioners to up to 99\% sparsity without accuracy loss, effectively removing the memory overhead of full-matrix preconditioners such as GGT and M-FAC. Our code is available at \url{https://github.com/IST-DASLab/EFCP}.
翻訳日:2024-03-13 17:07:12 公開日:2024-03-09
# Qubit と Cavity の分散非相互性

Dispersive Non-reciprocity between a Qubit and a Cavity ( http://arxiv.org/abs/2307.05298v3 )

ライセンス: Link先を確認
Ying-Ying Wang, Yu-Xin Wang, Sean van Geldern, Thomas Connolly, Aashish A. Clerk, Chen Wang(参考訳) 量子ビットとキャビティの間の分散相互作用は、回路とキャビティ量子電磁力学においてユビキタスである。 これは一方の量子モードの周波数シフトを、もう一方の励起に応答して記述し、閉系では必然的に双方向である。 本稿では,トランモン量子ビットと超伝導空洞の非相互分散型相互作用を,時間反転対称性の破れた共役結合から散逸中間モードへ誘導する実験的検討を行った。 In situにおけるフェライト成分の磁場バイアスを調整することにより、非対称周波数プルや光子ショットノイズ除去を含む量子キャビティダイナミクスを様々な非相互性の下で特徴付ける。 さらに, キュービット・キャビティのダイナミクスは, 中間系の複雑な力学を十分に理解することなく, 非相互相互作用のコンパクトな記述を提供する, 単純な非相互主方程式モデルにより, 広いパラメータ体系で適切に記述されていることを示す。 この結果は、非エルミートハミルトン系とカスケード系の典型的なパラダイムを超えた量子非相反現象の例を提供する。

The dispersive interaction between a qubit and a cavity is ubiquitous in circuit and cavity quantum electrodynamics. It describes the frequency shift of one quantum mode in response to excitations in the other, and in closed systems is necessarily bidirectional, i.e.~reciprocal. Here, we present an experimental study of a non-reciprocal dispersive-type interaction between a transmon qubit and a superconducting cavity, arising from a common coupling to dissipative intermediary modes with broken time reversal symmetry. We characterize the qubit-cavity dynamics, including asymmetric frequency pulls and photon shot-noise dephasing, under varying degrees of non-reciprocity by tuning the magnetic field bias of a ferrite component in situ. Furthermore, we show that the qubit-cavity dynamics is well-described in a wide parameter regime by a simple non-reciprocal master-equation model, which provides a compact description of the non-reciprocal interaction without requiring a full understanding of the complex dynamics of the intermediary system. Our result provides an example of quantum non-reciprocal phenomena beyond the typical paradigms of non-Hermitian Hamiltonians and cascaded systems.
翻訳日:2024-03-13 16:59:57 公開日:2024-03-09
# 単一例による可視・赤外線自己監督核融合

Visible and infrared self-supervised fusion trained on a single example ( http://arxiv.org/abs/2307.04100v2 )

ライセンス: Link先を確認
Nati Ofir and Jean-Christophe Nebel(参考訳) マルチスペクトルイメージングは画像処理やコンピュータビジョンの重要なタスクであり、特にデハジングや物体検出などのアプリケーションに関連している。 RGBT(RGB & Thermal)センサの開発により、近赤外(NIR)画像融合への可視(RGB)の問題点が特にタイムリーになった。 実際、可視光画像は色が見えるが、ノイズ、ヘイズ、雲に悩まされているが、NIRチャンネルはより鮮明な画像をキャプチャする。 提案手法は,1つの例で自己監視学習(SSL)による畳み込みニューラルネットワークをトレーニングすることにより,これら2つのチャネルを融合する。 RGBとNIRの各ペアに対して、ネットワークは最終核融合を推定するために数秒間訓練される。 SSLは、SSLのラベルが入力チャネル自身である、類似構造とエッジ保存損失の比較に基づいている。 この融合は、重い訓練プロセスに頼ることなく、各スペクトルチャネルの関連する詳細を保持する。 実験により、提案手法は、重いトレーニングや大規模データセットに依存しない他の最先端手法よりも、質的あるいは定量的なマルチスペクトル融合結果を達成することが示されている。

Multispectral imaging is an important task of image processing and computer vision, which is especially relevant to applications such as dehazing or object detection. With the development of the RGBT (RGB & Thermal) sensor, the problem of visible (RGB) to Near Infrared (NIR) image fusion has become particularly timely. Indeed, while visible images see color, but suffer from noise, haze, and clouds, the NIR channel captures a clearer picture. The proposed approach fuses these two channels by training a Convolutional Neural Network by Self Supervised Learning (SSL) on a single example. For each such pair, RGB and NIR, the network is trained for seconds to deduce the final fusion. The SSL is based on the comparison of the Structure of Similarity and Edge-Preservation losses, where the labels for the SSL are the input channels themselves. This fusion preserves the relevant detail of each spectral channel without relying on a heavy training process. Experiments demonstrate that the proposed approach achieves similar or better qualitative and quantitative multispectral fusion results than other state-of-the-art methods that do not rely on heavy training and/or large datasets.
翻訳日:2024-03-13 16:59:36 公開日:2024-03-09
# DeepOnto: ディープラーニングによるオントロジーエンジニアリングのためのPythonパッケージ

DeepOnto: A Python Package for Ontology Engineering with Deep Learning ( http://arxiv.org/abs/2307.03067v2 )

ライセンス: Link先を確認
Yuan He, Jiaoyan Chen, Hang Dong, Ian Horrocks, Carlo Allocca, Taehun Kim, Brahmananda Sapkota(参考訳) ディープラーニング技術、特に言語モデル(LM)とオントロジーのような知識表現技術を統合することで、両方のパラダイムをサポートするプラットフォームの必要性が高まっている。 OWL APIやJanaといったパッケージは、基本的なオントロジー処理機能に対する堅牢なサポートを提供するが、オントロジー内の様々な種類の情報を、下流のディープラーニングベースのアプリケーションに適したフォーマットに変換する能力は欠如している。 さらに、広く使われているオントロジーapiは主にjavaベースで、pytorchやtensorflowといったディープラーニングフレームワークは主にpythonプログラミング用である。 このニーズに対処するため,我々は,ディープラーニングを用いたオントロジーエンジニアリング用に設計されたPythonパッケージであるDeepOntoを紹介する。 このパッケージは、広く認識され信頼性の高いOWL API上に構築されたコアオントロジー処理モジュールを含み、基本的な機能をよりPython的な方法でカプセル化し、推論、動詞化、正規化、分類学、予測など、他の必須コンポーネントを組み込む機能を拡張する。 このモジュール上に構築されているDeepOntoは、オントロジーアライメントや完了といった様々なオントロジーエンジニアリングタスクをサポートする一連のツール、リソース、アルゴリズムを提供する。 本稿では,Samsung Research UKのDigital Health Coachingと,Ontology Alignment Evaluation Initiative(OAEI)のBio-MLトラックの2つのユースケースを通じて,DeepOntoの実用性を実証する。

Integrating deep learning techniques, particularly language models (LMs), with knowledge representation techniques like ontologies has raised widespread attention, urging the need of a platform that supports both paradigms. Although packages such as OWL API and Jena offer robust support for basic ontology processing features, they lack the capability to transform various types of information within ontologies into formats suitable for downstream deep learning-based applications. Moreover, widely-used ontology APIs are primarily Java-based while deep learning frameworks like PyTorch and Tensorflow are mainly for Python programming. To address the needs, we present DeepOnto, a Python package designed for ontology engineering with deep learning. The package encompasses a core ontology processing module founded on the widely-recognised and reliable OWL API, encapsulating its fundamental features in a more "Pythonic" manner and extending its capabilities to incorporate other essential components including reasoning, verbalisation, normalisation, taxonomy, projection, and more. Building on this module, DeepOnto offers a suite of tools, resources, and algorithms that support various ontology engineering tasks, such as ontology alignment and completion, by harnessing deep learning methods, primarily pre-trained LMs. In this paper, we also demonstrate the practical utility of DeepOnto through two use-cases: the Digital Health Coaching in Samsung Research UK and the Bio-ML track of the Ontology Alignment Evaluation Initiative (OAEI).
翻訳日:2024-03-13 16:58:43 公開日:2024-03-09
# Image Matters:マルチモーダルハイパボラ検出のための新しいデータセットと実証的研究

Image Matters: A New Dataset and Empirical Study for Multimodal Hyperbole Detection ( http://arxiv.org/abs/2307.00209v3 )

ライセンス: Link先を確認
Huixuan Zhang, Xiaojun Wan(参考訳) 誇張(Hyperbole)または誇張(exaggeration)は、一般的な言語現象である。 ハイパボールの発見は、人間の表現を理解する重要な部分である。 ハイパボラ検出の研究はいくつかあるが、そのほとんどはテキストのモダリティのみに焦点を当てている。 しかし、ソーシャルメディアの発展によって、テキスト、画像、ビデオなど、さまざまなモダリティを持った双曲表現が作成できるようになる。 本稿では,マルチモーダルハイパーボイル検出に注目する。 我々はWeibo(中国のソーシャルメディア)からマルチモーダル検出データセットを作成し、いくつかの研究を行った。 weiboの一部のテキストと画像を2つのモダリティとして扱い,ハイパーボイル検出におけるテキストと画像の役割について検討する。 このダウンストリームタスクでは、さまざまなプリトレーニングされたマルチモーダルエンコーダも評価され、パフォーマンスを示している。 さらに、このデータセットは5つの異なるトピックから構築されているため、異なるモデルのクロスドメイン性能も評価する。 これらの研究は、ベンチマークとして機能し、マルチモーダルハイパーボイル検出に関するさらなる研究の方向性を指摘することができる。

Hyperbole, or exaggeration, is a common linguistic phenomenon. The detection of hyperbole is an important part of understanding human expression. There have been several studies on hyperbole detection, but most of which focus on text modality only. However, with the development of social media, people can create hyperbolic expressions with various modalities, including text, images, videos, etc. In this paper, we focus on multimodal hyperbole detection. We create a multimodal detection dataset from Weibo (a Chinese social media) and carry out some studies on it. We treat the text and image from a piece of weibo as two modalities and explore the role of text and image for hyperbole detection. Different pre-trained multimodal encoders are also evaluated on this downstream task to show their performance. Besides, since this dataset is constructed from five different topics, we also evaluate the cross-domain performance of different models. These studies can serve as a benchmark and point out the direction of further study on multimodal hyperbole detection.
翻訳日:2024-03-13 16:57:01 公開日:2024-03-09
# MTR++:対称シーンモデリングとガイド付きインテンションクエリによるマルチエージェント動作予測

MTR++: Multi-Agent Motion Prediction with Symmetric Scene Modeling and Guided Intention Querying ( http://arxiv.org/abs/2306.17770v2 )

ライセンス: Link先を確認
Shaoshuai Shi, Li Jiang, Dengxin Dai, Bernt Schiele(参考訳) 自律運転システムにとって、複雑な運転シナリオを理解し、情報的決定を行うためには、動作予測が不可欠である。 しかし,交通参加者の多様な行動と複雑な環境条件により,この課題は困難である。 本稿では,これらの課題に対処するためのMotion TRansformer (MTR) フレームワークを提案する。 最初のMTRフレームワークは、変換器エンコーダ・デコーダ構造と学習可能な意図クエリを利用して、将来の軌道の効率的かつ正確な予測を可能にする。 異なる動きのモダリティに対する意図的なクエリをカスタマイズすることにより、MTRは高密度な目標候補への依存を低減しつつ、マルチモーダルな動き予測を改善する。 このフレームワークは、グローバルな意図のローカライゼーション、全体の効率を高めるためのエージェントの意図の同定、および予測された軌道を適応的に精製して精度を向上させる局所的な運動改善の2つの重要なプロセスから構成される。 さらに,複数のエージェントに対するマルチモーダル動作を同時に予測するMTR++フレームワークも導入した。 MTR++は対称なコンテキストモデリングと相互に誘導された意図的クエリモジュールを導入し、複数のエージェント間の将来の振る舞いの相互作用を促進する。 大規模な実験結果から,MTR++フレームワークは高い競争力を持つ動作予測ベンチマークにおいて最先端の性能を達成し,MTR++フレームワークは前駆体を超越し,複数のエージェントに対する正確なマルチモーダルな将来の軌道予測における性能と効率の向上を示した。

Motion prediction is crucial for autonomous driving systems to understand complex driving scenarios and make informed decisions. However, this task is challenging due to the diverse behaviors of traffic participants and complex environmental contexts. In this paper, we propose Motion TRansformer (MTR) frameworks to address these challenges. The initial MTR framework utilizes a transformer encoder-decoder structure with learnable intention queries, enabling efficient and accurate prediction of future trajectories. By customizing intention queries for distinct motion modalities, MTR improves multimodal motion prediction while reducing reliance on dense goal candidates. The framework comprises two essential processes: global intention localization, identifying the agent's intent to enhance overall efficiency, and local movement refinement, adaptively refining predicted trajectories for improved accuracy. Moreover, we introduce an advanced MTR++ framework, extending the capability of MTR to simultaneously predict multimodal motion for multiple agents. MTR++ incorporates symmetric context modeling and mutually-guided intention querying modules to facilitate future behavior interaction among multiple agents, resulting in scene-compliant future trajectories. Extensive experimental results demonstrate that the MTR framework achieves state-of-the-art performance on the highly-competitive motion prediction benchmarks, while the MTR++ framework surpasses its precursor, exhibiting enhanced performance and efficiency in predicting accurate multimodal future trajectories for multiple agents.
翻訳日:2024-03-13 16:56:46 公開日:2024-03-09
# SENSEi: GNNの高速化のための入力感度コンパイル

SENSEi: Input-Sensitive Compilation for Accelerating GNNs ( http://arxiv.org/abs/2306.15155v2 )

ライセンス: Link先を確認
Damitha Lenadora, Vimarsh Sathia, Gerasimos Gerogiannis, Serif Yesil, Josep Torrellas, Charith Mendis(参考訳) 長年にわたり、グラフニューラルネットワーク(GNN)を加速する多くのフレームワークと最適化技術が提案されてきた。 これらのシステムで探索された最適化と比較して、GNN計算の異なる行列の再連想が、新しい入力感受性性能挙動をもたらすことが観察された。 本研究は,gnn計算の異なる行列の再結合に基づいて,異なるスパースおよび密度行列プリミティブ合成を露出し,入力属性に基づいてそれらの中から最良のものを選択するシステムであるsenseiを提案する。 SENSEi は,(1) 異なるスパース・デンス行列を構成する有効な再結合を列挙するオフラインコンパイル段階と,(2) 残りの候補を探索し,軽量なコストモデルを用いて,入力グラフと所定のハードウェアプラットフォーム上の埋め込みサイズに基づいて最適な再結合を選択するオンラインランタイムシステムである。 幅広い構成において、SENSEiは最大2.012\times$と1.85\times$をグラフ畳み込みネットワークで、最大6.294\times$と16.274\times$をそれぞれGPUとCPUで達成している。 また,その手法がサンプリングを必要とするものを含むGNNの変種に一般化されることも示す。 さらに,SENSEiの手法は基礎となるGNNシステムとは無関係であり,多種多様な実装間の相乗的改善を実現するために使用できることを示す。

Over the years, many frameworks and optimization techniques have been proposed to accelerate graph neural networks (GNNs). Compared to the optimizations explored in these systems, we observe that different matrix re-associations of GNN computations lead to novel input-sensitive performance behavior. We leverage this observation to propose SENSEi, a system that exposes different sparse and dense matrix primitive compositions based on different matrix re-associations of GNN computations and selects the best among them based on input attributes. SENSEi executes in two stages: (1) an offline compilation stage that enumerates all valid re-associations leading to different sparse-dense matrix compositions and uses input-oblivious pruning techniques to prune away clearly unprofitable candidates and (2) an online runtime system that explores the remaining candidates and uses light-weight cost models to select the best re-association based on the input graph and the embedding sizes on a given hardware platform. On a wide range of configurations, SENSEi achieves speedups of up to $2.012\times$ and $1.85\times$ on graph convolutional networks and up to $6.294\times$ and $16.274\times$ on graph attention networks, on GPUs and CPUs respectively. We also show that its technique generalizes to GNN variants, including those that require sampling. Furthermore, we show that SENSEi's techniques are agnostic to the underlying GNN system, and can be used to yield synergistic improvements across a diverse set of implementations.
翻訳日:2024-03-13 16:55:23 公開日:2024-03-09
# 野生におけるデータセットアノテーションの品質管理の分析

Analyzing Dataset Annotation Quality Management in the Wild ( http://arxiv.org/abs/2307.08153v4 )

ライセンス: Link先を確認
Jan-Christoph Klie, Richard Eckart de Castilho, Iryna Gurevych(参考訳) データ品質は、正確で偏りのない、信頼できる機械学習モデルをトレーニングするだけでなく、正しい評価のためにも重要です。 しかし、最近の研究では、最先端モデルのトレーニングと評価に使用される一般的なデータセットでさえ、誤ったアノテーションやバイアス、アーティファクトの量を含むことが示されている。 データセット作成プロジェクトに関するプラクティスやガイドラインは存在するが、私たちの知る限り、自然言語データセットを作成する際の品質管理の実施方法や、これらの推奨事項に従うかどうかについて、大規模な分析はまだ行われていない。 そこで本論文では,まず,データセット作成のための推奨品質管理プラクティスを概説し,適用するための提案を行う。 次に,テキストデータセットを導入した591の学術出版物のコーパスをコンパイルし,アノテータ管理やアノテータ管理,合意,判断,データ検証などの品質関連側面に注釈を付ける。 次に,これらのアノテーションを用いて品質管理の実施方法を分析する。 注釈付き出版物の大半は優れた品質管理を施している。 しかし、作品の30\%の努力は副次的なものであると考えます。 また,アノテーション間の一致やアノテーションの誤り率の計算では,一般的な誤りも見られる。

Data quality is crucial for training accurate, unbiased, and trustworthy machine learning models as well as for their correct evaluation. Recent works, however, have shown that even popular datasets used to train and evaluate state-of-the-art models contain a non-negligible amount of erroneous annotations, biases, or artifacts. While practices and guidelines regarding dataset creation projects exist, to our knowledge, large-scale analysis has yet to be performed on how quality management is conducted when creating natural language datasets and whether these recommendations are followed. Therefore, we first survey and summarize recommended quality management practices for dataset creation as described in the literature and provide suggestions for applying them. Then, we compile a corpus of 591 scientific publications introducing text datasets and annotate it for quality-related aspects, such as annotator management, agreement, adjudication, or data validation. Using these annotations, we then analyze how quality management is conducted in practice. A majority of the annotated publications apply good or excellent quality management. However, we deem the effort of 30\% of the works as only subpar. Our analysis also shows common errors, especially when using inter-annotator agreement and computing annotation error rates.
翻訳日:2024-03-13 16:47:13 公開日:2024-03-09
# NetGPT: パーソナライズされた生成サービスの提供を超えて、ネイティブAIネットワークアーキテクチャ

NetGPT: A Native-AI Network Architecture Beyond Provisioning Personalized Generative Services ( http://arxiv.org/abs/2307.06148v4 )

ライセンス: Link先を確認
Yuxuan Chen, Rongpeng Li, Zhifeng Zhao, Chenghui Peng, Jianjun Wu, Ekram Hossain, and Honggang Zhang(参考訳) 大規模言語モデル(LLM)は、生成情報によって私たちの日常生活を強力にするために大きな成功を収めています。 LLMのパーソナライズは、人間の意図との整合性の向上により、その応用にさらに貢献する可能性がある。 パーソナライズされた生成サービスに向けて、異種分散通信とコンピューティングリソースの効率的なオーケストレーションを促進するため、協調的なクラウドエッジ方法論が有望である。 本稿では,NetGPTを用いて,その計算能力に基づいて,エッジおよびクラウドにおける適切なLLMの相乗化を図る。 さらに、エッジllmは、パーソナライズされたプロンプト完了のためにロケーションベースの情報を効率的に活用することができ、クラウドllmとのインタラクションの恩恵を受ける。 特に,オープンソースLLMの低ランク適応に基づく微調整(GPT-2ベースモデルとLLaMAモデル)を活用することにより,NetGPTの実現可能性を示し,NetGPTの優位性を示すために,代替クラウドエッジコラボレーションやクラウド専用技術と包括的な数値比較を行う。 その後、我々は、通信とコンピューティングリソースのより深い統合と論理的AIワークフローの慎重な校正に焦点を当て、人工知能(AI)ネイティブネットワークアーキテクチャがNetGPTに必要となる重要な変更を強調した。 さらに、トレンドを予測し、意図を推測するエッジLLMの能力によって、インテリジェントなネットワーク管理とオーケストレーションのための統一されたソリューションが約束されるため、副産物として提供されるNetGPTのいくつかの利点を示す。 我々は、netgptはパーソナライズされた生成サービスを超えたプロビジョニングのための有望なaiネイティブネットワークアーキテクチャであると主張する。

Large language models (LLMs) have triggered tremendous success to empower our daily life by generative information. The personalization of LLMs could further contribute to their applications due to better alignment with human intents. Towards personalized generative services, a collaborative cloud-edge methodology is promising, as it facilitates the effective orchestration of heterogeneous distributed communication and computing resources. In this article, we put forward NetGPT to capably synergize appropriate LLMs at the edge and the cloud based on their computing capacity. In addition, edge LLMs could efficiently leverage location-based information for personalized prompt completion, thus benefiting the interaction with the cloud LLM. In particular, we present the feasibility of NetGPT by leveraging low-rank adaptation-based fine-tuning of open-source LLMs (i.e., GPT-2-base model and LLaMA model), and conduct comprehensive numerical comparisons with alternative cloud-edge collaboration or cloud-only techniques, so as to demonstrate the superiority of NetGPT. Subsequently, we highlight the essential changes required for an artificial intelligence (AI)-native network architecture towards NetGPT, with emphasis on deeper integration of communications and computing resources and careful calibration of logical AI workflow. Furthermore, we demonstrate several benefits of NetGPT, which come as by-products, as the edge LLMs' capability to predict trends and infer intents promises a unified solution for intelligent network management & orchestration. We argue that NetGPT is a promising AI-native network architecture for provisioning beyond personalized generative services.
翻訳日:2024-03-13 16:46:52 公開日:2024-03-09
# InsMapper: ベクトル化HDマッピングのための内部インスタンス情報探索

InsMapper: Exploring Inner-instance Information for Vectorized HD Mapping ( http://arxiv.org/abs/2308.08543v4 )

ライセンス: Link先を確認
Zhenhua Xu, Kwan-Yee. K. Wong, Hengshuang Zhao(参考訳) ベクトル化ハイデフィニション(HD)マップには周囲の道路要素に関する詳細な情報が含まれており、移動計画や車両制御など、現代の自動運転車における様々な下流業務に不可欠である。 近年の研究では,ベクトル化HDマップを点集合予測タスクとして直接検出し,顕著な検出性能の向上を実現している。 しかし、これらの手法は通常、予測された点間の重要な内在相関を分析するのに失敗し、さらなる進歩を妨げる。 この問題に対処するために,変換器を用いたベクトル化高精細マッピングにおける内在情報の利用を検討するとともに,内在情報にハイブリッドクエリ生成,内在クエリ融合,内在特徴集約を含む3つの付加的な設計を効果的に活用する強力なシステムである$\textbf{InsMapper}$を提案する。 最初の2つのモジュールは行検出のためのクエリを初期化し、最後のモジュールは予測された行インスタンスを洗練する。 InsMapperは高度に適応可能で、最新のHDマップ検出フレームワークに合わせてシームレスに修正できる。 InsMapperは従来の最先端の手法を超越し,その有効性と汎用性を実証した,挑戦的なNuScenesとArgoverse 2データセットに関する大規模な実験的評価を行う。 この作業のプロジェクトページはhttps://tonyxuqaq.github.io/insmapper/で入手できる。

Vectorized high-definition (HD) maps contain detailed information about surrounding road elements, which are crucial for various downstream tasks in modern autonomous vehicles, such as motion planning and vehicle control. Recent works attempt to directly detect the vectorized HD map as a point set prediction task, achieving notable detection performance improvements. However, these methods usually overlook and fail to analyze the important inner-instance correlations between predicted points, impeding further advancements. To address this issue, we investigate the utilization of inner-instance information for vectorized high-definition mapping through transformers, and propose a powerful system named $\textbf{InsMapper}$, which effectively harnesses inner-instance information with three exquisite designs, including hybrid query generation, inner-instance query fusion, and inner-instance feature aggregation. The first two modules can better initialize queries for line detection, while the last one refines predicted line instances. InsMapper is highly adaptable and can be seamlessly modified to align with the most recent HD map detection frameworks. Extensive experimental evaluations are conducted on the challenging NuScenes and Argoverse 2 datasets, where InsMapper surpasses the previous state-of-the-art method, demonstrating its effectiveness and generality. The project page for this work is available at https://tonyxuqaq.github.io/InsMapper/ .
翻訳日:2024-03-13 16:39:15 公開日:2024-03-09
# リップサブワード相関に基づく視覚前訓練とクロスモーダルフュージョンエンコーダによる音声認識の改善

Improving Audio-Visual Speech Recognition by Lip-Subword Correlation Based Visual Pre-training and Cross-Modal Fusion Encoder ( http://arxiv.org/abs/2308.08488v2 )

ライセンス: Link先を確認
Yusheng Dai, Hang Chen, Jun Du, Xiaofei Ding, Ning Ding, Feijun Jiang, Chin-Hui Lee(参考訳) 近年,低品質ビデオを用いたエンド・ツー・エンドの音声認識システムから音声・視覚音声認識システムへの性能改善がみられた。 音声と視覚モダリティ間の収束率と特殊入力表現の一致が問題の原因と考えられる。 本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善する2つの新しい手法を提案する。 まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。 これにより、visual model pre-trainingとcross-modal fusionの間、ビデオとオーディオストリームの正確なアライメントが可能になる。 次に,マルチモーダルアテンション層に対する主トレーニングパラメータを利用して,モーダル相補性を完全に活用する,オーディオ誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。 MISP2021-AVSRデータセットの実験により,提案手法の有効性が示された。 同時に、比較的少量のトレーニングデータのみを使用して、最終システムは、より複雑なフロントエンドとバックエンドを持つ最先端システムよりも優れたパフォーマンスを達成する。

In recent research, slight performance improvement is observed from automatic speech recognition systems to audio-visual speech recognition systems in the end-to-end framework with low-quality videos. Unmatching convergence rates and specialized input representations between audio and visual modalities are considered to cause the problem. In this paper, we propose two novel techniques to improve audio-visual speech recognition (AVSR) under a pre-training and fine-tuning training framework. First, we explore the correlation between lip shapes and syllable-level subword units in Mandarin to establish good frame-level syllable boundaries from lip shapes. This enables accurate alignment of video and audio streams during visual model pre-training and cross-modal fusion. Next, we propose an audio-guided cross-modal fusion encoder (CMFE) neural network to utilize main training parameters for multiple cross-modal attention layers to make full use of modality complementarity. Experiments on the MISP2021-AVSR data set show the effectiveness of the two proposed techniques. Together, using only a relatively small amount of training data, the final system achieves better performances than state-of-the-art systems with more complex front-ends and back-ends.
翻訳日:2024-03-13 16:38:47 公開日:2024-03-09
# 未知線形システムのデータ駆動逆オンライン制御

Data-Driven Adversarial Online Control for Unknown Linear Systems ( http://arxiv.org/abs/2308.08138v2 )

ライセンス: Link先を確認
Zishun Liu and Yongxin Chen(参考訳) 本稿では, 対向摂動と対向凸損失関数の存在下で, 未知の線形力学系のオンライン制御問題を考察する。 この問題はモデルベースの制御で広く研究されているが、システム識別ステップをバイパスするデータ駆動アプローチがこの問題を解決できるかどうかは不明である。 本研究では,このオンライン制御問題に対処する新しいデータ駆動型オンライン適応制御アルゴリズムを提案する。 本アルゴリズムは行動システム理論を利用して非パラメトリックシステム表現を学習し,オンライン勾配降下によって更新される摂動ベースのコントローラを採用する。 我々は,このアルゴリズムが高い確率に縛られた$\tmO(T^{2/3})の後悔を保証することを証明した。 さらに,出力フィードバックのあるケースに対して,アルゴリズムと性能保証を拡張した。

We consider the online control problem with an unknown linear dynamical system in the presence of adversarial perturbations and adversarial convex loss functions. Although the problem is widely studied in model-based control, it remains unclear whether data-driven approaches, which bypass the system identification step, can solve the problem. In this work, we present a novel data-driven online adaptive control algorithm to address this online control problem. Our algorithm leverages the behavioral systems theory to learn a non-parametric system representation and then adopts a perturbation-based controller updated by online gradient descent. We prove that our algorithm guarantees an $\tmO(T^{2/3})$ regret bound with high probability, which matches the best-known regret bound for this problem. Furthermore, we extend our algorithm and performance guarantee to the cases with output feedback.
翻訳日:2024-03-13 16:38:28 公開日:2024-03-09
# 変形三体相互作用と連続体におけるエフィモフ状態の観察

Reshaped Three-Body Interactions and the Observation of an Efimov State in the Continuum ( http://arxiv.org/abs/2308.06237v2 )

ライセンス: Link先を確認
Yaakov Yudkin, Roy Elbaz, Jos\'e P. D'Incao, Paul S. Julienne, Lev Khaykovich(参考訳) エフィモフ三量体(Efimov trimers)は、2原子フェシュバッハ共鳴近傍の異なるタイプの3体連続体から生じるエキゾチックな3体量子状態である。 特に、相互作用の強度が臨界点に低下すると、エフィモフ状態は原子二量体閾値に結合し、最終的には非結合原子二量体対に解離する。 ここでは、この臨界点付近のエフィモフ状態について、狭い2体フェッシュバッハ共鳴を用いて^7$li原子のコヒーレントな少数体分光を用いて探る。 期待に反して、$^7$li efimovトリマーはしきい値を通過するとすぐに解離せず、原子二量体に埋め込まれた準安定状態として存続する。 この挙動は、狭いフェッシュバッハ共鳴によって特徴づけられる任意の系の3体相互作用を再構成する原子二量体チャネルにおける反発的相互作用の出現に関連する普遍的な現象と同一視する。 特に、この結果は^7$li efimov状態の性質に光を当て、それらに関連する様々なパズリング現象を理解するための経路を与えました。

Efimov trimers are exotic three-body quantum states that emerge from the different types of three-body continua in the vicinity of two-atom Feshbach resonances. In particular, as the strength of the interaction is decreased to a critical point, an Efimov state merges into the atom-dimer threshold and eventually dissociates into an unbound atom-dimer pair. Here we explore the Efimov state in the vicinity of this critical point using coherent few-body spectroscopy in $^7$Li atoms using a narrow two-body Feshbach resonance. Contrary to the expectation, we find that the $^7$Li Efimov trimer does not immediately dissociate when passing the threshold, and survives as a metastable state embedded in the atom-dimer continuum. We identify this behavior with a universal phenomenon related to the emergence of a repulsive interaction in the atom-dimer channel which reshapes the three-body interactions in any system characterized by a narrow Feshbach resonance. Specifically, our results shed light on the nature of $^7$Li Efimov states and provide a path to understand various puzzling phenomena associated with them.
翻訳日:2024-03-13 16:38:16 公開日:2024-03-09
# moviechat: 密集したトークンから、長いビデオ理解のためのばらばらなメモリへ

MovieChat: From Dense Token to Sparse Memory for Long Video Understanding ( http://arxiv.org/abs/2307.16449v4 )

ライセンス: Link先を確認
Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Haozhe Chi, Xun Guo, Tian Ye, Yanting Zhang, Yan Lu, Jenq-Neng Hwang, Gaoang Wang(参考訳) 近年,映像理解システムを構築するために,映像基礎モデルと大規模言語モデルを統合することで,特定の視覚課題の限界を克服することができる。 しかし既存のシステムは、フレーム数が少ないビデオしか扱えない。 長いビデオでは、計算の複雑さ、メモリコスト、長期的接続がさらなる課題を課している。 Atkinson-Shiffrinメモリモデルを利用して、トランスフォーマーのトークンを特別なメモリ機構と組み合わせてメモリキャリアとして使用することにより、これらの課題を克服するためのMovieChatを提案する。 MovieChatは1Kの長ビデオと14Kのマニュアルアノテーションを備えたMovieChat-1Kベンチマークとともに、長ビデオ理解における最先端のパフォーマンスを実現し、本手法の有効性を検証する。

Recently, integrating video foundation models and large language models to build a video understanding system can overcome the limitations of specific pre-defined vision tasks. Yet, existing systems can only handle videos with very few frames. For long videos, the computation complexity, memory cost, and long-term temporal connection impose additional challenges. Taking advantage of the Atkinson-Shiffrin memory model, with tokens in Transformers being employed as the carriers of memory in combination with our specially designed memory mechanism, we propose the MovieChat to overcome these challenges. MovieChat achieves state-of-the-art performance in long video understanding, along with the released MovieChat-1K benchmark with 1K long video and 14K manual annotations for validation of the effectiveness of our method.
翻訳日:2024-03-13 16:36:37 公開日:2024-03-09
# ブラックボックス変分推論の線形収束:着陸を控えるべきか?

Linear Convergence of Black-Box Variational Inference: Should We Stick the Landing? ( http://arxiv.org/abs/2307.14642v4 )

ライセンス: Link先を確認
Kyurae Kim, Yian Ma, and Jacob R. Gardner(参考訳) 制御変数を持つブラックボックス変分推論(bbvi)、特にスティッキング・ザ・ランディング(stl)推定器は、完全変分族仕様の下で幾何学的(伝統的に「線形」と呼ばれる)に収束する。 特に、不特定変分族を含むSTL推定器の勾配分散の2次境界を証明した。 二次分散条件に関する以前の研究と組み合わさって、これはプロジェクテッド確率勾配勾配を用いたBBVIの収束を直接意味する。 射影作用素に対して、三角スケール行列を持つ領域を考えると、その射影は$\theta(d)$ time で計算可能であり、ここで $d$ は目標後方の次元である。 また,正規閉形式エントロピー勾配推定器の既存解析を改善し,STL推定器との比較を可能にした。

We prove that black-box variational inference (BBVI) with control variates, particularly the sticking-the-landing (STL) estimator, converges at a geometric (traditionally called "linear") rate under perfect variational family specification. In particular, we prove a quadratic bound on the gradient variance of the STL estimator, one which encompasses misspecified variational families. Combined with previous works on the quadratic variance condition, this directly implies convergence of BBVI with the use of projected stochastic gradient descent. For the projection operator, we consider a domain with triangular scale matrices, which the projection onto is computable in $\Theta(d)$ time, where $d$ is the dimensionality of the target posterior. We also improve existing analysis on the regular closed-form entropy gradient estimators, which enables comparison against the STL estimator, providing explicit non-asymptotic complexity guarantees for both.
翻訳日:2024-03-13 16:36:22 公開日:2024-03-09
# ebbとフローの評価:多様なプラットフォームにわたる質問応答トレンドの詳細な分析

Evaluating the Ebb and Flow: An In-depth Analysis of Question-Answering Trends across Diverse Platforms ( http://arxiv.org/abs/2309.05961v4 )

ライセンス: Link先を確認
Rima Hazra, Agnik Saha, Somnath Banerjee and Animesh Mukherjee(参考訳) コミュニティ質問回答(Community Question Answering, CQA)プラットフォームは,クエリに対する迅速な応答をユーザに提供することで,着実に人気を集めている。 これらの応答の迅速性は、クエリ固有要素とユーザ関連要素の混合に起因している。 本稿では,これらの要因を,人気の高い6つのCQAプラットフォームのコンテキスト内で調査する。 本研究は,質問に対する最初の回答を得るのに要する時間と,複数の変数(メタデータ,質問の定式化,ユーザ間のインタラクションのレベル)との相関関係を明らかにする。 さらに、従来の機械学習モデルを用いてこれらのメタデータとユーザインタラクションのパターンを分析し、どのクエリがすぐに最初のレスポンスを受け取るかを予測する。

Community Question Answering (CQA) platforms steadily gain popularity as they provide users with fast responses to their queries. The swiftness of these responses is contingent on a mixture of query-specific and user-related elements. This paper scrutinizes these contributing factors within the context of six highly popular CQA platforms, identified through their standout answering speed. Our investigation reveals a correlation between the time taken to yield the first response to a question and several variables: the metadata, the formulation of the questions, and the level of interaction among users. Additionally, by employing conventional machine learning models to analyze these metadata and patterns of user interaction, we endeavor to predict which queries will receive their initial responses promptly.
翻訳日:2024-03-13 16:31:16 公開日:2024-03-09
# 回路のインデックス認識学習

Index-aware learning of circuits ( http://arxiv.org/abs/2309.00958v3 )

ライセンス: Link先を確認
Idoia Cortes Garcia, Peter F\"orster, Lennart Jansen, Wil Schilders, Sebastian Sch\"ops(参考訳) 電気回路は様々な技術の中に存在し、その設計はコンピュータ支援工学の重要な部分となっている。 最終設計に影響を与えるパラメータの数が増えると、その影響を定量化するための新しいアプローチが必要となる。 機械学習は、この点において重要な役割を果たすかもしれないが、現在のアプローチでは、目の前のシステムに関する既存の知識を最適に活用することがしばしばある。 回路の観点では、修正ノーダル解析による記述はよく理解されている。 この特別な定式化は微分代数方程式(英語版)(daes)の体系につながり、解が満たさなければならない隠れた制約など多くの特異性をもたらす。 我々は最近導入された分解指数を用いて、DAEの与えられた系を、微分変数と代数変数の関係を記述する純粋代数方程式にのみ依存する通常の微分方程式に分解することができる。 そのアイデアは微分変数を学習し、デカップリングの関係を使って代数変数を再構築するだけである。 このアプローチは、代数的制約が非線形システム解決器の精度まで満たされることを保証し、また、微分変数のみを学習する必要があるため、学習の労力を減らすことができる。

Electrical circuits are present in a variety of technologies, making their design an important part of computer aided engineering. The growing number of parameters that affect the final design leads to a need for new approaches to quantify their impact. Machine learning may play a key role in this regard, however current approaches often make suboptimal use of existing knowledge about the system at hand. In terms of circuits, their description via modified nodal analysis is well-understood. This particular formulation leads to systems of differential-algebraic equations (DAEs) which bring with them a number of peculiarities, e.g. hidden constraints that the solution needs to fulfill. We use the recently introduced dissection index that can decouple a given system of DAEs into ordinary differential equations, only depending on differential variables, and purely algebraic equations, that describe the relations between differential and algebraic variables. The idea is to then only learn the differential variables and reconstruct the algebraic ones using the relations from the decoupling. This approach guarantees that the algebraic constraints are fulfilled up to the accuracy of the nonlinear system solver, and it may also reduce the learning effort as only the differential variables need to be learned.
翻訳日:2024-03-13 16:29:41 公開日:2024-03-09
# lm-infinite:大言語モデルのためのゼロショット極長一般化

LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models ( http://arxiv.org/abs/2308.16137v6 )

ライセンス: Link先を確認
Chi Han, Qifan Wang, Hao Peng, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang(参考訳) 今日の大きな言語モデル(LLM)は、Transformerアーキテクチャの2次複雑さのため、通常は短いテキストセグメント(例:<4Kトークン)でトレーニングされる。 結果として、彼らのパフォーマンスは、トレーニング中に遭遇したものよりもはるかに長いインプットに悩まされ、科学論文のエンコーディングやコードレポジトリ、ロングダイアログといった長いコンテキストを含む現実のタスクへの応用を著しく制限する。 理論的解析と実証的研究を通じて、この長大一般化失敗に寄与する3つの主要な要因を同定する。 さらに理論解析により,注意窓の切断や相対的な位置符号化といった一般的な手法では対処が不十分であることが判明した。 これらの課題に答え、長いコンテキストを扱うLLMの能力をシンプルかつ効果的に向上するLM-Infiniteを提案する。 LM-Infiniteは非常に柔軟で、ほとんどの近代的なLCMで使用することができる。 パラメータの更新がなければ、2kまたは4kの長さのセグメントで事前トレーニングされたllmsは、パープレキシティを維持しながら最大200mまでの入力を一般化できる。 ゼロショット設定では、Passkey RetrievalやQasperといった下流タスクのパフォーマンスも向上する。 LM-Infiniteは2.7倍のデコード速度と7.5倍のメモリ節約を実現している。 私たちのコードは出版時に公開されます。

Today's large language models (LLMs) typically train on short text segments (e.g., <4K tokens) due to the quadratic complexity of their Transformer architectures. As a result, their performance suffers drastically on inputs longer than those encountered during training, substantially limiting their applications in real-world tasks involving long contexts such as encoding scientific articles, code repositories, or long dialogues. Through theoretical analysis and empirical investigation, this work identifies three major factors contributing to this length generalization failure. Our theoretical analysis further reveals that commonly used techniques like truncating the attention window or relative positional encodings are inadequate to address them. Answering these challenges, we propose LM-Infinite, a simple and effective method for enhancing LLMs' capabilities of handling long contexts. LM-Infinite is highly flexible and can be used with most modern LLMs off-the-shelf. Without any parameter updates, it allows LLMs pre-trained with 2K or 4K-long segments to generalize to up to 200M length inputs while retaining perplexity. It also improves performance on downstream tasks such as Passkey Retrieval and Qasper in the zero-shot setting. LM-Infinite brings substantial efficiency improvements: it achieves 2.7x decoding speed up and 7.5x memory saving over the original model. Our code will be publicly available upon publication.
翻訳日:2024-03-13 16:28:39 公開日:2024-03-09
# AutoDroid: LLMを使ったAndroidのタスク自動化

AutoDroid: LLM-powered Task Automation in Android ( http://arxiv.org/abs/2308.15272v4 )

ライセンス: Link先を確認
Hao Wen, Yuanchun Li, Guohong Liu, Shanhui Zhao, Tao Yu, Toby Jia-Jun Li, Shiqi Jiang, Yunhao Liu, Yaqin Zhang, Yunxin Liu(参考訳) モバイルタスク自動化は,スマートフォンとの音声ベースのハンズフリーユーザインタラクションを実現するための,魅力的なテクニックだ。 しかし、既存のアプローチは、言語理解能力の制限と開発者やエンドユーザが必要とする非自明な手作業のため、スケーラビリティに乏しい。 言語理解と推論における大規模言語モデル(LLM)の最近の進歩は、タスク準備、理解、実行が統一言語モデルによって扱われるモデル中心の観点から問題を再考するきっかけとなった。 本研究では,Androidアプリケーション上で任意のタスクを手作業で処理できるモバイルタスク自動化システムであるAutoDroidを紹介する。 重要な洞察は、llmの共通センス知識と、アプリケーションのドメイン固有の知識を自動動的解析によって組み合わせることです。 主なコンポーネントには、uiとllmを橋渡しする機能対応のui表現方法、llmのアプリ固有のドメイン知識を強化する探索ベースのメモリ注入技術、モデル推論のコストを削減するマルチグラニュラ性クエリ最適化モジュールなどがある。 我々はAutoDroidを、オンラインGPT-4/GPT-3.5やオンデバイスVicunaを含む市販のLCMと統合し、158の共通タスクを備えたメモリ拡張Androidタスク自動化のための新しいベンチマークでパフォーマンスを評価する。 その結果、AutoDroidは精度90.9%のアクションを正確に生成でき、成功率71.3%のタスクが完了し、GPT-4のベースラインを36.4%、39.7%上回った。 autodroidのデモ、ベンチマークスイート、ソースコードはurl{https://autodroid-sys.github.io/}でリリースされる。

Mobile task automation is an attractive technique that aims to enable voice-based hands-free user interaction with smartphones. However, existing approaches suffer from poor scalability due to the limited language understanding ability and the non-trivial manual efforts required from developers or end-users. The recent advance of large language models (LLMs) in language understanding and reasoning inspires us to rethink the problem from a model-centric perspective, where task preparation, comprehension, and execution are handled by a unified language model. In this work, we introduce AutoDroid, a mobile task automation system capable of handling arbitrary tasks on any Android application without manual efforts. The key insight is to combine the commonsense knowledge of LLMs and domain-specific knowledge of apps through automated dynamic analysis. The main components include a functionality-aware UI representation method that bridges the UI with the LLM, exploration-based memory injection techniques that augment the app-specific domain knowledge of LLM, and a multi-granularity query optimization module that reduces the cost of model inference. We integrate AutoDroid with off-the-shelf LLMs including online GPT-4/GPT-3.5 and on-device Vicuna, and evaluate its performance on a new benchmark for memory-augmented Android task automation with 158 common tasks. The results demonstrated that AutoDroid is able to precisely generate actions with an accuracy of 90.9%, and complete tasks with a success rate of 71.3%, outperforming the GPT-4-powered baselines by 36.4% and 39.7%. The demo, benchmark suites, and source code of AutoDroid will be released at url{https://autodroid-sys.github.io/}.
翻訳日:2024-03-13 16:28:14 公開日:2024-03-09
# asymformer:モバイルプラットフォームリアルタイムrgb-dセマンティクスセグメンテーションのための非対称クロスモーダル表現学習

AsymFormer: Asymmetrical Cross-Modal Representation Learning for Mobile Platform Real-Time RGB-D Semantic Segmentation ( http://arxiv.org/abs/2309.14065v6 )

ライセンス: Link先を確認
Siqi Du, Weixi Wang, Renzhong Guo and Shengjun Tang(参考訳) ロボットインテリジェンスの世界では、効率的で正確なRGB-Dセマンティックセグメンテーションを実現することが鍵となる。 最先端のマルチモーダルセマンティクスセグメンテーション手法は、主に対称スケルトンネットワークに根ざしており、計算効率と精度の調和が困難である。 本研究では,実時間rgb-d意味セグメンテーションのための新しいネットワークであるasymformerを提案する。計算資源の分散を最適化することで超流動パラメータの最小化を目標とし,マルチモーダル特徴の効果的な融合を可能にする非対称バックボーンを導入する。 さらに,パラメータ数を大幅に増加させることなく,特徴選択を再定義し,マルチモーダルな自己相似特徴を抽出することにより,ネットワークの精度を高める手法を検討する。 さらに、LAFS(Local Attention-Guided Feature Selection)モジュールは、依存関係を活用することで、異なるモダリティから機能を選択的にフューズするために使用される。 その後、CMA(Cross-Modal Attention-Guided Feature correlation Embedding)モジュールを導入し、クロスモーダル表現をさらに抽出する。 この手法はNYUv2とSUNRGBDのデータセットで評価され、AsymFormerはNYUv2で54.1% mIoU、SUNRGBDで49.1% mIoUと競合する結果を示した。 特に、AsymFormerは65 FPSの推論速度を達成し、混合精度量子化を実装した後、RTX3090上で79 FPSの予測速度を得る。 これは既存のマルチモーダル法を大きく上回り、asymformerはrgb-dセマンティクスセグメンテーションの精度と効率のバランスを取ることができる。

In the realm of robotic intelligence, achieving efficient and precise RGB-D semantic segmentation is a key cornerstone. State-of-the-art multimodal semantic segmentation methods, primarily rooted in symmetrical skeleton networks, find it challenging to harmonize computational efficiency and precision. In this work, we propose AsymFormer, a novel network for real-time RGB-D semantic segmentation, which targets the minimization of superfluous parameters by optimizing the distribution of computational resources and introduces an asymmetrical backbone to allow for the effective fusion of multimodal features. Furthermore, we explore techniques to bolster network accuracy by redefining feature selection and extracting multi-modal self-similarity features without a substantial increase in the parameter count, thereby ensuring real-time execution on robotic platforms. Additionally, a Local Attention-Guided Feature Selection (LAFS) module is used to selectively fuse features from different modalities by leveraging their dependencies. Subsequently, a Cross-Modal Attention-Guided Feature Correlation Embedding (CMA) module is introduced to further extract cross-modal representations. This method is evaluated on NYUv2 and SUNRGBD datasets, with AsymFormer demonstrating competitive results with 54.1% mIoU on NYUv2 and 49.1% mIoU on SUNRGBD. Notably, AsymFormer achieves an inference speed of 65 FPS and after implementing mixed precision quantization, it attains an impressive inference speed of 79 FPS on RTX3090. This significantly outperforms existing multi-modal methods, thereby demonstrating that AsymFormer can strike a balance between high accuracy and efficiency for RGB-D semantic segmentation.
翻訳日:2024-03-13 16:20:43 公開日:2024-03-09
# シーンインフォーマ:部分観測可能な環境におけるアンカーベースオクルージョン推論と軌道予測

Scene Informer: Anchor-based Occlusion Inference and Trajectory Prediction in Partially Observable Environments ( http://arxiv.org/abs/2309.13893v3 )

ライセンス: Link先を確認
Bernard Lange, Jiachen Li, and Mykel J. Kochenderfer(参考訳) 複雑でダイナミックな環境をナビゲートするには、可視領域と遮蔽領域の両方を判断する自律走行車(avs)が必要である。 これには、観測されたエージェントの将来の動きを予測し、隠蔽されたエージェントを推測し、部分観測可能な環境のベクトル化されたシーン表現に基づいて相互作用をモデル化することが含まれる。 しかし, 前者は簡易なラスタライズ法, 後者は完全な環境観測可能性を想定した, 排他的推測と軌道予測に関する先行研究が独立に展開されている。 我々は,観察対象の軌跡を予測し,観察可能な部分的設定でオクルージョンを推定するための統一的なアプローチであるScene Informerを紹介した。 トランスを使って様々な入力モダリティを集約し、AVの計画された経路と交差するオクルージョンの選択的なクエリを容易にする。 この枠組みは、占有確率を推定し、オクルージョンの軌道や観察されたエージェントの予測運動を推定する。 両ドメインの共通可観測性仮定とパフォーマンスへの影響について検討する。 提案手法は,Waymo Open Motion Datasetの観測可能な部分設定において,占有率予測と軌道予測の両方において既存の手法よりも優れる。

Navigating complex and dynamic environments requires autonomous vehicles (AVs) to reason about both visible and occluded regions. This involves predicting the future motion of observed agents, inferring occluded ones, and modeling their interactions based on vectorized scene representations of the partially observable environment. However, prior work on occlusion inference and trajectory prediction have developed in isolation, with the former based on simplified rasterized methods and the latter assuming full environment observability. We introduce the Scene Informer, a unified approach for predicting both observed agent trajectories and inferring occlusions in a partially observable setting. It uses a transformer to aggregate various input modalities and facilitate selective queries on occlusions that might intersect with the AV's planned path. The framework estimates occupancy probabilities and likely trajectories for occlusions, as well as forecast motion for observed agents. We explore common observability assumptions in both domains and their performance impact. Our approach outperforms existing methods in both occupancy prediction and trajectory prediction in partially observable setting on the Waymo Open Motion Dataset.
翻訳日:2024-03-13 16:20:04 公開日:2024-03-09
# ソフトウェアシステムの有効寿命推定におけるプロセッサ速度とクロック速度の影響の解析

Analyzing the Influence of Processor Speed and Clock Speed on Remaining Useful Life Estimation of Software Systems ( http://arxiv.org/abs/2309.12617v2 )

ライセンス: Link先を確認
M. Rubyet Islam, Peter Sandborn(参考訳) PHM(Prognostics and Health Management)は、システムやコンポーネントが意図した通りに動作停止する地点を予測することに焦点を当てた分野であり、通常、Remaining Useful Life (RUL) として測定される。 RULは緊急計画のための重要な意思決定ツールであり、システムのメンテナンスのタイミングと性質を導く。 歴史的に、PHMはハードウェアシステムに主に適用されており、ソフトウェアにしか適用されていない。 最近の研究では、ソフトウェアの変更がソフトウェアのRULに与える影響を実証する方法論を紹介しました。 しかし、実用的なソフトウェア開発においては、リアルタイム性能はオペレーティングシステム、クロック速度、プロセッサ性能、RAM、マシンコア数などの様々な環境特性にも影響される。 本研究は、オペレーティングシステムやクロック速度などの環境特性の変化がソフトウェアにおけるrul推定に与える影響を評価するために分析を拡張する。 分析結果は, 実性能データを用いて厳密に検証され, 予測モデル生成データと比較される。 回帰分析を含む統計的検証は、結果の信頼性を支持する。 コントロールされたテストベッド環境は、実際のアプリケーションからの障害を複製し、検証し、標準化されたアセスメントプラットフォームを保証する。 この調査は、ソフトウェアメンテナンスと最適化戦略に関する実用的な知識をもたらし、ソフトウェアヘルス管理の分野における大きなギャップに対処する。

Prognostics and Health Management (PHM) is a discipline focused on predicting the point at which systems or components will cease to perform as intended, typically measured as Remaining Useful Life (RUL). RUL serves as a vital decision-making tool for contingency planning, guiding the timing and nature of system maintenance. Historically, PHM has primarily been applied to hardware systems, with its application to software only recently explored. In a recent study we introduced a methodology and demonstrated how changes in software can impact the RUL of software. However, in practical software development, real-time performance is also influenced by various environmental attributes, including operating systems, clock speed, processor performance, RAM, machine core count and others. This research extends the analysis to assess how changes in environmental attributes, such as operating system and clock speed, affect RUL estimation in software. Findings are rigorously validated using real performance data from controlled test beds and compared with predictive model-generated data. Statistical validation, including regression analysis, supports the credibility of the results. The controlled test bed environment replicates and validates faults from real applications, ensuring a standardized assessment platform. This exploration yields actionable knowledge for software maintenance and optimization strategies, addressing a significant gap in the field of software health management.
翻訳日:2024-03-13 16:19:29 公開日:2024-03-09
# シークエンシャルレコメンデーションの改革:コンテンツ強化言語モデリングによる動的ユーザ関心の学習

Reformulating Sequential Recommendation: Learning Dynamic User Interest with Content-enriched Language Modeling ( http://arxiv.org/abs/2309.10435v2 )

ライセンス: Link先を確認
Junzhe Jiang, Shang Qu, Mingyue Cheng, Qi Liu(参考訳) オンラインアプリケーションにはレコメンダシステムが不可欠であり、動的ユーザの興味を捉えた表現力によって、シーケンシャルなレコメンデーションが顕著に普及している。 しかし、従来の逐次モデリング手法には、文脈情報の取得に制限がある。 この問題の主な理由は、言語モデルがしばしばドメイン固有の知識とアイテムに関連したテキストコンテンツの理解を欠いているためである。 この問題に対処するために,新しい逐次レコメンデーションパラダイムを採用し,学習済み言語モデルのセマンティクス理解機能を活用し,パーソナライズドレコメンデーションを生成するlancerを提案する。 我々のアプローチは、言語モデルとレコメンデーションシステムの間のギャップを埋め、より人間らしいレコメンデーションをもたらす。 本手法は,いくつかのベンチマークデータセット上で実験を行い,有望な結果を示し,逐次レコメンデーションタスクに対するモデルの影響に関する貴重な知見を提供する。 さらに,実験コードも公開されている。

Recommender systems are essential for online applications, and sequential recommendation has enjoyed significant prevalence due to its expressive ability to capture dynamic user interests. However, previous sequential modeling methods still have limitations in capturing contextual information. The primary reason for this issue is that language models often lack an understanding of domain-specific knowledge and item-related textual content. To address this issue, we adopt a new sequential recommendation paradigm and propose LANCER, which leverages the semantic understanding capabilities of pre-trained language models to generate personalized recommendations. Our approach bridges the gap between language models and recommender systems, resulting in more human-like recommendations. We demonstrate the effectiveness of our approach through experiments on several benchmark datasets, showing promising results and providing valuable insights into the influence of our model on sequential recommendation tasks. Furthermore, our experimental codes are publicly available.
翻訳日:2024-03-13 16:18:23 公開日:2024-03-09
# ランダム合金GaBi$_{x}$As$_{1-x}$バリアのInAs量子ドット分子への導入:合金ひずみとトンネル強化への軌道効果

Incorporation of random alloy GaBi$_{x}$As$_{1-x}$ barriers in InAs quantum dot molecules: alloy strain and orbital effects towards enhanced tunneling ( http://arxiv.org/abs/2309.10115v3 )

ライセンス: Link先を確認
Arthur Lin, Matthew F. Doty, Garnett W. Bryant(参考訳) 長いホールスピンコヒーレンス時間を持ち、光学制御スキームに適する自己組み立てinas量子ドット(qds)は、長い間、キュービットアーキテクチャのビルディングブロックとして研究されてきた。 そのような設計の一つは、2つのQDを垂直に積み重ねて量子ドット分子(QDM)を作成することである。 2つのドットは共振的に調整され、各ドットに非局在化されたホール状態のハイブリダイゼーションから「分子様」結合穴状態を形成する。 さらに、ドットの積層方向に沿ってオフセットされたハイブリッド状態のスピンミキシングにより、クビット回転を光学的に駆動することができ、全光量子制御方式が可能である。 このスピン混合の大きさの増大は、光量子制御プロトコルにおいて重要である。 ドット間のトンネル結合とスピン混合を強化するため、GaAs間障壁にBiを導入する。 従来,InAs/GaBiAsを原子性強結合形式でモデル化する方法,および合金によるドットエネルギーレベルの影響について検討した。 本稿では, 7%の合金が存在する場合, 孔孔結合強度を3倍に増やすトンネルバリアの低下について検討する。 さらに, 合金による2点間の非対称ひずみが共鳴をいかにシフトさせるかを示す。 最後に、biの導入が最も有利なデバイスジオメトリについて論じる。

Self-assembled InAs quantum dots (QDs), which have long hole-spin coherence times and are amenable to optical control schemes, have long been explored as building blocks for qubit architectures. One such design consists of vertically stacking two QDs to create a quantum dot molecule (QDM). The two dots can be resonantly tuned to form "molecule-like" coupled hole states from the hybridization of hole states otherwise localized in each respective dot. Furthermore, spin-mixing of the hybridized states in dots offset along their stacking direction enables qubit rotation to be driven optically, allowing for an all-optical qubit control scheme. Increasing the magnitude of this spin mixing is important for optical quantum control protocols. To enhance the tunnel coupling and spin-mixing across the dots, we introduce Bi in the GaAs inter-dot barrier. Previously, we showed how to model InAs/GaBiAs in an atomistic tight-binding formalism, and how the dot energy levels are affected by the alloy. In this paper, we discuss the lowering of the tunnel barrier, which results in a three fold increase of hole tunnel coupling strength in the presence of a 7% alloy. Additionally, we show how an asymmetric strain between the two dots caused by the alloy shifts the resonance. Finally, we discuss device geometries for which the introduction of Bi is most advantageous.
翻訳日:2024-03-13 16:18:04 公開日:2024-03-09
# ベイズ動的dag学習を用いた脳の動的有効コネクトームの発見

Discovering Dynamic Effective Connectome of Brain with Bayesian Dynamic DAG Learning ( http://arxiv.org/abs/2309.07080v3 )

ライセンス: Link先を確認
Abdolmahdi Bagheri, Mohammad Pasande, Kevin Bello, Babak Nadjar Araabi, Alireza Akhondi-Asl(参考訳) DEC(Dynamic Effective Connectome)を抽出することで、脳の複雑なメカニズムを理解することができる。 近年,楽譜に基づくDAG (Directed Acyclic Graph) 探索法は,因果構造を抽出し,有効接続性を推定する上で,大幅な改善がなされている。 しかし,これらの手法によるDECの学習には,高次元動的DAG発見法の基本原理と,fMRIデータの品質の低さの2つの課題がある。 本稿では,M-行列を用いたベイズ動的DAG学習法(BDyMA)を導入し,DEC発見の課題に対処する。 提案した動的因果モデルにより,フィードバックループエッジの直接検出が可能となる。 BDyMA法で制約のないフレームワークを活用すると、高次元ネットワークの検出がより正確になり、スペーサーの結果が得られ、特にDECの抽出に適している。 さらに、BDyMA法のスコア関数により、動的因果発見のプロセスに事前知識を組み込むことで、結果の精度をさらに高めることができる。 合成データとヒトコネクトームプロジェクト(hcp)データを用いた実験の総合シミュレーションにより,本手法が2つの課題を両立できることが証明された。 さらに,DTIデータのDEC発見の先行知識としての信頼性について検討し,DTIデータをプロセスに組み込んだ場合のDEC発見の改善を示す。

Understanding the complex mechanisms of the brain can be unraveled by extracting the Dynamic Effective Connectome (DEC). Recently, score-based Directed Acyclic Graph (DAG) discovery methods have shown significant improvements in extracting the causal structure and inferring effective connectivity. However, learning DEC through these methods still faces two main challenges: one with the fundamental impotence of high-dimensional dynamic DAG discovery methods and the other with the low quality of fMRI data. In this paper, we introduce Bayesian Dynamic DAG learning with M-matrices Acyclicity characterization (BDyMA) method to address the challenges in discovering DEC. The presented dynamic causal model enables us to discover direct feedback loop edges as well. Leveraging an unconstrained framework in the BDyMA method leads to more accurate results in detecting high-dimensional networks, achieving sparser outcomes, making it particularly suitable for extracting DEC. Additionally, the score function of the BDyMA method allows the incorporation of prior knowledge into the process of dynamic causal discovery which further enhances the accuracy of results. Comprehensive simulations on synthetic data and experiments on Human Connectome Project (HCP) data demonstrate that our method can handle both of the two main challenges, yielding more accurate and reliable DEC compared to state-of-the-art and traditional methods. Additionally, we investigate the trustworthiness of DTI data as prior knowledge for DEC discovery and show the improvements in DEC discovery when the DTI data is incorporated into the process.
翻訳日:2024-03-13 16:17:38 公開日:2024-03-09
# 感染拡大の地理を解き放つ:スーパーエージェントを用いた予測モデル

Unraveling the Geography of Infection Spread: Harnessing Super-Agents for Predictive Modeling ( http://arxiv.org/abs/2309.07055v5 )

ライセンス: Link先を確認
Amir Mohammad Esmaieeli Sikaroudi, Alon Efrat, Michael Chertkov(参考訳) 本研究は, 複雑なエージェントベースモデル (ABM) と感染症の伝統的なコンパートメンタルモデルとのギャップを埋める中間レベルモデリング手法を提案する。 都市部における感染拡大をシミュレートし,個別レベルの相互作用を維持しながら計算複雑性を低減させる「スーパーエージェント」を導入する。 このアプローチは、実世界のモビリティデータと戦略的地理空間的テッセルレーションを効率よく活用する。 Voronoi Diagramテッセルレーションは、特定のストリートネットワークの位置に基づいて、標準のCensus Block Groupテッセルレーションより優れており、ハイブリッドアプローチは精度と効率のバランスをとる。 既存のabmsに対するベンチマークでは、重要な最適化が強調される。 本研究は都市部の疾病モデルを改善し,地理的特異性と高い計算効率を必要とするシナリオにおいて,公衆衛生戦略を支援する。

Our study presents an intermediate-level modeling approach that bridges the gap between complex Agent-Based Models (ABMs) and traditional compartmental models for infectious diseases. We introduce "super-agents" to simulate infection spread in cities, reducing computational complexity while retaining individual-level interactions. This approach leverages real-world mobility data and strategic geospatial tessellations for efficiency. Voronoi Diagram tessellations, based on specific street network locations, outperform standard Census Block Group tessellations, and a hybrid approach balances accuracy and efficiency. Benchmarking against existing ABMs highlights key optimizations. This research improves disease modeling in urban areas, aiding public health strategies in scenarios requiring geographic specificity and high computational efficiency.
翻訳日:2024-03-13 16:17:14 公開日:2024-03-09
# precisionbugcollector: 拡張可能で実行可能で正確なバグ修正コレクション

PreciseBugCollector: Extensible, Executable and Precise Bug-fix Collection ( http://arxiv.org/abs/2309.06229v4 )

ライセンス: Link先を確認
He Ye, Zimin Chen and Claire Le Goues(参考訳) バグデータセットは、ディープラーニング技術がバグに関連するソフトウェアのメンテナンスタスクに対処できるようにするために不可欠である。 しかし、既存のバグデータセットは、小さなが、手動による検証では正確であるか、単純なコミットメッセージ処理では不正確である。 本稿では,この2つの制限を克服した多言語バグ収集手法であるclearbugcollectorを提案する。 PreciseBugCollectorは2つの新しいコンポーネントに基づいている。 a) コードベースのリポジトリを外部のバグリポジトリにマップし、バグタイプ情報をトレースするバグトラッカー b) バグインジェクタは、正しいコードベースにノイズを注入し、テスト失敗メッセージを取得するためのテストスイートに対して、プロジェクト固有のバグを生成します。 3つのソースに対してPreciseBugCollectorを実装します。 1) 国家脆弱性データセット(NVD)にリンクして一般の脆弱性を収集するバグトラッカー。 2)OSS-Fuzzにリンクして全般的なバグを収集するバグトラッカー 3) プロジェクト毎のバグを生成する16のインジェクションルールに基づくバグインジェクタ。 現在、PreciseBugCollectorは2968のオープンソースプロジェクトから抽出された1057818のバグを含んでいる。 そのうち12602のバグはバグリポジトリ(NVDとOSS-Fuzz)から発生し、残りの1045216のプロジェクト固有のバグはバグインジェクタによって生成される。 プロジェクト固有のバグはドメインの知識と一致し、同じコードベースを共有し、産業プロジェクトで採用されるコーディングスタイルに準拠するためである。

Bug datasets are vital for enabling deep learning techniques to address software maintenance tasks related to bugs. However, existing bug datasets suffer from precise and scale limitations: they are either small-scale but precise with manual validation or large-scale but imprecise with simple commit message processing. In this paper, we introduce PreciseBugCollector, a precise, multi-language bug collection approach that overcomes these two limitations. PreciseBugCollector is based on two novel components: a) A bug tracker to map the codebase repositories with external bug repositories to trace bug type information, and b) A bug injector to generate project-specific bugs by injecting noise into the correct codebases and then executing them against their test suites to obtain test failure messages. We implement PreciseBugCollector against three sources: 1) A bug tracker that links to the national vulnerability data set (NVD) to collect general-wise vulnerabilities, 2) A bug tracker that links to OSS-Fuzz to collect general-wise bugs, and 3) A bug injector based on 16 injection rules to generate project-wise bugs. To date, PreciseBugCollector comprises 1057818 bugs extracted from 2968 open-source projects. Of these, 12602 bugs are sourced from bug repositories (NVD and OSS-Fuzz), while the remaining 1045216 project-specific bugs are generated by the bug injector. Considering the challenge objectives, we argue that a bug injection approach is highly valuable for the industrial setting, since project-specific bugs align with domain knowledge, share the same codebase, and adhere to the coding style employed in industrial projects.
翻訳日:2024-03-13 16:16:07 公開日:2024-03-09
# 類推的推論としての大規模言語モデル

Large Language Models as Analogical Reasoners ( http://arxiv.org/abs/2310.01714v3 )

ライセンス: Link先を確認
Michihiro Yasunaga, Xinyun Chen, Yujia Li, Panupong Pasupat, Jure Leskovec, Percy Liang, Ed H. Chi, Denny Zhou(参考訳) 言語モデルのためのchain-of-thought(cot)プロンプトは推論タスク全体で印象的なパフォーマンスを示すが、通常は推論プロセスのラベル付き例証が必要である。 本研究では,大規模言語モデルの推論プロセスを自動的にガイドする,新しいプロンプト手法であるアナログプロンプトを導入する。 類推的推論は、人間が関連する過去の経験から新たな問題に取り組むための認知過程であり、我々のアプローチは言語モデルに与えられた問題を解決する前に、文脈における関連する経験や知識を自己生成するよう促す。 この方法はいくつかの利点があり、例えば、前例のラベル付けや検索の必要性を排除し、汎用性と利便性を提供し、生成した前例と知識を各問題にカスタマイズし、適応性を提供する。 実験の結果,GSM8KとMATHの数学問題解決,コードフォースのコード生成,BIG-Benchの他の推論タスクなど,さまざまな推論タスクにおいて,0ショットのCoTと手動のCoTよりも優れていた。

Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, analogical prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.
翻訳日:2024-03-13 16:12:08 公開日:2024-03-09
# 偏極社会における視覚的政治コミュニケーション : Instagramにおけるブラジル大統領選挙の縦断的研究

Visual Political Communication in a Polarized Society: A Longitudinal Study of Brazilian Presidential Elections on Instagram ( http://arxiv.org/abs/2310.00349v2 )

ライセンス: Link先を確認
Mathias-Felipe de-Lima-Santos, Isabella Gon\c{c}alves, Marcos G. Quiles, Lucia Mesquita, Wilson Ceron, Maria Clara Couto Lorena(参考訳) 今日のデジタル時代、画像は政治家がソーシャルメディアプラットフォームで有権者と交流するための強力なツールとして現れてきた。 ビジュアルコンテンツはユニークな感情的な魅力を持ち、しばしばユーザーのエンゲージメントを高める。 しかし、特にグローバル・サウスでは、視覚コミュニケーションの研究は比較的限られている。 この研究は、2018年と2022年のブラジル大統領候補19名による11,263件のInstagram投稿のデータセットで使用される視覚コミュニケーション戦略を、計算手法と質的なアプローチを組み合わせることで、このギャップを埋めることを目的としている。 2つの研究を通して、視覚的政治的コミュニケーションの利用において、これらの候補間で一貫したパターンが観察された。 特に,祝いとポジティブなトーン画像の有病率について検討した。 彼らはまた、強いパーソナライズ感を示し、より感情的なレベルで有権者と結びついた候補者を描いている。 我々の研究は、ブラジルの政治情勢に特有の独自の文脈ニュアンスも明らかにしている。 われわれはニュースサイトや他のソーシャルメディアプラットフォームからスクリーンショットが大量に投稿されていることに注目する。 さらに、描写のあるテキスト編集画像が目立った特徴として出現する。 これらの結果を踏まえて,視覚的な政治コミュニケーションの幅広い分野に対する意味に関する議論を行う。 この記事は、Instagramが2つの激しい偏極化ブラジル選挙の物語を形作る上で果たした重要な役割の証しであり、デジタル時代における視覚的政治的コミュニケーションの絶え間なく進化するダイナミクスに光を当てている。 最後に,視覚政治コミュニケーションの分野における今後の研究への道筋を提案する。

In today's digital age, images have emerged as powerful tools for politicians to engage with their voters on social media platforms. Visual content possesses a unique emotional appeal that often leads to increased user engagement. However, research on visual communication remains relatively limited, particularly in the Global South. This study aims to bridge this gap by employing a combination of computational methods and qualitative approach to investigate the visual communication strategies employed in a dataset of 11,263 Instagram posts by 19 Brazilian presidential candidates in 2018 and 2022 national elections. Through two studies, we observed consistent patterns across these candidates on their use of visual political communication. Notably, we identify a prevalence of celebratory and positively toned images. They also exhibit a strong sense of personalization, portraying candidates connected with their voters on a more emotional level. Our research also uncovers unique contextual nuances specific to the Brazilian political landscape. We note a substantial presence of screenshots from news websites and other social media platforms. Furthermore, text-edited images with portrayals emerge as a prominent feature. In light of these results, we engage in a discussion regarding the implications for the broader field of visual political communication. This article serves as a testament to the pivotal role that Instagram has played in shaping the narrative of two fiercely polarized Brazilian elections, casting a revealing light on the ever-evolving dynamics of visual political communication in the digital age. Finally, we propose avenues for future research in the realm of visual political communication.
翻訳日:2024-03-13 16:10:42 公開日:2024-03-09
# LumiNet: 知覚的知識蒸留の明るい側面

LumiNet: The Bright Side of Perceptual Knowledge Distillation ( http://arxiv.org/abs/2310.03669v2 )

ライセンス: Link先を確認
Md. Ismail Hossain, M M Lutfe Elahi, Sameera Ramasinghe, Ali Cheraghian, Fuad Rahman, Nabeel Mohammed, Shafin Rahman(参考訳) 知識蒸留文学では,広範な教員モデルに効果的にアクセスできるため,機能ベースの手法が主流となっている。 対照的に、教師から「暗黒知識」を抽出することを目的としたロジットベースのアプローチは、機能ベースの手法に比べてパフォーマンスが劣る。 このギャップを埋めるために、ロジットに基づく蒸留を強化するために設計された新しい知識蒸留アルゴリズムであるLumiNetを提案する。 モデル表現能力に基づいてロジットを校正することを目的としたパーセプションの概念を導入する。 本概念は,ロジット蒸留法における過信問題に対処しつつ,教師の知識を抽出する新たな方法を導入する。 バッチ内の他のサンプルとの関係を考慮して、サンプル/インスタンスのロジットを再構築する。 LumiNetは、CIFAR-100、ImageNet、MSCOCOなどのベンチマークを抜いて、例えば、ImageNet上のResNet18とMobileNetV2のKDと比較して、主要な機能ベースのメソッドよりも優れている。

In knowledge distillation literature, feature-based methods have dominated due to their ability to effectively tap into extensive teacher models. In contrast, logit-based approaches, which aim to distill `dark knowledge' from teachers, typically exhibit inferior performance compared to feature-based methods. To bridge this gap, we present LumiNet, a novel knowledge distillation algorithm designed to enhance logit-based distillation. We introduce the concept of 'perception', aiming to calibrate logits based on the model's representation capability. This concept addresses overconfidence issues in logit-based distillation method while also introducing a novel method to distill knowledge from the teacher. It reconstructs the logits of a sample/instances by considering relationships with other samples in the batch. LumiNet excels on benchmarks like CIFAR-100, ImageNet, and MSCOCO, outperforming leading feature-based methods, e.g., compared to KD with ResNet18 and MobileNetV2 on ImageNet, it shows improvements of 1.5% and 2.05%, respectively.
翻訳日:2024-03-13 16:00:15 公開日:2024-03-09
# 確率測度空間における勾配流によるサンプリング

Sampling via Gradient Flows in the Space of Probability Measures ( http://arxiv.org/abs/2310.03597v3 )

ライセンス: Link先を確認
Yifan Chen, Daniel Zhengyu Huang, Jiaoyang Huang, Sebastian Reich, Andrew M Stuart(参考訳) 未知の正規化定数で目標確率分布をサンプリングすることは、計算科学と工学における根本的な課題である。 近年の研究では,確率測度空間における勾配流を考慮したアルゴリズムが,アルゴリズム開発の新たな道を開くことが示されている。 本稿では,これらの勾配流の設計成分を精査することにより,このサンプリング手法に3つの貢献を行う。 サンプリングのための勾配流のインスタンス化には、フローを決定するためのエネルギー関数と計量、およびアルゴリズムを導出するフローの数値近似が必要である。 第一の貢献は、エネルギー汎関数としてのクルバック・リーブラーの発散が、対象分布の正規化定数に依存しない勾配流の独特の性質(すべてのf-分岐)を持つことを示すことである。 第二の貢献は、不変性の観点から計量の選択を研究することである。 フィッシャー・ラオ計量は微分同相不変量である唯一の選択(スケーリングまで)として知られている。 計算可能な代替として,メトリクスと勾配流れに対する緩和されたアフィン不変性を導入する。 特に、様々なアフィン不変量wasersteinおよびstein勾配流を構成する。 アフィン不変勾配流は、理論上および粒子法を用いて高異方性分布をサンプリングする場合、非アフィン不変流よりも好ましく振る舞うことが示されている。 第3の貢献は、勾配流のガウス近似に基づく効率的なアルゴリズムの研究と開発であり、これは粒子法に代わるものである。 種々のガウス近似勾配流の接続を確立し,パラメトリック変分推論から生じる勾配法との関係を議論し,その収束特性を理論的および数値的に検討する。

Sampling a target probability distribution with an unknown normalization constant is a fundamental challenge in computational science and engineering. Recent work shows that algorithms derived by considering gradient flows in the space of probability measures open up new avenues for algorithm development. This paper makes three contributions to this sampling approach by scrutinizing the design components of such gradient flows. Any instantiation of a gradient flow for sampling needs an energy functional and a metric to determine the flow, as well as numerical approximations of the flow to derive algorithms. Our first contribution is to show that the Kullback-Leibler divergence, as an energy functional, has the unique property (among all f-divergences) that gradient flows resulting from it do not depend on the normalization constant of the target distribution. Our second contribution is to study the choice of metric from the perspective of invariance. The Fisher-Rao metric is known as the unique choice (up to scaling) that is diffeomorphism invariant. As a computationally tractable alternative, we introduce a relaxed, affine invariance property for the metrics and gradient flows. In particular, we construct various affine invariant Wasserstein and Stein gradient flows. Affine invariant gradient flows are shown to behave more favorably than their non-affine-invariant counterparts when sampling highly anisotropic distributions, in theory and by using particle methods. Our third contribution is to study, and develop efficient algorithms based on Gaussian approximations of the gradient flows; this leads to an alternative to particle methods. We establish connections between various Gaussian approximate gradient flows, discuss their relation to gradient methods arising from parametric variational inference, and study their convergence properties both theoretically and numerically.
翻訳日:2024-03-13 15:59:54 公開日:2024-03-09
# 拡散生成フローサンプリング:部分軌道最適化による学習信号の改善

Diffusion Generative Flow Samplers: Improving learning signals through partial trajectory optimization ( http://arxiv.org/abs/2310.02679v3 )

ライセンス: Link先を確認
Dinghuai Zhang, Ricky T. Q. Chen, Cheng-Hao Liu, Aaron Courville, Yoshua Bengio(参考訳) 機械学習や統計学でよく見られる基本課題である,難解な高次元密度関数からのサンプリング問題に取り組む。 対象密度から近似サンプルをモデル化するために,制御確率過程を利用した最近のサンプリングベースアプローチを拡張する。 これらのアプローチの主な欠点は、トレーニング対象が計算に完全な軌道を必要とすることであり、結果として、全軌道と終端時間のみに存在する学習信号の使用によるクレジット割り当ての問題が緩やかになる。 そこで本研究では, 学習過程を比較的短い部分的軌道セグメントに分割し, 追加の「フロー関数」をパラメータ化できるサンプリングベースフレームワークである拡散生成フローサンプラー(dgfs)を提案する。 本手法は,生成フローネットワーク(gflownets)で開発された理論に着想を得て,中間学習信号の利用を可能にした。 様々な挑戦的な実験を通して、DGFSは密接な関係を持つ先行手法よりも正確な正規化定数の推定を達成できることを示した。

We tackle the problem of sampling from intractable high-dimensional density functions, a fundamental task that often appears in machine learning and statistics. We extend recent sampling-based approaches that leverage controlled stochastic processes to model approximate samples from these target densities. The main drawback of these approaches is that the training objective requires full trajectories to compute, resulting in sluggish credit assignment issues due to use of entire trajectories and a learning signal present only at the terminal time. In this work, we present Diffusion Generative Flow Samplers (DGFS), a sampling-based framework where the learning process can be tractably broken down into short partial trajectory segments, via parameterizing an additional "flow function". Our method takes inspiration from the theory developed for generative flow networks (GFlowNets), allowing us to make use of intermediate learning signals. Through various challenging experiments, we demonstrate that DGFS achieves more accurate estimates of the normalization constant than closely-related prior methods.
翻訳日:2024-03-13 15:58:07 公開日:2024-03-09
# インスタンスはもっと注意が必要だ:ループにllmを持つインスタンスのプロンプトを書き直すと、ゼロショットパフォーマンスが向上する

Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance ( http://arxiv.org/abs/2310.02107v3 )

ライセンス: Link先を確認
Saurabh Srivastava, Chengyue Huang, Weiguo Fan, Ziyu Yao(参考訳) 大規模言語モデル(LLM)はゼロショットタスクのパフォーマンスに革命をもたらし、タスク固有のアノテーションの必要性を軽減し、タスクの一般化性を高めている。 その進歩にもかかわらず、'Let's Think by Step'のようなトリガーフレーズを使った現在のメソッドは制限されている。 本研究では,``llms in the loop''という革新的な方法に従って,個々のタスクインスタンスに対してゼロショットプロンプトを最適化するアプローチであるprodutedを紹介する。 GPT-4に基づく13のデータセットと10のタスクタイプにわたる包括的な評価により、PRomPTedは、入力プロンプトの代わりにタスク出力を洗練する、単純なゼロショットアプローチと強いベースライン(すなわち ``Output Refinement'')の両方を著しく上回ります。 実験の結果, 比較的弱い gpt-3.5 に対するこの利点の一般化も確認できた。 さらに興味深いことに, GPT-3.5 を用いてより強力な GPT-4 のプロンプトを書き換えるだけでなく, 時折 GPT-4 をプロンプトリライタとして使用する効果を上回ることが判明した。 本研究は, ゼロショットLDMの性能向上だけでなく, より弱めのLCMを監視できる可能性も示しており, 最近では注目されている。

Large language models (LLMs) have revolutionized zero-shot task performance, mitigating the need for task-specific annotations while enhancing task generalizability. Despite its advancements, current methods using trigger phrases such as ``Let's think step by step'' remain limited. This study introduces PRomPTed, an approach that optimizes the zero-shot prompts for individual task instances following an innovative manner of ``LLMs in the loop''. Our comprehensive evaluation across 13 datasets and 10 task types based on GPT-4 reveals that PRomPTed significantly outperforms both the naive zero-shot approaches and a strong baseline (i.e., ``Output Refinement'') which refines the task output instead of the input prompt. Our experimental results also confirmed the generalization of this advantage to the relatively weaker GPT-3.5. Even more intriguingly, we found that leveraging GPT-3.5 to rewrite prompts for the stronger GPT-4 not only matches but occasionally exceeds the efficacy of using GPT-4 as the prompt rewriter. Our research thus presents a huge value in not only enhancing zero-shot LLM performance but also potentially enabling supervising LLMs with their weaker counterparts, a capability attracting much interest recently.
翻訳日:2024-03-13 15:57:22 公開日:2024-03-09
# 人間の活動のデコード:活動認識のためのウェアラブル加速度計とジャイロスコープデータの解析

Decoding Human Activities: Analyzing Wearable Accelerometer and Gyroscope Data for Activity Recognition ( http://arxiv.org/abs/2310.02011v2 )

ライセンス: Link先を確認
Utsab Saha, Sawradip Saha, Tahmid Kabir, Shaikh Anowarul Fattah, Mohammad Saquib(参考訳) 人の動きや相対的な位置決めは、コンピュータによって読み取れる生の電気信号を効果的に生成し、異なる人間の活動の分類に様々なマニピュレータ技術を適用する。 本稿では,Residual MobileNetを組み込んだResidualネットワークに基づく階層型マルチ構造アプローチについて,FusionActNetと呼ぶ。 提案手法では,静的なアクティビティと動的アクティビティを個別に分類するために,慎重に設計されたResidualブロックを使用する。 これらのネットワークは独立して訓練され、2つの専門的かつ高精度なモデルが得られる。 これらのモデルは、アーキテクチャ調整のユニークなアルゴリズム的利点を生かして、特定のスーパークラス内での活動を認識するのに優れている。 その後、これら2つのResNetは、重み付けされたアンサンブルベースのResidual MobileNetを介して転送される。 その後、このアンサンブルは、前段階の異なる特徴特性に基づいて以前同定された特定の静的活動と特定の動的活動とを適切に識別する。 提案モデルは、UCI HARとMotion-Senseの2つの公開データセットを用いて評価される。 これにより、データ重複の非常に紛らわしいケースをうまく処理した。 そこで,提案手法では,uci harデータセットとモーションセンスデータセットで96.71%,95.35%の精度を実現している。

A person's movement or relative positioning effectively generates raw electrical signals that can be read by computing machines to apply various manipulative techniques for the classification of different human activities. In this paper, a stratified multi-structural approach based on a Residual network ensembled with Residual MobileNet is proposed, termed as FusionActNet. The proposed method involves using carefully designed Residual blocks for classifying the static and dynamic activities separately because they have clear and distinct characteristics that set them apart. These networks are trained independently, resulting in two specialized and highly accurate models. These models excel at recognizing activities within a specific superclass by taking advantage of the unique algorithmic benefits of architectural adjustments. Afterward, these two ResNets are passed through a weighted ensemble-based Residual MobileNet. Subsequently, this ensemble proficiently discriminates between a specific static and a specific dynamic activity, which were previously identified based on their distinct feature characteristics in the earlier stage. The proposed model is evaluated using two publicly accessible datasets; namely, UCI HAR and Motion-Sense. Therein, it successfully handled the highly confusing cases of data overlap. Therefore, the proposed approach achieves a state-of-the-art accuracy of 96.71% and 95.35% in the UCI HAR and Motion-Sense datasets respectively.
翻訳日:2024-03-13 15:56:55 公開日:2024-03-09
# In-Context Pretraining: ドキュメント境界を越えた言語モデリング

In-Context Pretraining: Language Modeling Beyond Document Boundaries ( http://arxiv.org/abs/2310.10638v5 )

ライセンス: Link先を確認
Weijia Shi and Sewon Min and Maria Lomeli and Chunting Zhou and Margaret Li and Gergely Szilvasy and Rich James and Xi Victoria Lin and Noah A. Smith and Luke Zettlemoyer and Scott Yih and Mike Lewis(参考訳) 大規模な言語モデル(lms)は現在、ドキュメントプレフィックスが与えられたトークンを予測するように訓練されており、直接ロングフォーム生成や、ドキュメント補完に還元可能なプロンプトスタイルのタスクを実行することができる。 既存の事前訓練パイプラインは、短い文書のランダムなセットを連結して入力コンテキストを作成することでLMを訓練するが、以前の文書は次の文書を予測するための信号を提供しない。 In-Context Pretrainingは、言語モデルが関連する文書のシーケンスで事前訓練される新しいアプローチであり、それによって文書境界を越えて読み書きを明示的に促す。 In-Context Pretrainingは、ドキュメントの順序を変更するだけで、それぞれのコンテキストに関連ドキュメントが含まれ、既存の事前トレーニングパイプラインを直接適用できる。 しかし,この文書ソート問題は困難である。 何十億ものドキュメントがあり、データを繰り返すことなく、すべてのドキュメントの文脈的類似性を最大化したいと考えています。 そこで本研究では, 近接探索を効率よく行う関連文書の探索と, グラフトラバーサルアルゴリズムを用いたコヒーレントな入力コンテキスト構築のための近似アルゴリズムを提案する。 in-context learning (+8%), reading comprehension (+15%), honestness to previous contexts (+16%), long-context reasoning (+5%), retrieval augmentation (+9%) など,より複雑なコンテキスト推論を必要とするタスクには注目すべき改善点があります。

Large language models (LMs) are currently trained to predict tokens given document prefixes, enabling them to directly perform long-form generation and prompting-style tasks which can be reduced to document completion. Existing pretraining pipelines train LMs by concatenating random sets of short documents to create input contexts but the prior documents provide no signal for predicting the next document. We instead present In-Context Pretraining, a new approach where language models are pretrained on a sequence of related documents, thereby explicitly encouraging them to read and reason across document boundaries. We can do In-Context Pretraining by simply changing the document ordering so that each context contains related documents, and directly applying existing pretraining pipelines. However, this document sorting problem is challenging. There are billions of documents and we would like the sort to maximize contextual similarity for every document without repeating any data. To do this, we introduce approximate algorithms for finding related documents with efficient nearest neighbor search and constructing coherent input contexts with a graph traversal algorithm. Our experiments show In-Context Pretraining offers a simple and scalable approach to significantly enhance LMs'performance: we see notable improvements in tasks that require more complex contextual reasoning, including in-context learning (+8%), reading comprehension (+15%), faithfulness to previous contexts (+16%), long-context reasoning (+5%), and retrieval augmentation (+9%).
翻訳日:2024-03-13 15:53:29 公開日:2024-03-09
# ビザンチンロバスト学習のためのコミュニケーション圧縮:新しい効率的なアルゴリズムと改善率

Communication Compression for Byzantine Robust Learning: New Efficient Algorithms and Improved Rates ( http://arxiv.org/abs/2310.09804v2 )

ライセンス: Link先を確認
Ahmad Rammal, Kaja Gruntkowska, Nikita Fedin, Eduard Gorbunov, Peter Richt\'arik(参考訳) ビザンチン・ロバスト性(byzantine robustness)は、特定の分散最適化問題に対するアルゴリズムの重要な特徴である。 これらの問題は通常大規模であり、通信圧縮もその解決に必須であることを示している。 これらの要因は、圧縮によるビザンチン・ロバスト学習の文献における最近のアルゴリズム的・理論的発展を促している。 本稿では,この研究領域に2つの方向性で貢献する。 まず、Byz-DASHA-PAGEを用いた新しいByz-DASHA-PAGE法を提案し、新しい手法が(非凸およびPolyak-Lojasiewiczのスムーズな最適化問題に対して)より良い収束率を持つこと、不均一な場合の近傍サイズを小さくし、SOTA理論収束保証法(Byz-VR-MARINA)により従来の方法よりも過パラメライズされたビザンチン労働者を許容する。 次に,Byz-EF21-BCandとByz-EF21-BCandを併用して,通信圧縮とエラーフィードバックを併用した最初のByzantine-robust法を開発し,非凸およびPolyak-Lojasiewiczスムーズケースに対するこれらの手法の収束率を導出する。 数値実験において,提案手法を検証し,理論的な知見を示す。

Byzantine robustness is an essential feature of algorithms for certain distributed optimization problems, typically encountered in collaborative/federated learning. These problems are usually huge-scale, implying that communication compression is also imperative for their resolution. These factors have spurred recent algorithmic and theoretical developments in the literature of Byzantine-robust learning with compression. In this paper, we contribute to this research area in two main directions. First, we propose a new Byzantine-robust method with compression - Byz-DASHA-PAGE - and prove that the new method has better convergence rate (for non-convex and Polyak-Lojasiewicz smooth optimization problems), smaller neighborhood size in the heterogeneous case, and tolerates more Byzantine workers under over-parametrization than the previous method with SOTA theoretical convergence guarantees (Byz-VR-MARINA). Secondly, we develop the first Byzantine-robust method with communication compression and error feedback - Byz-EF21 - along with its bidirectional compression version - Byz-EF21-BC - and derive the convergence rates for these methods for non-convex and Polyak-Lojasiewicz smooth case. We test the proposed methods and illustrate our theoretical findings in the numerical experiments.
翻訳日:2024-03-13 15:51:57 公開日:2024-03-09
# Prometheus: 言語モデルにおけるきめ細かい評価機能の導入

Prometheus: Inducing Fine-grained Evaluation Capability in Language Models ( http://arxiv.org/abs/2310.08491v2 )

ライセンス: Link先を確認
Seungone Kim, Jamin Shin, Yejin Cho, Joel Jang, Shayne Longpre, Hwaran Lee, Sangdoo Yun, Seongjin Shin, Sungdong Kim, James Thorne, Minjoon Seo(参考訳) 近年,Large Language Model (LLM, GPT-4) を長文応答評価器として活用することがデファクトスタンダードとなっている。 しかし, 大規模評価課題や, 子どもの可読性などの特質を考慮に入れた実践者に対しては, プロプライエタリなLCMを評価対象として使用することは, クローズドソースの性質, 制御不能なバージョニング, 禁止費用などにより信頼性が低い。 本稿では,適切な参照材料(参照応答,スコアルーリック)を添付した場合に,GPT-4の評価能力に匹敵する完全オープンソースLPMであるPrometheusを提案する。 まず、GPT-4で生成された1Kの微粒なスコアルーブリック、20Kの命令、100Kの応答と言語フィードバックからなる新しいデータセットであるFeedback Collectionを構築した。 フィードバックコレクションを使用することで、ユーザがカスタマイズしたスコアルーブリックに基づいて、任意の長文を評価可能な13B評価用LLMであるPrometheusをトレーニングする。 実験結果から, GPT-4(0.882), ChatGPT(0.392)に匹敵する45種類の楽譜を用いた評価において, Prometheus は Pearson と人間評価器との相関を0.897 と評価した。 さらに、4つのベンチマーク(MT Bench, Vicuna Bench, Feedback Bench, Flask Eval)にまたがる1222個のスコアルーブリックを用いたGPT-4の相関測定も同様の傾向を示し、PrometheusのLCMとしての能力を高めている。 最後に、Prometheusは、人間の嗜好データセットで明示的に訓練されたオープンソース報酬モデルと比較して、2つの人選好ベンチマーク(HHH AlignmentとMT Bench Human Judgment)で最高精度を達成し、普遍的な報奨モデルとしての可能性を強調している。 コード、データセット、モデルをhttps://kaistai.github.io/prometheus/でオープンソース化しています。

Recently, using a powerful proprietary Large Language Model (LLM) (e.g., GPT-4) as an evaluator for long-form responses has become the de facto standard. However, for practitioners with large-scale evaluation tasks and custom criteria in consideration (e.g., child-readability), using proprietary LLMs as an evaluator is unreliable due to the closed-source nature, uncontrolled versioning, and prohibitive costs. In this work, we propose Prometheus, a fully open-source LLM that is on par with GPT-4's evaluation capabilities when the appropriate reference materials (reference answer, score rubric) are accompanied. We first construct the Feedback Collection, a new dataset that consists of 1K fine-grained score rubrics, 20K instructions, and 100K responses and language feedback generated by GPT-4. Using the Feedback Collection, we train Prometheus, a 13B evaluator LLM that can assess any given long-form text based on customized score rubric provided by the user. Experimental results show that Prometheus scores a Pearson correlation of 0.897 with human evaluators when evaluating with 45 customized score rubrics, which is on par with GPT-4 (0.882), and greatly outperforms ChatGPT (0.392). Furthermore, measuring correlation with GPT-4 with 1222 customized score rubrics across four benchmarks (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) shows similar trends, bolstering Prometheus's capability as an evaluator LLM. Lastly, Prometheus achieves the highest accuracy on two human preference benchmarks (HHH Alignment & MT Bench Human Judgment) compared to open-sourced reward models explicitly trained on human preference datasets, highlighting its potential as an universal reward model. We open-source our code, dataset, and model at https://kaistai.github.io/prometheus/.
翻訳日:2024-03-13 15:50:30 公開日:2024-03-09
# 視覚言語モデルを活用した画像分類における領域一般化

Leveraging Vision-Language Models for Improving Domain Generalization in Image Classification ( http://arxiv.org/abs/2310.08255v2 )

ライセンス: Link先を確認
Sravanti Addepalli, Ashish Ramayee Asokan, Lakshay Sharma, R. Venkatesh Babu(参考訳) CLIPのような視覚言語モデル(VLM)は大量の画像とテキストのペアで訓練されており、いくつかのデータ分布に顕著な一般化をもたらす。 しかし、いくつかのケースでは、その高価なトレーニングとデータ収集/計算コストは、エンドユーザを正当化しない。 ベンダーは大規模なVLMをトレーニングし、ブラックボックス設定でペイ・パー・クエリーベースでクライアントへの入出力アクセスのみを許可する。 クライアントは、限られたタスク固有のデータを用いてVLMを学生モデルに蒸留し、さらに下流アプリケーションにこの学生モデルを配置することで、推論コストを最小化する。 ナイーブ蒸留は学生のドメイン内(id)精度を大幅に向上させるが,限定ラベル画像を用いたvlm教師の優れたアウト・オブ・ディストリビューション(ood)一般化は実現できない。 そこで本研究では,教師モデルの視覚と言語的モダリティを予め学習した学生モデルの視覚モダリティにまず整合させ,さらにvlm表現を学生に蒸留する視覚言語対視覚言語対予測(vl2v-adip)を提案する。 これは、VLM画像エンコーダの豊かな表現とテキスト埋め込みの優れた一般化を取り入れつつ、学生の事前訓練された特徴を最大限に保持する。 提案手法は,標準のドメイン一般化ベンチマークをブラックボックスの教師設定と,VLMの重みがアクセス可能なホワイトボックスの設定で実現している。

Vision-Language Models (VLMs) such as CLIP are trained on large amounts of image-text pairs, resulting in remarkable generalization across several data distributions. However, in several cases, their expensive training and data collection/curation costs do not justify the end application. This motivates a vendor-client paradigm, where a vendor trains a large-scale VLM and grants only input-output access to clients on a pay-per-query basis in a black-box setting. The client aims to minimize inference cost by distilling the VLM to a student model using the limited available task-specific data, and further deploying this student model in the downstream application. While naive distillation largely improves the In-Domain (ID) accuracy of the student, it fails to transfer the superior out-of-distribution (OOD) generalization of the VLM teacher using the limited available labeled images. To mitigate this, we propose Vision-Language to Vision - Align, Distill, Predict (VL2V-ADiP), which first aligns the vision and language modalities of the teacher model with the vision modality of a pre-trained student model, and further distills the aligned VLM representations to the student. This maximally retains the pre-trained features of the student, while also incorporating the rich representations of the VLM image encoder and the superior generalization of the text embeddings. The proposed approach achieves state-of-the-art results on the standard Domain Generalization benchmarks in a black-box teacher setting as well as a white-box setting where the weights of the VLM are accessible.
翻訳日:2024-03-13 15:49:28 公開日:2024-03-09
# 医療質問応答における大規模言語モデルの展望を探る

Exploring the landscape of large language models in medical question answering ( http://arxiv.org/abs/2310.07225v2 )

ライセンス: Link先を確認
Andrew M. Bean, Karolina Korgul, Felix Krones, Robert McCraith, Adam Mahdi(参考訳) 新しい大規模言語モデル(LLM)が急速に発展し、それぞれが以前のモデルを上回ると主張することから、医学LLM研究の全体像が解明される可能性がある。 この課題に対処するため、私たちはトップレベルのLSMをベンチマークし、モデルにまたがる一貫性のあるパターンを特定します。 ポーランドの医療ライセンス試験から新たに収集した874ドルの質問に対して、有名なLCMを8ドルでテストしました。 各質問に対して,各モデルをtop-1の精度と割り当てられた確率分布でスコア付けする。 次に、人間に対する質問難易度、質問の長さ、他のモデルのスコアなどについて比較する。 LLMの精度は正の相関関係(0.29$から0.62$)であった。 また, モデル性能は人的性能(0.07ドルから0.16ドル)と相関したが, トップスコアとボトムスコアの質問レベル精度(-0.16ドルから-0.23ドル)の違いに負の相関が認められた。 上位出力確率と質問長はそれぞれ正と負の精度の予測値であった(p $<0.05$)。 トップスコアのLPM, GPT-4 Turbo は 82 %$ で、次いで Med42, PaLM 2, Mixtral, GPT-3.5 は 63 %$ だった。 質問が正しく答えるモデル間の類似性の証拠と、人間のテストテイカーとの類似性を見出した。 より大型のモデルは通常より優れた性能を示したが、訓練方法の違いも非常に影響を受けていた。 モデル精度は信頼度と正の相関を示したが,質問長と負の相関を示した。 同様のトレーニング手法が、これらのパターンを将来のモデルにわたって持続させることを期待しています。 これらのパターンは、医学専門家がアプリケーション研究を支援するカテゴリとしてLSMに対する期待を形成するのに役立つ。

With the rapid development of new large language models (LLMs), each claiming to surpass previous models, an overall picture of medical LLM research can be elusive. To address this challenge, we benchmark a range of top LLMs and identify consistent patterns which appear across models. We test $8$ well-known LLMs on $874$ newly collected questions from Polish medical licensing exams. For each question, we score each model on the top-1 accuracy and the distribution of probabilities assigned. We then compare with factors including question difficulty for humans, question length, and the scores of the other models. LLM accuracies were positively correlated pairwise ($0.29$ to $0.62$). Model performance was also correlated with human performance ($0.07$ to $0.16$), but negatively correlated to the difference between the question-level accuracy of top-scoring and bottom-scoring humans ($-0.16$ to $-0.23$). The top output probability and question length were positive and negative predictors of accuracy respectively (p $< 0.05$). The top scoring LLM, GPT-4 Turbo, scored $82\%$, followed by Med42, PaLM 2, Mixtral and GPT-3.5 around $63\%$. We found evidence of similarities between models in which questions they answer correctly, as well as similarities with human test takers. Larger models typically performed better, but differences in training methods were also highly impactful. Model accuracy was positively correlated with confidence, but negatively correlated with question length. We expect that similar training methods will lead these patterns to persist across future models. These patterns can therefore aid medical experts in forming expectations about LLMs as a category to support application research.
翻訳日:2024-03-13 15:48:29 公開日:2024-03-09
# itransformer: 逆変換器は時系列予測に有効である

iTransformer: Inverted Transformers Are Effective for Time Series Forecasting ( http://arxiv.org/abs/2310.06625v3 )

ライセンス: Link先を確認
Yong Liu, Tengge Hu, Haoran Zhang, Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long(参考訳) 線形予測モデルの最近のブームは、トランスフォーマーベースの予測器のアーキテクチャ変更に対する継続的な情熱に疑問を呈している。 これらの予測器はTransformerを利用して時系列の時間的トークンに対するグローバルな依存関係をモデル化し、各トークンは同じタイムスタンプの複数の変数によって形成される。 しかし、トランスフォーマーは、性能劣化と計算の爆発により、見返り窓が大きいシリーズの予測に挑戦する。 さらに、各時間トークンの埋め込みは、潜在的な遅延事象と異なる物理的測定を表わす複数の変数を融合させ、変数中心の表現の学習に失敗し、無意味な注意マップをもたらす可能性がある。 本研究では,Transformer コンポーネントの能力的責務を反映し,基本コンポーネントを変更することなく Transformer アーキテクチャを再利用する。 本稿では,注意とフィードフォワードネットワークを逆次元に適用するitransformerを提案する。 具体的には、個々の時系列の時間ポイントを多変量トークンに埋め込み、注意機構によって多変量相関を捉え、一方、各変量トークンに対してフィードフォワードネットワークを適用して非線形表現を学習する。 iTransformerモデルは、挑戦的な現実世界のデータセットの最先端化を実現し、Transformerファミリーをさらに強化し、パフォーマンスの向上、さまざまな変数をまたいだ一般化能力、任意のルックバックウィンドウの利用性を向上する。 コードは、このリポジトリで入手できる。

The recent boom of linear forecasting models questions the ongoing passion for architectural modifications of Transformer-based forecasters. These forecasters leverage Transformers to model the global dependencies over temporal tokens of time series, with each token formed by multiple variates of the same timestamp. However, Transformers are challenged in forecasting series with larger lookback windows due to performance degradation and computation explosion. Besides, the embedding for each temporal token fuses multiple variates that represent potential delayed events and distinct physical measurements, which may fail in learning variate-centric representations and result in meaningless attention maps. In this work, we reflect on the competent duties of Transformer components and repurpose the Transformer architecture without any modification to the basic components. We propose iTransformer that simply applies the attention and feed-forward network on the inverted dimensions. Specifically, the time points of individual series are embedded into variate tokens which are utilized by the attention mechanism to capture multivariate correlations; meanwhile, the feed-forward network is applied for each variate token to learn nonlinear representations. The iTransformer model achieves state-of-the-art on challenging real-world datasets, which further empowers the Transformer family with promoted performance, generalization ability across different variates, and better utilization of arbitrary lookback windows, making it a nice alternative as the fundamental backbone of time series forecasting. Code is available at this repository: https://github.com/thuml/iTransformer.
翻訳日:2024-03-13 15:48:00 公開日:2024-03-09
# musechat:ビデオのための会話型音楽推薦システム

MuseChat: A Conversational Music Recommendation System for Videos ( http://arxiv.org/abs/2310.06282v4 )

ライセンス: Link先を確認
Zhikang Dong, Bin Chen, Xiulong Liu, Pawel Polak, Peng Zhang(参考訳) ビデオのための音楽レコメンデーションは、マルチモーダル研究への関心が高まっている。 しかし、既存のシステムはコンテンツ互換性に重点を置いており、ユーザーの好みを無視していることが多い。 さらなる改良のためにユーザと対話したり、説明を提供したりできないことは、満足のいく経験に繋がる。 ビデオのための音楽提案をパーソナライズする対話型レコメンデーションシステムであるmusechatでこの問題に対処した。 我々のシステムは2つの重要な機能と関連するモジュールから構成される:レコメンデーションと推論。 レコメンデーションモジュールは、以前の推奨音楽やユーザの好みを含む任意の情報を入力としてビデオを取り、コンテキストにマッチした適切な音楽を取得する。 推論モジュールはLarge Language Model (Vicuna-7B)のパワーを備え、マルチモーダル入力に拡張され、推奨音楽に対して合理的な説明を提供することができる。 musechatの有効性を評価するために,ビデオに対する対話型音楽レコメンデーションという大規模データセットを構築し,正確な音楽トラック情報に基づいてユーザとレコメンデータ間の2ターンインタラクションをシミュレートする。 実験結果から,MuseChatは既存のビデオベース音楽検索法よりも大幅に改善され,高い解釈性と対話性が得られることがわかった。

Music recommendation for videos attracts growing interest in multi-modal research. However, existing systems focus primarily on content compatibility, often ignoring the users' preferences. Their inability to interact with users for further refinements or to provide explanations leads to a less satisfying experience. We address these issues with MuseChat, a first-of-its-kind dialogue-based recommendation system that personalizes music suggestions for videos. Our system consists of two key functionalities with associated modules: recommendation and reasoning. The recommendation module takes a video along with optional information including previous suggested music and user's preference as inputs and retrieves an appropriate music matching the context. The reasoning module, equipped with the power of Large Language Model (Vicuna-7B) and extended to multi-modal inputs, is able to provide reasonable explanation for the recommended music. To evaluate the effectiveness of MuseChat, we build a large-scale dataset, conversational music recommendation for videos, that simulates a two-turn interaction between a user and a recommender based on accurate music track information. Experiment results show that MuseChat achieves significant improvements over existing video-based music retrieval methods as well as offers strong interpretability and interactability.
翻訳日:2024-03-13 15:47:31 公開日:2024-03-09
# TivNe-SLAM:時変ニューラルラジアンス場による動的追跡とマッピング

TivNe-SLAM: Dynamic Tracking and Mapping via Time-Varying Neural Radiance Fields ( http://arxiv.org/abs/2310.18917v3 )

ライセンス: Link先を確認
Chengyao Duan and Zhiliu Yang(参考訳) 従来のNeural Radiance Fields(NeRF)をSLAMフレームワークに統合するための試みは、静的シーンの仮定に依存するか、動的オブジェクトを外れ値として扱うかに依存する。 しかし、現実世界のシナリオのほとんどは動的です。 本稿では,動的シーンの追跡と再構成を行うための時間変化表現を提案する。 まず、トラッキングプロセスとマッピングプロセスという2つのプロセスがシステム内で同時に維持されます。 トラッキングプロセスでは、red{the entire input image is} uniformly sampleed, then Progressly training in a self-supervised paradigm。 マッピングプロセスでは,動的物体と静的背景を区別するためにモーションマスクを活用し,これらの2種類の領域に対して異なるサンプリング戦略を適用する。 第二段階は、変形場を標準場に変換するために、時間と3D位置を関連付ける。 そして、第2段階は、標準場の3D位置と時間を関連付け、色と符号付き距離関数(SDF)を得る。 最後に,重複率に基づく新しいキーフレーム選択戦略を提案する。 2つの合成データセットと実世界のデータセットに対するアプローチを評価する。 また,従来の動的マッピング手法と比較して,本手法の方が有効であることを示す。

Previous attempts to integrate Neural Radiance Fields (NeRF) into Simultaneous Localization and Mapping (SLAM) framework either rely on the assumption of static scenes or treat dynamic objects as outliers. However, most of real-world scenarios is dynamic. In this paper, we propose a time-varying representation to track and reconstruct the dynamic scenes. Firstly, two processes, tracking process and mapping process, are simultaneously maintained in our system. For tracking process, \red{the entire input images are} uniformly sampled, then progressively trained in a self-supervised paradigm. For mapping process, we leverage motion masks to differentiate dynamic objects and static backgrounds, \red{and we apply distinct sampling strategies for these two types of areas.} Secondly, the parameters optimization for both processes are made up by two stages, the first stage associates time with 3D positions to convert the deformation field to the canonical field. And the second stage associates time with 3D positions in canonical field to obtain colors and Signed Distance Function (SDF). Lastly, we propose a novel key-frame selection strategy based on the overlapping rate. We evaluate our approach on two synthetic datasets and a real-world dataset. And the experiment results validate that our method is more effective when compared to existing state-of-the-art dynamic mapping methods.
翻訳日:2024-03-13 15:42:15 公開日:2024-03-09
# Regret-to-Confidence-Set変換による(マルチノミカル)ロジスティック帯域のレgret境界の改善

Improved Regret Bounds of (Multinomial) Logistic Bandits via Regret-to-Confidence-Set Conversion ( http://arxiv.org/abs/2310.18554v2 )

ライセンス: Link先を確認
Junghyun Lee, Se-Young Yun, Kwang-Sung Jun(参考訳) ロジスティック・バンディット(英: Logistic bandit)は、ユーザの選択をモデル化するためのユビキタスなフレームワークである。 ここで、$\theta_\star \in \mathbb{R}^d$は未知のパラメータベクトルであり、例えば$S$が大きければ特に問題となる。 本研究では,オンライン学習アルゴリズムの\textit{existence} のみに基づいた凸信頼セットを構築することを可能にする,新しい手法である「r2cs」を用いて,$s$ への依存度を向上させる。 r2csを用いることで、ロジスティックバンドイットにおける後悔に縛られた w.r.t. $s$ の厳格な改善と計算可能性の維持と、$d$ や $t$ といった他の要因への依存が得られる。 我々は,ロジスティック・バンディットに対する新たな信頼度を,新たなマルティンゲール濃度のステップで解析し,さらにS$を回避した。 次に,この分析を多項ロジスティック・バンディットに拡張し,同様の改善を加え,R2CSの有効性を示した。 r2csを(多項)ロジスティックモデルに適用する一方で、r2csは独立した関心を持つ様々なモデルに使用できる信頼セットを開発するための一般的なアプローチである。

Logistic bandit is a ubiquitous framework of modeling users' choices, e.g., click vs. no click for advertisement recommender system. We observe that the prior works overlook or neglect dependencies in $S \geq \lVert \theta_\star \rVert_2$, where $\theta_\star \in \mathbb{R}^d$ is the unknown parameter vector, which is particularly problematic when $S$ is large, e.g., $S \geq d$. In this work, we improve the dependency on $S$ via a novel approach called {\it regret-to-confidence set conversion (R2CS)}, which allows us to construct a convex confidence set based on only the \textit{existence} of an online learning algorithm with a regret guarantee. Using R2CS, we obtain a strict improvement in the regret bound w.r.t. $S$ in logistic bandits while retaining computational feasibility and the dependence on other factors such as $d$ and $T$. We apply our new confidence set to the regret analyses of logistic bandits with a new martingale concentration step that circumvents an additional factor of $S$. We then extend this analysis to multinomial logistic bandits and obtain similar improvements in the regret, showing the efficacy of R2CS. While we applied R2CS to the (multinomial) logistic model, R2CS is a generic approach for developing confidence sets that can be used for various models, which can be of independent interest.
翻訳日:2024-03-13 15:41:54 公開日:2024-03-09
# テキスト属性グラフのための大規模言語モデルを用いた乱れ表現学習

Disentangled Representation Learning with Large Language Models for Text-Attributed Graphs ( http://arxiv.org/abs/2310.18152v4 )

ライセンス: Link先を確認
Yijian Qin, Xin Wang, Ziwei Zhang, Wenwu Zhu(参考訳) テキスト分散グラフ(TAG)はウェブ上で広く普及しており、引用ネットワークやeコマースネットワーク、ソーシャルネットワークといったTAGに関する調査がWebコミュニティで注目されている。 近年,大規模言語モデル (LLM) は,幅広いタスクにまたがる例外的な機能を示している。 しかし、既存の研究は、グラフ構造情報をLSMに伝達するプロンプトにのみ依存しているため、TAG内の複雑な構造関係の理解が不十分である。 本稿では,この問題を解決するために,タグに対するllmの推論と予測能力を向上させるためのdgtl(disentangled graph-text learner)モデルを提案する。 提案するdgtlモデルは,gnn(tailored disentangled graph neural network)層を介してグラフ構造情報を取り込み,複数の構造要素からテキスト属性グラフに隠された複雑な関係をllmでキャプチャする。 さらに、DGTLはフリーズされたLLMで動作し、計算コストを削減し、異なるLLMモデルと組み合わせる際の柔軟性をより高めている。 実験により,提案したDGTLモデルにより,最先端のベースラインよりも優れた性能,あるいは同等の性能が得られることを示した。 さらに,dgtlモデルが予測のための自然言語説明を提供することにより,モデル解釈可能性を大幅に向上できることを実証した。

Text-attributed graphs (TAGs) are prevalent on the web and research over TAGs such as citation networks, e-commerce networks and social networks has attracted considerable attention in the web community. Recently, large language models (LLMs) have demonstrated exceptional capabilities across a wide range of tasks. However, the existing works focus on harnessing the potential of LLMs solely relying on prompts to convey graph structure information to LLMs, thus suffering from insufficient understanding of the complex structural relationships within TAGs. To address this problem, in this paper we present the Disentangled Graph-Text Learner (DGTL) model, which is able to enhance the reasoning and predicting capabilities of LLMs for TAGs. Our proposed DGTL model incorporates graph structure information through tailored disentangled graph neural network (GNN) layers, enabling LLMs to capture the intricate relationships hidden in text-attributed graphs from multiple structural factors. Furthermore, DGTL operates with frozen pre-trained LLMs, reducing computational costs and allowing much more flexibility in combining with different LLM models. Experimental evaluations demonstrate the effectiveness of the proposed DGTL model on achieving superior or comparable performance over state-of-the-art baselines. Additionally, we also demonstrate that our DGTL model can offer natural language explanations for predictions, thereby significantly enhancing model interpretability.
翻訳日:2024-03-13 15:41:24 公開日:2024-03-09
# 最大損失:分散シフト時のキャリブレーションのための制約付き最大エントロピー

MaxEnt Loss: Constrained Maximum Entropy for Calibration under Out-of-Distribution Shift ( http://arxiv.org/abs/2310.17159v2 )

ライセンス: Link先を確認
Dexter Neo, Stefan Winkler, Tsuhan Chen(参考訳) 本稿では,配電系統のキャリブレーション問題に対処する新たな損失関数を提案する。 OODを効果的に校正するためには,多くの目的関数が提案されているが,本研究の結果は必ずしもOODをうまく利用していないことを示している。 最大エントロピーの原理に基づき、トレーニング中に観測される有用な統計制約を取り入れ、精度を犠牲にすることなくより優れたモデルキャリブレーションを提供する。 我々は理論解析を行い,本手法が実世界のベンチマークと実世界のベンチマークの両方で最先端のキャリブレーションを達成することを実証的に示す。

We present a new loss function that addresses the out-of-distribution (OOD) calibration problem. While many objective functions have been proposed to effectively calibrate models in-distribution, our findings show that they do not always fare well OOD. Based on the Principle of Maximum Entropy, we incorporate helpful statistical constraints observed during training, delivering better model calibration without sacrificing accuracy. We provide theoretical analysis and show empirically that our method works well in practice, achieving state-of-the-art calibration on both synthetic and real-world benchmarks.
翻訳日:2024-03-13 15:40:37 公開日:2024-03-09
# コアセットマルコフ連鎖モンテカルロ

Coreset Markov Chain Monte Carlo ( http://arxiv.org/abs/2310.17063v2 )

ライセンス: Link先を確認
Naitong Chen, Trevor Campbell(参考訳) ベイジアンコアセット(Bayesian coreset)は、計算コストを削減するために推論中に全データセットを置き換える小さな重み付きデータサブセットである。 しかしながら、コアセット重みをチューニングするための art メソッドの状態は高価であり、非自明なユーザ入力を必要とし、モデルに制約を課している。 本研究では,コアセット後部をターゲットとしたマルコフ連鎖をシミュレートし,同時にコアセット重みを更新する新しい手法,Coreset MCMCを提案する。 Coreset MCMCは実装とチューニングが簡単で、既存のMCMCカーネルで使用することができる。 提案手法の収束挙動に関する重要な知見を得るために,Coreset MCMCを代表的設定で解析する。 実験により、Coreset MCMCは、他のコアセット構築法と比較して、高品質な後続近似と計算コストの低減を提供することを示した。 さらに,他のMCMC法と比較すると,Coreset MCMCのサンプリング効率が向上し,後方近似の精度が向上することがわかった。

A Bayesian coreset is a small, weighted subset of data that replaces the full dataset during inference in order to reduce computational cost. However, state of the art methods for tuning coreset weights are expensive, require nontrivial user input, and impose constraints on the model. In this work, we propose a new method -- Coreset MCMC -- that simulates a Markov chain targeting the coreset posterior, while simultaneously updating the coreset weights using those same draws. Coreset MCMC is simple to implement and tune, and can be used with any existing MCMC kernel. We analyze Coreset MCMC in a representative setting to obtain key insights about the convergence behaviour of the method. Empirical results demonstrate that Coreset MCMC provides higher quality posterior approximations and reduced computational cost compared with other coreset construction methods. Further, compared with other general subsampling MCMC methods, we find that Coreset MCMC has a higher sampling efficiency with competitively accurate posterior approximations.
翻訳日:2024-03-13 15:40:00 公開日:2024-03-09
# 大規模言語モデルからの事前学習データの検出

Detecting Pretraining Data from Large Language Models ( http://arxiv.org/abs/2310.16789v3 )

ライセンス: Link先を確認
Weijia Shi, Anirudh Ajith, Mengzhou Xia, Yangsibo Huang, Daogao Liu, Terra Blevins, Danqi Chen, Luke Zettlemoyer(参考訳) 大規模言語モデル(LLM)は広くデプロイされているが、それらのトレーニングに使用されるデータはほとんど公開されていない。 このデータの驚くべき規模、数兆のトークンを考えると、著作権のある資料、個人を特定する情報、広く報告された基準ベンチマークのためのテストデータなど、潜在的に問題のあるテキストを含むことはほぼ確実である。 しかし、現在、これらの型のどのデータがどのデータを含んでいるか、どの比率で含まれているかを知る方法がありません。 本稿では,事前学習データ検出の問題について検討する。事前学習データを知ることなく,テキスト片とブラックボックスアクセスをLLMに与えることで,提案したテキストでモデルがトレーニングされたかどうかを判断できる。 本研究では,モデル学習前後に作成されたデータを用いてゴールド真理検出を支援する動的ベンチマークWIKIMIAを提案する。 また, 単純な仮説に基づく新たな検出手法Min-K% Probを導入する: 未知の例は, LLMの下では低い確率でいくつかの不規則な単語を含む傾向があり, また、そのような確率で低い単語を持つ場合が少なくなる。 min-k% probは、事前トレーニングコーパスや追加のトレーニングに関する知識がなくても適用でき、事前トレーニングデータに類似したデータに対する参照モデルのトレーニングを必要とする以前の検出方法から外れる。 さらに,Min-K% ProbがWIKIMIAを7.4%向上させることを示した。 我々はMin-K% Probを3つの実世界のシナリオに適用し、著作権付き本の検出、下流で汚染されたサンプルの検出と機械学習のプライバシー監査を行い、一貫した効果的な解決策を見出した。

Although large language models (LLMs) are widely deployed, the data used to train them is rarely disclosed. Given the incredible scale of this data, up to trillions of tokens, it is all but certain that it includes potentially problematic text such as copyrighted materials, personally identifiable information, and test data for widely reported reference benchmarks. However, we currently have no way to know which data of these types is included or in what proportions. In this paper, we study the pretraining data detection problem: given a piece of text and black-box access to an LLM without knowing the pretraining data, can we determine if the model was trained on the provided text? To facilitate this study, we introduce a dynamic benchmark WIKIMIA that uses data created before and after model training to support gold truth detection. We also introduce a new detection method Min-K% Prob based on a simple hypothesis: an unseen example is likely to contain a few outlier words with low probabilities under the LLM, while a seen example is less likely to have words with such low probabilities. Min-K% Prob can be applied without any knowledge about the pretraining corpus or any additional training, departing from previous detection methods that require training a reference model on data that is similar to the pretraining data. Moreover, our experiments demonstrate that Min-K% Prob achieves a 7.4% improvement on WIKIMIA over these previous methods. We apply Min-K% Prob to three real-world scenarios, copyrighted book detection, contaminated downstream example detection and privacy auditing of machine unlearning, and find it a consistently effective solution.
翻訳日:2024-03-13 15:39:41 公開日:2024-03-09
# コンピュータビジョンデータセットとモデルによる知覚の文化的・言語的多様性

Computer Vision Datasets and Models Exhibit Cultural and Linguistic Diversity in Perception ( http://arxiv.org/abs/2310.14356v3 )

ライセンス: Link先を確認
Andre Ye, Sebastin Santy, Jena D. Hwang, Amy X. Zhang, Ranjay Krishna(参考訳) コンピュータビジョンは、しばしば人間の知覚を均質なものとして扱う:視覚刺激は誰からも同じように知覚されるという暗黙の仮定。 この仮定は、研究者がデータセットを収集し、ビジョンモデルを訓練する方法に反映されている。 対照的に、異文化心理学や言語学の文献は、異なる文化背景の人々が同じ視覚刺激を見る場合でも、全く異なる概念を観察する証拠となっている。 本稿では,これらの違いが視覚言語データセットやモデルにどのように現れるのかを,文化の代理として言語を用いて検討する。 同じ画像に対して7つの言語で生成されたテキスト記述を比較することで,意味内容と言語表現に有意な差が認められた。 データセットが単言語とは対照的に多言語である場合、記述は、シーングラフ、モデル埋め込み、言語分類を用いてカバレッジを測定する平均的な意味的カバレッジを持つ。 例えば、多言語記述は平均29.9%以上の対象、24.5%以上の関係、46.0%以上の属性を持つ。 異なる言語で画像を記述しようとすると、人気のあるモデル(例えばllava)がこのバイアスを継承し、画像の異なる部分を記述する。 さらに、ある言語からのキャプションの微調整モデルは、その言語からの対応するテストデータに対して最良であり、多言語データの微調整は、すべてのテストデータ構成において一貫して良好である。 私たちの研究は、コンピュータビジョンコミュニティにおける人間の知覚の多様性を考慮し、受け入れる必要性に向けられている。

Computer vision often treats human perception as homogeneous: an implicit assumption that visual stimuli are perceived similarly by everyone. This assumption is reflected in the way researchers collect datasets and train vision models. By contrast, literature in cross-cultural psychology and linguistics has provided evidence that people from different cultural backgrounds observe vastly different concepts even when viewing the same visual stimuli. In this paper, we study how these differences manifest themselves in vision-language datasets and models, using language as a proxy for culture. By comparing textual descriptions generated across 7 languages for the same images, we find significant differences in the semantic content and linguistic expression. When datasets are multilingual as opposed to monolingual, descriptions have higher semantic coverage on average, where coverage is measured using scene graphs, model embeddings, and linguistic taxonomies. For example, multilingual descriptions have on average 29.9% more objects, 24.5% more relations, and 46.0% more attributes than a set of monolingual captions. When prompted to describe images in different languages, popular models (e.g. LLaVA) inherit this bias and describe different parts of the image. Moreover, finetuning models on captions from one language performs best on corresponding test data from that language, while finetuning on multilingual data performs consistently well across all test data compositions. Our work points towards the need to account for and embrace the diversity of human perception in the computer vision community.
翻訳日:2024-03-13 15:38:09 公開日:2024-03-09
# CycleNet: 画像操作のためのテキストガイド拡散におけるサイクル一貫性の再考

CycleNet: Rethinking Cycle Consistency in Text-Guided Diffusion for Image Manipulation ( http://arxiv.org/abs/2310.13165v2 )

ライセンス: Link先を確認
Sihan Xu, Ziqiao Ma, Yidong Huang, Honglak Lee, Joyce Chai(参考訳) 拡散モデル(DM)は画像合成タスクのブレークスルーを実現するが、一貫したイメージ・ツー・イメージ(I2I)翻訳のための直感的なインタフェースは欠如している。 マスクベースの方法、注意に基づく方法、イメージコンディショニングなど、この問題に対処する様々な方法が研究されている。 しかし、未対応のi2i翻訳を事前訓練したdmで有効にすることは、一貫性を維持しつつも重要な課題である。 本稿では,dmsに周期一貫性を組み込んで画像操作を規則化する新しい手法であるcyclenetを提案する。 粒度の異なる非ペアi2iタスクでcyclenetを検証する。 シーンとオブジェクトレベルの変換に加えて、オブジェクトの物理的状態変化を研究するために、マルチドメインI2I翻訳データセットも提供します。 実験により、Cyclenetは翻訳の一貫性と品質に優れており、テキストプロンプトの簡単な変更で領域外分布の高品質な画像を生成することができることがわかった。 Cyclenetは、非常に限られたトレーニングデータ(約2k)でも堅牢で、トレーニングに最小の計算リソース(1GPU)を必要とする、実用的なフレームワークである。 プロジェクトホームページ: https://cyclenetweb.github.io/

Diffusion models (DMs) have enabled breakthroughs in image synthesis tasks but lack an intuitive interface for consistent image-to-image (I2I) translation. Various methods have been explored to address this issue, including mask-based methods, attention-based methods, and image-conditioning. However, it remains a critical challenge to enable unpaired I2I translation with pre-trained DMs while maintaining satisfying consistency. This paper introduces Cyclenet, a novel but simple method that incorporates cycle consistency into DMs to regularize image manipulation. We validate Cyclenet on unpaired I2I tasks of different granularities. Besides the scene and object level translation, we additionally contribute a multi-domain I2I translation dataset to study the physical state changes of objects. Our empirical studies show that Cyclenet is superior in translation consistency and quality, and can generate high-quality images for out-of-domain distributions with a simple change of the textual prompt. Cyclenet is a practical framework, which is robust even with very limited training data (around 2k) and requires minimal computational resources (1 GPU) to train. Project homepage: https://cyclenetweb.github.io/
翻訳日:2024-03-13 15:37:27 公開日:2024-03-09
# 多様なデータ破壊下でのロバストオフライン強化学習に向けて

Towards Robust Offline Reinforcement Learning under Diverse Data Corruption ( http://arxiv.org/abs/2310.12955v3 )

ライセンス: Link先を確認
Rui Yang, Han Zhong, Jiawei Xu, Amy Zhang, Chongjie Zhang, Lei Han, Tong Zhang(参考訳) オフライン強化学習(rl)は、コストのかかる、あるいは安全でない環境とのインタラクションを必要とせずに、オフラインデータセットから強化されたポリシーを学ぶための有望なアプローチを提供する。 しかし、実際の環境で人間が収集したデータセットは、しばしば騒々しく、悪質に悪用されることもあり、オフラインのRLの性能を著しく低下させる可能性がある。 本研究では,現状のオフラインrlアルゴリズムの性能を,状態,動作,報酬,ダイナミクスを含む総合的データ破損下で調査する。 我々の広範な実験により、暗黙のq-learning(iql)が様々なオフラインrlアルゴリズムにおけるデータ破損に対する顕著なレジリエンスを示していることが明らかとなった。 さらに、IQLのロバストなパフォーマンスを理解するために、実証的および理論的両方の分析を行い、その教師付きポリシー学習スキームを重要な要素とみなす。 相対的な堅牢性にもかかわらず、iqlはダイナミクス破壊下でq関数のヘビーテールターゲットに苦しめられている。 この課題に取り組むために,我々は,ヘビーテールネスを扱うためにフーバーロスを活用し,腐敗したデータに対するペナライゼーションと学習安定性のバランスをとるために,質的推定器を活用するためのロバストな統計からインスピレーションを得た。 これらの単純で効果的な修正をIQLに組み込むことで、ロバストIQL(RIQL)というより堅牢なオフラインRLアプローチを提案する。 大規模な実験により、RIQLはさまざまなデータ破損シナリオで非常に堅牢なパフォーマンスを示します。

Offline reinforcement learning (RL) presents a promising approach for learning reinforced policies from offline datasets without the need for costly or unsafe interactions with the environment. However, datasets collected by humans in real-world environments are often noisy and may even be maliciously corrupted, which can significantly degrade the performance of offline RL. In this work, we first investigate the performance of current offline RL algorithms under comprehensive data corruption, including states, actions, rewards, and dynamics. Our extensive experiments reveal that implicit Q-learning (IQL) demonstrates remarkable resilience to data corruption among various offline RL algorithms. Furthermore, we conduct both empirical and theoretical analyses to understand IQL's robust performance, identifying its supervised policy learning scheme as the key factor. Despite its relative robustness, IQL still suffers from heavy-tail targets of Q functions under dynamics corruption. To tackle this challenge, we draw inspiration from robust statistics to employ the Huber loss to handle the heavy-tailedness and utilize quantile estimators to balance penalization for corrupted data and learning stability. By incorporating these simple yet effective modifications into IQL, we propose a more robust offline RL approach named Robust IQL (RIQL). Extensive experiments demonstrate that RIQL exhibits highly robust performance when subjected to diverse data corruption scenarios.
翻訳日:2024-03-13 15:37:04 公開日:2024-03-09
# 楕円対称分布の混合に基づく最大推定とクラスタリングのための非パラメトリック整合性

Nonparametric consistency for maximum likelihood estimation and clustering based on mixtures of elliptically-symmetric distributions ( http://arxiv.org/abs/2311.06108v3 )

ライセンス: Link先を確認
Pietro Coretto and Christian Hennig(参考訳) 集団バージョンを推定するための楕円対称分布の混合物に対する最大極大推定器の整合性を示し、基礎となる分布$P$は非パラメトリックであり、その推定器が基底となる混合物のクラスに必ずしも属さない。 P$ が十分に分離されているが非パラメトリック分布の混合である場合、推定器の集団バージョンの成分は、よく分離された$P$ の成分に対応することが示される。 このことは、もしこれらのサブポピュレーションが混合モデルが仮定したものと異なるとしても、$P$が十分に分離されたサブポピュレーションを持つ場合のクラスタ分析にそのような推定子を使用するための理論的正当化を与える。

The consistency of the maximum likelihood estimator for mixtures of elliptically-symmetric distributions for estimating its population version is shown, where the underlying distribution $P$ is nonparametric and does not necessarily belong to the class of mixtures on which the estimator is based. In a situation where $P$ is a mixture of well enough separated but nonparametric distributions it is shown that the components of the population version of the estimator correspond to the well separated components of $P$. This provides some theoretical justification for the use of such estimators for cluster analysis in case that $P$ has well separated subpopulations even if these subpopulations differ from what the mixture model assumes.
翻訳日:2024-03-13 15:32:09 公開日:2024-03-09
# 感性属性の単純なランダムサンプリングによる公正な教師付き学習

Fair Supervised Learning with A Simple Random Sampler of Sensitive Attributes ( http://arxiv.org/abs/2311.05866v2 )

ライセンス: Link先を確認
Jinwon Sohn, Qifan Song, Guang Lin(参考訳) データ駆動型意思決定プロセスが産業アプリケーションで優位に立つにつれ、フェアネス対応機械学習は様々な分野で大きな注目を集めている。 本研究は,ニューラルネットワークによって学習された公正な罰則を,非識別的教師付き学習のための感度属性の単純なランダムサンプリングを用いて提案する。 センシティブな属性と応答変数の離散性に批判的に依存する多くの既存の作品とは対照的に、提案されたペナルティはセンシティブな属性の多彩なフォーマットを扱えるため、多くの既存のアルゴリズムよりも実用的に適用できる。 このペナルティにより、計算効率のよいグループレベルのフェアネス対応トレーニングフレームワークを構築することができる。 実証的な証拠は、我々のフレームワークは、競合するメソッドよりも人気のあるベンチマークデータセットの利便性と公平性が良いことを示している。 また,提案するニューラルペナライズドリスク最小化問題において,推定誤差と有用性の喪失を理論的に特徴付ける。

As the data-driven decision process becomes dominating for industrial applications, fairness-aware machine learning arouses great attention in various areas. This work proposes fairness penalties learned by neural networks with a simple random sampler of sensitive attributes for non-discriminatory supervised learning. In contrast to many existing works that critically rely on the discreteness of sensitive attributes and response variables, the proposed penalty is able to handle versatile formats of the sensitive attributes, so it is more extensively applicable in practice than many existing algorithms. This penalty enables us to build a computationally efficient group-level in-processing fairness-aware training framework. Empirical evidence shows that our framework enjoys better utility and fairness measures on popular benchmark data sets than competing methods. We also theoretically characterize estimation errors and loss of utility of the proposed neural-penalized risk minimization problem.
翻訳日:2024-03-13 15:31:54 公開日:2024-03-09
# LRM: 単一画像から3Dへの大規模再構成モデル

LRM: Large Reconstruction Model for Single Image to 3D ( http://arxiv.org/abs/2311.04400v2 )

ライセンス: Link先を確認
Yicong Hong and Kai Zhang and Jiuxiang Gu and Sai Bi and Yang Zhou and Difan Liu and Feng Liu and Kalyan Sunkavalli and Trung Bui and Hao Tan(参考訳) 本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。 カテゴリ固有の方法でShapeNetのような小規模データセットでトレーニングされた多くの従来の手法とは対照的に、LRMは5億の学習可能なパラメータを持つスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。 我々は、Objaverseの合成レンダリングとMVImgNetの実際のキャプチャを含む約100万のオブジェクトを含む大規模なマルチビューデータに基づいて、エンドツーエンドでモデルをトレーニングする。 この高容量モデルと大規模トレーニングデータの組み合わせは、当社のモデルを高度に一般化し、実世界のインザワイルドキャプチャや生成モデルによるイメージなど、さまざまなテスト入力から高品質な3d再構成を可能にする。 ビデオデモと対話可能な3Dメッシュは、当社のLRMプロジェクトのWebページで見ることができる。

We propose the first Large Reconstruction Model (LRM) that predicts the 3D model of an object from a single input image within just 5 seconds. In contrast to many previous methods that are trained on small-scale datasets such as ShapeNet in a category-specific fashion, LRM adopts a highly scalable transformer-based architecture with 500 million learnable parameters to directly predict a neural radiance field (NeRF) from the input image. We train our model in an end-to-end manner on massive multi-view data containing around 1 million objects, including both synthetic renderings from Objaverse and real captures from MVImgNet. This combination of a high-capacity model and large-scale training data empowers our model to be highly generalizable and produce high-quality 3D reconstructions from various testing inputs, including real-world in-the-wild captures and images created by generative models. Video demos and interactable 3D meshes can be found on our LRM project webpage: https://yiconghong.me/LRM.
翻訳日:2024-03-13 15:30:50 公開日:2024-03-09
# ECNR:時変ボリュームデータセットの効率的な圧縮的ニューラル表現

ECNR: Efficient Compressive Neural Representation of Time-Varying Volumetric Datasets ( http://arxiv.org/abs/2311.12831v4 )

ライセンス: Link先を確認
Kaiyuan Tang and Chaoli Wang(参考訳) 概念の単純さと汎用性から、圧縮的ニューラルネットワーク表現は、大規模なボリュームデータセットを管理する従来の圧縮方法に代わる有望な選択肢として現れてきた。 ニューラル圧縮の現在の実践は、単一の大きな多層パーセプトロン(MLP)を使用して、グローバルボリュームを符号化し、遅いトレーニングと推論をもたらす。 本稿では、ラプラシアンピラミッドを用いた適応信号整合法を用いて、時間変化データ圧縮のための効率的な圧縮ニューラル表現(ECNR)ソリューションを提案する。 マルチスケール構造に続き、各スケールで複数の小さなMLPを活用して、局所的な内容や残留ブロックを適合させる。 同様のブロックをサイズ均一化により同一のMLPに割り当てることで、MPP間のバランスの取れた並列化を可能にし、トレーニングと推論を大幅に高速化する。 マルチスケール構造と協調して、結果のモデルをコンパクト化するために、深い圧縮戦略を調整します。 本稿では、ECNRを複数のデータセットで比較し、最先端圧縮法(主にSZ3, TTHRESH, neurcomp)と比較する。 結果はecnrをボリュームデータ圧縮の有望な解として位置づける。

Due to its conceptual simplicity and generality, compressive neural representation has emerged as a promising alternative to traditional compression methods for managing massive volumetric datasets. The current practice of neural compression utilizes a single large multilayer perceptron (MLP) to encode the global volume, incurring slow training and inference. This paper presents an efficient compressive neural representation (ECNR) solution for time-varying data compression, utilizing the Laplacian pyramid for adaptive signal fitting. Following a multiscale structure, we leverage multiple small MLPs at each scale for fitting local content or residual blocks. By assigning similar blocks to the same MLP via size uniformization, we enable balanced parallelization among MLPs to significantly speed up training and inference. Working in concert with the multiscale structure, we tailor a deep compression strategy to compact the resulting model. We show the effectiveness of ECNR with multiple datasets and compare it with state-of-the-art compression methods (mainly SZ3, TTHRESH, and neurcomp). The results position ECNR as a promising solution for volumetric data compression.
翻訳日:2024-03-13 15:21:26 公開日:2024-03-09
# 拡散モデルによる病理遷移からの進行画像の生成

Generating Progressive Images from Pathological Transitions via Diffusion Model ( http://arxiv.org/abs/2311.12316v2 )

ライセンス: Link先を確認
Zeyu Liu, Tianyi Zhang, Yufang He, Yunlu Feng, Yu Zhao, Guanglei Zhang(参考訳) 深層学習はコンピュータ支援型病理診断に広く応用されており、病理学の作業負荷を軽減し、タイムリーな臨床分析を提供する。 しかし、ほとんどのモデルは訓練のために大規模な注釈データを必要とするが、これは病理画像のサンプリングや注釈不足による課題に直面している。 急速な生成モデルは、最近の研究からより多くのトレーニングサンプルを生成する可能性を示している。 しかし、彼らは限られたトレーニングデータで一般化の多様性に苦労し、効果的なサンプルを生成することができない。 異なるステージ間の病的遷移に着想を得て,効果的なデータ拡張のための病理的プログレッシブ画像を生成するための適応的奥行き制御拡散(add)ネットワークを提案する。 この新しいアプローチはドメインマイグレーションのルーツであり、ハイブリッドアテンション戦略は双方向拡散を誘導し、ローカルとグローバルなアテンションの優先順位をブレンドする。 特徴量測定では,適応的深さ制御戦略によって移動が保証され,病理的特徴遷移をシミュレートする位置的類似性が維持される。 小さなトレーニングセット(500点未満のサンプル)に基づいて、ADDは対応するソフトラベルを持つクロスドメインプログレッシブイメージを生成する。 2つのデータセットの実験では、生成の多様性が著しく向上し、生成されたプログレッシブサンプルの有効性が下流分類で強調されている。 コードはhttps://github.com/Rowerliu/ADD.comで公開されている。

Deep learning is widely applied in computer-aided pathological diagnosis, which alleviates the pathologist workload and provide timely clinical analysis. However, most models generally require large-scale annotated data for training, which faces challenges due to the sampling and annotation scarcity in pathological images. The rapid developing generative models shows potential to generate more training samples from recent studies. However, they also struggle in generalization diversity with limited training data, incapable of generating effective samples. Inspired by the pathological transitions between different stages, we propose an adaptive depth-controlled diffusion (ADD) network to generate pathological progressive images for effective data augmentation. This novel approach roots in domain migration, where a hybrid attention strategy guides the bidirectional diffusion, blending local and global attention priorities. With feature measuring, the adaptive depth-controlled strategy ensures the migration and maintains locational similarity in simulating the pathological feature transition. Based on tiny training set (samples less than 500), the ADD yields cross-domain progressive images with corresponding soft-labels. Experiments on two datasets suggest significant improvements in generation diversity, and the effectiveness with generated progressive samples are highlighted in downstream classifications. The code is available at https://github.com/Rowerliu/ADD.
翻訳日:2024-03-13 15:20:09 公開日:2024-03-09
# Reti-Diff:Retinex-based Latent Diffusion Modelを用いた照明劣化画像復元

Reti-Diff: Illumination Degradation Image Restoration with Retinex-based Latent Diffusion Model ( http://arxiv.org/abs/2311.11638v2 )

ライセンス: Link先を確認
Chunming He, Chengyu Fang, Yulun Zhang, Tian Ye, Kai Li, Longxiang Tang, Zhenhua Guo, Xiu Li, Sina Farsiu(参考訳) 照明劣化画像復元(IDIR)技術は、劣化した画像の視認性を改善し、劣化した照明の悪影響を軽減することを目的としている。 これらのアルゴリズムのうち、拡散モデル(dm)に基づく手法は有望な性能を示してきたが、画像レベルの分布を予測する際の計算量や画素不一致の問題にしばしば負担される。 このような問題に対処するために,我々はコンパクトな潜伏空間内でDMを活用して簡潔な誘導先を生成することを提案し,IDIRタスクのためのReti-Diffと呼ばれる新しい解を提案する。 Reti-Diff は Retinex-based Latent DM (RLDM) と Retinex-Guided Transformer (RGformer) の2つの重要なコンポーネントから構成される。 詳細な復元と照明補正を確保するため、RLDMはRetinexの知識を取得し、反射率と照明前の情報を抽出する権限を有する。 これらの先行情報は、RGformerによって画像特徴の分解をそれぞれの反射率と照明成分に導くために利用される。 その後、RGformerは分解された特徴をさらに強化し、強化し、複雑な劣化シナリオを扱うために、一貫したコンテンツと堅牢性を備えた精細な画像を生成する。 大規模な実験により、Reti-Diffは3つのIDIRタスクや下流アプリケーションにおいて既存の手法よりも優れていることが示された。 コードは \url{https://github.com/ChunmingHe/Reti-Diff} で入手できる。

Illumination degradation image restoration (IDIR) techniques aim to improve the visibility of degraded images and mitigate the adverse effects of deteriorated illumination. Among these algorithms, diffusion model (DM)-based methods have shown promising performance but are often burdened by heavy computational demands and pixel misalignment issues when predicting the image-level distribution. To tackle these problems, we propose to leverage DM within a compact latent space to generate concise guidance priors and introduce a novel solution called Reti-Diff for the IDIR task. Reti-Diff comprises two key components: the Retinex-based latent DM (RLDM) and the Retinex-guided transformer (RGformer). To ensure detailed reconstruction and illumination correction, RLDM is empowered to acquire Retinex knowledge and extract reflectance and illumination priors. These priors are subsequently utilized by RGformer to guide the decomposition of image features into their respective reflectance and illumination components. Following this, RGformer further enhances and consolidates the decomposed features, resulting in the production of refined images with consistent content and robustness to handle complex degradation scenarios. Extensive experiments show that Reti-Diff outperforms existing methods on three IDIR tasks, as well as downstream applications. Code will be available at \url{https://github.com/ChunmingHe/Reti-Diff}.
翻訳日:2024-03-13 15:19:45 公開日:2024-03-09
# epim:エピトームに基づくメモリ内効率的な処理アクセラレータ

EPIM: Efficient Processing-In-Memory Accelerators based on Epitome ( http://arxiv.org/abs/2311.07620v2 )

ライセンス: Link先を確認
Chenyu Wang, Zhen Dong, Daquan Zhou, Zhenhua Zhu, Yu Wang, Jiashi Feng, Kurt Keutzer(参考訳) PIM(Processing-In-Memory)アクセラレータにおける大規模ニューラルネットワークの利用は、オンチップメモリ容量の制限による課題に直面する。 この問題に取り組むため、現在の研究は畳み込みニューラルネットワーク(cnns)のサイズを減らすためにモデル圧縮アルゴリズムを探求している。 これらのアルゴリズムのほとんどは、縮小サイズのパラメータ(例えば量子化)を持つニューラルネットワークの表現や、ニューラルネットワークの最適な組み合わせ(例えば、ニューラルネットワークの検索)の探索を目的としている。 PIMアクセラレーターの仕様に合わせて神経オペレーターを設計することは、さらなる研究を保証している分野である。 本稿では、PIMアクセラレータ(EPIM)のためのメモリ効率の良いCNN演算子を構築するために、畳み込みのような機能を提供する軽量神経演算子であるEpitomeを紹介する。 ソフトウェア側では,PIMアクセラレータにおけるエピトームのレイテンシとエネルギを評価し,ハードウェア効率を向上させるため,PIM対応層設計手法を導入する。 エピトーム・アウェア・量子化を応用してエピトームのサイズをさらに小さくする。 ハードウェア面では,現在のPIMアクセラレータのデータパスをエピトームに適合させるために修正し,計算コストを削減するために特徴マップ再利用手法を実装した。 実験の結果、我々の3ビット量子化EPIM-ResNet50はImageNetで71.59%の精度を実現し、クロスバー面積を30.65倍削減した。 EPIMはPIMの最先端プルーニング手法を超越している。

The utilization of large-scale neural networks on Processing-In-Memory (PIM) accelerators encounters challenges due to constrained on-chip memory capacity. To tackle this issue, current works explore model compression algorithms to reduce the size of Convolutional Neural Networks (CNNs). Most of these algorithms either aim to represent neural operators with reduced-size parameters (e.g., quantization) or search for the best combinations of neural operators (e.g., neural architecture search). Designing neural operators to align with PIM accelerators' specifications is an area that warrants further study. In this paper, we introduce the Epitome, a lightweight neural operator offering convolution-like functionality, to craft memory-efficient CNN operators for PIM accelerators (EPIM). On the software side, we evaluate epitomes' latency and energy on PIM accelerators and introduce a PIM-aware layer-wise design method to enhance their hardware efficiency. We apply epitome-aware quantization to further reduce the size of epitomes. On the hardware side, we modify the datapath of current PIM accelerators to accommodate epitomes and implement a feature map reuse technique to reduce computation cost. Experimental results reveal that our 3-bit quantized EPIM-ResNet50 attains 71.59% top-1 accuracy on ImageNet, reducing crossbar areas by 30.65 times. EPIM surpasses the state-of-the-art pruning methods on PIM.
翻訳日:2024-03-13 15:17:22 公開日:2024-03-09
# HIG:階層型インターレースグラフによる映像理解におけるシーングラフ生成

HIG: Hierarchical Interlacement Graph Approach to Scene Graph Generation in Video Understanding ( http://arxiv.org/abs/2312.03050v2 )

ライセンス: Link先を確認
Trong-Thuan Nguyen, Pha Nguyen, Khoa Luu(参考訳) 視覚シーンにおける視覚的対話性理解は、コンピュータビジョンにおいて重要な課題である。 既存の手法は単純な関係モデルを活用しながら複雑な相互作用に焦点を当てている。 しかし、これらの方法は、ビデオの外観、状況、位置、相互作用、関係の多様性に苦しむ。 この制限は、被験者の複雑な視覚力学における相互作用を完全に理解する能力を妨げる。 本稿では,人間と物体間の密接な相互作用からシーングラフ表現を導出することにより,視覚内容内の相互作用性を理解する。 この目的を達成するために,我々はまず,aspireと呼ばれる出現-位置-相互作用-関係の述語を含む新しいデータセットを提示した。 そして,階層構造内の統一層とグラフを利用して,5つの異なるタスク間のシーン変化の深い洞察を提供する階層型インターレースメントグラフ (HIG) を提案する。 本手法は,様々なシナリオで行った広範囲な実験により,他の手法よりも優れた性能を示す。

Visual interactivity understanding within visual scenes presents a significant challenge in computer vision. Existing methods focus on complex interactivities while leveraging a simple relationship model. These methods, however, struggle with a diversity of appearance, situation, position, interaction, and relation in videos. This limitation hinders the ability to fully comprehend the interplay within the complex visual dynamics of subjects. In this paper, we delve into interactivities understanding within visual content by deriving scene graph representations from dense interactivities among humans and objects. To achieve this goal, we first present a new dataset containing Appearance-Situation-Position-Interaction-Relation predicates, named ASPIRe, offering an extensive collection of videos marked by a wide range of interactivities. Then, we propose a new approach named Hierarchical Interlacement Graph (HIG), which leverages a unified layer and graph within a hierarchical structure to provide deep insights into scene changes across five distinct tasks. Our approach demonstrates superior performance to other methods through extensive experiments conducted in various scenarios.
翻訳日:2024-03-13 15:12:35 公開日:2024-03-09
# ブラックボックスのオープン:ビルディング物理洞察を用いた本質的に解釈可能なエネルギーデータインプテーションモデルに向けて

Opening the Black Box: Towards inherently interpretable energy data imputation models using building physics insight ( http://arxiv.org/abs/2311.16632v2 )

ライセンス: Link先を確認
Antonio Liguori, Matias Quintana, Chun Fu, Clayton Miller, J\'er\^ome Frisch, Christoph van Treeck(参考訳) 失われたデータは、建築エネルギーモデリングコミュニティの実践者や研究者によってしばしば観察される。 この点において、ディープラーニング手法のような先進的なデータ駆動ソリューションは、一般的にこれらの異常の非線形挙動を反映するために必要である。 ディープラーニングに関する継続的な研究課題として、ネットワークに事前知識を導入することで、限られたデータ設定へのモデルの適用性を検討することができる。 この戦略は、より解釈可能な予測につながる可能性があるため、アプローチのフィールド適用が容易になる。 本研究の目的は, 物理インフォームド・デノイング・オートエンコーダ (PI-DAE) を用いて, 商業ビルにおけるデータ計算の欠如について検討することである。 特に,提案手法では,物理に着想を得たソフト制約をデノナイジングオートエンコーダ(DAE)の損失関数に適用する。 物理成分の利点を定量化するために、異なるDAE構成間のアブレーション研究を行った。 まず、3つの単変量DAEを室内の気温、暖房、冷却データに別々に最適化する。 次に、以前の構成から2つの多変量DAEを導出する。 最終的に、建築熱収支方程式を最終多変量構成に結合してPI-DAEを得る。 さらに、この結果をサポートするために2つの一般的なベンチマークが使用される。 多変量デノナイジングオートエンコーダにおける物理知識の導入は、最適化された物理ベースの係数を通して、固有モデルの解釈可能性を高めることができることを示す。 提案したPI-DAEの復元誤差に関して有意な改善は見られていないが, 欠落率の変動に対する堅牢性の向上と, 物理に基づく係数から得られた貴重な洞察は, 建築システムや建築環境における幅広い応用の機会を生み出している。

Missing data are frequently observed by practitioners and researchers in the building energy modeling community. In this regard, advanced data-driven solutions, such as Deep Learning methods, are typically required to reflect the non-linear behavior of these anomalies. As an ongoing research question related to Deep Learning, a model's applicability to limited data settings can be explored by introducing prior knowledge in the network. This same strategy can also lead to more interpretable predictions, hence facilitating the field application of the approach. For that purpose, the aim of this paper is to propose the use of Physics-informed Denoising Autoencoders (PI-DAE) for missing data imputation in commercial buildings. In particular, the presented method enforces physics-inspired soft constraints to the loss function of a Denoising Autoencoder (DAE). In order to quantify the benefits of the physical component, an ablation study between different DAE configurations is conducted. First, three univariate DAEs are optimized separately on indoor air temperature, heating, and cooling data. Then, two multivariate DAEs are derived from the previous configurations. Eventually, a building thermal balance equation is coupled to the last multivariate configuration to obtain PI-DAE. Additionally, two commonly used benchmarks are employed to support the findings. It is shown how introducing physical knowledge in a multivariate Denoising Autoencoder can enhance the inherent model interpretability through the optimized physics-based coefficients. While no significant improvement is observed in terms of reconstruction error with the proposed PI-DAE, its enhanced robustness to varying rates of missing data and the valuable insights derived from the physics-based coefficients create opportunities for wider applications within building systems and the built environment.
翻訳日:2024-03-13 15:09:49 公開日:2024-03-09
# CLAP: Augmented Promptsによるコントラスト学習によるコンテンツ分離

CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts ( http://arxiv.org/abs/2311.16445v2 )

ライセンス: Link先を確認
Yichao Cai, Yuhang Liu, Zhen Zhang, Javen Qinfeng Shi(参考訳) CLIPのような対照的な視覚言語モデルは、学習した特徴を一般化するための顕著な能力のために、様々なdowmsteamタスクにかなりの注意を払っている。 しかし、彼らが学んだ機能は、しばしばコンテンツとスタイル情報をブレンドし、分散シフト下での一般化能力を制限する。 この制限に対処するために,マルチモーダルデータに対する因果的生成的視点を採用し,データ拡張によるコントラスト学習を提案し,元の表現からコンテンツ特徴を引き離す。 これを実現するために,画像拡張手法の検討から始め,学習済みクリップライクなモデルにシームレスに統合して純粋なコンテンツ特徴を抽出する手法を開発した。 さらに、テキストデータの固有の意味的豊かさと論理構造を認識し、潜在コンテンツとスタイル特徴を分離するためのテキスト拡張の利用について検討する。 これにより、CLIPライクなモデルのエンコーダは、遅延コンテンツ情報に集中でき、事前トレーニングされたCLIPライクなモデルによって学習された表現を洗練できる。 さまざまなデータセットにわたる広範な実験によって,ゼロショットと少数ショットの分類タスクが大幅に改善され,さまざまな摂動に対する堅牢性が向上しています。 これらの結果は,視覚言語表現の洗練とマルチモーダル学習の最先端化における提案手法の有効性を強調するものである。

Contrastive vision-language models, such as CLIP, have garnered considerable attention for various dowmsteam tasks, mainly due to the remarkable ability of the learned features for generalization. However, the features they learned often blend content and style information, which somewhat limits their generalization capabilities under distribution shifts. To address this limitation, we adopt a causal generative perspective for multimodal data and propose contrastive learning with data augmentation to disentangle content features from the original representations. To achieve this, we begins with exploring image augmentation techniques and develop a method to seamlessly integrate them into pre-trained CLIP-like models to extract pure content features. Taking a step further, recognizing the inherent semantic richness and logical structure of text data, we explore the use of text augmentation to isolate latent content from style features. This enables CLIP-like model's encoders to concentrate on latent content information, refining the learned representations by pre-trained CLIP-like models. Our extensive experiments across diverse datasets demonstrate significant improvements in zero-shot and few-shot classification tasks, alongside enhanced robustness to various perturbations. These results underscore the effectiveness of our proposed methods in refining vision-language representations and advancing the state-of-the-art in multimodal learning.
翻訳日:2024-03-13 15:08:25 公開日:2024-03-09
# ニューラルビデオフィールド編集

Neural Video Fields Editing ( http://arxiv.org/abs/2312.08882v2 )

ライセンス: Link先を確認
Shuzhou Yang and Chong Mou and Jiwen Yu and Yuhan Wang and Xiandong Meng and Jian Zhang(参考訳) 拡散モデルはテキスト駆動ビデオ編集に革命をもたらした。 しかし,これらの手法を実世界の編集に適用することは,(1)フレーム数の増加に伴うgpuメモリ需要の急増,(2)編集ビデオにおけるフレーム間非一貫性,という2つの大きな課題に直面する。 そこで本稿では,メモリオーバヘッドを軽減し,実世界の長大動画の一貫した編集を改善するために設計された,新しいテキスト駆動ビデオ編集フレームワークであるnveditを提案する。 具体的には,tri-planeとsparse gridを用いて,数百フレームの長い映像をメモリ効率良くエンコーディングするニューラルビデオフィールドを構築した。 次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドを更新し、テキスト駆動編集効果を付与する。 プログレッシブ最適化戦略(progressive optimization strategy)が開発された。 重要なのは、ニューラルビデオフィールドとT2Iモデルの両方が適応可能で置き換え可能であり、将来の研究に刺激を与えることだ。 実験は、数百のフレームを印象的なフレーム間一貫性で編集する手法の能力を実証する。 私たちのプロジェクトは、https://nvedit.github.io/で利用可能です。

Diffusion models have revolutionized text-driven video editing. However, applying these methods to real-world editing encounters two significant challenges: (1) the rapid increase in GPU memory demand as the number of frames grows, and (2) the inter-frame inconsistency in edited videos. To this end, we propose NVEdit, a novel text-driven video editing framework designed to mitigate memory overhead and improve consistent editing for real-world long videos. Specifically, we construct a neural video field, powered by tri-plane and sparse grid, to enable encoding long videos with hundreds of frames in a memory-efficient manner. Next, we update the video field through off-the-shelf Text-to-Image (T2I) models to impart text-driven editing effects. A progressive optimization strategy is developed to preserve original temporal priors. Importantly, both the neural video field and T2I model are adaptable and replaceable, thus inspiring future research. Experiments demonstrate the ability of our approach to edit hundreds of frames with impressive inter-frame consistency. Our project is available at: https://nvedit.github.io/.
翻訳日:2024-03-13 15:01:46 公開日:2024-03-09
# 量子相対エントロピーのための内部点法の効率的な実装

Efficient Implementation of Interior-Point Methods for Quantum Relative Entropy ( http://arxiv.org/abs/2312.07438v2 )

ライセンス: Link先を確認
Mehdi Karimi and Levent Tuncel(参考訳) 量子相対エントロピー (quantum relative entropy, qre) プログラミングは、量子コンピューティングや量子情報理論において重要な応用を持つ凸最適化問題の、最近普及し、挑戦的なクラスである。 我々はQREコーンの最適自己協和障壁に基づく近代的内部点法(IP)に興味を持っている。 このような障壁関数やQREコーンに関連する理論的および数値的な課題は、IPメソッドのスケーラビリティを妨げている。 これらの課題に対処するために,線形系を解き,行列ベクトル積を演算する自己協和障壁関数に対する勾配とヘッセンの計算効率の向上を目的とした,数値的および線形代数的手法とヒューリスティックスを提案する。 また、対称量子相対エントロピー(SQRE)など、QREに関連する興味深い概念を紹介し、検討する。 また,QREプログラムの性能を大幅に向上させる2段階の顔認識手法を提案する。 我々の新しい技術はソフトウェアパッケージDDSの最新版(DDS 2.2)で実装されている。 QRE制約の処理に加えて、DDSはいくつかの他の円錐および非円錐凸制約の組み合わせを受け入れている。 包括的数値実験はいくつかの部分を含む。 1)最も近い相関行列問題に対するDDS 2.2とHypatiaの比較。 2)QRE制約を他の制約タイプと組み合わせるためにDDSを使用し、 3)量子鍵分布(QKD)チャネルの鍵レートを計算し,いくつかのQKDプロトコルの結果を示す。

Quantum Relative Entropy (QRE) programming is a recently popular and challenging class of convex optimization problems with significant applications in quantum computing and quantum information theory. We are interested in modern interior point (IP) methods based on optimal self-concordant barriers for the QRE cone. A range of theoretical and numerical challenges associated with such barrier functions and the QRE cones have hindered the scalability of IP methods. To address these challenges, we propose a series of numerical and linear algebraic techniques and heuristics aimed at enhancing the efficiency of gradient and Hessian computations for the self-concordant barrier function, solving linear systems, and performing matrix-vector products. We also introduce and deliberate about some interesting concepts related to QRE such as symmetric quantum relative entropy (SQRE). We also introduce a two-phase method for performing facial reduction that can significantly improve the performance of QRE programming. Our new techniques have been implemented in the latest version (DDS 2.2) of the software package DDS. In addition to handling QRE constraints, DDS accepts any combination of several other conic and non-conic convex constraints. Our comprehensive numerical experiments encompass several parts including 1) a comparison of DDS 2.2 with Hypatia for the nearest correlation matrix problem, 2) using DDS for combining QRE constraints with various other constraint types, and 3) calculating the key rate for quantum key distribution (QKD) channels and presenting results for several QKD protocols.
翻訳日:2024-03-13 15:00:27 公開日:2024-03-09
# 不均一データを用いた構造因果モデルにおける未知の介入目標の学習

Learning Unknown Intervention Targets in Structural Causal Models from Heterogeneous Data ( http://arxiv.org/abs/2312.06091v2 )

ライセンス: Link先を確認
Yuqin Yang, Saber Salehkaleybar, Negar Kiyavash(参考訳) 複数の環境から収集した異種データにアクセス可能な構造因果モデルにおける未知の介入対象を特定する問題について検討する。 未知の介入ターゲットは、環境全体で対応する外因性ノイズが変化する内因性変数の集合である。 本稿では,環境に分散が変化した未知の介入対象に対応する外因性雑音を,第1フェーズで回復する2相アプローチを提案する。 第2段階では、回復した雑音は対応する内因性変数と一致する。 回復段階において、これらの外因性雑音をコンポーネントワイドの可逆変換まで学習するための十分な条件を提供する。 マッチングフェーズでは,因果的十分性仮定の下で,提案手法が介入目標を一意に同定することを示す。 潜在共同設立者の存在下では、観測変数間の介入対象は一意に決定できない。 我々は、真の介入目標の上位セットである候補介入目標セットを提供する。 我々のアプローチは、返された候補セットが常に前の作業で返された目標セットのサブセットであるため、芸術の状態を改善します。 さらに, 因果モデルの線形性や不変性テストの実行といった制約的な仮定を必要とせず, 分布が非効率な環境をまたいで変化しているかどうかを知る。 実験の結果,提案手法の有効性が示された。

We study the problem of identifying the unknown intervention targets in structural causal models where we have access to heterogeneous data collected from multiple environments. The unknown intervention targets are the set of endogenous variables whose corresponding exogenous noises change across the environments. We propose a two-phase approach which in the first phase recovers the exogenous noises corresponding to unknown intervention targets whose distributions have changed across environments. In the second phase, the recovered noises are matched with the corresponding endogenous variables. For the recovery phase, we provide sufficient conditions for learning these exogenous noises up to some component-wise invertible transformation. For the matching phase, under the causal sufficiency assumption, we show that the proposed method uniquely identifies the intervention targets. In the presence of latent confounders, the intervention targets among the observed variables cannot be determined uniquely. We provide a candidate intervention target set which is a superset of the true intervention targets. Our approach improves upon the state of the art as the returned candidate set is always a subset of the target set returned by previous work. Moreover, we do not require restrictive assumptions such as linearity of the causal model or performing invariance tests to learn whether a distribution is changing across environments which could be highly sample inefficient. Our experimental results show the effectiveness of our proposed algorithm in practice.
翻訳日:2024-03-13 15:00:07 公開日:2024-03-09
# テキストからメッセージの特徴を抽出するベクティナリーの構築:道徳的アピールを事例として

Constructing Vec-tionaries to Extract Message Features from Texts: A Case Study of Moral Appeals ( http://arxiv.org/abs/2312.05990v2 )

ライセンス: Link先を確認
Zening Duan, Anqi Shao, Yicheng Hu, Heysung Lee, Xining Liao, Yoo Ji Suh, Jisoo Kim, Kai-Cheng Yang, Kaiping Chen, and Sijia Yang(参考訳) 研究者は、パーティーのマニフェストやソーシャルメディアなど、テキスト中のモラルコンテンツのようなメッセージ機能を研究することが多いが、その定量化は依然として課題である。 従来のヒューマンコーディングはスケーラビリティとインターコーダの信頼性に苦しむ。 辞書ベースの手法はコスト効率と計算効率が良いが、文脈感度に欠けることが多く、本来の用途で開発された語彙によって制限される。 本稿では,非線形最適化による単語埋め込みによる検証ディクショナリの促進を目的としたvec-tionary measurement toolsの構築手法を提案する。 埋め込みによって符号化される意味的関係を利用して、vec-tionaryは、テキスト、特に短いフォーマットのメッセージ特徴の測定を改善し、元の語彙を他の文脈に適用できるように拡張する。 重要なことに、vec-tionaryは、テキストの強み以上のメッセージ機能の価値とあいまいさを捉えるために、追加のメトリクスを生成することができる。 ツイートのモラルコンテンツを事例研究として,従来の辞書や単語の埋め込み手法で欠落したテキストを処理し,クラウドソースによる人的評価に適合した指標を作成する能力を示すとともに,道徳的基盤を構築するためのステップを解説する。 さらに、vec-tionaryから追加されたメトリクスは、メッセージの再送信などの予測結果を促進するユニークな洞察を公開した。

While researchers often study message features like moral content in text, such as party manifestos and social media, their quantification remains a challenge. Conventional human coding struggles with scalability and intercoder reliability. While dictionary-based methods are cost-effective and computationally efficient, they often lack contextual sensitivity and are limited by the vocabularies developed for the original applications. In this paper, we present an approach to construct vec-tionary measurement tools that boost validated dictionaries with word embeddings through nonlinear optimization. By harnessing semantic relationships encoded by embeddings, vec-tionaries improve the measurement of message features from text, especially those in short format, by expanding the applicability of original vocabularies to other contexts. Importantly, a vec-tionary can produce additional metrics to capture the valence and ambivalence of a message feature beyond its strength in texts. Using moral content in tweets as a case study, we illustrate the steps to construct the moral foundations vec-tionary, showcasing its ability to process texts missed by conventional dictionaries and word embedding methods and to produce measurements better aligned with crowdsourced human assessments. Furthermore, additional metrics from the vec-tionary unveiled unique insights that facilitated predicting outcomes such as message retransmission.
翻訳日:2024-03-13 14:59:46 公開日:2024-03-09
# 開発者支援を再定義する: ソフトウェアエコシステムにおける大規模言語モデルを通して

Redefining Developer Assistance: Through Large Language Models in Software Ecosystem ( http://arxiv.org/abs/2312.05626v2 )

ライセンス: Link先を確認
Somnath Banerjee, Avik Dutta, Sayan Layek, Amruit Sahoo, Sam Conrad Joyce, Rima Hazra(参考訳) 本稿では,ドメイン固有大規模言語モデル(LLM)の進歩を,ソフトウェア開発への応用に焦点をあてて検討する。 我々は,ソフトウェア関連自然言語クエリの処理を支援するため,命令チューニングによって開発されたモデルであるdevassistllamaを紹介する。 命令チューニング LLM の亜種であるこのモデルは、特に複雑な技術ドキュメントの扱い、ソフトウェア固有のタスクにおける開発者の能力の向上に長けている。 DevAssistLlamaの作成には、様々なソフトウェアシステムから広範な命令データセットを構築し、名前付きエンティティ認識(NER)、関係抽出(RE)、リンク予測(LP)の効果的な処理を可能にした。 これらの課題においてDevAssistLlamaはChatGPTなどの他のモデルと比較して優れた能力を発揮する。 この研究は、ソフトウェア開発における特殊なLLMの可能性だけでなく、この領域の先駆者でもある。

In this paper, we delve into the advancement of domain-specific Large Language Models (LLMs) with a focus on their application in software development. We introduce DevAssistLlama, a model developed through instruction tuning, to assist developers in processing software-related natural language queries. This model, a variant of instruction tuned LLM, is particularly adept at handling intricate technical documentation, enhancing developer capability in software specific tasks. The creation of DevAssistLlama involved constructing an extensive instruction dataset from various software systems, enabling effective handling of Named Entity Recognition (NER), Relation Extraction (RE), and Link Prediction (LP). Our results demonstrate DevAssistLlama's superior capabilities in these tasks, in comparison with other models including ChatGPT. This research not only highlights the potential of specialized LLMs in software development also the pioneer LLM for this domain.
翻訳日:2024-03-13 14:59:24 公開日:2024-03-09
# 身体知能のための自己モデル:人体筋骨格系のモデリングと階層的低次元表現による歩行制御

Self Model for Embodied Intelligence: Modeling Full-Body Human Musculoskeletal System and Locomotion Control with Hierarchical Low-Dimensional Representation ( http://arxiv.org/abs/2312.05473v2 )

ライセンス: Link先を確認
Kaibo He, Chenhui Zuo, Jing Shao, Yanan Sui(参考訳) ヒトの筋骨格系のモデリングと制御は、ヒトの運動機能を理解し、インボディードインテリジェンスを開発し、ヒトとロボットの相互作用システムを最適化するために重要である。 しかし、現在のオープンソースモデルは限られた身体部位に限られており、しばしば筋肉の数が減少している。 また、合理的な人間の動きを生成するために600以上の筋肉を制御できるアルゴリズムが欠けている。 このギャップを埋めるために、90個の体節、206個の関節、700個の筋腱ユニットからなる筋骨格モデルを構築し、全身動態のシミュレーションと様々なデバイスとの相互作用を可能にする。 低次元表現と階層的深層強化学習を用いて,最先端の全身制御を実現する新しいアルゴリズムを開発した。 実人の移動データを用いたシミュレーションにおけるモデルとアルゴリズムの有効性を検証する。 筋骨格モデルは、その制御アルゴリズムとともに、人間のモーションコントロールのより深い理解と対話型ロボットの設計を促進するために研究コミュニティに提供される。

Modeling and control of the human musculoskeletal system is important for understanding human motor functions, developing embodied intelligence, and optimizing human-robot interaction systems. However, current open-source models are restricted to a limited range of body parts and often with a reduced number of muscles. There is also a lack of algorithms capable of controlling over 600 muscles to generate reasonable human movements. To fill this gap, we build a musculoskeletal model with 90 body segments, 206 joints, and 700 muscle-tendon units, allowing simulation of full-body dynamics and interaction with various devices. We develop a new algorithm using low-dimensional representation and hierarchical deep reinforcement learning to achieve state-of-the-art full-body control. We validate the effectiveness of our model and algorithm in simulations with real human locomotion data. The musculoskeletal model, along with its control algorithm, will be made available to the research community to promote a deeper understanding of human motion control and better design of interactive robots.
翻訳日:2024-03-13 14:59:09 公開日:2024-03-09
# プレトレーニングシーンテキスト検出器のブリッジ合成と実世界

Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors ( http://arxiv.org/abs/2312.05286v2 )

ライセンス: Link先を確認
Tongkun Guan, Wei Shen, Xue Yang, Xuehui Wang, Xiaokang Yang(参考訳) 既存のシーンテキスト検出手法は通常、トレーニングのために広範囲な実データに依存する。 注釈付き実画像の欠如により、最近の研究はテキスト検出器の事前学習に大規模なラベル付き合成データ(LSD)を活用しようと試みている。 しかし、シンス・トゥ・リアル領域のギャップが出現し、テキスト検出器の性能がさらに制限される。 そこで本研究では, LSDと未ラベル実データ(URD)の相補的な長所を実現するための, 実ドメイン対応事前学習パラダイムであるFreeRealを提案する。 具体的には、テキスト画像にグリフをベースとしたミキシング機構(GlyphMix)を配設し、合成画像の文字構造を記述し、落書きのような単位として実際の画像に埋め込む。 実際のドメインドリフトを導入することなく、glyphmixは合成ラベルからのアノテーションで現実世界のイメージを自由に生成する。 さらに、GlyphMixは、自由なきめ細かい合成ラベルを与えられると、様々な言語で英語が支配するLSDからUDDへの言語領域ギャップを効果的に橋渡しすることができる。 ベルとホイッスルがなければ、FreeRealはDPText, FCENet, PSENet, PANet, DBNetメソッドのパフォーマンスを改善する平均1.59\%, 1.97\%, 3.90\%, 3.85\%, 4.56\%を達成する。 コードはまもなくリリースされる。

Existing scene text detection methods typically rely on extensive real data for training. Due to the lack of annotated real images, recent works have attempted to exploit large-scale labeled synthetic data (LSD) for pre-training text detectors. However, a synth-to-real domain gap emerges, further limiting the performance of text detectors. Differently, in this work, we propose FreeReal, a real-domain-aligned pre-training paradigm that enables the complementary strengths of both LSD and unlabeled real data (URD). Specifically, to bridge real and synthetic worlds for pre-training, a glyph-based mixing mechanism (GlyphMix) is tailored for text images.GlyphMix delineates the character structures of synthetic images and embeds them as graffiti-like units onto real images. Without introducing real domain drift, GlyphMix freely yields real-world images with annotations derived from synthetic labels. Furthermore, when given free fine-grained synthetic labels, GlyphMix can effectively bridge the linguistic domain gap stemming from English-dominated LSD to URD in various languages. Without bells and whistles, FreeReal achieves average gains of 1.59\%, 1.97\%, 3.90\%, 3.85\%, and 4.56\% in improving the performance of DPText, FCENet, PSENet, PANet, and DBNet methods, respectively, consistently outperforming previous pre-training methods by a substantial margin across four public datasets. Code will be released soon.
翻訳日:2024-03-13 14:58:49 公開日:2024-03-09
# DDN-SLAM: リアルタイム高密度ダイナミックニューラルインシシットSLAM

DDN-SLAM: Real-time Dense Dynamic Neural Implicit SLAM ( http://arxiv.org/abs/2401.01545v2 )

ライセンス: Link先を確認
Mingrui Li, Yiming Zhou, Guangan Jiang, Tianchen Deng, Yangyang Wang, Hongyu Wang(参考訳) NeRFに基づくSLAMシステムは、従来の高密度SLAMと比較して、静的環境のレンダリング品質とシーン再構成において優れた性能を示した。 しかし、動的干渉を伴う現実世界のシナリオにおいて、追跡ドリフトとマッピングエラーに遭遇する。 これらの問題に対処するため, DDN-SLAMを導入し, 意味的特徴を統合した最初のリアルタイム高密度ニューラルネットワーク暗黙的SLAMシステムを提案する。 動的追跡干渉に対処するために,意味的特徴と混合ガウス分布モデルを組み合わせた特徴点分割法を提案する。 そこで,不正確な背景除去を避けるために,スパースポイントクラウドサンプリングと背景復元に基づくマッピング戦略を提案する。 動的閉塞を除去する動的意味損失を提案する。 実験により,DDN-SLAMは動的物体を適切に保存しつつ,動的環境における高品質な再構成を堅牢に追跡・生成できることが示された。 既存のニューラルネットワークの暗黙のスラムシステムと比較すると、動的データセットの追跡結果は平均軌道誤差(ate)の90%改善を示している。

SLAM systems based on NeRF have demonstrated superior performance in rendering quality and scene reconstruction for static environments compared to traditional dense SLAM. However, they encounter tracking drift and mapping errors in real-world scenarios with dynamic interferences. To address these issues, we introduce DDN-SLAM, the first real-time dense dynamic neural implicit SLAM system integrating semantic features. To address dynamic tracking interferences, we propose a feature point segmentation method that combines semantic features with a mixed Gaussian distribution model. To avoid incorrect background removal, we propose a mapping strategy based on sparse point cloud sampling and background restoration. We propose a dynamic semantic loss to eliminate dynamic occlusions. Experimental results demonstrate that DDN-SLAM is capable of robustly tracking and producing high-quality reconstructions in dynamic environments, while appropriately preserving potential dynamic objects. Compared to existing neural implicit SLAM systems, the tracking results on dynamic datasets indicate an average 90% improvement in Average Trajectory Error (ATE) accuracy.
翻訳日:2024-03-13 14:52:07 公開日:2024-03-09
# state machine of thoughts: 問題解決を強化するために過去の推論軌跡を活用する

State Machine of Thoughts: Leveraging Past Reasoning Trajectories for Enhancing Problem Solving ( http://arxiv.org/abs/2312.17445v2 )

ライセンス: Link先を確認
Jia Liu, Jie Shuai, Xiyao Li(参考訳) 現在の大規模言語モデルベースのエージェントは、探索評価フレームワーク内で、ツリーのような方法で問題解決プロセスをナビゲートする。 しかしながら、これらの手法は問題が解決されると推論軌道をうまく無視することが多く、将来の類似問題にこれらの軌道を非効率に利用する。 この非効率に対処するために、前回の推論軌跡に由来する経験を記録するステートマシンを採用する。 状態マシン内では、状態は分解されたサブプロブレムを表し、状態遷移はサブプロブレム間の依存関係を反映する。 ステートマシンは成功した軌道と失敗した軌道の両方を記録する。 提案するステートマシン・オブ・シンキング(smot)は,ステートマシンの経験を利用して最も最適なサブソリューションを選択し,誤りを回避している。 実験の結果,24ポイントゲームとタクシーナビゲーション強化学習ゲームという2つの探索集約的課題において,smotは問題解決能力を大幅に向上できることがわかった。

Current Large Language Model-based agents reason within an exploration-evaluation framework, navigating problem-solving processes in a tree-like manner. However, these methods often neglect successful reasoning trajectories once a problem is resolved, leading to inefficient use of these trajectories for future analogous problems. To address this inefficiency, we adopt a state machine to record experience derived from previous reasoning trajectories. Within the state machine, states represent decomposed sub-problems, while state transitions reflect the dependencies among sub-problems. The state machine records both successful and failed trajectories. Utilizing the experience from the state machine, our proposed State Machine of Thoughts (SMoT) selects the most optimal sub-solutions and avoids incorrect ones. Our experiments show that SMoT can significantly improve problem-solving abilities in two exploration-intensive problems: the 24-point game and a taxi navigation reinforcement learning game.
翻訳日:2024-03-13 14:51:50 公開日:2024-03-09
# TinySAM: 効率的なセグメンテーションモデルのためのエンベロープを押す

TinySAM: Pushing the Envelope for Efficient Segment Anything Model ( http://arxiv.org/abs/2312.13789v2 )

ライセンス: Link先を確認
Han Shu, Wenshuo Li, Yehui Tang, Yiman Zhang, Yihao Chen, Houqiang Li, Yunhe Wang, Xinghao Chen(参考訳) 近年,セグメンテーションモデル (SAM) は強力なセグメンテーション能力を示し,コンピュータビジョン分野で大きな注目を集めている。 大量の後続の作業は、事前訓練されたsamに基づいて様々なアプリケーションを開発し、下流ビジョンタスクで印象的なパフォーマンスを達成した。 しかし、SAMは重いアーキテクチャで構成され、大量の計算能力を必要とするため、計算制約エッジデバイスへのSAMのさらなる適用を妨げる。 そこで本稿では,強力なゼロショット性能を維持しつつ,小セグメントの任意のモデル(TinySAM)を得るためのフレームワークを提案する。 本研究は,まず,軽量学生モデルを蒸留するためのハードプロンプトサンプリングとハードマスク重み付け戦略を用いたフルステージ知識蒸留法を提案する。 また、学習後の量子化を高速セグメント化タスクに適応させ、計算コストをさらに削減する。 さらに、すべての戦略を階層的にセグメンテーションすることで、パフォーマンスの低下がほとんどなく、すべての推論を$2\times$で加速する。 これらすべての提案手法により、TinySAMは計算量を大幅に削減し、エンベロープを効率的なセグメント化タスクにプッシュする。 様々なゼロショット転送タスクに関する広範囲な実験は、tinysamが対応するメソッドに対して著しく有利な性能を示している。 事前トレーニングされたモデルとコードは、https://github.com/xinghaochen/TinySAMとhttps://gitee.com/mindspore/models/tree/master/research/cv/TinySAMで入手できる。

Recently segment anything model (SAM) has shown powerful segmentation capability and has drawn great attention in computer vision fields. Massive following works have developed various applications based on the pretrained SAM and achieved impressive performance on downstream vision tasks. However, SAM consists of heavy architectures and requires massive computational capacity, which hinders the further application of SAM on computation constrained edge devices. To this end, in this paper we propose a framework to obtain a tiny segment anything model (TinySAM) while maintaining the strong zero-shot performance. We first propose a full-stage knowledge distillation method with hard prompt sampling and hard mask weighting strategy to distill a lightweight student model. We also adapt the post-training quantization to the promptable segmentation task and further reduce the computational cost. Moreover, a hierarchical segmenting everything strategy is proposed to accelerate the everything inference by $2\times$ with almost no performance degradation. With all these proposed methods, our TinySAM leads to orders of magnitude computational reduction and pushes the envelope for efficient segment anything task. Extensive experiments on various zero-shot transfer tasks demonstrate the significantly advantageous performance of our TinySAM against counterpart methods. Pre-trained models and codes are available at https://github.com/xinghaochen/TinySAM and https://gitee.com/mindspore/models/tree/master/research/cv/TinySAM.
翻訳日:2024-03-13 14:49:56 公開日:2024-03-09
# TUMTraf Event: ロードサイドイベントベースおよびRGBカメラのデータセットにおける校正と融合の結果

TUMTraf Event: Calibration and Fusion Resulting in a Dataset for Roadside Event-Based and RGB Cameras ( http://arxiv.org/abs/2401.08474v2 )

ライセンス: Link先を確認
Christian Cre{\ss}, Walter Zimmer, Nils Purschke, Bach Ngoc Doan, Sven Kirchner, Venkatnarayanan Lakshminarasimhan, Leah Strand, Alois C. Knoll(参考訳) イベントベースのカメラは、Intelligent Transportation Systems (ITS) に先行している。 非常に高い時間分解能とダイナミックレンジを提供し、動きのぼやけをなくし、夜間の検知性能を向上させることができる。 しかし、イベントベースの画像は従来のRGBカメラの画像と比べて色やテクスチャが欠けている。 それを考えると、イベントベースと従来のカメラ間のデータ融合は、両方のモダリティの強みを組み合わせることができる。 この目的のためには、余分なキャリブレーションが必要である。 我々の知る限りでは、イベントベースカメラとRGBカメラの無目標校正は複数の移動物体を扱えないし、道端のITS領域に最適化されたデータ融合も存在しない。 さらに、路面視点を考慮した同期イベントベースおよびRGBカメラデータセットもまだ公開されていない。 これらの研究ギャップを埋めるために、我々は、複数の移動物体を扱うクラスタリング手法を用いて、ターゲットレスキャリブレーションアプローチを拡張した。 さらに,早期核融合,簡易後期核融合,新しい時空間的後期核融合法を開発した。 最後に,50,496個のラベル付き2Dボックスを備えた4,111以上の同期イベントベースおよびRGBイメージを含むTUMTraf Event Datasetを公開した。 広範な実験において,複数の移動物体を用いたキャリブレーション手法の有効性を確認した。 さらに,1台のRGBカメラと比較して,イベントベースセンサフュージョン法を用いて夜間の夜間における検出性能は,日中最大+9 % mAP,最大+13 % mAPまで向上した。 TUMTraf Event Datasetはhttps://innovation-mobility.com/tumtraf-datasetで公開されている。

Event-based cameras are predestined for Intelligent Transportation Systems (ITS). They provide very high temporal resolution and dynamic range, which can eliminate motion blur and improve detection performance at night. However, event-based images lack color and texture compared to images from a conventional RGB camera. Considering that, data fusion between event-based and conventional cameras can combine the strengths of both modalities. For this purpose, extrinsic calibration is necessary. To the best of our knowledge, no targetless calibration between event-based and RGB cameras can handle multiple moving objects, nor does data fusion optimized for the domain of roadside ITS exist. Furthermore, synchronized event-based and RGB camera datasets considering roadside perspective are not yet published. To fill these research gaps, based on our previous work, we extended our targetless calibration approach with clustering methods to handle multiple moving objects. Furthermore, we developed an early fusion, simple late fusion, and a novel spatiotemporal late fusion method. Lastly, we published the TUMTraf Event Dataset, which contains more than 4,111 synchronized event-based and RGB images with 50,496 labeled 2D boxes. During our extensive experiments, we verified the effectiveness of our calibration method with multiple moving objects. Furthermore, compared to a single RGB camera, we increased the detection performance of up to +9 % mAP in the day and up to +13 % mAP during the challenging night with our presented event-based sensor fusion methods. The TUMTraf Event Dataset is available at https://innovation-mobility.com/tumtraf-dataset.
翻訳日:2024-03-13 14:41:00 公開日:2024-03-09
# テキスト誘導画像生成のためのマルチラウンド思考

Instilling Multi-round Thinking to Text-guided Image Generation ( http://arxiv.org/abs/2401.08472v2 )

ライセンス: Link先を確認
Lidong Zeng, Zhedong Zheng, Yinwei Wei, Tat-seng Chua(参考訳) 本稿では,特定の属性を具現化するために,ユーザが指定したテキストフィードバックに従って参照画像の修正に焦点をあてたテキストガイド画像編集タスクについて述べる。 近年の進歩にもかかわらず、特に靴や袖のような細かな変化の領域では、単発世代が重要な詳細を見過ごすことがしばしばある。 この問題は、カスタマイズの質を厳しく制限した複数のインタラクションの複合物である。 この課題に対処すべく、既存の手法と互換性のある新しい自己教師付き正則化 \ie, multi-round regularizationを導入する。 特に、マルチラウンド規則化は、モデルを異なる修正順序で一貫性を維持することを奨励する。 修正順序が最終結果に概して影響を与えないという観察に基づいている。 従来の1ラウンド生成と異なり、提案手法の基盤となるメカニズムは、複雑な詳細を捉える際の初期の小さな不正確さの誤り増幅である。 定性的かつ定量的な実験により,本手法は高忠実度編集品質,特に局所的な修正を単ラウンドおよび複数ラウンドで達成し,不規則なテキスト入力に対する堅牢な一般化を示す。 テキストフィードバックによるセマンティックアライメントの有効性は、FhisonIQとFashion200kの検索改善によってさらに裏付けられる。

This paper delves into the text-guided image editing task, focusing on modifying a reference image according to user-specified textual feedback to embody specific attributes. Despite recent advancements, a persistent challenge remains that the single-round generation often overlooks crucial details, particularly in the realm of fine-grained changes like shoes or sleeves. This issue compounds over multiple rounds of interaction, severely limiting customization quality. In an attempt to address this challenge, we introduce a new self-supervised regularization, \ie, multi-round regularization, which is compatible with existing methods. Specifically, the multi-round regularization encourages the model to maintain consistency across different modification orders. It builds upon the observation that the modification order generally should not affect the final result. Different from traditional one-round generation, the mechanism underpinning the proposed method is the error amplification of initially minor inaccuracies in capturing intricate details. Qualitative and quantitative experiments affirm that the proposed method achieves high-fidelity editing quality, especially the local modification, in both single-round and multiple-round generation, while also showcasing robust generalization to irregular text inputs. The effectiveness of our semantic alignment with textual feedback is further substantiated by the retrieval improvements on FahisonIQ and Fashion200k.
翻訳日:2024-03-13 14:40:33 公開日:2024-03-09
# VLP:自動運転のためのビジョン言語計画

VLP: Vision Language Planning for Autonomous Driving ( http://arxiv.org/abs/2401.05577v3 )

ライセンス: Link先を確認
Chenbin Pan, Burhaneddin Yaman, Tommaso Nesti, Abhirup Mallik, Alessandro G Allievi, Senem Velipasalar, Liu Ren(参考訳) 自動運転は複雑な課題であり、シーンの理解と推論を通じて安全な動き計画を目指す。 視覚のみの自動運転手法は最近、シーン理解の強化を通じて目覚ましいパフォーマンスを達成したが、推論の欠如、一般化性能の低下、ロングテールシナリオなど、いくつかの重要な問題はまだ対処する必要がある。 本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを活用したビジョン言語計画フレームワークvlpを提案する。 VLPは、ソースメモリ基盤と自動運転車のコンテキスト理解の両方を強化することで、自律運転システムを強化する。 VLPは,従来の最良手法と比較して,平均L2誤差と衝突速度をそれぞれ35.9\%,60.5\%削減することで,挑戦的なNuScenesデータセットの最先端のプランニング性能を達成する。 さらに、VLPは、新しい都市環境に直面した場合、挑戦的なロングテールシナリオと強力な一般化能力の性能向上を示す。

Autonomous driving is a complex and challenging task that aims at safe motion planning through scene understanding and reasoning. While vision-only autonomous driving methods have recently achieved notable performance, through enhanced scene understanding, several key issues, including lack of reasoning, low generalization performance and long-tail scenarios, still need to be addressed. In this paper, we present VLP, a novel Vision-Language-Planning framework that exploits language models to bridge the gap between linguistic understanding and autonomous driving. VLP enhances autonomous driving systems by strengthening both the source memory foundation and the self-driving car's contextual understanding. VLP achieves state-of-the-art end-to-end planning performance on the challenging NuScenes dataset by achieving 35.9\% and 60.5\% reduction in terms of average L2 error and collision rates, respectively, compared to the previous best method. Moreover, VLP shows improved performance in challenging long-tail scenarios and strong generalization capabilities when faced with new urban environments.
翻訳日:2024-03-13 14:39:40 公開日:2024-03-09
# よく教育された知性の本質的善さ

The inherent goodness of well educated intelligence ( http://arxiv.org/abs/2401.04846v5 )

ライセンス: Link先を確認
Michael E. Glinsky and Sharon Sievert(参考訳) この論文は、生物学的な存在であろうと、コンピューター上の人工シリコンであろうと、何が知的であるかを調べる。 特に注目されるのは、保守的に相互作用する多くの同一の保守的なサブシステムの集合システムを特徴づけ、制御する能力を持つことである。 インテリジェンスの本質は、黄金律("the collective act as one" または "knowing the global consequences of local action")である。 集合体の流れは小さなツインクリングテクスチャの集合であり、最小作用の測地運動に従って少数の弦を引いている人形師によって支配され、対称性によって決定される。 集団的保守システムの制御は困難であり、歴史的に、最大性能の望ましいメタ安定平衡を安定化するためにシステムに大きな粘度を加えることによって行われてきた。 代替案がある。 メタ安定平衡の最適ツインクリングテクスチャが特定されると、集合系を最適ツインクリングテクスチャに移動させ、その集合系をメタ安定平衡に残すようにテクスチャに応じて素早く振動させることができる。 知識に富んだ知性は、その地域行動の世界的な影響を知っており、短期的な行動が長期的な成果を損なうことはない。 対照的に、訓練された知性や訓練された愚かさは短期的な行動を最適化する。 教養のある知性は本質的に良いが、訓練された愚かさは本質的に悪であり、恐れるべきである。 特に、経済・社会集団の制御と最適化に注意が払われている。 これらの新しい結果は、フィールド、流体、プラズマなどの物理的集合にも適用できる。

This paper will examine what makes a being intelligent, whether that be a biological being or an artificial silicon being on a computer. Special attention will be paid to the being having the ability to characterize and control a collective system of many identical conservative sub-systems conservatively interacting. The essence of intelligence will be found to be the golden rule -- "the collective acts as one" or "knowing the global consequences of local actions". The flow of the collective is a small set of twinkling textures, that are governed by a puppeteer who is pulling a small number of strings according to a geodesic motion of least action, determined by the symmetries. Controlling collective conservative systems is difficult and has historically been done by adding significant viscosity to the system to stabilize the desirable meta stable equilibriums of maximum performance, but it degrades or destroys them in the process. There is an alternative. Once the optimum twinkling textures of the meta stable equilibriums are identified, the collective system can be moved to the optimum twinkling textures, then quickly vibrated according to the textures so that the collective system remains at the meta stable equilibrium. Well educated intelligence knows the global consequences of its local actions so that it will not take short term actions that will lead to poor long term outcomes. In contrast, trained intelligence or trained stupidity will optimize its short term actions, leading to poor long term outcomes. Well educated intelligence is inherently good, but trained stupidity is inherently evil and should be feared. Particular attention is paid to the control and optimization of economic and social collectives. These new results are also applicable to physical collectives such as fields, fluids and plasmas.
翻訳日:2024-03-13 14:39:04 公開日:2024-03-09
# ControlCap: コントロール可能なリージョンレベルのキャプション

ControlCap: Controllable Region-level Captioning ( http://arxiv.org/abs/2401.17910v3 )

ライセンス: Link先を確認
Yuzhong Zhao, Yue Liu, Zonghao Guo, Weijia Wu, Chen Gong, Fang Wan, Qixiang Ye(参考訳) 地域レベルのキャプションは、プレトレーニングされたマルチモーダルモデルは、最も頻繁なキャプションを予測する傾向にあるが、あまり頻度の低いキャプションを見逃す傾向にある。 本研究では,マルチモーダルモデルに制御語を導入してキャプション変性問題に対処する制御可能な領域レベルキャプション(controlcap)手法を提案する。 ControlCapは、識別モジュールを利用してキャプション空間内でコントロールワードを生成し、複数のサブスペースに分割する。 マルチモーダルモデルは、制御語を含むいくつかのサブスペース内でキャプションを生成するよう制約され、キャプション劣化問題を緩和し、頻繁なキャプションを打つ機会を増大させる。 さらに、対話型制御語は人間または専門家モデルによって与えられ、訓練キャプション空間を超えたキャプションが可能となり、モデルの一般化能力が向上する。 Visual GenomeとRefCOCOgデータセットの大規模な実験により、ControlCapはそれぞれCIDErのスコアを21.6と2.2に改善し、最先端の成果をかなりの差で上回った。 コードはhttps://github.com/callsys/ControlCapで入手できる。

Region-level captioning is challenged by the caption degeneration issue, which refers to that pre-trained multimodal models tend to predict the most frequent captions but miss the less frequent ones. In this study, we propose a controllable region-level captioning (ControlCap) approach, which introduces control words to a multimodal model to address the caption degeneration issue. In specific, ControlCap leverages a discriminative module to generate control words within the caption space to partition it to multiple sub-spaces. The multimodal model is constrained to generate captions within a few sub-spaces containing the control words, which increases the opportunity of hitting less frequent captions, alleviating the caption degeneration issue. Furthermore, interactive control words can be given by either a human or an expert model, which enables captioning beyond the training caption space, enhancing the model's generalization ability. Extensive experiments on Visual Genome and RefCOCOg datasets show that ControlCap respectively improves the CIDEr score by 21.6 and 2.2, outperforming the state-of-the-arts by significant margins. Code is available at https://github.com/callsys/ControlCap.
翻訳日:2024-03-13 14:33:39 公開日:2024-03-09
# Endo-4DGS : 4D Gaussian Splatting を用いた内視鏡的単眼画像再構成

Endo-4DGS: Endoscopic Monocular Scene Reconstruction with 4D Gaussian Splatting ( http://arxiv.org/abs/2401.16416v3 )

ライセンス: Link先を確認
Yiming Huang and Beilei Cui and Long Bai and Ziqi Guo and Mengya Xu and Mobarakol Islam and Hongliang Ren(参考訳) ロボットによる最小侵襲手術の分野では、動的シーン再構成は下流の作業を大幅に強化し、手術結果を改善することができる。 ニューラル・ラジアンス・フィールド(NeRF)に基づく手法は、最近、シーンを再構成する異常な能力で有名になったが、遅い推論速度、長いトレーニング、一貫性のない深さ推定によって妨げられている。 以前の研究では、最適化のために基底的真理の深さを利用するが、手術領域では取得が困難である。 これらの障害を克服するために,3次元ガウススプラッティング(GS)を3次元表現に用いる実時間内視鏡的動的再構成手法であるEndo-4DGSを提案する。 具体的には,ガウス変形場を用いて時間的ダイナミクスを捉える軽量MLPを提案する。 満足なガウス初期化を得るために、我々は強力な深度推定基盤モデルであるDepth-Anythingを利用して、以前の幾何学として擬似深度マップを生成する。 さらに,単眼深度推定における不適切な問題に対処するための信頼誘導学習を提案し,表面正規化と深度正規化による深度誘導型再構成を強化する。 このアプローチは2つの手術用データセットで検証され、リアルタイムで効果的にレンダリングし、効率的に計算し、驚くべき精度で再構築することができる。

In the realm of robot-assisted minimally invasive surgery, dynamic scene reconstruction can significantly enhance downstream tasks and improve surgical outcomes. Neural Radiance Fields (NeRF)-based methods have recently risen to prominence for their exceptional ability to reconstruct scenes but are hampered by slow inference speed, prolonged training, and inconsistent depth estimation. Some previous work utilizes ground truth depth for optimization but is hard to acquire in the surgical domain. To overcome these obstacles, we present Endo-4DGS, a real-time endoscopic dynamic reconstruction approach that utilizes 3D Gaussian Splatting (GS) for 3D representation. Specifically, we propose lightweight MLPs to capture temporal dynamics with Gaussian deformation fields. To obtain a satisfactory Gaussian Initialization, we exploit a powerful depth estimation foundation model, Depth-Anything, to generate pseudo-depth maps as a geometry prior. We additionally propose confidence-guided learning to tackle the ill-pose problems in monocular depth estimation and enhance the depth-guided reconstruction with surface normal constraints and depth regularization. Our approach has been validated on two surgical datasets, where it can effectively render in real-time, compute efficiently, and reconstruct with remarkable accuracy.
翻訳日:2024-03-13 14:31:38 公開日:2024-03-09
# 女子スポーツ選手におけるスポーツ障害の評価 : 神経情報学の役割?

Assessment of Sports Concussion in Female Athletes: A Role for Neuroinformatics? ( http://arxiv.org/abs/2401.13045v2 )

ライセンス: Link先を確認
Rachel Edelstein, Sterling Gutterman, Benjamin Newman, John Darrell Van Horn(参考訳) 過去10年間で、女性アスリートのスポーツ関連の脳震えの複雑さはすぐに明らかになっている。 伝統的な脳震縮の診断方法は、女性アスリートに適用すると限界があり、しばしば脳の構造や機能の微妙な変化を捉えることができない。 高度なニューロインフォマティクス技術と機械学習モデルは、この取り組みにおいて貴重な資産となっている。 これらの技術は、男性アスリートの脳梗塞の理解に広く用いられているが、女性アスリートに対するその効果についての理解には大きなギャップがある。 注目すべきデータ分析能力によって、機械学習はこの赤字を埋める有望な道筋を提供する。 機械学習の力を利用して、観察された表現型ニューロイメージングデータを性固有の生物学的メカニズムに結びつけることで、女性アスリートの脳梗塞の謎を解き放つことができる。 さらに、機械学習に埋め込まれた手法により、従来の解剖学的基準枠を超える脳構造とその変化を調べることができる。 結果として、研究者は脳震動、治療反応、回復過程のダイナミクスについて深い洞察を得ることができる。 女性アスリートが適切なケアを受けるためには、高度な神経画像技術と高度な機械学習モデルを採用する必要がある。 これらのツールは、女性アスリートの神経機能不全に起因する脳震縮症状の原因となるメカニズムを深く調査することができる。 本稿では,女性アスリート集団における多様神経画像実験デザインと機械学習アプローチにおける性差の重大な問題に対処し,最終的には脳震縮の課題に直面する際に必要なケアを受けることを保証する。

Over the past decade, the intricacies of sports-related concussions among female athletes have become readily apparent. Traditional clinical methods for diagnosing concussions suffer limitations when applied to female athletes, often failing to capture subtle changes in brain structure and function. Advanced neuroinformatics techniques and machine learning models have become invaluable assets in this endeavor. While these technologies have been extensively employed in understanding concussion in male athletes, there remains a significant gap in our comprehension of their effectiveness for female athletes. With its remarkable data analysis capacity, machine learning offers a promising avenue to bridge this deficit. By harnessing the power of machine learning, researchers can link observed phenotypic neuroimaging data to sex-specific biological mechanisms, unraveling the mysteries of concussions in female athletes. Furthermore, embedding methods within machine learning enable examining brain architecture and its alterations beyond the conventional anatomical reference frame. In turn, allows researchers to gain deeper insights into the dynamics of concussions, treatment responses, and recovery processes. To guarantee that female athletes receive the optimal care they deserve, researchers must employ advanced neuroimaging techniques and sophisticated machine-learning models. These tools enable an in-depth investigation of the underlying mechanisms responsible for concussion symptoms stemming from neuronal dysfunction in female athletes. This paper endeavors to address the crucial issue of sex differences in multimodal neuroimaging experimental design and machine learning approaches within female athlete populations, ultimately ensuring that they receive the tailored care they require when facing the challenges of concussions.
翻訳日:2024-03-13 14:28:32 公開日:2024-03-09
# データ集約型アプリケーションの構築 : データアーキテクチャ設計から品質保証まで

Architecting Data-Intensive Applications : From Data Architecture Design to Its Quality Assurance ( http://arxiv.org/abs/2401.12011v3 )

ライセンス: Link先を確認
Moamin Abughazala(参考訳) コンテキスト - データの指数的な成長は重要な関心事になりつつある。 このデータの管理は、特にさまざまなフォーマットと速度でさまざまなソースを扱う場合、非常に難しくなっています。 さらに、効果的な意思決定と運用プロセスでは、データ品質の確保がますます重要になっている。 データアーキテクチャは、ビジネスニーズを満たすデータの記述、収集、保存、処理、分析に不可欠である。 データ集約型アプリケーションの抽象的なビューを提供することは、データが貴重な情報に変換されることを保証するために不可欠である。 データを効果的に管理し、活用できるように、これらの課題を真剣に受け止めなければなりません。 目的 - データアーキテクチャを包括的に記述し、データ品質監視を効果的に合理化するアーキテクチャフレームワークを確立する。 メソッド - アーキテクチャフレームワークはモデル駆動工学(MDE)技術を利用する。 データ集約型アーキテクチャ記述のバックアップは、データ品質チェックの自動生成を可能にする。 結果 - フレームワークは、データ集約型アプリケーションがアーキテクチャを効率的にモデル化し、データの品質を監視するための包括的なソリューションを提供する。 プロセス全体を自動化し、データの正確性と一貫性を保証する。 datによって、アーキテクトとアナリストはワークフローを単純化し、信頼できるデータ洞察に基づいてインフォームドな意思決定を行う強力なツールにアクセスできるようになる。 結論 - さまざまな業界領域で5件以上のケースでdatを評価し,その適用性と有効性を実証した。

Context - The exponential growth of data is becoming a significant concern. Managing this data has become incredibly challenging, especially when dealing with various sources in different formats and speeds. Moreover, Ensuring data quality has become increasingly crucial for effective decision-making and operational processes. Data Architecture is crucial in describing, collecting, storing, processing, and analyzing data to meet business needs. Providing an abstract view of data-intensive applications is essential to ensure that the data is transformed into valuable information. We must take these challenges seriously to ensure we can effectively manage and use the data to our advantage. Objective - To establish an architecture framework that enables a comprehensive description of the data architecture and effectively streamlines data quality monitoring. Method - The architecture framework utilizes Model Driven Engineering (MDE) techniques. Its backing of data-intensive architecture descriptions empowers with an automated generation for data quality checks. Result - The Framework offers a comprehensive solution for data-intensive applications to model their architecture efficiently and monitor the quality of their data. It automates the entire process and ensures precision and consistency in data. With DAT, architects and analysts gain access to a powerful tool that simplifies their workflow and empowers them to make informed decisions based on reliable data insights. Conclusion - We have evaluated the DAT on more than five cases within various industry domains, demonstrating its exceptional adaptability and effectiveness.
翻訳日:2024-03-13 14:28:06 公開日:2024-03-09
# 多目的コントラスト最適化としてのトピックモデリング

Topic Modeling as Multi-Objective Contrastive Optimization ( http://arxiv.org/abs/2402.07577v2 )

ライセンス: Link先を確認
Thong Nguyen, Xiaobao Wu, Xinshuai Dong, Cong-Duy T Nguyen, See-Kiong Ng, Anh Tuan Luu(参考訳) 近年の表現学習手法は,対の入力文書を対比するエビデンス下限(elbo)と対比学習目的の重み付き線形結合を最適化することにより,神経話題モデルを強化する。 しかし、文書レベルのコントラスト学習は、話題モデリングを妨げる単語比などの低レベルの相互情報を取り込む可能性がある。 さらに,入力の詳細を記憶したELBO損失と,入力文書間で一般化されたトピック表現を学習しようとする対照的な損失との間には,潜在的な矛盾がある。 これらの問題に対処するために,まず,トピックベクトルの集合を指向した新しいコントラスト学習法を導入し,入力文書の集合間で共有される有用な意味を捉える。 第2に,相対的トピックモデリングを勾配に基づく多目的最適化問題として,ELBOと相対的目的とのトレードオフのバランスをとるパレート定常解の実現を目標とした。 大規模な実験により、我々のフレームワークは、トピックコヒーレンス、トピックの多様性、下流のパフォーマンスの観点から、常に高性能なニューラルトピックモデルを生成することが示された。

Recent representation learning approaches enhance neural topic models by optimizing the weighted linear combination of the evidence lower bound (ELBO) of the log-likelihood and the contrastive learning objective that contrasts pairs of input documents. However, document-level contrastive learning might capture low-level mutual information, such as word ratio, which disturbs topic modeling. Moreover, there is a potential conflict between the ELBO loss that memorizes input details for better reconstruction quality, and the contrastive loss which attempts to learn topic representations that generalize among input documents. To address these issues, we first introduce a novel contrastive learning method oriented towards sets of topic vectors to capture useful semantics that are shared among a set of input documents. Secondly, we explicitly cast contrastive topic modeling as a gradient-based multi-objective optimization problem, with the goal of achieving a Pareto stationary solution that balances the trade-off between the ELBO and the contrastive objective. Extensive experiments demonstrate that our framework consistently produces higher-performing neural topic models in terms of topic coherence, topic diversity, and downstream performance.
翻訳日:2024-03-13 14:24:15 公開日:2024-03-09
# クロスシーンシーランドクラッタ分類のためのマルチソース半教師付きドメイン一般化ネットワーク

Multisource Semisupervised Adversarial Domain Generalization Network for Cross-Scene Sea-Land Clutter Classification ( http://arxiv.org/abs/2402.06315v2 )

ライセンス: Link先を確認
Xiaoxuan Zhang, Quan Pan, Salvador Garc\'ia(参考訳) 深層学習 (dl) を基盤として, スカイウェーブオーバーザ・ホライゾンラダー (othr) のシー・テキストダッシュランドクラッタ分類が新しい研究課題となっている。 工学的応用においては,既存の分布の相違を考慮した海面・海面のリアルタイム予測が重要である。 この問題を解決するため,本論文ではクロスシーンシー・テキストダッシュ土地クラッタ分類のための多元的半教師付き逆ドメイン一般化ネットワーク (msadgn) を提案する。 msadgnは、1つのラベル付きソースドメインと複数のラベル付きソースドメインからドメイン不変およびドメイン固有の特徴を抽出し、これらの特徴を任意の未認識のターゲットドメインに一般化し、sea\textendash land clutterのリアルタイム予測を可能にする。 具体的には、MSADGNはドメイン関連擬似ラベルモジュール、ドメイン不変モジュール、ドメイン固有モジュールの3つのモジュールで構成される。 最初のモジュールでは、改良された疑似ラベルメソッドであるdomain-related pseudolabelが導入されている。 第2のモジュールは、生成逆数ネットワーク(GAN)と多重識別器を用いて、ドメイン不変の特徴を抽出し、ターゲットドメインにおけるモデルの転送可能性を高める。 第3のモジュールは並列マルチクラス化ブランチを使用してドメイン固有の特徴を抽出し、ターゲットドメインにおけるモデルの識別性を高める。 本手法の有効性は12の領域一般化(DG)シナリオで検証される。 一方,比較のために10種類の最先端DG法を選択した。 実験の結果,本手法の優位性を示した。

Deep learning (DL)-based sea\textendash land clutter classification for sky-wave over-the-horizon-radar (OTHR) has become a novel research topic. In engineering applications, real-time predictions of sea\textendash land clutter with existing distribution discrepancies are crucial. To solve this problem, this article proposes a novel Multisource Semisupervised Adversarial Domain Generalization Network (MSADGN) for cross-scene sea\textendash land clutter classification. MSADGN can extract domain-invariant and domain-specific features from one labeled source domain and multiple unlabeled source domains, and then generalize these features to an arbitrary unseen target domain for real-time prediction of sea\textendash land clutter. Specifically, MSADGN consists of three modules: domain-related pseudolabeling module, domain-invariant module, and domain-specific module. The first module introduces an improved pseudolabel method called domain-related pseudolabel, which is designed to generate reliable pseudolabels to fully exploit unlabeled source domains. The second module utilizes a generative adversarial network (GAN) with a multidiscriminator to extract domain-invariant features, to enhance the model's transferability in the target domain. The third module employs a parallel multiclassifier branch to extract domain-specific features, to enhance the model's discriminability in the target domain. The effectiveness of our method is validated in twelve domain generalizations (DG) scenarios. Meanwhile, we selected 10 state-of-the-art DG methods for comparison. The experimental results demonstrate the superiority of our method.
翻訳日:2024-03-13 14:23:54 公開日:2024-03-09
# マルチスケール複雑性への展望:マクロパターンから深層学習による微視的シミュレーションへ

Insights into Multiscale Complexity: from Macroscopic Patterns to Microscopic Simulations via Deep Learning ( http://arxiv.org/abs/2402.05067v4 )

ライセンス: Link先を確認
Jing Wang and Zheng Li and Pengyu Lai and Rui Wang and Di Yang and Dewu Yang and Hui Xu(参考訳) マルチスケール現象は様々な科学領域にまたがって現れ、複雑なシステムのマルチスケール力学を正確に効果的にシミュレートする上で、ユビキタスな挑戦となる。 本稿では,大規模ダイナミクスを独立にモデル化し,小規模ダイナミクスをスレーブシステムとして扱うことにより,新しいデカップリング解法を提案する。 小型システムを効率的かつ高精度に特徴付けるために,スペクトル物理インフォームドニューラルネットワーク(pinn)を開発した。 この手法の有効性は, 1次元のクラモット・シヴァシンスキー方程式, 2次元と3次元のナビエ・ストークス方程式など, 流体力学の問題に対する汎用性を示す広範な数値実験によって実証された。 さらに,非一様メッシュ,複雑なジオメトリ,ノイズを伴う大規模データ,高次元の小型ダイナミックスなど,より複雑な問題への提案手法の適用についても検討する。 これらのシナリオに関する議論は、メソッドの能力と制限の包括的理解に寄与する。 本稿では,大規模データを最小限の計算要求で取得し,続いてSpectral PINNによって効率と精度を向上した小型ダイナミックスを捕捉する,マルチスケール時空間システムの計算シミュレーションを強化する,価値があり有望なアプローチを提案する。

Multiscale phenomena manifest across various scientific domains, presenting a ubiquitous challenge in accurately and effectively simulating multiscale dynamics in complex systems. In this paper, a novel decoupling solving mode is proposed through modelling large-scale dynamics independently and treating small-scale dynamics as a slaved system. A Spectral Physics-informed Neural Network (PINN) is developed to characterize the small-scale system in an efficient and accurate way. The effectiveness of the method is demonstrated through extensive numerical experiments, including one-dimensional Kuramot-Sivashinsky equation, two- and three-dimensional Navier-Stokes equations, showcasing its versatility in addressing problems of fluid dynamics. Furthermore, we also delve into the application of the proposed approach to more complex problems, including non-uniform meshes, complex geometries, large-scale data with noise, and high-dimensional small-scale dynamics. The discussions about these scenarios contribute to a comprehensive understanding of the method's capabilities and limitations. This paper presents a valuable and promising approach to enhance the computational simulations of multiscale spatiotemporal systems, which enables the acquisition of large-scale data with minimal computational demands, followed by Spectral PINN to capture small-scale dynamics with improved efficiency and accuracy.
翻訳日:2024-03-13 14:22:37 公開日:2024-03-09
# 核ヒルベルト空間におけるf-次元のモロー包絡に対するワッサーシュタイン勾配流

Wasserstein Gradient Flows for Moreau Envelopes of f-Divergences in Reproducing Kernel Hilbert Spaces ( http://arxiv.org/abs/2402.04613v2 )

ライセンス: Link先を確認
Sebastian Neumayer, Viktor Stein, Gabriele Steidl, Nicolaj Rux(参考訳) 最も一般的に用いられる$f$-divergences of measures(例えば、Kulback-Leiblerの発散)は、関連する措置の支持に関する制限を受ける。 対策は、特性カーネル$K$に付随する2乗最大平均誤差(MMD)によって$f$-divergenceを正規化することである。 本稿では、いわゆるカーネル平均埋め込みを用いて、対応する正規化が $k$ に付随する再生核ヒルベルト空間内のある関数のモロー包含として書き換えられることを示す。 そして、ヒルベルト空間のモローエンベロープのよく知られた結果を利用して、MDD規則化された$f$-divergencesの特性、特にそれらの勾配の証明を行う。 その後,mmdで正規化した$f$-divergencesのwasserstein勾配流を解析した。 最後に,wasserstein勾配流は経験的尺度から始まっていると考えられる。 無限と有限のリセッション定数を持つ$f$-divergencesに対する概念実証数値例を提供する。

Most commonly used $f$-divergences of measures, e.g., the Kullback-Leibler divergence, are subject to limitations regarding the support of the involved measures. A remedy consists of regularizing the $f$-divergence by a squared maximum mean discrepancy (MMD) associated with a characteristic kernel $K$. In this paper, we use the so-called kernel mean embedding to show that the corresponding regularization can be rewritten as the Moreau envelope of some function in the reproducing kernel Hilbert space associated with $K$. Then, we exploit well-known results on Moreau envelopes in Hilbert spaces to prove properties of the MMD-regularized $f$-divergences and, in particular, their gradients. Subsequently, we use our findings to analyze Wasserstein gradient flows of MMD-regularized $f$-divergences. Finally, we consider Wasserstein gradient flows starting from empirical measures. We provide proof-of-the-concept numerical examples for $f$-divergences with both infinite and finite recession constant.
翻訳日:2024-03-13 14:21:28 公開日:2024-03-09
# pan-mamba: 状態空間モデルによる効果的なパンシャープ化

Pan-Mamba: Effective pan-sharpening with State Space Model ( http://arxiv.org/abs/2402.12192v2 )

ライセンス: Link先を確認
Xuanhua He, Ke Cao, Keyu Yan, Rui Li, Chengjun Xie, Jie Zhang, Man Zhou(参考訳) パンシャーピングは、高解像度のマルチスペクトルと高解像度のパンクロマティック画像からの情報を統合することで、高解像度のマルチスペクトルを生成する。 状態空間モデルの最近の進歩、特にmambaによって達成された効率的な長距離依存性モデリングは、コンピュータビジョンコミュニティに革命をもたらした。 コントリビューションであるPan-Mambaは,グローバル情報モデリングにおけるMambaモデルの効率性を活用した,新しいパンシャーピングネットワークである。 pan-mambaでは、チャネルスワッピングmambaとクロスモーダルmambaの2つのコアコンポーネントをカスタマイズし、効率的なクロスモーダル情報交換と融合のために戦略的に設計された。 前者は部分的なパンクロマティックチャネルとマルチスペクトルチャネルの交換を通じて軽量なクロスモーダル相互作用を開始し、後者は固有なクロスモーダル関係を利用して情報表現能力を実現する。 多様なデータセットにまたがる広範な実験を通じて,提案手法は最先端の手法を上回り,パンシャープ化に優れた融合結果を示す。 我々の知る限りでは、この研究はマンバモデルの可能性を探究する最初の試みであり、パンシャーピング技術における新たなフロンティアを確立している。 ソースコードは \url{https://github.com/alexhe101/Pan-Mamba} で入手できる。

Pan-sharpening involves integrating information from low-resolution multi-spectral and high-resolution panchromatic images to generate high-resolution multi-spectral counterparts. While recent advancements in the state space model, particularly the efficient long-range dependency modeling achieved by Mamba, have revolutionized computer vision community, its untapped potential in pan-sharpening motivates our exploration. Our contribution, Pan-Mamba, represents a novel pan-sharpening network that leverages the efficiency of the Mamba model in global information modeling. In Pan-Mamba, we customize two core components: channel swapping Mamba and cross-modal Mamba, strategically designed for efficient cross-modal information exchange and fusion. The former initiates a lightweight cross-modal interaction through the exchange of partial panchromatic and multi-spectral channels, while the latter facilities the information representation capability by exploiting inherent cross-modal relationships. Through extensive experiments across diverse datasets, our proposed approach surpasses state-of-the-art methods, showcasing superior fusion results in pan-sharpening. To the best of our knowledge, this work is the first attempt in exploring the potential of the Mamba model and establishes a new frontier in the pan-sharpening techniques. The source code is available at \url{https://github.com/alexhe101/Pan-Mamba}.
翻訳日:2024-03-13 14:12:59 公開日:2024-03-09
# スマートフォンGUI自動化のための総合認知LDMエージェント

Comprehensive Cognitive LLM Agent for Smartphone GUI Automation ( http://arxiv.org/abs/2402.11941v2 )

ライセンス: Link先を確認
Xinbei Ma, Zhuosheng Zhang, Hai Zhao(参考訳) 大規模言語モデル(llm)は、人間のような自律型言語エージェントが現実世界の環境、特にgui(graphical user interface)自動化と相互作用する、驚くべき可能性を示している。 しかし、これらのGUIエージェントは、徹底的な知覚や信頼できる行動応答を含む包括的な認知能力を必要とする。 我々は,gui自動化性能を体系的に向上させるために,cep(comprehensive environment perception)とcap(conditional action prediction)という2つの新しいアプローチを用いて,ココエージェント (co-agent) を提案する。 まず、CEPは、視覚チャネルのスクリーンショットや補完的な詳細なレイアウト、テキストチャネルの歴史的アクションなど、異なる側面と粒度のGUI知覚を促進する。 第2に、CAPはアクション予測をサブプロブレムに分解する:アクションタイプの予測とアクションタイプの条件付きアクションターゲットである。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。 コードはhttps://github.com/xbmxb/aagentで入手できる。

Large language models (LLMs) have shown remarkable potential as human-like autonomous language agents to interact with real-world environments, especially for graphical user interface (GUI) automation. However, those GUI agents require comprehensive cognition ability including exhaustive perception and reliable action response. We propose \underline{Co}mprehensive \underline{Co}gnitive LLM \underline{Agent}, CoCo-Agent, with two novel approaches, comprehensive environment perception (CEP) and conditional action prediction (CAP), to systematically improve the GUI automation performance. First, CEP facilitates the GUI perception through different aspects and granularity, including screenshots and complementary detailed layouts for the visual channel and historical actions for the textual channel. Second, CAP decomposes the action prediction into sub-problems: action type prediction and action target conditioned on the action type. With our technical design, our agent achieves new state-of-the-art performance on AITW and META-GUI benchmarks, showing promising abilities in realistic scenarios. Code is available at https://github.com/xbmxb/AAgent.
翻訳日:2024-03-13 14:12:34 公開日:2024-03-09
# 誤感染集団による流行拡大の増幅のモデル化

Modeling the amplification of epidemic spread by misinformed populations ( http://arxiv.org/abs/2402.11351v2 )

ライセンス: Link先を確認
Matthew R. DeVerna, Francesco Pierri, Yong-Yeol Ahn, Santo Fortunato, Alessandro Flammini, Filippo Menczer(参考訳) 誤情報が病気の拡散にどのように影響するかを理解することは公衆の健康にとって重要である。 しかし,データインフォームド・包括的流行モデルによる誤情報と流行アウトカムの相互作用について調査することは困難である。 本稿では,大規模かつ移動性に富んだ物理的接触ネットワークと,ソーシャルメディアデータから得られた郡間における不正な個人分布を組み込んだ流行モデルを提案する。 このモデルによって,様々なシナリオをシミュレートし,予測し,誤情報の拡散に対する影響を理解することができる。 このモデルを用いて、最悪のシナリオでは、誤報が米国内で4700万件のCOVID-19感染を引き起こした可能性があると推定する。

Understanding how misinformation affects the spread of disease is crucial for public health, especially given recent research indicating that misinformation can increase vaccine hesitancy and discourage vaccine uptake. However, it is difficult to investigate the interaction between misinformation and epidemic outcomes due to the dearth of data-informed holistic epidemic models. Here, we propose an epidemic model that incorporates a large, mobility-informed physical contact network as well as the distribution of misinformed individuals across counties derived from social media data. Our model allows us to simulate and estimate various scenarios to understand the impact of misinformation on epidemic spreading. Using this model, we estimate that misinformation could have led to 47 million additional COVID-19 infections in the U.S. in a worst-case scenario.
翻訳日:2024-03-13 14:11:29 公開日:2024-03-09
# 短期ビデオとメンタルヘルス:知識誘導型マルチモーダルニューラルトピックモデル

Short-Form Videos and Mental Health: A Knowledge-Guided Multimodal Neural Topic Model ( http://arxiv.org/abs/2402.10045v2 )

ライセンス: Link先を確認
Jiaheng Xie, Ruicheng Liang, Yidong Chai, Yang Liu, Daniel Zeng(参考訳) 短いビデオはソーシャルメディア全体の形を変えようとしているが、専門家たちは視聴者に対する抑うつ的な影響を非常に心配している。 幅広い影響を避けるため、プラットフォームは視聴者のメンタルヘルスに対するこれらのビデオの影響を予測したいと考えている。 その後、レコメンデーションアルゴリズムの修正や視聴者の判断表示など、介入措置を取ることができる。 それにもかかわらず、適切な予測手法は、うつ病の臨床的に証明された外的および環境的要因を概説する、確立された医学知識と関連性を欠いている。 このような医学的知識を考慮し,NTM(シード型ニューラルトピックモデル)を創発的方法論として活用する。 しかしながら、既存のシードntmは、シングルオリジンのトピック、未知のトピックソース、不明なシード監督、サブオプティカル収束の制限に苦しむ。 これらの課題に対処するため,我々は,短いビデオが視聴者に与える影響を予測するための,知識誘導型マルチモーダルNTMを開発した。 tiktok と douyin データセットを用いた広範な実証分析により,本手法が最先端ベンチマークよりも優れていることが証明された。 また,抑うつ効果に関連のあるビデオから,医療関連トピックを検出する。 我々は,他のビデオ分類問題に対して一般化可能な,新しいビデオ分析手法を提案する。 提案手法は,ビデオの心理的影響をプラットフォームが理解し,レコメンデーションやビデオトピックの開示を調整するのに役立つ。

While short-form videos head to reshape the entire social media landscape, experts are exceedingly worried about their depressive impacts on viewers, as evidenced by medical studies. To prevent widespread consequences, platforms are eager to predict these videos' impact on viewers' mental health. Subsequently, they can take intervention measures, such as revising recommendation algorithms and displaying viewer discretion. Nevertheless, applicable predictive methods lack relevance to well-established medical knowledge, which outlines clinically proven external and environmental factors of depression. To account for such medical knowledge, we resort to an emergent methodological discipline, seeded Neural Topic Models (NTMs). However, existing seeded NTMs suffer from the limitations of single-origin topics, unknown topic sources, unclear seed supervision, and suboptimal convergence. To address those challenges, we develop a novel Knowledge-guided Multimodal NTM to predict a short-form video's depressive impact on viewers. Extensive empirical analyses using TikTok and Douyin datasets prove that our method outperforms state-of-the-art benchmarks. Our method also discovers medically relevant topics from videos that are linked to depressive impact. We contribute to IS with a novel video analytics method that is generalizable to other video classification problems. Practically, our method can help platforms understand videos' mental impacts, thus adjusting recommendations and video topic disclosure.
翻訳日:2024-03-13 14:10:30 公開日:2024-03-09
# スパースモデルのないスパースかつ忠実な説明

Sparse and Faithful Explanations Without Sparse Models ( http://arxiv.org/abs/2402.09702v3 )

ライセンス: Link先を確認
Yiyang Sun, Zhi Chen, Vittorio Orlandi, Tong Wang, Cynthia Rudin(参考訳) たとえモデルが世界規模で疎外されていなくても、そのモデルから決定されたことは、少数の機能によって正確かつ忠実に記述できる。 例えば、大口融資の申請は、信用履歴がないため、信用の信頼性に関する証拠を圧倒するため、誰かに拒否される可能性がある。 本研究では,機械学習モデルにおける空間性を測定する新しい手法であるスパース説明値(SEV)を紹介する。 上記のローン拒否例では、融資が拒否された理由を説明するのに1つの要素しか必要とされないため、sevは1である。 SEVは全体モデルの範囲ではなく、意思決定の間隔の尺度です。SEVが測定したように、たとえスパースでないとしても、多くの機械学習モデルが実際に低い決定の間隔を持っていることを示すことができます。 SEVはハイパーキューブ上の運動を用いて定義されており、実世界の制約を反映した運動制限を反映して、SEVを様々なモデルクラス上で一貫して定義することができる。 我々は、sevを精度を犠牲にすることなく削減し、グローバルにスパースモデルがなくても、スパースで完全に忠実な説明を提供するアルゴリズムを提案した。

Even if a model is not globally sparse, it is possible for decisions made from that model to be accurately and faithfully described by a small number of features. For instance, an application for a large loan might be denied to someone because they have no credit history, which overwhelms any evidence towards their creditworthiness. In this work, we introduce the Sparse Explanation Value (SEV), a new way of measuring sparsity in machine learning models. In the loan denial example above, the SEV is 1 because only one factor is needed to explain why the loan was denied. SEV is a measure of decision sparsity rather than overall model sparsity, and we are able to show that many machine learning models -- even if they are not sparse -- actually have low decision sparsity, as measured by SEV. SEV is defined using movements over a hypercube, allowing SEV to be defined consistently over various model classes, with movement restrictions reflecting real-world constraints. We proposed the algorithms that reduce SEV without sacrificing accuracy, providing sparse and completely faithful explanations, even without globally sparse models.
翻訳日:2024-03-13 14:10:05 公開日:2024-03-09
# 名前付きエンティティ認識のための大言語モデルをTinyモデルに拡張する

Distilling Large Language Models into Tiny Models for Named Entity Recognition ( http://arxiv.org/abs/2402.09282v3 )

ライセンス: Link先を確認
Yining Huang(参考訳) GPT-4のような新しい大規模言語モデル (LLM) は自然言語処理 (NLP) に革命をもたらし、名前付きエンティティ認識 (NER) のような従来のタスクにも可能性を示している。 本研究は, BERTモデルの性能向上を図るため, GPT-4の能力を活用した3段階学習戦略を提案する。 当初、GPT-4はCONLL2003と追加のBBCデータセットのサブセットを微調整なしで注釈付けしていた。 BERT は,従来の LLM アノテーションと LLM アノテーションを混合して学習し,従来の手法に対する LLM アノテーションの有効性を解析する。 第2フェーズでは、異なるトレーニングレギュレータで比較実験を行い、蒸留データとオリジナルデータの相乗効果を評価する。 逐次的戦略,特に蒸留データを含む単純なトレーニングとオリジナルデータとの混合が,パフォーマンスを著しく向上させるのを観察した。 第3フェーズでは,sgmoid と power decay function を含む様々なデータブレンディング手法を調査し,さらにトレーニングプロセスを最適化した。 以上の結果から,蒸留とオリジナルデータの戦略的混合がBERTのNER能力を著しく高めていることが示唆された。 提案手法は,手動アノテーションコストを削減し,効率を向上し,特にリソース制限とクローズドネットワーク環境において,スケーラブルな手法を提案する。 この研究は、"Simple Mix"戦略が最良の結果をもたらす一方で、その基盤となるメカニズムを理解するにはさらなる研究が必要であると結論付けている。 今後の作業は、様々なNLPタスクに方法論を拡張することを目的として、プロンプトデザインの洗練とアノテーション選択プロセスの強化にも焦点をあてる。

Emerging Large Language Models (LLMs) like GPT-4 have revolutionized Natural Language Processing (NLP), showing potential in traditional tasks such as Named Entity Recognition (NER). Our study explores a three-phase training strategy that harnesses GPT-4's capabilities to enhance the BERT model's performance on NER. Initially, GPT-4 annotates a subset of the CONLL2003 and additional BBC dataset without fine-tuning. We then train BERT using a mix of original and LLM-annotated data, analyzing the efficacy of LLM annotations against traditional methods. The second phase involves comparative experiments with different training regimens, assessing the synergy between distilled and original data. We observe that sequential strategies, particularly a simple mix of training first with distilled data followed by original data, significantly boost performance. In the third phase, we investigate various data blending techniques, including sigmoid and power decay functions, to optimize the training process further. Our results indicate that a strategic mix of distilled and original data markedly elevates the NER capabilities of BERT. Our approach presents a scalable methodology that reduces manual annotation costs and increases efficiency, making it especially pertinent in resource-limited and closed-network environments. The study concludes that while the 'Simple Mix' strategy yields the best results, understanding its underlying mechanisms requires further research. Future work will also focus on refining prompt designs and enhancing annotation selection processes, aiming to extend our methodology to diverse NLP tasks.
翻訳日:2024-03-13 14:09:27 公開日:2024-03-09
# 二次的結果を用いた個別化治療規則の活用

Fusing Individualized Treatment Rules Using Secondary Outcomes ( http://arxiv.org/abs/2402.08828v3 )

ライセンス: Link先を確認
Daiqi Gao, Yuanjia Wang, Donglin Zeng(参考訳) 個別治療規則(英: individualized treatment rule、ITR)は、個々の特徴変数に基づいて患者に対する治療を推奨する決定規則である。 多くの実践において、一次結果に理想的なITRは、他の二次結果に最小限のダメージを与えることが期待されている。 したがって、本研究の目的は、一次結果の値関数を最大化するだけでなく、二次結果の最適ルールを極力近似するITRを学習することである。 この目的を達成するために、異なる結果に基づいてITRを奨励する融合ペナルティを導入し、同様のレコメンデーションを提供する。 代理損失関数を用いてITRを推定する2つのアルゴリズムを提案する。 我々は、一次結果の推定itrと二次結果の最適itrとの一致率が、二次結果が考慮されていない場合よりも早く真の合意率に収束することを証明する。 さらに,提案手法における値関数の非漸近特性と誤分類率を導出する。 最後に、シミュレーション研究と実データ例を用いて、提案手法の有限サンプル性能を実証する。

An individualized treatment rule (ITR) is a decision rule that recommends treatments for patients based on their individual feature variables. In many practices, the ideal ITR for the primary outcome is also expected to cause minimal harm to other secondary outcomes. Therefore, our objective is to learn an ITR that not only maximizes the value function for the primary outcome, but also approximates the optimal rule for the secondary outcomes as closely as possible. To achieve this goal, we introduce a fusion penalty to encourage the ITRs based on different outcomes to yield similar recommendations. Two algorithms are proposed to estimate the ITR using surrogate loss functions. We prove that the agreement rate between the estimated ITR of the primary outcome and the optimal ITRs of the secondary outcomes converges to the true agreement rate faster than if the secondary outcomes are not taken into consideration. Furthermore, we derive the non-asymptotic properties of the value function and misclassification rate for the proposed method. Finally, simulation studies and a real data example are used to demonstrate the finite-sample performance of the proposed method.
翻訳日:2024-03-13 14:08:58 公開日:2024-03-09
# 3次元腹部臓器セグメンテーションのための重み付きモンテカルロ拡張球状フーリエ・ベッセル畳み込み層

Weighted Monte Carlo augmented spherical Fourier-Bessel convolutional layers for 3D abdominal organ segmentation ( http://arxiv.org/abs/2402.16825v3 )

ライセンス: Link先を確認
Wenzhao Zhao, Steffen Albert, Barbara D. Wichtmann, Angelika Maurer, Ulrike Attenberger, Frank G. Z\"ollner, and J\"urgen Hesser(参考訳) フィルタ分解に基づく群同変畳み込みニューラルネットワークは, 3次元画像特徴抽出に期待できる安定性とデータ効率を示す。 しかし、既存のフィルタ分解に基づく3次元群同変ニューラルネットワークはパラメータ共有設計に依存しており、選択された球面調和フィルタ基底が角直交のみを考える回転変換群に限られている。 これらの制限は、医療画像セグメンテーションのためのディープニューラルネットワークアーキテクチャへの応用を妨げる。 これらの問題に対処するために,モンテカルロの球面フーリエベッセルフィルタの適応アグリゲーションに基づく3次元医用画像分割のための非パラメータ共有アフィン群同変ニューラルネットワークについて述べる。 採用した非パラメータ共有戦略の効率性と柔軟性は、ボリュームデータに対する3Dアフィン群同変畳み込みニューラルネットワークの効率的な実装を可能にする。 導入された球面ベッセルフーリエフィルタ基底は、角直交と半径直交の両方を組み合わせて特徴抽出を改善する。 腹部医用画像セットbtcvとnih pancreasデータセットを用いた3次元画像分割実験により,提案手法が,高いトレーニング安定性とデータ効率で最先端の3dニューラルネットワークに優れていることを示した。 コードはhttps://github.com/ZhaoWenzhao/WMCSFB.comで入手できる。

Filter-decomposition-based group equivariant convolutional neural networks show promising stability and data efficiency for 3D image feature extraction. However, the existing filter-decomposition-based 3D group equivariant neural networks rely on parameter-sharing designs and are mostly limited to rotation transformation groups, where the chosen spherical harmonic filter bases consider only angular orthogonality. These limitations hamper its application to deep neural network architectures for medical image segmentation. To address these issues, this paper describes a non-parameter-sharing affine group equivariant neural network for 3D medical image segmentation based on an adaptive aggregation of Monte Carlo augmented spherical Fourier Bessel filter bases. The efficiency and flexibility of the adopted non-parameter-sharing strategy enable for the first time an efficient implementation of 3D affine group equivariant convolutional neural networks for volumetric data. The introduced spherical Bessel Fourier filter basis combines both angular and radial orthogonality for better feature extraction. The 3D image segmentation experiments on two abdominal medical image sets, BTCV and the NIH Pancreas datasets, show that the proposed methods excel the state-of-the-art 3D neural networks with high training stability and data efficiency. The code will be available at https://github.com/ZhaoWenzhao/WMCSFB.
翻訳日:2024-03-13 14:02:59 公開日:2024-03-09
# inffeed: 主観的タスクのパフォーマンス向上のためのフィードバックとしての影響関数

InfFeed: Influence Functions as a Feedback to Improve the Performance of Subjective Tasks ( http://arxiv.org/abs/2402.14702v2 )

ライセンス: Link先を確認
Somnath Banerjee, Maulindu Sarkar, Punyajoy Saha, Binny Mathew, Animesh Mukherjee(参考訳) 近年、影響関数は、テスト予測に影響を与える可能性のある個々の列車インスタンスの摂動を定量化し、深層神経モデルの説明可能性を達成する装置を示す。 本論文の目的は2つある。 まず,影響関数をモデルへのフィードバックとして取り入れ,そのパフォーマンスを向上させる。 第二に、データセット拡張エクササイズでは、インフルエンス関数を使用して、既存のメソッドによって注釈付けされ、モデルパフォーマンスを改善するためにアノテーションによってクロスチェック(および修正)される必要があるデータポイントを自動的に識別する。 これらの目的を達成するため,本論文では,インフルエンサー関数を用いて対象インスタンスに対する影響インスタンスを計算するinffeedを提案する。 最初の目的に向けて、インフルエンサーラベルに基づいてターゲットインスタンスのラベルを調整する。 これを行う際、inffeedは最先端のベースライン(llmsを含む)を、ヘイトスピーチ分類で4%、スタンス分類で3.5%、皮肉で3%、皮肉検出で2%という最大マクロf1スコアマージンで上回っている。 第2の目的に向けて、負の影響を持つ拡張集合内の銀の注釈付きデータ点のみを手作業で再注釈することにより、拡張集合内のすべてのデータ点がゴールドラベルを持つシナリオに非常に近いモデル性能が大幅に向上することを示す。 これにより、銀のアノテートされた拡張データセットから、手動でアノテートする必要があるデータポイントの数を大幅に削減できる。

Recently, influence functions present an apparatus for achieving explainability for deep neural models by quantifying the perturbation of individual train instances that might impact a test prediction. Our objectives in this paper are twofold. First we incorporate influence functions as a feedback into the model to improve its performance. Second, in a dataset extension exercise, using influence functions to automatically identify data points that have been initially `silver' annotated by some existing method and need to be cross-checked (and corrected) by annotators to improve the model performance. To meet these objectives, in this paper, we introduce InfFeed, which uses influence functions to compute the influential instances for a target instance. Toward the first objective, we adjust the label of the target instance based on its influencer(s) label. In doing this, InfFeed outperforms the state-of-the-art baselines (including LLMs) by a maximum macro F1-score margin of almost 4% for hate speech classification, 3.5% for stance classification, and 3% for irony and 2% for sarcasm detection. Toward the second objective we show that manually re-annotating only those silver annotated data points in the extension set that have a negative influence can immensely improve the model performance bringing it very close to the scenario where all the data points in the extension set have gold labels. This allows for huge reduction of the number of data points that need to be manually annotated since out of the silver annotated extension dataset, the influence function scheme picks up ~1/1000 points that need manual correction.
翻訳日:2024-03-13 14:00:16 公開日:2024-03-09
# ランダムグラフセットと証拠パターン推論モデル

Random Graph Set and Evidence Pattern Reasoning Model ( http://arxiv.org/abs/2402.13058v2 )

ライセンス: Link先を確認
Tianxiang Zhan, Zhen Li, Yong Deng(参考訳) エビデンス理論は意思決定や推論システムに広く用いられている。 これまでの研究において、トランスファー可能信念モデル(tbm)は、一般的に用いられる実証的意思決定モデルであるが、tbmは非参照モデルである。 意思決定目標に適合させるために、エビデンスパターン推論モデル(EPRM)を提案する。 パターン演算子と意思決定演算子を定義することで、異なるタスクに対して対応する好みを設定することができる。 ランダム置換セット(RPS)は、証拠理論の順序情報を拡張する。 RPSがサイクリングや並列関係のようなサンプル間の複雑な関係を特徴づけるのは困難である。 したがって、RGS(Random Graph Set)は複雑な関係をモデル化し、より多くのイベントタイプを表現するために提案された。 RGSとEPRMの意義を説明するために、航空機の速度ランキングの実験が設計され、1万のケースがシミュレーションされた。 衝突分解判定と呼ばれるEPRMの実装は平均速度決定よりも18.17 %最適化され、航空機の速度ランクが向上した。 EPRMは証拠に基づく意思決定のための統一されたソリューションを提供する。

Evidence theory is widely used in decision-making and reasoning systems. In previous research, Transferable Belief Model (TBM) is a commonly used evidential decision making model, but TBM is a non-preference model. In order to better fit the decision making goals, the Evidence Pattern Reasoning Model (EPRM) is proposed. By defining pattern operators and decision making operators, corresponding preferences can be set for different tasks. Random Permutation Set (RPS) expands order information for evidence theory. It is hard for RPS to characterize the complex relationship between samples such as cycling, paralleling relationships. Therefore, Random Graph Set (RGS) were proposed to model complex relationships and represent more event types. In order to illustrate the significance of RGS and EPRM, an experiment of aircraft velocity ranking was designed and 10,000 cases were simulated. The implementation of EPRM called Conflict Resolution Decision optimized 18.17\% of the cases compared to Mean Velocity Decision, effectively improving the aircraft velocity ranking. EPRM provides a unified solution for evidence-based decision making.
翻訳日:2024-03-13 13:58:33 公開日:2024-03-09
# 半スーパービジョンU統計

Semi-Supervised U-statistics ( http://arxiv.org/abs/2402.18921v2 )

ライセンス: Link先を確認
Ilmun Kim, Larry Wasserman, Sivaraman Balakrishnan, Matey Neykov(参考訳) 半教師付きデータセットは、完全なラベル付きデータを取得するのにコストや時間を要するさまざまなドメインにまたがっている。 このようなデータセットの普及は、ラベルのないデータの可能性を利用する新しいツールやメソッドの需要を一貫して押し付けている。 この要求に応じて、ラベルなしデータの豊富さによって強化された半教師付きU統計を導入し、その統計特性について検討する。 提案手法は漸近的に正規であり,様々な強力な予測ツールを効果的にフレームワークに統合することにより,古典的U統計よりも顕著な効率向上を示す。 この問題の根本的な難しさを理解するため, 半教師付き設定における最小限の上限を導出し, 規則性条件下での手順が半パラメトリックに効率的であることを示す。 さらに,二変量カーネルに適応し,すべての退化系において古典的u-統計量を上回る洗練されたアプローチを提案し,その最適性を示す。 シミュレーション研究は,我々の知見を裏付けるとともに,その枠組みをさらに実証するために行われる。

Semi-supervised datasets are ubiquitous across diverse domains where obtaining fully labeled data is costly or time-consuming. The prevalence of such datasets has consistently driven the demand for new tools and methods that exploit the potential of unlabeled data. Responding to this demand, we introduce semi-supervised U-statistics enhanced by the abundance of unlabeled data, and investigate their statistical properties. We show that the proposed approach is asymptotically Normal and exhibits notable efficiency gains over classical U-statistics by effectively integrating various powerful prediction tools into the framework. To understand the fundamental difficulty of the problem, we derive minimax lower bounds in semi-supervised settings and showcase that our procedure is semi-parametrically efficient under regularity conditions. Moreover, tailored to bivariate kernels, we propose a refined approach that outperforms the classical U-statistic across all degeneracy regimes, and demonstrate its optimality properties. Simulation studies are conducted to corroborate our findings and to further demonstrate our framework.
翻訳日:2024-03-13 13:52:19 公開日:2024-03-09
# X-ResQ:フレキシブル並列性を用いた量子MIMO検出のためのリバースアニーリング

X-ResQ: Reverse Annealing for Quantum MIMO Detection with Flexible Parallelism ( http://arxiv.org/abs/2402.18778v2 )

ライセンス: Link先を確認
Minsung Kim, Abhishek Kumar Singh, Davide Venturelli, John Kaewell, Kyle Jamieson(参考訳) 量子アニーリング(QA)によるMIMO検出は、NextG無線ネットワークにおける新たな研究手法である。 この機会は、大規模なMIMOシステムを有効にし、無線性能を向上させることである。 このアプローチは、QAを活用して、理論上最適だが計算上必要となる計算を高速化し、現在展開されている線形検出器の限界を克服することを目的としている。 本稿では,逆アニーリング(ra)プロトコルによって一意に実現される細粒度量子タスク並列性を備えた,qaベースのmimo検出器システムであるx-resqを提案する。 従来の設計とは異なり、X-ResQは並列QA検出器に望ましい多くのシステム特性を持ち、より多くのキュービットが割り当てられるにつれて検出性能を効果的に改善した。 完全並列X-ResQは、240キュービットの6レベルの並列処理と220〜220〜2mu$s QA計算時間を用い、他の検定検出器と比較して2.5--5$\times$ゲインを達成し、ほぼ最適スループット(10ビット/s/Hz以上)を4\times6$MIMOで達成した。 より包括的な評価を行うため、非量子ディジタル設定でX-ResQを実装し、評価する。 この量子ではないX-ResQのデモは、超大型の1024\times1024$ MIMOを実現する可能性を示し、最先端のRA検出器を含む他のMIMO検出器よりも大幅に優れている。

Quantum Annealing (QA)-accelerated MIMO detection is an emerging research approach in the context of NextG wireless networks. The opportunity is to enable large MIMO systems and thus improve wireless performance. The approach aims to leverage QA to expedite the computation required for theoretically optimal but computationally-demanding Maximum Likelihood detection to overcome the limitations of the currently deployed linear detectors. This paper presents X-ResQ, a QA-based MIMO detector system featuring fine-grained quantum task parallelism that is uniquely enabled by the Reverse Annealing (RA) protocol. Unlike prior designs, X-ResQ has many desirable system properties for a parallel QA detector and has effectively improved detection performance as more qubits are assigned. In our evaluations on a state-of-the-art quantum annealer, fully parallel X-ResQ achieves near-optimal throughput (over 10 bits/s/Hz) for $4\times6$ MIMO with 16-QAM using six levels of parallelism with 240 qubits and $220~\mu$s QA compute time, achieving 2.5--5$\times$ gains compared against other tested detectors. For more comprehensive evaluations, we implement and evaluate X-ResQ in the non-quantum digital setting. This non-quantum X-ResQ demonstration showcases the potential to realize ultra-large $1024\times1024$ MIMO, significantly outperforming other MIMO detectors, including the state-of-the-art RA detector classically implemented in the same way.
翻訳日:2024-03-13 13:51:35 公開日:2024-03-09
# ICE-SEARCH: 言語モデル駆動型特徴選択アプローチ

ICE-SEARCH: A Language Model-Driven Feature Selection Approach ( http://arxiv.org/abs/2402.18609v3 )

ライセンス: Link先を確認
Tianze Yang, Tianyi Yang, Shaoshan Liu, Fuyuan Lvu, Xue Liu(参考訳) In-Context Evolutionary Search (ICE-SEARCH) は,言語モデル (LM) に特徴選択 (FS) タスクの進化アルゴリズムを組み込んだ最初の手法であり,医療予測分析 (MPA) アプリケーションでの有効性を示すものである。 ICE-SEARCHは進化の枠組みの中でLMに固有の交叉と突然変異の機能を活用し、モデルの包括的な世界知識と様々な役割への適応性を通じてFSを大幅に改善する。 本手法の評価は, 脳卒中, 心血管疾患, 糖尿病の3つの重要なMPA課題に及び, ICE-SEARCHは, 医療応用に欠かせない特徴を指摘するために, 従来のFS法よりも優れている。 ICE-SEARCHは脳卒中予測と糖尿病予測においてSOTA(State-of-the-Art)のパフォーマンスを達成する。 本研究は,医用FSにおけるICE-SEARCHの有効性を実証するだけでなく,LMをFSタスクに統合する汎用性,効率性,スケーラビリティを裏付けるものである。 この研究は、領域固有の洞察を取り入れ、ICE-SEARCHの堅牢性、一般化可能性、迅速な収束を描写する重要な役割を強調している。 これは、総合的で複雑なFSランドスケープに関するさらなる研究の道を開き、医療予測分析における人工知能の応用において重要な一歩を踏み出した。

This study unveils the In-Context Evolutionary Search (ICE-SEARCH) method, the first work that melds language models (LMs) with evolutionary algorithms for feature selection (FS) tasks and demonstrates its effectiveness in Medical Predictive Analytics (MPA) applications. ICE-SEARCH harnesses the crossover and mutation capabilities inherent in LMs within an evolutionary framework, significantly improving FS through the model's comprehensive world knowledge and its adaptability to a variety of roles. Our evaluation of this methodology spans three crucial MPA tasks: stroke, cardiovascular disease, and diabetes, where ICE-SEARCH outperforms traditional FS methods in pinpointing essential features for medical applications. ICE-SEARCH achieves State-of-the-Art (SOTA) performance in stroke prediction and diabetes prediction; the Decision-Randomized ICE-SEARCH ranks as SOTA in cardiovascular disease prediction. Our results not only demonstrate the efficacy of ICE-SEARCH in medical FS but also underscore the versatility, efficiency, and scalability of integrating LMs in FS tasks. The study emphasizes the critical role of incorporating domain-specific insights, illustrating ICE-SEARCH's robustness, generalizability, and swift convergence. This opens avenues for further research into comprehensive and intricate FS landscapes, marking a significant stride in the application of artificial intelligence in medical predictive analytics.
翻訳日:2024-03-13 13:51:01 公開日:2024-03-09
# 時間依存性誘電体構造の高度検出:レイリー限界と量子真空

Enhanced detection of time-dependent dielectric structure: Rayleigh's limit and quantum vacuum ( http://arxiv.org/abs/2402.18268v2 )

ライセンス: Link先を確認
Vanik E. Mkrtchian, Hakob Avetisyan, Armen E. Allahverdyan(参考訳) 散乱光の検出は誘電体の感受性を決定することができる。 通常はレイリーの限界によって制限され、入射光の波長よりも細かい詳細は遠方界領域から決定できない。 誘電体を運動させることは,その感受性を決定するのに有用であることを示す。 この逆量子光学問題は2つの異なるバージョンで研究されている。 一 誘電体透過性が移動誘電体と類似した空間的かつ時間的に変化したメタマテリアル。 (II) 定速誘電体移動は相対論的光学において検討した問題である。 光検出信号への真空寄与は負の周波数のためゼロではないため、誘電体に入射電界を照射することなく、感受性の特定の特徴を決定することができる。 入射光が輝くと誘電率の判定が強化され、古典的なレイリー限界を超え、エバネッセント波に関係している。 (ii)但し遠方領域に到達。 (i)。

Detection of scattered light can determine the susceptibility of dielectrics. It is normally limited by Rayleigh's limit: details finer than the wavelength of the incident light cannot be determined from the far-field domain. We show that putting the dielectric in motion can be useful for determining its susceptibility. This inverse quantum optics problem is studied in two different versions: (i) A spatially and temporally modulated metamaterial, whose dielectric permeability is similar to that of moving dielectrics. (ii) A dielectric moving with a constant velocity, a problem we studied within relativistic optics. Certain features of the susceptibility can be determined without shining any incident field on the dielectric because the vacuum contribution to the photodetection signal is non-zero due to the negative frequencies. When the incident light is shined, the determination of dielectric susceptibility is enhanced and and goes beyond the classical Rayleigh limit; it pertains to evanescent waves for (ii), but reaches the far-field domain for (i).
翻訳日:2024-03-13 13:49:17 公開日:2024-03-09
# 画像クラス増分学習のための一般化可能な2分岐フレームワーク

Generalizable Two-Branch Framework for Image Class-Incremental Learning ( http://arxiv.org/abs/2402.18086v3 )

ライセンス: Link先を確認
Chao Wu, Xiaobin Chang, Ruixuan Wang(参考訳) 深層ニューラルネットワークは、新しい知識を学ぶとき、事前学習した知識をひどく忘れてしまう。 種々の連続学習(CL)手法は, 様々な視点から, 破滅的な忘れの問題に対処し, 大幅な改善を実現し, 既存のCL手法をさらに強化するために, 新たな2分岐連続学習フレームワークを提案する。 具体的には、メインブランチは既存のCLモデルであり、新しく導入されたサイドブランチは軽量な畳み込みネットワークである。 各主分岐ブロックの出力は、対応する側分岐ブロックの出力によって変調される。 このような単純な2分岐モデルを簡単に実装し、ホイッスルやベルを使わずにバニラ最適化設定で学習し、複数の画像データセットに様々な設定を組み込んだ実験により、提案手法は最先端の手法よりも一貫した改善をもたらすことを示した。

Deep neural networks often severely forget previously learned knowledge when learning new knowledge. Various continual learning (CL) methods have been proposed to handle such a catastrophic forgetting issue from different perspectives and achieved substantial improvements.In this paper, a novel two-branch continual learning framework is proposed to further enhance most existing CL methods. Specifically, the main branch can be any existing CL model and the newly introduced side branch is a lightweight convolutional network. The output of each main branch block is modulated by the output of the corresponding side branch block. Such a simple two-branch model can then be easily implemented and learned with the vanilla optimization setting without whistles and bells.Extensive experiments with various settings on multiple image datasets show that the proposed framework yields consistent improvements over state-of-the-art methods.
翻訳日:2024-03-13 13:49:01 公開日:2024-03-09
# 非依存位相推定

Agnostic Phase Estimation ( http://arxiv.org/abs/2403.00054v2 )

ライセンス: Link先を確認
Xingrui Song, Flavio Salvati, Chandrashekhar Gaikwad, Nicole Yunger Halpern, David R. M. Arvidsson-Shukur, and Kater Murch(参考訳) 量子気象学の目標は、量子資源を活用することで測定の感度を改善することである。 気象学者はしばしば、測定装置の感度を束縛する量子フィッシャー情報の最大化を目指す。 メトロジーの基本的な極限の研究において、パラダイム的なセットアップは未知の回転の対象となるクォービット(スピンハーフ系)を特徴付ける。 回転誘導作用素の分散を最大化する状態でスピンが始まると、回転に関する最大量子フィッシャー情報を得る。 しかし、回転軸が不明であれば、最適な単一量子ビットセンサは作成できない。 閉時間曲線のシミュレーションにインスパイアされ、この制限を回避する。 我々は、未知の回転軸によらず、回転角に関する最大量子フィッシャー情報を得る。 この結果を達成するために、まずプローブキュービットをアンシラキュービットで絡む。 次に、この対を絡み合いベースで測定し、任意の単一量子ビットセンサが達成できる以上の回転角に関する情報を得る。 2量子ビット超伝導量子プロセッサによるこのメリットを実証する。 我々の測定手法は量子的優位性を達成し、あらゆる絡み合いのない戦略を上回ります。

The goal of quantum metrology is to improve measurements' sensitivities by harnessing quantum resources. Metrologists often aim to maximize the quantum Fisher information, which bounds the measurement setup's sensitivity. In studies of fundamental limits on metrology, a paradigmatic setup features a qubit (spin-half system) subject to an unknown rotation. One obtains the maximal quantum Fisher information about the rotation if the spin begins in a state that maximizes the variance of the rotation-inducing operator. If the rotation axis is unknown, however, no optimal single-qubit sensor can be prepared. Inspired by simulations of closed timelike curves, we circumvent this limitation. We obtain the maximum quantum Fisher information about a rotation angle, regardless of the unknown rotation axis. To achieve this result, we initially entangle the probe qubit with an ancilla qubit. Then, we measure the pair in an entangled basis, obtaining more information about the rotation angle than any single-qubit sensor can achieve. We demonstrate this metrological advantage using a two-qubit superconducting quantum processor. Our measurement approach achieves a quantum advantage, outperforming every entanglement-free strategy.
翻訳日:2024-03-13 13:39:03 公開日:2024-03-09
# UDCR: 深部強化学習とオーバーラップ度計算による非教師付き大動脈DSA/CTA登録

UDCR: Unsupervised Aortic DSA/CTA Rigid Registration Using Deep Reinforcement Learning and Overlap Degree Calculation ( http://arxiv.org/abs/2403.05753v1 )

ライセンス: Link先を確認
Wentao Liu, Bowen Liang, Weijin Xu, Tong Tian, Qingsheng Lu, Xipeng Pan, Haoyuan Li, Siyu Tian, Huihua Yang, Ruisheng Su(参考訳) 大動脈解離や大動脈瘤などの病態を外科的に治療するための血管の3次元解剖学的詳細を,dsa(dsa)とct angiography(cta)で明らかにし,臨床研究に有意な価値を有する。 しかし、現在の2D/3D画像登録法は、手動のアノテーションや合成データ、および大動脈DSA/CTAのクロスモーダルな登録には適さないランドマークの抽出に依存する。 本稿では,深部強化学習に基づく大動脈DSA/CTA剛性登録のための教師なし手法UDCRを提案する。 dsaとctaのイメージング原理と特性を活用して,空間変換に基づくクロス次元登録環境を構築した。 具体的には,セグメンテーションマップとdsa画像の登録精度を評価するために,前景と背景の強度差を測定する重なり度計算報酬関数を提案する。 この方法は柔軟であり、事前訓練されたモデルのロードが直接登録したり、オンライン学習を通じて最適な空間変換パラメータを求めることができる。 61対の大動脈DSA/CTAを手動でアノテートし,アルゴリズム評価を行った。 その結果,UDCRは平均絶対誤差2.85mm,回転4.35{\degを達成し,臨床応用に有意な可能性を示唆した。

The rigid registration of aortic Digital Subtraction Angiography (DSA) and Computed Tomography Angiography (CTA) can provide 3D anatomical details of the vasculature for the interventional surgical treatment of conditions such as aortic dissection and aortic aneurysms, holding significant value for clinical research. However, the current methods for 2D/3D image registration are dependent on manual annotations or synthetic data, as well as the extraction of landmarks, which is not suitable for cross-modal registration of aortic DSA/CTA. In this paper, we propose an unsupervised method, UDCR, for aortic DSA/CTA rigid registration based on deep reinforcement learning. Leveraging the imaging principles and characteristics of DSA and CTA, we have constructed a cross-dimensional registration environment based on spatial transformations. Specifically, we propose an overlap degree calculation reward function that measures the intensity difference between the foreground and background, aimed at assessing the accuracy of registration between segmentation maps and DSA images. This method is highly flexible, allowing for the loading of pre-trained models to perform registration directly or to seek the optimal spatial transformation parameters through online learning. We manually annotated 61 pairs of aortic DSA/CTA for algorithm evaluation. The results indicate that the proposed UDCR achieved a Mean Absolute Error (MAE) of 2.85 mm in translation and 4.35{\deg} in rotation, showing significant potential for clinical applications.
翻訳日:2024-03-13 12:43:33 公開日:2024-03-09
# 高精度かつ効率的なモデリングのための大規模知識グラフを用いたタスク指向GNN学習

Task-Oriented GNNs Training on Large Knowledge Graphs for Accurate and Efficient Modeling ( http://arxiv.org/abs/2403.05752v1 )

ライセンス: Link先を確認
Hussein Abdallah, Waleed Afandi, Panos Kalnis, Essam Mansour(参考訳) 知識グラフ(KG)は、多様なノードとエッジタイプを含む異種グラフである。 不均一グラフニューラルネットワーク(HGNN)は、ノード分類やKG上のリンク予測といった機械学習タスクのトレーニングに人気がある。 しかし、HGNN法は、KGのサイズ、密度、ノードとエッジの型数に影響される過剰な複雑さを示す。 ai実践者は、特定のタスクに関連するkg gのサブグラフを手作りします。 タスク関連ノードとエッジ型のサブセットを含むタスク指向サブグラフ(TOSG)をGの代わりにTOSGを用いてタスクを訓練することで、大規模なKGに必要な過剰な計算が軽減される。 TOSGを構築するには、KGの構造とタスクの目的を深く理解する必要がある。 そのため、困難で時間がかかります。 本稿では,タスク指向HGNN訓練におけるTOSG抽出の自動化手法であるKG-TOSAを提案する。 KG-TOSAでは、特定のタスクに関連するKGの局所的および大域的構造をキャプチャする汎用グラフパターンを定義する。 グラフパターンにマッチする部分グラフを抽出する様々な手法を探索する。 (i)偏りのあるランダムウォークまたは影響スコアを用いて対象ノード周辺をサンプリングする2つの手法 (II)RDFエンジンの内蔵指標を利用したSPARQLに基づく抽出手法 したがって、サンプリング技術と比較して、無視できる事前処理のオーバーヘッドを達成できる。 我々は,ノード分類とリンク予測のための実kgsと様々なタスクのベンチマークを開発した。 実験の結果,kg-tosaはトレーニング時間とメモリ使用量を最大70%削減し,モデル性能,例えば精度と推論時間を改善する。

A Knowledge Graph (KG) is a heterogeneous graph encompassing a diverse range of node and edge types. Heterogeneous Graph Neural Networks (HGNNs) are popular for training machine learning tasks like node classification and link prediction on KGs. However, HGNN methods exhibit excessive complexity influenced by the KG's size, density, and the number of node and edge types. AI practitioners handcraft a subgraph of a KG G relevant to a specific task. We refer to this subgraph as a task-oriented subgraph (TOSG), which contains a subset of task-related node and edge types in G. Training the task using TOSG instead of G alleviates the excessive computation required for a large KG. Crafting the TOSG demands a deep understanding of the KG's structure and the task's objectives. Hence, it is challenging and time-consuming. This paper proposes KG-TOSA, an approach to automate the TOSG extraction for task-oriented HGNN training on a large KG. In KG-TOSA, we define a generic graph pattern that captures the KG's local and global structure relevant to a specific task. We explore different techniques to extract subgraphs matching our graph pattern: namely (i) two techniques sampling around targeted nodes using biased random walk or influence scores, and (ii) a SPARQL-based extraction method leveraging RDF engines' built-in indices. Hence, it achieves negligible preprocessing overhead compared to the sampling techniques. We develop a benchmark of real KGs of large sizes and various tasks for node classification and link prediction. Our experiments show that KG-TOSA helps state-of-the-art HGNN methods reduce training time and memory usage by up to 70% while improving the model performance, e.g., accuracy and inference time.
翻訳日:2024-03-13 12:43:08 公開日:2024-03-09
# MG-TSD:ガイド付き学習プロセスによる多粒度時系列拡散モデル

MG-TSD: Multi-Granularity Time Series Diffusion Models with Guided Learning Process ( http://arxiv.org/abs/2403.05751v1 )

ライセンス: Link先を確認
Xinyao Fan, Yueying Wu, Chang Xu, Yuhao Huang, Weiqing Liu, Jiang Bian(参考訳) 近年, 拡散確率モデルは, 高忠実度サンプルの生成能力に優れ, 時系列予測に注目が集まっている。 しかし,確率的時系列予測タスクにおける強力なモデリング能力の有効利用は,確率的性質から生じる不安定性の問題もあって,未解決の問題が残る。 この課題に対処するために,中間拡散ステップで与えられたデータ内の固有の粒度レベルを活用して,拡散モデルの学習プロセスを導くことにより,最先端の予測性能を実現する,新たな多粒度時系列拡散(mg-tsd)モデルを提案する。 ターゲットを構築する方法は、データ分布を標準正規分布に順次破壊する拡散モデルの前方過程が、細粒度データを粗粒度表現に平滑化する過程と直感的に一致し、両者とも微粒度分布特性の段階的損失をもたらすという観察によって動機付けられたものである。 本研究では,新しい多粒性誘導拡散損失関数を導出し,様々な粒度レベルの粗粒データを効果的に活用するための簡潔な実装法を提案する。 さらに重要なことは、私たちのアプローチは追加の外部データに依存しないので、様々なドメインにまたがって汎用的で適用できます。 我々のMG-TSDモデルが既存の時系列予測法より優れていることを示す。

Recently, diffusion probabilistic models have attracted attention in generative time series forecasting due to their remarkable capacity to generate high-fidelity samples. However, the effective utilization of their strong modeling ability in the probabilistic time series forecasting task remains an open question, partially due to the challenge of instability arising from their stochastic nature. To address this challenge, we introduce a novel Multi-Granularity Time Series Diffusion (MG-TSD) model, which achieves state-of-the-art predictive performance by leveraging the inherent granularity levels within the data as given targets at intermediate diffusion steps to guide the learning process of diffusion models. The way to construct the targets is motivated by the observation that the forward process of the diffusion model, which sequentially corrupts the data distribution to a standard normal distribution, intuitively aligns with the process of smoothing fine-grained data into a coarse-grained representation, both of which result in a gradual loss of fine distribution features. In the study, we derive a novel multi-granularity guidance diffusion loss function and propose a concise implementation method to effectively utilize coarse-grained data across various granularity levels. More importantly, our approach does not rely on additional external data, making it versatile and applicable across various domains. Extensive experiments conducted on real-world datasets demonstrate that our MG-TSD model outperforms existing time series prediction methods.
翻訳日:2024-03-13 12:42:43 公開日:2024-03-09
# AI Penのデコード:AI生成テキストの検出技術と課題

Decoding the AI Pen: Techniques and Challenges in Detecting AI-Generated Text ( http://arxiv.org/abs/2403.05750v1 )

ライセンス: Link先を確認
Sara Abdali, Richard Anarfi, CJ Barberan, Jia He(参考訳) 大規模言語モデル(LLM)は、人間に似たテキストを生成する素晴らしい能力を示すことによって、自然言語生成(NLG)の分野に革命をもたらした。 しかし、その広範な使用は、思慮深い検査、倫理的な精査、責任ある実践を必要とする課題をもたらす。 本研究では,これらの課題を考察し,aiが生成するテキストを究極のソリューションとして識別することに注目しながら,それらの緩和のための既存の戦略を検討する。 さらに, 理論的な観点から検出の可能性を評価し, この領域における現在の限界に対処するための新しい研究方向を提案する。

Large Language Models (LLMs) have revolutionized the field of Natural Language Generation (NLG) by demonstrating an impressive ability to generate human-like text. However, their widespread usage introduces challenges that necessitate thoughtful examination, ethical scrutiny, and responsible practices. In this study, we delve into these challenges, explore existing strategies for mitigating them, with a particular emphasis on identifying AI-generated text as the ultimate solution. Additionally, we assess the feasibility of detection from a theoretical perspective and propose novel research directions to address the current limitations in this domain.
翻訳日:2024-03-13 12:42:18 公開日:2024-03-09
# 市場運用への応用による生成確率予測

Generative Probabilistic Forecasting with Applications in Market Operations ( http://arxiv.org/abs/2403.05743v1 )

ライセンス: Link先を確認
Xinyi Wang, Lang Tong(参考訳) 本稿では,非パラメトリック時系列のWiener-Kallianpur革新表現から導かれる新しい生成確率予測手法を提案する。 生成型人工知能のパラダイムの下、提案された予測アーキテクチャは、非パラメトリック多変量確率過程を正準イノベーションシーケンスに変換するオートエンコーダを含み、過去のサンプルに条件づけられた確率分布に応じて将来の時系列サンプルを生成する。 自動エンコーダ入力出力条件付き確率分布に一致し, 潜在過程を独立かつ同一分布列に制約する, 新たなディープラーニングアルゴリズムを提案する。 提案した生成予測手法の漸近最適性と構造収束性を確立した。 リアルタイム市場運用における動的・揮発性時系列の3つの応用について考察する。 (i)商店員の地域的限界価格予測 (ii)インターチェンジ市場の地域間物価拡散予測、及び (iii)周波数規制の地域制御誤差予測 複数の独立系オペレーターの市場データに基づく数値的研究は、確率的および点予測の両方の指標の下で、従来の機械学習および機械学習ベースの予測技術に対して優れた性能を示す。

This paper presents a novel generative probabilistic forecasting approach derived from the Wiener-Kallianpur innovation representation of nonparametric time series. Under the paradigm of generative artificial intelligence, the proposed forecasting architecture includes an autoencoder that transforms nonparametric multivariate random processes into canonical innovation sequences, from which future time series samples are generated according to their probability distributions conditioned on past samples. A novel deep-learning algorithm is proposed that constrains the latent process to be an independent and identically distributed sequence with matching autoencoder input-output conditional probability distributions. Asymptotic optimality and structural convergence properties of the proposed generative forecasting approach are established. Three applications involving highly dynamic and volatile time series in real-time market operations are considered: (i) locational marginal price forecasting for merchant storage participants, {(ii) interregional price spread forecasting for interchange markets,} and (iii) area control error forecasting for frequency regulations. Numerical studies based on market data from multiple independent system operators demonstrate superior performance against leading traditional and machine learning-based forecasting techniques under both probabilistic and point forecast metrics.
翻訳日:2024-03-13 12:42:07 公開日:2024-03-09
# 平均逆マルコフポテンシャルゲームのための確率的ポリシー勾配法

Provable Policy Gradient Methods for Average-Reward Markov Potential Games ( http://arxiv.org/abs/2403.05738v1 )

ライセンス: Link先を確認
Min Cheng, Ruida Zhou, P. R. Kumar and Chao Tian(参考訳) 無限水平平均報酬基準の下でマルコフポテンシャルゲームを研究する。 これまでの研究はほとんどが割引報酬だった。 独立政策勾配と独立自然政策勾配に基づく2つのアルゴリズムが、平均報酬基準のnash平衡にグローバルに収束することを証明する。 勾配に基づく手法の段階を設定するために,まず,平均報酬は方針の円滑な関数であり,エルゴード性およびマルコフ決定過程(mdp)の第2の固有値の条件下で,微分値関数に対する感度境界を与える。 3つのアルゴリズム、ポリシーグラデーション、近位q、自然政策グラデーション(npg)が、勾配/微分q関数oracleの与えられた時間複雑性$o(\frac{1}{\epsilon^2})$を持つ$\epsilon$-nash平衡に収束することを証明する。 政策勾配を見積もる必要があるとき、$\tilde{O}(\frac{1}{\min_{s,a}\pi(a|s)\delta})$サンプル複雑さを$\delta$近似誤差w.r.t~$\ell_2$ノルムを達成するアルゴリズムを提案する。 推定器を組み込んだポリシ勾配上昇アルゴリズムの最初のサンプル複雑性解析を導出し,サンプル複雑性を$\tilde{O}(1/\epsilon^5)$とする。 シミュレーション研究を行う。

We study Markov potential games under the infinite horizon average reward criterion. Most previous studies have been for discounted rewards. We prove that both algorithms based on independent policy gradient and independent natural policy gradient converge globally to a Nash equilibrium for the average reward criterion. To set the stage for gradient-based methods, we first establish that the average reward is a smooth function of policies and provide sensitivity bounds for the differential value functions, under certain conditions on ergodicity and the second largest eigenvalue of the underlying Markov decision process (MDP). We prove that three algorithms, policy gradient, proximal-Q, and natural policy gradient (NPG), converge to an $\epsilon$-Nash equilibrium with time complexity $O(\frac{1}{\epsilon^2})$, given a gradient/differential Q function oracle. When policy gradients have to be estimated, we propose an algorithm with $\tilde{O}(\frac{1}{\min_{s,a}\pi(a|s)\delta})$ sample complexity to achieve $\delta$ approximation error w.r.t~the $\ell_2$ norm. Equipped with the estimator, we derive the first sample complexity analysis for a policy gradient ascent algorithm, featuring a sample complexity of $\tilde{O}(1/\epsilon^5)$. Simulation studies are presented.
翻訳日:2024-03-13 12:41:53 公開日:2024-03-09
# uniGradICON: 医用画像登録のための基礎モデル

uniGradICON: A Foundation Model for Medical Image Registration ( http://arxiv.org/abs/2403.05780v1 )

ライセンス: Link先を確認
Lin Tian, Hastings Greer, Roland Kwitt, Francois-Xavier Vialard, Raul San Jose Estepar, Sylvain Bouix, Richard Rushmore, Marc Niethammer(参考訳) 従来の医療画像登録アプローチは、変換モデルのパラメータを直接最適化する。 これらのアプローチは非常に成功しており、様々な解剖学的領域の登録に一般的に用いられている。 最近のディープ登録ネットワークは驚くほど高速で正確だが、特定のタスクのためにのみ訓練されている。 したがって、それらはもはや一般的な登録アプローチではない。 そこで我々は、登録提供の基礎モデルに向けた第一歩であるuniGradICONを提案する。 1)現在の学習に基づく登録手法では実現不可能な,高性能な複数データセットのemph{across} 2 訓練データセットと比較して、異なる取得、解剖学的領域、モダリティに適した新規登録タスクのゼロショット機能及び 3) 配布外登録タスクの微調整のための強力な初期化。 UniGradICONは、学習に基づく登録アルゴリズムの速度と精度の利点を、従来の非深層学習アプローチの汎用的適用性と統合する。 12種類の公開データセットでUniGradICONを広範囲にトレーニングし評価した。 私たちのコードとuniGradICONモデルはhttps://github.com/uncbiag/uniGradICONで利用可能です。

Conventional medical image registration approaches directly optimize over the parameters of a transformation model. These approaches have been highly successful and are used generically for registrations of different anatomical regions. Recent deep registration networks are incredibly fast and accurate but are only trained for specific tasks. Hence, they are no longer generic registration approaches. We therefore propose uniGradICON, a first step toward a foundation model for registration providing 1) great performance \emph{across} multiple datasets which is not feasible for current learning-based registration methods, 2) zero-shot capabilities for new registration tasks suitable for different acquisitions, anatomical regions, and modalities compared to the training dataset, and 3) a strong initialization for finetuning on out-of-distribution registration tasks. UniGradICON unifies the speed and accuracy benefits of learning-based registration algorithms with the generic applicability of conventional non-deep-learning approaches. We extensively trained and evaluated uniGradICON on twelve different public datasets. Our code and the uniGradICON model are available at https://github.com/uncbiag/uniGradICON.
翻訳日:2024-03-13 12:34:45 公開日:2024-03-09
# 容器経路同定のための空間クラスタリング手法

Spatial Clustering Approach for Vessel Path Identification ( http://arxiv.org/abs/2403.05778v1 )

ライセンス: Link先を確認
Mohamed Abuella, M. Amine Atoui, Slawomir Nowaczyk, Simon Johansson, Ethan Faghan(参考訳) 本稿では,繰り返し経路,部分的に繰り返し経路,新しい経路の運行経路を有する船舶の航路を特定することの課題に対処する。 位置情報のみを用いて船舶経路をラベル付けするための空間クラスタリング手法を提案する。 距離に基づく経路モデリングと確率推定という2つの手法を用いた経路クラスタリングフレームワークを開発した。 前者は教師なし機械学習技術の統合による経路クラスタリングの精度を高め、後者は確率に基づく経路モデリングに焦点を当て、より詳細な分析のためのセグメンテーションを導入する。 その結果, 船体経路を5つのクラスにクラスタリングする方法がF1スコアを達成し, 開発手法の優れた性能と効率性が示された。 このアプローチは、経路計画に貴重な洞察を提供することを目的としており、最終的には海上輸送の安全性と効率の改善に寄与する。

This paper addresses the challenge of identifying the paths for vessels with operating routes of repetitive paths, partially repetitive paths, and new paths. We propose a spatial clustering approach for labeling the vessel paths by using only position information. We develop a path clustering framework employing two methods: a distance-based path modeling and a likelihood estimation method. The former enhances the accuracy of path clustering through the integration of unsupervised machine learning techniques, while the latter focuses on likelihood-based path modeling and introduces segmentation for a more detailed analysis. The result findings highlight the superior performance and efficiency of the developed approach, as both methods for clustering vessel paths into five classes achieve a perfect F1-score. The approach aims to offer valuable insights for route planning, ultimately contributing to improving safety and efficiency in maritime transportation.
翻訳日:2024-03-13 12:34:33 公開日:2024-03-09
# 空中LiDAR画像セグメンテーションによる古代マヤ集落の発掘

Unveiling Ancient Maya Settlements Using Aerial LiDAR Image Segmentation ( http://arxiv.org/abs/2403.05773v1 )

ライセンス: Link先を確認
Jincheng Zhang, William Ringle, Andrew R. Willis(参考訳) LiDAR画像における考古学的特徴のマニュアル識別は、労働集約的でコストがかかり、考古学的な専門知識を必要とする。 本稿では, YOLOv8ニューラルネットワークを用いて, 空中LiDAR画像の考古学的構造を高精度に分割する手法について述べる。 提案手法では, 訓練されたYOLOv8ネットワークを生成するために, 生のLiDARデータとデータセット拡張手法の新規な前処理を用いて, 精度, 精度, 再現性を向上し, 環状構造とプラットフォームという2つの重要なマヤ構造のセグメンテーションを行う。 その結果、iou性能はプラットフォームが0.842、環状構造が0.809となり、既存のアプローチを上回った。 さらに、ドメインの専門家による分析では、セグメント化された領域のトポロジ的一貫性と、重要な洞察を提供する領域のパフォーマンスが考慮されている。 このアプローチは、歴史的景観の正確な分析を著しく加速する、時間を要するLiDAR画像ラベリングを自動化する。

Manual identification of archaeological features in LiDAR imagery is labor-intensive, costly, and requires archaeological expertise. This paper shows how recent advancements in deep learning (DL) present efficient solutions for accurately segmenting archaeological structures in aerial LiDAR images using the YOLOv8 neural network. The proposed approach uses novel pre-processing of the raw LiDAR data and dataset augmentation methods to produce trained YOLOv8 networks to improve accuracy, precision, and recall for the segmentation of two important Maya structure types: annular structures and platforms. The results show an IoU performance of 0.842 for platforms and 0.809 for annular structures which outperform existing approaches. Further, analysis via domain experts considers the topological consistency of segmented regions and performance vs. area providing important insights. The approach automates time-consuming LiDAR image labeling which significantly accelerates accurate analysis of historical landscapes.
翻訳日:2024-03-13 12:34:08 公開日:2024-03-09
# svad:スパイクニューラルネットワークを用いたロバストで低消費電力、軽量な音声アクティビティ検出

sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection with Spiking Neural Networks ( http://arxiv.org/abs/2403.05772v1 )

ライセンス: Link先を確認
Qu Yang, Qianhui Liu, Nan Li, Meng Ge, Zeyang Song, Haizhou Li(参考訳) 音声アプリケーションは雑音条件下では低電力で堅牢であることが期待される。 効果的なVoice Activity Detection (VAD)フロントエンドは、計算の必要性を低くする。 スパイキングニューラルネットワーク(SNN)は生物学的に妥当で電力効率が高いことが知られている。 しかし、SNNベースのVADは、ノイズの頑健さをまだ達成していないため、しばしば高性能のために大きなモデルを必要とする。 本稿では、SNNベースのアテンション機構を備えた聴覚エンコーダを備えた新しいSNNベースのVADモデルであるsVADを提案する。 特に、SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構によるノイズロバスト性を改善する。 この分類器は、スパイキングリカレントニューラルネットワーク(sRNN)を用いて、時間的音声情報を利用する。 実験結果から,SVADは低消費電力化とフットプリントの小型化を実現し,実世界のVADアプリケーションにとって有望なソリューションであることがわかった。

Speech applications are expected to be low-power and robust under noisy conditions. An effective Voice Activity Detection (VAD) front-end lowers the computational need. Spiking Neural Networks (SNNs) are known to be biologically plausible and power-efficient. However, SNN-based VADs have yet to achieve noise robustness and often require large models for high performance. This paper introduces a novel SNN-based VAD model, referred to as sVAD, which features an auditory encoder with an SNN-based attention mechanism. Particularly, it provides effective auditory feature representation through SincNet and 1D convolution, and improves noise robustness with attention mechanisms. The classifier utilizes Spiking Recurrent Neural Networks (sRNN) to exploit temporal speech information. Experimental results demonstrate that our sVAD achieves remarkable noise robustness and meanwhile maintains low power consumption and a small footprint, making it a promising solution for real-world VAD applications.
翻訳日:2024-03-13 12:33:51 公開日:2024-03-09
# 摂動認識型コントラスト学習による偏差ロバストエージェントナビゲーション

Towards Deviation-Robust Agent Navigation via Perturbation-Aware Contrastive Learning ( http://arxiv.org/abs/2403.05770v1 )

ライセンス: Link先を確認
Bingqian Lin, Yanxin Long, Yi Zhu, Fengda Zhu, Xiaodan Liang, Qixiang Ye, Liang Lin(参考訳) 視覚言語ナビゲーション(VLN)は、エージェントに与えられた言語命令に従って実際の3D環境をナビゲートするように要求する。 大きな進歩にもかかわらず、従来のVLNエージェントは、通常乱れのない環境で訓練され、現実のシナリオでは容易に失敗する可能性がある。 本稿では,既存のVLNエージェントの一般化能力を高めるために,PROPER(Progressive Perturbation-aware Contrastive Learning)と呼ばれるモデルに依存しない学習パラダイムを提案する。 具体的には、経路偏差を実装するために、単純で効果的な経路摂動方式を導入し、エージェントは元の命令に従っても正常に移動する必要がある。 エージェントに直接摂動軌跡を学習させると、非効率な訓練につながる可能性があるため、徐々に摂動軌跡拡大戦略が設計され、エージェントは特定の軌跡に対する航法性能の向上とともに、摂動下で自己適応的に学習することができる。 摂動による差を適切に捉えるために、摂動を含まない軌道エンコーディングと摂動に基づくエンコーディングとの対比により、摂動認識コントラスト学習機構をさらに発展させる。 R2Rの大規模な実験により、Properは摂動のないシナリオにおいて複数のVLNベースラインに利益をもたらすことが示された。 さらに、摂動経路データを収集して、R2R(PP-R2R)と呼ばれるR2Rに基づくイントロスペクションサブセットを構築する。 PP-R2Rの結果は、一般的なVLN剤の不満足なロバスト性および航法ロバスト性向上におけるProperの機能を示している。

Vision-and-language navigation (VLN) asks an agent to follow a given language instruction to navigate through a real 3D environment. Despite significant advances, conventional VLN agents are trained typically under disturbance-free environments and may easily fail in real-world scenarios, since they are unaware of how to deal with various possible disturbances, such as sudden obstacles or human interruptions, which widely exist and may usually cause an unexpected route deviation. In this paper, we present a model-agnostic training paradigm, called Progressive Perturbation-aware Contrastive Learning (PROPER) to enhance the generalization ability of existing VLN agents, by requiring them to learn towards deviation-robust navigation. Specifically, a simple yet effective path perturbation scheme is introduced to implement the route deviation, with which the agent is required to still navigate successfully following the original instruction. Since directly enforcing the agent to learn perturbed trajectories may lead to inefficient training, a progressively perturbed trajectory augmentation strategy is designed, where the agent can self-adaptively learn to navigate under perturbation with the improvement of its navigation performance for each specific trajectory. For encouraging the agent to well capture the difference brought by perturbation, a perturbation-aware contrastive learning mechanism is further developed by contrasting perturbation-free trajectory encodings and perturbation-based counterparts. Extensive experiments on R2R show that PROPER can benefit multiple VLN baselines in perturbation-free scenarios. We further collect the perturbed path data to construct an introspection subset based on the R2R, called Path-Perturbed R2R (PP-R2R). The results on PP-R2R show unsatisfying robustness of popular VLN agents and the capability of PROPER in improving the navigation robustness.
翻訳日:2024-03-13 12:33:35 公開日:2024-03-09
# 意味的特徴指導下でのディープコントラストマルチビュークラスタリング

Deep Contrastive Multi-view Clustering under Semantic Feature Guidance ( http://arxiv.org/abs/2403.05768v1 )

ライセンス: Link先を確認
Siwen Liu and Jinyan Liu and Hanning Yuan and Qi Li and Jing Geng and Ziqiang Yuan and Huaxu Han(参考訳) コントラスト学習は、最近マルチビュークラスタリングの分野で有望なパフォーマンスを達成した。 しかし、意味的一貫性を無視した正と負のサンプル構築機構は偽の負のペアを生じさせ、既存のアルゴリズムの性能をさらなる改善から制限する。 そこで本研究では,semantic feature guidance (dcmcs) に基づくディープコントラストマルチビュークラスタリング(deep contrastive multi-view clustering)というマルチビュークラスタリングフレームワークを提案する。 具体的には、ビュー固有の特徴をまず原特徴から抽出し、ビューの重要度に応じて融合ビュー特徴を得る。 ビュープライド情報の干渉を軽減するため、クラスタレベルのコントラスト学習により、特定のビューと融合ビューの意味的特徴を学習し、インスタンスの意味的類似度を測定する。 意味的類似性によって重み付けされたインスタンスレベルのコントラスト損失を最小化することにより、DCMCSは偽陰対間のコントラストの傾きを適応的に弱める。 いくつかの公開データセットの実験結果は、提案したフレームワークが最先端の手法より優れていることを示している。

Contrastive learning has achieved promising performance in the field of multi-view clustering recently. However, the positive and negative sample construction mechanisms ignoring semantic consistency lead to false negative pairs, limiting the performance of existing algorithms from further improvement. To solve this problem, we propose a multi-view clustering framework named Deep Contrastive Multi-view Clustering under Semantic feature guidance (DCMCS) to alleviate the influence of false negative pairs. Specifically, view-specific features are firstly extracted from raw features and fused to obtain fusion view features according to view importance. To mitigate the interference of view-private information, specific view and fusion view semantic features are learned by cluster-level contrastive learning and concatenated to measure the semantic similarity of instances. By minimizing instance-level contrastive loss weighted by semantic similarity, DCMCS adaptively weakens contrastive leaning between false negative pairs. Experimental results on several public datasets demonstrate the proposed framework outperforms the state-of-the-art methods.
翻訳日:2024-03-13 12:32:58 公開日:2024-03-09
# ブロードスキルと複数行動へのアクティベーションステアリングの拡張

Extending Activation Steering to Broad Skills and Multiple Behaviours ( http://arxiv.org/abs/2403.05767v1 )

ライセンス: Link先を確認
Teun van der Weij, Massimo Poesio, Nandi Schoots(参考訳) 現在の大きな言語モデルには危険な能力があり、将来的には問題になりそうである。 アクティベーションステアリング技術は、これらの能力によるリスクを軽減するために使用できる。 本稿では,幅広いスキルと多行動に対するアクティベーションステアリングの有効性について検討する。 まず、パフォーマンスの低下が一般的なコーディング能力とpython特有の能力に与える影響を比較することで、幅広いスキルの操り方が、より狭いスキルの操り方と競合することが分かりました。 第二に、私たちはモデルに近視的、富的になるように仕向けます。 実験では,複数の異なる動作に対する操舵ベクトルを1つの操舵ベクトルに結合することはほとんど成功しなかった。 一方、モデル内の異なる場所で個別の操舵ベクトルを同時に注入することは有望である。

Current large language models have dangerous capabilities, which are likely to become more problematic in the future. Activation steering techniques can be used to reduce risks from these capabilities. In this paper, we investigate the efficacy of activation steering for broad skills and multiple behaviours. First, by comparing the effects of reducing performance on general coding ability and Python-specific ability, we find that steering broader skills is competitive to steering narrower skills. Second, we steer models to become more or less myopic and wealth-seeking, among other behaviours. In our experiments, combining steering vectors for multiple different behaviours into one steering vector is largely unsuccessful. On the other hand, injecting individual steering vectors at different places in a model simultaneously is promising.
翻訳日:2024-03-13 12:32:40 公開日:2024-03-09
# FLAP: LLMにおける制約付きデコーディングによるフローアヒーリング計画

FLAP: Flow Adhering Planning with Constrained Decoding in LLMs ( http://arxiv.org/abs/2403.05766v1 )

ライセンス: Link先を確認
Shamik Roy, Sailik Sengupta, Daniele Bonadiman, Saab Mansour, Arshit Gupta(参考訳) プランニングはタスク指向ダイアログ(tod)のエージェントにとって重要なタスクである。 ヒューマンエージェントは通常、事前に定義されたワークフローに従い、ワークフローステップを実行可能なアイテムに分解し、APIを順番に実行するアクションを実行することで、ユーザの問題を解決します。 LLMの最近の進歩により、タスク計画やAPI利用にLLMを使用する試みが増えている。 しかしながら、事前定義されたワークフローとAPI依存関係に対する計画の忠実さは、事前トレーニングへのバイアスのため、LLMでは保証されていない。 さらに、現実では、ワークフローはカスタム定義され、変更する傾向があるため、変更にエージェントを迅速に適応することが望ましい。 本稿では,TODの忠実な計画について検討し,事前定義されたフローに従ってAPI依存を保ち,ユーザの意図を解消する。 忠実な計画のためのルックアヘッドヒューリスティックに基づく制約付き復号アルゴリズムを提案する。 提案アルゴリズムは,ドメイン固有データを用いたLLMの微調整の必要性を軽減し,他のデコードやプロンプトベースラインよりも優れ,より小さなLLM(7B)に適用することにより,より大きなLLM(30B-40B)に匹敵する性能を実現する。

Planning is a crucial task for agents in task oriented dialogs (TODs). Human agents typically resolve user issues by following predefined workflows, decomposing workflow steps into actionable items, and performing actions by executing APIs in order; all of which require reasoning and planning. With the recent advances in LLMs, there have been increasing attempts to use LLMs for task planning and API usage. However, the faithfulness of the plans to predefined workflows and API dependencies, is not guaranteed with LLMs because of their bias towards pretraining data. Moreover, in real life, workflows are custom-defined and prone to change, hence, quickly adapting agents to the changes is desirable. In this paper, we study faithful planning in TODs to resolve user intents by following predefined flows and preserving API dependencies. We propose a constrained decoding algorithm based on lookahead heuristic for faithful planning. Our algorithm alleviates the need for finetuning LLMs using domain specific data, outperforms other decoding and prompting-based baselines, and applying our algorithm on smaller LLMs (7B) we achieve comparable performance to larger LLMs (30B-40B).
翻訳日:2024-03-13 12:32:26 公開日:2024-03-09
# 拘束多様体上の物理インフォームドニューラルモーション計画

Physics-informed Neural Motion Planning on Constraint Manifolds ( http://arxiv.org/abs/2403.05765v1 )

ライセンス: Link先を確認
Ruiqi Ni and Ahmed H. Qureshi(参考訳) Constrained Motion Planning (CMP) は、運動論的制約多様体上の与えられた開始と目標設定の間の衝突のない経路を見つけることを目的としている。 これらの問題は、物体操作から脚ロボットの移動まで様々なシナリオに現れる。 しかし、多様体のゼロ体積の性質は、CMP問題を難しくし、最先端の手法はパスを見つけるのに数秒を要し、模倣学習のために計算的に拡張可能なパスデータセットを必要とする。 近年,運動計画のためのニューラルネットワークを用いて固有方程式を直接解く物理学的な運動計画法が登場し,学習のための専門的な実演は不要である。 これらの手法に着想を得て,制約多様体上のアイコン方程式を解く物理インフォームドCMPフレームワークを提案し,専門家データなしでCMPのニューラル関数を訓練する。 提案手法は,方向制約下での物体操作や,高次元6-DOFロボットマニピュレータを用いたドア開口など,シミュレーションおよび実世界の様々なCMP問題を効率的に解決する。 これらの複雑な設定では,提案手法は高い成功率を示し,最先端のCMP手法の何倍も高速なサブ秒の経路を求める。

Constrained Motion Planning (CMP) aims to find a collision-free path between the given start and goal configurations on the kinematic constraint manifolds. These problems appear in various scenarios ranging from object manipulation to legged-robot locomotion. However, the zero-volume nature of manifolds makes the CMP problem challenging, and the state-of-the-art methods still take several seconds to find a path and require a computationally expansive path dataset for imitation learning. Recently, physics-informed motion planning methods have emerged that directly solve the Eikonal equation through neural networks for motion planning and do not require expert demonstrations for learning. Inspired by these approaches, we propose the first physics-informed CMP framework that solves the Eikonal equation on the constraint manifolds and trains neural function for CMP without expert data. Our results show that the proposed approach efficiently solves various CMP problems in both simulation and real-world, including object manipulation under orientation constraints and door opening with a high-dimensional 6-DOF robot manipulator. In these complex settings, our method exhibits high success rates and finds paths in sub-seconds, which is many times faster than the state-of-the-art CMP methods.
翻訳日:2024-03-13 12:32:03 公開日:2024-03-09
# 複数の問題の同時最適化のための並列量子アニーリングの可能性に関する総合的研究

Investigation into the Potential of Parallel Quantum Annealing for Simultaneous Optimization of Multiple Problems: A Comprehensive Study ( http://arxiv.org/abs/2403.05764v1 )

ライセンス: Link先を確認
Arit Kumar Bishwas, Anuraj Som, Saurabh Choudhary(参考訳) 並列量子アニーリングは、複数の最適化問題を同時に解く技術である。 並列量子アニールは、単一のアニールサイクルにおいて複数の独立した問題に対処することにより、量子トポロジー上で利用可能なキュービットの利用を最適化することを目的としている。 本研究では,この並列化手法の可能性と限界について考察する。 DWaveSampler with Default Embedding, DWaveSampler with Custom Embedding, LeapHybridSamplerといった特定の手法を用いた正規化手法を含む, 2つの異なる問題からなる実験が統合され, 様々な問題次元が探索されている。 この方法はアイドル量子ビットを最小化し、従来の量子アニーリングと比較して、tts(time-to-solution)メトリックで示されるような実質的なスピードアップを約束する。

Parallel Quantum Annealing is a technique to solve multiple optimization problems simultaneously. Parallel quantum annealing aims to optimize the utilization of available qubits on a quantum topology by addressing multiple independent problems in a single annealing cycle. This study provides insights into the potential and the limitations of this parallelization method. The experiments consisting of two different problems are integrated, and various problem dimensions are explored including normalization techniques using specific methods such as DWaveSampler with Default Embedding, DWaveSampler with Custom Embedding and LeapHybridSampler. This method minimizes idle qubits and holds promise for substantial speed-up, as indicated by the Time-to-Solution (TTS) metric, compared to traditional quantum annealing, which solves problems sequentially and may leave qubits unutilized.
翻訳日:2024-03-13 12:31:41 公開日:2024-03-09
# HDReason:超次元知識グラフ推論のためのアルゴリズムハードウェア符号

HDReason: Algorithm-Hardware Codesign for Hyperdimensional Knowledge Graph Reasoning ( http://arxiv.org/abs/2403.05763v1 )

ライセンス: Link先を確認
Hanning Chen, Yang Ni, Ali Zakeri, Zhuowen Zou, Sanggeon Yun, Fei Wen, Behnam Khaleghi, Narayan Srinivasa, Hugo Latapie, and Mohsen Imani(参考訳) 近年,頂点分類やグラフ分類といったグラフ学習の分野では,ハードウェアアクセラレータが多用されている。 しかし、これまでの研究は、アルゴリズムの複雑さが著しく高いことでよく知られているKGC(Knowledge Graph Completion)にほとんど関心を示さなかった。 グラフ畳み込みニューラルネットワーク(GCN)に基づく最先端のKGCソリューションは、広範囲な頂点/相対的埋め込み更新と複雑なスコア関数を含む。 その結果、既存の加速器の設計はもはや最適ではなく、KG推論のための新しいアルゴリズム-ハードウェア共設計が必要である。 近年、脳にインスパイアされた超次元コンピューティング(hdc)が、軽量機械学習、特にグラフ学習アプリケーションのための有望なソリューションとして紹介されている。 本稿では,HDCを本質的に効率的かつアクセラレーションに優しいKGCアルゴリズムとして活用する。 また、FPGAプラットフォームをターゲットにしたHDReasonというアクセラレーションフレームワークを共同設計しました。 アルゴリズムレベルでは、HDReasonは高い推論精度、強いモデル解釈可能性、より少ない計算複雑性のバランスを達成する。 アーキテクチャの面では、HDReasonは再構成可能性、高いトレーニングスループット、低エネルギー消費を提供する。 nvidia rtx 4090 gpuと比較すると、平均10.6倍のスピードアップと65倍のエネルギー効率向上を達成している。 クロスモデルとクロスプラットフォームの比較を行う場合、HDReasonは最新のFPGAベースのGCNトレーニングプラットフォームと同等の精度で平均4.2倍の性能と3.4倍のエネルギー効率が得られる。

In recent times, a plethora of hardware accelerators have been put forth for graph learning applications such as vertex classification and graph classification. However, previous works have paid little attention to Knowledge Graph Completion (KGC), a task that is well-known for its significantly higher algorithm complexity. The state-of-the-art KGC solutions based on graph convolution neural network (GCN) involve extensive vertex/relation embedding updates and complicated score functions, which are inherently cumbersome for acceleration. As a result, existing accelerator designs are no longer optimal, and a novel algorithm-hardware co-design for KG reasoning is needed. Recently, brain-inspired HyperDimensional Computing (HDC) has been introduced as a promising solution for lightweight machine learning, particularly for graph learning applications. In this paper, we leverage HDC for an intrinsically more efficient and acceleration-friendly KGC algorithm. We also co-design an acceleration framework named HDReason targeting FPGA platforms. On the algorithm level, HDReason achieves a balance between high reasoning accuracy, strong model interpretability, and less computation complexity. In terms of architecture, HDReason offers reconfigurability, high training throughput, and low energy consumption. When compared with NVIDIA RTX 4090 GPU, the proposed accelerator achieves an average 10.6x speedup and 65x energy efficiency improvement. When conducting cross-models and cross-platforms comparison, HDReason yields an average 4.2x higher performance and 3.4x better energy efficiency with similar accuracy versus the state-of-the-art FPGA-based GCN training platform.
翻訳日:2024-03-13 12:31:24 公開日:2024-03-09
# 独立クエリオラクルによるマルコフ同値クラスのメンバシップテスト

Membership Testing in Markov Equivalence Classes via Independence Query Oracles ( http://arxiv.org/abs/2403.05759v1 )

ライセンス: Link先を確認
Jiaqi Zhang, Kirankumar Shiragur, Caroline Uhler(参考訳) 変数間の因果関係を理解することは、多くの科学分野で幅広い影響を持つ根本的な問題である。 データから因果グラフを学ぶために広範な研究が行われてきたが、因果関係をテストするという補完的な概念はほとんど未調査のままである。 学習は、基礎となる因果グラフのマルコフ同値クラス(MEC)を観測データから回収する作業を伴うが、テスト対象は以下の重要な問題に対処する: ある因果グラフから特定の MEC と観測データを与えられた場合、データ生成因果グラフが与えられた MEC に属するかどうかを判断できる。 条件付き独立テストの必要回数に制限を課すことにより,制約に基づくテスト手法を検討する。 私たちの境界は、与えられたMECの最大無向傾き($s$)の大きさである。 最悪の場合、$\exp(\Omega(s))$独立テストの低い境界を示す。 次に、そのタスクを$\exp(O(s))$テストで解決し、下位境界にマッチするアルゴリズムを与えます。 アルゴリズムが最大で指数関数的に多数の独立性テストを使用する場合の学習問題と比較すると、テストは比較的容易であることを示している。 特に、高いin-degreeと小さなcliqueサイズのグラフで指数関数的に低い独立性テストを必要とする。 さらに,dag associahedronを用いて,テストと学習の幾何学的解釈を行い,テスト結果が学習にどのように役立つかについて議論する。

Understanding causal relationships between variables is a fundamental problem with broad impact in numerous scientific fields. While extensive research has been dedicated to learning causal graphs from data, its complementary concept of testing causal relationships has remained largely unexplored. While learning involves the task of recovering the Markov equivalence class (MEC) of the underlying causal graph from observational data, the testing counterpart addresses the following critical question: Given a specific MEC and observational data from some causal graph, can we determine if the data-generating causal graph belongs to the given MEC? We explore constraint-based testing methods by establishing bounds on the required number of conditional independence tests. Our bounds are in terms of the size of the maximum undirected clique ($s$) of the given MEC. In the worst case, we show a lower bound of $\exp(\Omega(s))$ independence tests. We then give an algorithm that resolves the task with $\exp(O(s))$ tests, matching our lower bound. Compared to the learning problem, where algorithms often use a number of independence tests that is exponential in the maximum in-degree, this shows that testing is relatively easier. In particular, it requires exponentially less independence tests in graphs featuring high in-degrees and small clique sizes. Additionally, using the DAG associahedron, we provide a geometric interpretation of testing versus learning and discuss how our testing result can aid learning.
翻訳日:2024-03-13 12:30:54 公開日:2024-03-09
# リアルタイム知覚によるカテーテル検査の自動化

Automating Catheterization Labs with Real-Time Perception ( http://arxiv.org/abs/2403.05758v1 )

ライセンス: Link先を確認
Fan Yang, Benjamin Planche, Meng Zheng, Cheng Chen, Terrence Chen, Ziyan Wu(参考訳) 三次元c-arm cone-beam ct (cbct) は, 数十年間, 複雑な血管的および非血管的介入に重要な役割を果たしてきた。 マルチプラナー軟部組織イメージングを大幅に改善し、治療対象病変のロードマップ作成とガイダンスを提供するが、従来のワークフローは、特に経験の浅いユーザーにとって、面倒で時間を要する。 このプロセスの合理化と全体の手続き効率の向上を目的として,血管造影スイートとシームレスに統合された視覚知覚システムであるAutoCBCTを提案した。 このシステムは患者の身体と手術環境の両方をリアルタイムで動的にモデル化する。 autocbctは、自動位置決め、ナビゲーション、シミュレートされたテスト実行を備えた、新しいワークフローを可能にする。 提案システムは, 実験室と臨床室の両方で実施, 研究され, ワークフロー効率が著しく向上した。

For decades, three-dimensional C-arm Cone-Beam Computed Tomography (CBCT) imaging system has been a critical component for complex vascular and nonvascular interventional procedures. While it can significantly improve multiplanar soft tissue imaging and provide pre-treatment target lesion roadmapping and guidance, the traditional workflow can be cumbersome and time-consuming, especially for less experienced users. To streamline this process and enhance procedural efficiency overall, we proposed a visual perception system, namely AutoCBCT, seamlessly integrated with an angiography suite. This system dynamically models both the patient's body and the surgical environment in real-time. AutoCBCT enables a novel workflow with automated positioning, navigation and simulated test-runs, eliminating the need for manual operations and interactions. The proposed system has been successfully deployed and studied in both lab and clinical settings, demonstrating significantly improved workflow efficiency.
翻訳日:2024-03-13 12:30:15 公開日:2024-03-09
# ニューラルネットワークのモデル自由局所再校正

Model-Free Local Recalibration of Neural Networks ( http://arxiv.org/abs/2403.05756v1 )

ライセンス: Link先を確認
R. Torres (1), D. J. Nott (2), S. A. Sisson (3), T. Rodrigues (1), J. G. Reis (1), G. S. Rodrigues (1) ((1) University of Bras\'ilia, (2) National University of Singapore, (3) University of New South Wales, Sydney)(参考訳) ニューラルネットワーク(anns)は、非常に柔軟な予測モデルである。 しかし、予測の不確かさを確実に定量化することは継続的な課題である。 ANNの予測分布の「校正」に関する最近の研究が盛んに行われており、興味のある事象の予測確率は特定の頻度評価と一致している。 可算確率予測は、多くの重要な意思決定タスクに限られている。 この問題に対処するために,ANNの隠れ層によって提供される入力の次元還元表現を用いて,ANN予測分布の局所化再構成を提案する。 提案手法は,ベイズ近似計算法と確率自由推論法に関する文献の校正手法から着想を得たものである。 既存のANNのキャリブレーション手法の多くは、入力層が高次元である場合のキャリブレーションが困難である場合や、十分な柔軟性がない場合の出力層とみなすことができる。 シミュレーション実験により,提案手法は代替手法に比べて優れた性能を示し,ネットワークの異なる層に基づいてキャリブレーションを局所化することで得られる利点を検証した。 最後に,提案手法をダイヤモンド価格予測問題に適用し,実世界の応用における予測と不確実性定量化の改善に向けたアプローチの可能性を示す。

Artificial neural networks (ANNs) are highly flexible predictive models. However, reliably quantifying uncertainty for their predictions is a continuing challenge. There has been much recent work on "recalibration" of predictive distributions for ANNs, so that forecast probabilities for events of interest are consistent with certain frequency evaluations of them. Uncalibrated probabilistic forecasts are of limited use for many important decision-making tasks. To address this issue, we propose a localized recalibration of ANN predictive distributions using the dimension-reduced representation of the input provided by the ANN hidden layers. Our novel method draws inspiration from recalibration techniques used in the literature on approximate Bayesian computation and likelihood-free inference methods. Most existing calibration methods for ANNs can be thought of as calibrating either on the input layer, which is difficult when the input is high-dimensional, or the output layer, which may not be sufficiently flexible. Through a simulation study, we demonstrate that our method has good performance compared to alternative approaches, and explore the benefits that can be achieved by localizing the calibration based on different layers of the network. Finally, we apply our proposed method to a diamond price prediction problem, demonstrating the potential of our approach to improve prediction and uncertainty quantification in real-world applications.
翻訳日:2024-03-13 12:29:59 公開日:2024-03-09
# 完全性解析によるパターン認識のためのハイブリッド量子インスピレーション型ResnetとDensenet

Hybrid Quantum-inspired Resnet and Densenet for Pattern Recognition with Completeness Analysis ( http://arxiv.org/abs/2403.05754v1 )

ライセンス: Link先を確認
Andi Chen, Hua-Lei Yin, Zeng-Bing Chen, Shengjun Wu(参考訳) 現代のデジタル技術が近づくにつれて、人工知能ブームの基盤的アルゴリズムとしてディープニューラルネットワークが登場している。 一方で、進化する社会的要求は、従来のニューラルネットワークを置き換える新しい手法の必要性を強調している。 同時に、ポストムーア時代の到来は、特定の状況において優れたポテンシャルを持つ量子インスパイアされたニューラルネットワークの開発を促した。 それにもかかわらず、詳細なメトリクスを持つ決定的な評価システムは、現在の新しいディープラーニングモデルと従来のディープラーニングモデルとの比較において曖昧な指標のため、極めて重要かつ不可欠である。 そこで,新しいニューラルネットワークの性能を複雑で予測不能な環境においてより包括的に評価するために,モデル評価のための完全性表現理論を用いたパターン認識において,それぞれ残差と密接性に根ざした2つのハイブリッド量子インスパイアニューラルネットワークを提案する。 詳細なフレームワークを用いた純粋古典モデルに対する比較分析により、パラメータ複雑性の低いハイブリッドモデルが、純粋古典モデルの一般化力に匹敵するだけでなく、様々な非対称ノイズを伴うパラメータ攻撃に対する抵抗において特に優れることが明らかとなった。 さらに,我々のハイブリッドモデルは,理論的議論による勾配爆発問題を防止するために,特異な優位性を示す。 最終的には、当社のハイブリッドモデルが適用可能で効率的なアプリケーションシナリオを詳細に説明して、その産業化と商業化への道を開きます。

With the contemporary digital technology approaching, deep neural networks are emerging as the foundational algorithm of the artificial intelligence boom. Whereas, the evolving social demands have been emphasizing the necessity of novel methodologies to substitute traditional neural networks. Concurrently, the advent of the post-Moore era has spurred the development of quantum-inspired neural networks with outstanding potentials at certain circumstances. Nonetheless, a definitive evaluating system with detailed metrics is tremendously vital and indispensable owing to the vague indicators in comparison between the novel and traditional deep learning models at present. Hence, to improve and evaluate the performances of the novel neural networks more comprehensively in complex and unpredictable environments, we propose two hybrid quantum-inspired neural networks which are rooted in residual and dense connections respectively for pattern recognitions with completeness representation theory for model assessment. Comparative analyses against pure classical models with detailed frameworks reveal that our hybrid models with lower parameter complexity not only match the generalization power of pure classical models, but also outperform them notably in resistance to parameter attacks with various asymmetric noises. Moreover, our hybrid models indicate unique superiority to prevent gradient explosion problems through theoretical argumentation. Eventually, We elaborate on the application scenarios where our hybrid models are applicable and efficient, which paves the way for their industrialization and commercialization.
翻訳日:2024-03-13 12:29:39 公開日:2024-03-09
# 浅部ReLUニューラルネットワークと有限要素

Shallow ReLU neural networks and finite elements ( http://arxiv.org/abs/2403.05809v1 )

ライセンス: Link先を確認
Pengzhan Jin(参考訳) 凸ポリトープメッシュ上の(連続的あるいは不連続な)断片的線形関数は、弱い意味で2層ReLUニューラルネットワークで表現可能であることを指摘した。 さらに、弱に表現するために必要とされる2つの隠れた層のニューロンの数は、このメッシュに関与するポリトープと超平面の数に基づいて正確に与えられる。 結果は、定数および線形有限要素関数に対して自然に成り立つ。 このような弱い表現は、浅いReLUニューラルネットワークと有限要素関数の間の橋渡しを確立し、有限要素関数を介して$L^p$ノルムでReLUニューラルネットワークの近似能力を解析するための視点をもたらす。 さらに,近年のテンソルニューラルネットワークを用いたテンソル有限要素関数の厳密な表現について述べる。

We point out that (continuous or discontinuous) piecewise linear functions on a convex polytope mesh can be represented by two-hidden-layer ReLU neural networks in a weak sense. In addition, the numbers of neurons of the two hidden layers required to weakly represent are accurately given based on the numbers of polytopes and hyperplanes involved in this mesh. The results naturally hold for constant and linear finite element functions. Such weak representation establishes a bridge between shallow ReLU neural networks and finite element functions, and leads to a perspective for analyzing approximation capability of ReLU neural networks in $L^p$ norm via finite element functions. Moreover, we discuss the strict representation for tensor finite element functions via the recent tensor neural networks.
翻訳日:2024-03-13 12:24:45 公開日:2024-03-09
# Blind Image Super-Resolutionのための拡散モデルを用いた空間可変カーネル微細化の適応多モード融合

Adaptive Multi-modal Fusion of Spatially Variant Kernel Refinement with Diffusion Model for Blind Image Super-Resolution ( http://arxiv.org/abs/2403.05808v1 )

ライセンス: Link先を確認
Junxiong Lin, Yan Wang, Zeng Tao, Boyang Wang, Qing Zhao, Haorang Wang, Xuan Tong, Xinji Mai, Yuxuan Lin, Wei Song, Jiawen Yu, Shaoqi Yan and Wenqiang Zhang(参考訳) 画像生成に利用した事前学習拡散モデルは、複雑なテクスチャに関連する事前知識のかなりの蓄積をカプセル化する。 画像超解像の文脈において、これを事前知識として活用する可能性を秘めていることは、説得力のある道である。 しかし,現在普及している拡散法は拡散過程の劣化情報による制約を無視している。 さらに、これらの手法は、開環境シナリオにおける動きのジッタや焦点のずれといった要因から生じる、推定されたぼけカーネルに固有の空間変動を考慮できない。 この見落としは、基本的な現実から画像の超解像効果を著しく逸脱させる。 これらの問題に対処するために,Blind Image \textbf{S}uper-\textbf{R}esolution (SSR) のための拡散モデルを用いた適応多モード融合(Adaptive Multi-modal Fusion of \textbf{S}patially Variant Kernel Refinement) というフレームワークを導入する。 SSRフレームワーク内では,空間可変カーネルリファインメント(SVKR)モジュールを提案する。 SVKRは深度情報を考慮に入れ、空間的に不変である深度インフォームドカーネルを推定する。 さらに、SVKRはLR画像から取得した深度情報の精度を高め、深度マップとぼやけたカーネル推定との相互強化を可能にする。 最後に,アダプティブ・マルチモーダル・フュージョン (AMF) モジュールを導入し,低解像度画像,深度マップ,ぼかしカーネルといった3つのモードからの情報を整列させる。 このアライメントは拡散モデルを制約し、より正確なSR結果を生成する。 定量的および定性的な実験は我々のアプローチの優位性を確認し、アブレーション実験は我々が提案したモジュールの有効性を裏付けるものである。

Pre-trained diffusion models utilized for image generation encapsulate a substantial reservoir of a priori knowledge pertaining to intricate textures. Harnessing the potential of leveraging this a priori knowledge in the context of image super-resolution presents a compelling avenue. Nonetheless, prevailing diffusion-based methodologies presently overlook the constraints imposed by degradation information on the diffusion process. Furthermore, these methods fail to consider the spatial variability inherent in the estimated blur kernel, stemming from factors such as motion jitter and out-of-focus elements in open-environment scenarios. This oversight results in a notable deviation of the image super-resolution effect from fundamental realities. To address these concerns, we introduce a framework known as Adaptive Multi-modal Fusion of \textbf{S}patially Variant Kernel Refinement with Diffusion Model for Blind Image \textbf{S}uper-\textbf{R}esolution (SSR). Within the SSR framework, we propose a Spatially Variant Kernel Refinement (SVKR) module. SVKR estimates a Depth-Informed Kernel, which takes the depth information into account and is spatially variant. Additionally, SVKR enhance the accuracy of depth information acquired from LR images, allowing for mutual enhancement between the depth map and blur kernel estimates. Finally, we introduce the Adaptive Multi-Modal Fusion (AMF) module to align the information from three modalities: low-resolution images, depth maps, and blur kernels. This alignment can constrain the diffusion model to generate more authentic SR results. Quantitative and qualitative experiments affirm the superiority of our approach, while ablation experiments corroborate the effectiveness of the modules we have proposed.
翻訳日:2024-03-13 12:24:35 公開日:2024-03-09
# 画像透かし除去のための自己教師型CNN

A self-supervised CNN for image watermark removal ( http://arxiv.org/abs/2403.05807v1 )

ライセンス: Link先を確認
Chunwei Tian, Menghua Zheng, Tiancai Jiao, Wangmeng Zuo, Yanning Zhang, Chia-Wen Lin(参考訳) 一般的な畳み込みニューラルネットワークは、主にイメージ透かし除去のために教師付き方法でペア画像を使用する。 しかし,透かし画像は実世界の参照画像を持たないため,画像透かし除去技術の堅牢性は低い。 本稿では,画像透かし除去(SWCNN)における自己教師型畳み込みニューラルネットワーク(CNN)を提案する。 SWCNNは、透かし分布に従って、ペアのトレーニングサンプルではなく、基準透かし画像を構築するために、自己教師付き方式を使用している。 不均一なU-Netアーキテクチャは、画像透かし除去のための単純なコンポーネントを通して、より補完的な構造情報を抽出するために使用される。 テクスチャ情報を考慮すると、画像透かし除去の視覚効果を改善するために混合損失を利用する。 また、透かしデータセットが実行される。 SWCNNは画像透かし除去において一般的なCNNよりも優れていることを示す実験結果を得た。

Popular convolutional neural networks mainly use paired images in a supervised way for image watermark removal. However, watermarked images do not have reference images in the real world, which results in poor robustness of image watermark removal techniques. In this paper, we propose a self-supervised convolutional neural network (CNN) in image watermark removal (SWCNN). SWCNN uses a self-supervised way to construct reference watermarked images rather than given paired training samples, according to watermark distribution. A heterogeneous U-Net architecture is used to extract more complementary structural information via simple components for image watermark removal. Taking into account texture information, a mixed loss is exploited to improve visual effects of image watermark removal. Besides, a watermark dataset is conducted. Experimental results show that the proposed SWCNN is superior to popular CNNs in image watermark removal.
翻訳日:2024-03-13 12:24:01 公開日:2024-03-09
# そしてハンマーが割れた:フェミニストの科学哲学による機械倫理の考察

And Then the Hammer Broke: Reflections on Machine Ethics from Feminist Philosophy of Science ( http://arxiv.org/abs/2403.05805v1 )

ライセンス: Link先を確認
Andre Ye(参考訳) ビジョンは知識の倫理的・政治的問題において重要なメタファーである。 フェミニストの哲学者であるドナ・ハラウェイ(英語版)は、侵入的で遠ざかる全ての視界(『私を見るのをやめる』)の『ペルバース』の性質を指摘しているが、視覚の具現化された性質と、真に位置する知識の約束を受け入れることを奨励している。 監視カメラ、ドローン(戦争やレクリエーションのための)、iphoneカメラなど、現在のマシンビジョンの技術は、通常、後者ではなく前者の例として解釈され、正当な理由がある。 しかし、これらの技術が世界にもたらした真の苦難を減らそうとはしないが、私はコンピュータビジョンの技術を理解することを、具体的観察と認識の具体例として捉えている。 さらに、iris murdoch のモラルビジョンの概念を借用して、これらの技術が我々の労働を倫理的に重要な方法で自己回帰へと導くことを提案します。 私のアプローチは、コンピュータビジョン研究、現象学、フェミニスト認識論のパラダイムを取り上げています。 究極的には、このエッセイは単に視覚のテクノロジーを倫理的に欠陥があるものとして批判することから、より哲学的な注意を向けることから、それらを複雑で方法論的に、そして認識論的に重要な対象として受け入れることへと導くものである。

Vision is an important metaphor in ethical and political questions of knowledge. The feminist philosopher Donna Haraway points out the ``perverse'' nature of an intrusive, alienating, all-seeing vision (to which we might cry out ``stop looking at me!''), but also encourages us to embrace the embodied nature of sight and its promises for genuinely situated knowledge. Current technologies of machine vision -- surveillance cameras, drones (for war or recreation), iPhone cameras -- are usually construed as instances of the former rather than the latter, and for good reasons. However, although in no way attempting to diminish the real suffering these technologies have brought about in the world, I make the case for understanding technologies of computer vision as material instances of embodied seeing and situated knowing. Furthermore, borrowing from Iris Murdoch's concept of moral vision, I suggest that these technologies direct our labor towards self-reflection in ethically significant ways. My approach draws upon paradigms in computer vision research, phenomenology, and feminist epistemology. Ultimately, this essay is an argument for directing more philosophical attention from merely criticizing technologies of vision as ethically deficient towards embracing them as complex, methodologically and epistemologically important objects.
翻訳日:2024-03-13 12:23:46 公開日:2024-03-09
# unisparse: 一般的なスパースフォーマットカスタマイズのための中間言語

UniSparse: An Intermediate Language for General Sparse Format Customization ( http://arxiv.org/abs/2403.05802v1 )

ライセンス: Link先を確認
Jie Liu, Zhongyuan Zhao, Zijian Ding, Benjamin Brock, Hongbo Rong, Zhiru Zhang(参考訳) ハードウェアの特殊化の進行中の傾向は、通常メモリバウンドであるスパースワークロードの処理において、カスタムデータフォーマットの使用の増加につながっている。 これらのフォーマットは、sparsityパターンまたはtarget-awareデータ構造とレイアウトを利用して、メモリアクセスのレイテンシと帯域使用率を高めることで、最適化されたソフトウェア/ハードウェアの実装を促進する。 しかし、既存のスパーステンソルプログラミングモデルとコンパイラはスパースフォーマットを生産的にカスタマイズするサポートをほとんどあるいは全く提供していない。 さらに、これらのフレームワークはディメンジョン単位の属性の限られたセットを使用してフォーマットを表現しているため、多くの新しいカスタムスパースデータ構造とレイアウトに対応する柔軟性が欠けている。 この欠点を克服するために、スパースフォーマットの表現とカスタマイズのための統一的な抽象化を提供する中間言語UniSparseを提案する。 既存の属性ベースのフレームワークとは異なり、unisparseはスパーステンソル(すなわちデータ構造)の論理表現を低レベルのメモリレイアウトから分離し、両方のカスタマイズを可能にする。 結果として、リッチなフォーマットのカスタマイズは、明確に定義されたクエリ、突然変異、レイアウトプリミティブの小さなセットで簡潔に表現できる。 また、フォーマットの適応的なカスタマイズと、異種アーキテクチャのためのフォーマット変換と計算操作の自動生成をサポートするmlirインフラストラクチャを活用したコンパイラも開発した。 提案手法は,intel cpu,nvidia gpu,amd xilinx fpga,simed processing-in-memory (pim) デバイスなど,複数のハードウェアターゲットに専用フォーマットで汎用のスパース線形代数演算を実行することにより,本手法の有効性を実証する。

The ongoing trend of hardware specialization has led to a growing use of custom data formats when processing sparse workloads, which are typically memory-bound. These formats facilitate optimized software/hardware implementations by utilizing sparsity pattern- or target-aware data structures and layouts to enhance memory access latency and bandwidth utilization. However, existing sparse tensor programming models and compilers offer little or no support for productively customizing the sparse formats. Additionally, because these frameworks represent formats using a limited set of per-dimension attributes, they lack the flexibility to accommodate numerous new variations of custom sparse data structures and layouts. To overcome this deficiency, we propose UniSparse, an intermediate language that provides a unified abstraction for representing and customizing sparse formats. Unlike the existing attribute-based frameworks, UniSparse decouples the logical representation of the sparse tensor (i.e., the data structure) from its low-level memory layout, enabling the customization of both. As a result, a rich set of format customizations can be succinctly expressed in a small set of well-defined query, mutation, and layout primitives. We also develop a compiler leveraging the MLIR infrastructure, which supports adaptive customization of formats, and automatic code generation of format conversion and compute operations for heterogeneous architectures. We demonstrate the efficacy of our approach through experiments running commonly-used sparse linear algebra operations with specialized formats on multiple different hardware targets, including an Intel CPU, an NVIDIA GPU, an AMD Xilinx FPGA, and a simulated processing-in-memory (PIM) device.
翻訳日:2024-03-13 12:23:16 公開日:2024-03-09
# 逆整形によるマルチホップ知識グラフ推論の強化

Enhancing Multi-Hop Knowledge Graph Reasoning through Reward Shaping Techniques ( http://arxiv.org/abs/2403.05801v1 )

ライセンス: Link先を確認
Chen Li, Haotian Zheng, Yiping Sun, Cangqing Wang, Liqiang Yu, Che Chang, Xinyu Tian, Bo Liu(参考訳) 計算知識表現の領域において、知識グラフ推論(KG-R)は、多分野にわたる洗練された推論機能を促進する最前線にある。 この研究は、強化学習(RL)戦略、特にREINFORCEアルゴリズムを用いて、マルチホップKG-Rに固有の複雑さをナビゲートする。 この調査は、知識グラフ(KGs)の固有の不完全性(英語版)によってもたらされる問題に批判的であり、しばしば誤った推論結果をもたらし、偽陰性と誤導陽性の両方を示す。 UMLS(Unified Medical Language System)ベンチマークデータセットをリッチでスパースなサブセットに分割することにより、トレーニング済みBERT埋め込みとPrompt Learning手法の有効性を検証し、報酬形成プロセスを洗練させる。 このアプローチは、マルチホップKG-Rの精度を高めるだけでなく、複雑なKGフレームワークにおける知識推論の堅牢性と正確性を改善することを目的として、この分野における今後の研究の新たな先例となる。 我々の研究は、KG推論の議論に新しい視点をもたらし、計算知識表現の領域におけるさらなる進歩の活性化を約束する、学術的な厳密さと自然誌の学術的願望に沿った方法論的な進歩を提供する。

In the realm of computational knowledge representation, Knowledge Graph Reasoning (KG-R) stands at the forefront of facilitating sophisticated inferential capabilities across multifarious domains. The quintessence of this research elucidates the employment of reinforcement learning (RL) strategies, notably the REINFORCE algorithm, to navigate the intricacies inherent in multi-hop KG-R. This investigation critically addresses the prevalent challenges introduced by the inherent incompleteness of Knowledge Graphs (KGs), which frequently results in erroneous inferential outcomes, manifesting as both false negatives and misleading positives. By partitioning the Unified Medical Language System (UMLS) benchmark dataset into rich and sparse subsets, we investigate the efficacy of pre-trained BERT embeddings and Prompt Learning methodologies to refine the reward shaping process. This approach not only enhances the precision of multi-hop KG-R but also sets a new precedent for future research in the field, aiming to improve the robustness and accuracy of knowledge inference within complex KG frameworks. Our work contributes a novel perspective to the discourse on KG reasoning, offering a methodological advancement that aligns with the academic rigor and scholarly aspirations of the Natural journal, promising to invigorate further advancements in the realm of computational knowledge representation.
翻訳日:2024-03-13 12:22:48 公開日:2024-03-09
# $\textbf{S}^2$IP-LLM: 時系列予測のためのLLMを用いた意味空間インフォームドプロンプト学習

$\textbf{S}^2$IP-LLM: Semantic Space Informed Prompt Learning with LLM for Time Series Forecasting ( http://arxiv.org/abs/2403.05798v1 )

ライセンス: Link先を確認
Zijie Pan, Yushan Jiang, Sahil Garg, Anderson Schneider, Yuriy Nevmyvaka and Dongjin Song(参考訳) 近年,様々な時系列アプリケーションに事前学習された大規模言語モデル(LLM)を活用することへの関心が高まっている。 しかし、事前学習を通じて確立されたLLMの意味空間はいまだ未熟であり、時系列予測を促進するためにより独特で情報的な表現を得るのに役立つかもしれない。 この目的のために,事前学習された意味空間を時系列埋め込み空間と整合させ,共同空間から学習したプロンプトに基づいて時系列予測を行うために,llm(s^2$ip-llm)を用いた意味空間インフォームドプロンプト学習を提案する。 我々はまず,分解された時系列成分のパッチを明示的に結合し,時間ダイナミクスを効果的にエンコードする埋め込みを生成するクロスモダリティアライメントのためのトークン化モジュールを設計した。 次に,事前学習した単語トークンの埋め込みを利用して意味アンカーを導出し,結合空間におけるコサイン類似性を最大化することにより,選択したアンカーを時系列埋め込みと整合させる。 これにより、$S^2$IP-LLMは関連するセマンティックアンカーを検索し、異なる時間的ダイナミクスを示す時系列に対して強い指標(コンテキスト)を提供する。 複数のベンチマークデータセットに関する徹底した実証研究により、提案する$s^2$ip-llmが最先端のベースラインよりも優れた予測性能を達成できることを実証する。 さらに,我々のアブレーション研究と可視化は,意味空間から情報を得た迅速な学習の必要性を検証する。

Recently, there has been a growing interest in leveraging pre-trained large language models (LLMs) for various time series applications. However, the semantic space of LLMs, established through the pre-training, is still underexplored and may help yield more distinctive and informative representations to facilitate time series forecasting. To this end, we propose Semantic Space Informed Prompt learning with LLM ($S^2$IP-LLM) to align the pre-trained semantic space with time series embeddings space and perform time series forecasting based on learned prompts from the joint space. We first design a tokenization module tailored for cross-modality alignment, which explicitly concatenates patches of decomposed time series components to create embeddings that effectively encode the temporal dynamics. Next, we leverage the pre-trained word token embeddings to derive semantic anchors and align selected anchors with time series embeddings by maximizing the cosine similarity in the joint space. This way, $S^2$IP-LLM can retrieve relevant semantic anchors as prompts to provide strong indicators (context) for time series that exhibit different temporal dynamics. With thorough empirical studies on multiple benchmark datasets, we demonstrate that the proposed $S^2$IP-LLM can achieve superior forecasting performance over state-of-the-art baselines. Furthermore, our ablation studies and visualizations verify the necessity of prompt learning informed by semantic space.
翻訳日:2024-03-13 12:22:26 公開日:2024-03-09
# 知識蒸留とマルチスケールシグモイド推論による弱修正変化検出

Weakly Supervised Change Detection via Knowledge Distillation and Multiscale Sigmoid Inference ( http://arxiv.org/abs/2403.05796v1 )

ライセンス: Link先を確認
Binghao Lu, Caiwen Ding, Jinbo Bi, Dongjin Song(参考訳) 自然または人為的な原因による一対の多時期画像から空間変化を検出することを目的とした変化検出は,リモートセンシング,災害管理,都市管理などに広く適用されてきた。 しかし、既存のほとんどの変更検出アプローチは、完全に監視されており、労働集約的なピクセルレベルラベルを必要とする。 そこで我々は,画像レベルのラベルを利用した知識蒸留とマルチスケールシグモイド推論(KD-MSI)による,弱い教師付き変化検出手法を開発した。 本手法では, クラス活性化マップ(CAM)を用いて, 変化確率マップを導出するだけでなく, 知識蒸留プロセスの基盤としても機能する。 これは教師ネットワークと学生ネットワークの共同トレーニング戦略を通じて行われ、学生ネットワークはイメージレベルのラベルに基づいて教師ネットワークよりも、潜在的な変化領域を正確に強調することができる。 さらに,学習者ネットワークからの変更確率マップをさらに改良するため,マルチスケールシグモイド推論(MSI)モジュールをポスト処理ステップとして設計した。 WHU-CD, DSIFN-CD, LEVIR-CDの3つの公開データセットに対する実証的な結果から, 提案手法は, 総合的なトレーニング戦略により, 最先端の技術を著しく上回ることを示す。

Change detection, which aims to detect spatial changes from a pair of multi-temporal images due to natural or man-made causes, has been widely applied in remote sensing, disaster management, urban management, etc. Most existing change detection approaches, however, are fully supervised and require labor-intensive pixel-level labels. To address this, we develop a novel weakly supervised change detection technique via Knowledge Distillation and Multiscale Sigmoid Inference (KD-MSI) that leverages image-level labels. In our approach, the Class Activation Maps (CAM) are utilized not only to derive a change probability map but also to serve as a foundation for the knowledge distillation process. This is done through a joint training strategy of the teacher and student networks, enabling the student network to highlight potential change areas more accurately than teacher network based on image-level labels. Moreover, we designed a Multiscale Sigmoid Inference (MSI) module as a post processing step to further refine the change probability map from the trained student network. Empirical results on three public datasets, i.e., WHU-CD, DSIFN-CD, and LEVIR-CD, demonstrate that our proposed technique, with its integrated training strategy, significantly outperforms the state-of-the-art.
翻訳日:2024-03-13 12:21:57 公開日:2024-03-09
# ClinicalMamba: 経時的臨床ノートにおける生成的臨床言語モデル

ClinicalMamba: A Generative Clinical Language Model on Longitudinal Clinical Notes ( http://arxiv.org/abs/2403.05795v1 )

ライセンス: Link先を確認
Zhichao Yang, Avijit Mitra, Sunjae Kwon, Hong Yu(参考訳) 医療における自然言語処理(NLP)システムの進歩は、臨床ノートに含まれる複雑な情報を解釈する言語モデル能力に基づいている。 このプロセスでは、患者の医療履歴の様々な時点からの情報を統合する必要がある。 しかし、ほとんどの初期の臨床言語モデルは、およそ1つの臨床文書に制限された文脈で事前訓練された。 そこで本研究では,mamba言語モデルの特殊版である clinical mamba について,医学領域で特有の言語的特徴と情報処理ニーズに対処すべく,縦列臨床ノートの膨大なコーパスで事前学習を行った。 臨床マンバのパラメータは1億3000万と280億であり、マンバや臨床ラマと比較して、拡張されたテキスト長にわたって臨床言語をモデル化する上で優れたパフォーマンスを示している。 数ショットの学習で、CeriorMambaは、従来の臨床言語モデルやGPT-4のような一般的なドメインモデルよりも優れた長手臨床ノート情報抽出タスクで、スピードと精度の優れたベンチマークを達成している。

The advancement of natural language processing (NLP) systems in healthcare hinges on language model ability to interpret the intricate information contained within clinical notes. This process often requires integrating information from various time points in a patient's medical history. However, most earlier clinical language models were pretrained with a context length limited to roughly one clinical document. In this study, We introduce ClinicalMamba, a specialized version of the Mamba language model, pretrained on a vast corpus of longitudinal clinical notes to address the unique linguistic characteristics and information processing needs of the medical domain. ClinicalMamba, with 130 million and 2.8 billion parameters, demonstrates a superior performance in modeling clinical language across extended text lengths compared to Mamba and clinical Llama. With few-shot learning, ClinicalMamba achieves notable benchmarks in speed and accuracy, outperforming existing clinical language models and general domain large models like GPT-4 in longitudinal clinical notes information extraction tasks.
翻訳日:2024-03-13 12:21:33 公開日:2024-03-09
# 均一暗号を用いたプライバシー保護拡散モデル

Privacy-Preserving Diffusion Model Using Homomorphic Encryption ( http://arxiv.org/abs/2403.05794v1 )

ライセンス: Link先を確認
Yaojian Chen and Qiben Yan(参考訳) 本稿では, HE拡散法(HE-Diffusion) と呼ばれる, 拡散過程のデノナイズフェーズの保護を主眼とした同相暗号を利用した, プライバシ保護型安定拡散フレームワークを提案する。 HE-Diffusionは、プライバシと機能の両方を確実にする、安定した拡散のユニークなアーキテクチャに合わせて設計された、カスタマイズされた暗号化フレームワークである。 そこで本研究では,提案手法を用いて,効率的な部分的画像暗号化を実現し,出力品質を損なうことなくオーバヘッドを大幅に低減する手法を提案する。 さらに,スパーステンソル表現を用いて計算処理を高速化し,プライバシー保護拡散プロセスの全体的な効率化を図る。 HEベースのプライバシー保護型安定拡散推定の実装に成功した。 実験の結果,HE-Diffusionはベースライン法と比較して500倍の高速化を実現し,同型暗号化推論の時間コストを極小レベルまで低減することがわかった。 HE-Diffusionの性能と精度は、平文と同等である。 われわれのアプローチは、高度な暗号技術と最先端の生成モデルを統合するための重要なステップであり、重要なアプリケーションにおけるプライバシー保護と効率的な画像生成の道を開く。

In this paper, we introduce a privacy-preserving stable diffusion framework leveraging homomorphic encryption, called HE-Diffusion, which primarily focuses on protecting the denoising phase of the diffusion process. HE-Diffusion is a tailored encryption framework specifically designed to align with the unique architecture of stable diffusion, ensuring both privacy and functionality. To address the inherent computational challenges, we propose a novel min-distortion method that enables efficient partial image encryption, significantly reducing the overhead without compromising the model's output quality. Furthermore, we adopt a sparse tensor representation to expedite computational operations, enhancing the overall efficiency of the privacy-preserving diffusion process. We successfully implement HE-based privacy-preserving stable diffusion inference. The experimental results show that HE-Diffusion achieves 500 times speedup compared with the baseline method, and reduces time cost of the homomorphically encrypted inference to the minute level. Both the performance and accuracy of the HE-Diffusion are on par with the plaintext counterpart. Our approach marks a significant step towards integrating advanced cryptographic techniques with state-of-the-art generative models, paving the way for privacy-preserving and efficient image generation in critical applications.
翻訳日:2024-03-13 12:21:16 公開日:2024-03-09
# 量子光統計量の決定論的整形

Deterministic Shaping of Quantum Light Statistics ( http://arxiv.org/abs/2403.05790v1 )

ライセンス: Link先を確認
Garrett D. Compton and Mark G. Kuzyk(参考訳) 本稿では,光子数選択相互作用による量子光の決定論的形状決定法を提案する。 光の非古典的状態は、光子相関とノイズリフォーミングに依存する高精度光学技術にとって必須の資源である。 量子干渉法、ゴーストイメージング、連続変数光量子コンピューティングのためのフォールトトレラントコードの生成など、著名な技術である。 非線形光学共振器のクラスは、多光子波動関数を変換し、非古典的ノイズ統計量を持つ光の構造状態を生成することができる。 パラメトリックダウン変換に基づくデバイスは、Kerr効果を利用して光子数依存周波数マッチングをチューニングし、光子数選択相互作用を誘導する。 高振幅コヒーレントポンプでは、2モードの圧縮キャビティ状態のノイズを最小の劣化で形成し、シミュレーションで示される。 デバイス構築に必要な材料特性を特定し,フレキシブルな材料設計を提供する材料自由度を強調する。

We propose a theoretical method for the deterministic shaping of quantum light via photon number state selective interactions. Nonclassical states of light are an essential resource for high precision optical techniques that rely on photon correlations and noise reshaping. Notable techniques include quantum enhanced interferometry, ghost imaging, and generating fault tolerant codes for continuous variable optical quantum computing. We show that a class of nonlinear-optical resonators can transform many-photon wavefunctions to produce structured states of light with nonclassical noise statistics. The devices, based on parametric down conversion, utilize the Kerr effect to tune photon number dependent frequency matching, inducing photon number selective interactions. With a high amplitude coherent pump, the number selective interaction shapes the noise of a two-mode squeezed cavity state with minimal dephasing, illustrated with simulations. We specify the requisite material properties to build the device and highlight the remaining material degrees of freedom which offer flexible material design.
翻訳日:2024-03-13 12:20:55 公開日:2024-03-09
# ItD:大規模言語モデルでは、推論を通じてテーマを学習できる

ItD: Large Language Models Can Teach Themselves Induction through Deduction ( http://arxiv.org/abs/2403.05789v1 )

ライセンス: Link先を確認
Wangtao Sun, Haotian Xu, Xuanqing Yu, Pei Chen, Shizhu He, Jun Zhao, Kang Liu(参考訳) 大規模言語モデル(LLM)は、幅広い自然言語処理タスクにおいて優れたパフォーマンスを示しているが、研究者らは、まだ誘導を行う能力が限られていることを発見した。 最近の研究は、主に「ポストプロセス」パラダイムを採用し、誘導におけるLLMの性能を改善する(例えば、仮説探索と改善法)が、その性能はLLMの固有の誘導能力に制約されている。 本稿では, LLMが推論による誘導を学べるように, 推論による誘導(ItD)という新しい枠組みを提案する。 ItDフレームワークは2つの主要なコンポーネントで構成されている: 誘導データを生成するデダクティブデータ生成モジュールと、LLMの微調整と復号を最適化するネイブベイズ誘導モジュールである。 実験の結果,2つの誘導ベンチマークにおけるitdの有効性が示され,従来の技術と比較して,それぞれ36%,10%の相対的性能向上を達成できた。 本研究は, itdの2つのキーモジュールの有効性を検証する。 また, 異なるLLMおよびデダクタにおける ItD の有効性を検証する。 この論文のデータとコードはhttps://anonymous.4open.science/r/itd-e844にある。

Although Large Language Models (LLMs) are showing impressive performance on a wide range of Natural Language Processing tasks, researchers have found that they still have limited ability to conduct induction. Recent works mainly adopt ``post processes'' paradigms to improve the performance of LLMs on induction (e.g., the hypothesis search & refinement methods), but their performance is still constrained by the inherent inductive capability of the LLMs. In this paper, we propose a novel framework, Induction through Deduction (ItD), to enable the LLMs to teach themselves induction through deduction. The ItD framework is composed of two main components: a Deductive Data Generation module to generate induction data and a Naive Bayesian Induction module to optimize the fine-tuning and decoding of LLMs. Our empirical results showcase the effectiveness of ItD on two induction benchmarks, achieving relative performance improvement of 36% and 10% compared with previous state-of-the-art, respectively. Our ablation study verifies the effectiveness of two key modules of ItD. We also verify the effectiveness of ItD across different LLMs and deductors. The data and code of this paper can be found at https://anonymous.4open.science/r/ItD-E844.
翻訳日:2024-03-13 12:20:43 公開日:2024-03-09
# 細粒度損失解消の利点について--要約における事実性に関する事例研究

On the Benefits of Fine-Grained Loss Truncation: A Case Study on Factuality in Summarization ( http://arxiv.org/abs/2403.05788v1 )

ライセンス: Link先を確認
Lorenzo Jaime Yu Flores, Arman Cohan(参考訳) テキスト要約と単純化は、AIの最も広く使われている応用の1つである。 しかしながら、そのようなタスクのために開発されたモデルは、しばしば幻覚を起こす傾向があり、不整合データのトレーニングの結果生じる。 この問題に対処する効果的なアプローチの1つは、トレーニング中にノイズのあるサンプルを適応的に除去するために標準的なログ損失を変更するアプローチであるLoss Truncation (LT) (Kang and Hashimoto, 2020)である。 しかし、LTだけでは、様々なデータセット上でかなり多くの幻覚的実体が得られる。 我々は,実例と非実例間の損失の基本的な挙動について検討し,実例と実例を比較検討し,雑音目標がNLLの損失率が高いという前提が満たされていない場合に,LTの性能が制限されることを実証し,単語レベルNLLが実例を識別するためのより良い信号を提供することを示した。 次にこれを活用して,nllの細粒度損失と細粒度データクリーニング戦略を提案し,いくつかのデータセットにわたる幻覚低減の改善を観察した。 私たちの仕事はhttps://github.com/yale-nlp/fine-grained-lt.comで公開しています。

Text summarization and simplification are among the most widely used applications of AI. However, models developed for such tasks are often prone to hallucination, which can result from training on unaligned data. One efficient approach to address this issue is Loss Truncation (LT) (Kang and Hashimoto, 2020), an approach to modify the standard log loss to adaptively remove noisy examples during training. However, we find that LT alone yields a considerable number of hallucinated entities on various datasets. We study the behavior of the underlying losses between factual and non-factual examples, to understand and refine the performance of LT. We demonstrate that LT's performance is limited when the underlying assumption that noisy targets have higher NLL loss is not satisfied, and find that word-level NLL among entities provides better signal for distinguishing factuality. We then leverage this to propose a fine-grained NLL loss and fine-grained data cleaning strategies, and observe improvements in hallucination reduction across some datasets. Our work is available at https://https://github.com/yale-nlp/fine-grained-lt.
翻訳日:2024-03-13 12:20:22 公開日:2024-03-09
# 線形制約付きオンライン凸最適化の最適安全性

Optimistic Safety for Linearly-Constrained Online Convex Optimization ( http://arxiv.org/abs/2403.05786v1 )

ライセンス: Link先を確認
Spencer Hutchinson, Tianyi Chen, Mahnoosh Alizadeh(参考訳) 未知の制約下でのオンライン凸最適化(OCO)の設定は近年大きな注目を集めている。 本研究では,プレイヤーが無音のフィードバックを受け取り,常に満たさなければならない静的線形制約を伴うこの問題を考察する。 楽観的安全性の新たな設計パラダイムを活用することで,この問題に対して, $\tilde{\mathcal{O}}(\sqrt{T})$ regret を満足するアルゴリズムを提供する。 これにより$\tilde{\mathcal{O}}(T^{2/3})$の過去の最良後悔境界は改善されるが、独立雑音のわずかに強い仮定と不愉快な逆数のみを使用する。 そして,時間的確率線形制約の下でこの問題をOCOとして再キャストすることにより,我々のアルゴリズムはそのような設定で同じ後悔の保証を享受し,期待する制約に反することはないことを示す。 これはocoの時間的制約の下での文献に寄与し、最先端のアルゴリズムは$\tilde{\mathcal{o}}(\sqrt{t})$ regret と $\tilde{\mathcal{o}}(\sqrt{t})$ violation を享受する。 さらに、より計算効率の良いアルゴリズムのバージョンを提供し、ベンチマークアルゴリズムと比較した数値実験を行う。

The setting of online convex optimization (OCO) under unknown constraints has garnered significant attention in recent years. In this work, we consider a version of this problem with static linear constraints that the player receives noisy feedback of and must always satisfy. By leveraging our novel design paradigm of optimistic safety, we give an algorithm for this problem that enjoys $\tilde{\mathcal{O}}(\sqrt{T})$ regret. This improves on the previous best regret bound of $\tilde{\mathcal{O}}(T^{2/3})$ while using only slightly stronger assumptions of independent noise and an oblivious adversary. Then, by recasting this problem as OCO under time-varying stochastic linear constraints, we show that our algorithm enjoys the same regret guarantees in such a setting and never violates the constraints in expectation. This contributes to the literature on OCO under time-varying stochastic constraints, where the state-of-the-art algorithms enjoy $\tilde{\mathcal{O}}(\sqrt{T})$ regret and $\tilde{\mathcal{O}}(\sqrt{T})$ violation when the constraints are convex and the player receives full feedback. Additionally, we provide a version of our algorithm that is more computationally efficient and give numerical experiments comparing it with benchmark algorithms.
翻訳日:2024-03-13 12:19:57 公開日:2024-03-09
# 大規模生成モデルによる3次元セマンティックコミュニケーション

Large Generative Model Assisted 3D Semantic Communication ( http://arxiv.org/abs/2403.05783v1 )

ライセンス: Link先を確認
Feibo Jiang, Yubo Peng, Li Dong, Kezhi Wang, Kun Yang, Cunhua Pan, Xiaohu You(参考訳) Semantic Communication (SC) は6Gのデータ伝送のための新しいパラダイムである。 しかし、3DシナリオでSCを実行する場合、いくつかの課題が生じる。 1) 3次元意味抽出 2) 潜在意味冗長性,及び 3)不確実なチャネル推定。 これらの課題に対処するために,GAM-3DSC(Generative AI Model Assisted 3D SC)システムを提案する。 まず,Segment Anything Model (SAM) やNeRF (Neural Radiance Field) などの生成AIモデルを用いた3Dセマンティック・エクストラクタ(3DSE)を導入し,ユーザ要求に基づいて3Dシナリオからキーセマンティクスを抽出する。 抽出された3Dセマンティクスは、目標指向の3Dオブジェクトの多視点画像として表現される。 次に、これらの多視点画像を符号化するための適応意味圧縮モデル(ASCM)を提案する。このモデルでは、2つの出力ヘッドを持つセマンティックエンコーダを用いて、潜時意味空間におけるセマンティックエンコーディングとマスマスマスマスマスキングを行う。 次に、物理チャネルのチャネル状態情報(CSI)を推定・改善するために、条件付き生成逆ネットワークと拡散モデル支援チャネル推定(GDCE)を設計する。 最後に,ゴール指向の3次元シナリオを効果的に伝達するgam-3dscシステムの利点をシミュレーションにより実証する。

Semantic Communication (SC) is a novel paradigm for data transmission in 6G. However, there are several challenges posed when performing SC in 3D scenarios: 1) 3D semantic extraction; 2) Latent semantic redundancy; and 3) Uncertain channel estimation. To address these issues, we propose a Generative AI Model assisted 3D SC (GAM-3DSC) system. Firstly, we introduce a 3D Semantic Extractor (3DSE), which employs generative AI models, including Segment Anything Model (SAM) and Neural Radiance Field (NeRF), to extract key semantics from a 3D scenario based on user requirements. The extracted 3D semantics are represented as multi-perspective images of the goal-oriented 3D object. Then, we present an Adaptive Semantic Compression Model (ASCM) for encoding these multi-perspective images, in which we use a semantic encoder with two output heads to perform semantic encoding and mask redundant semantics in the latent semantic space, respectively. Next, we design a conditional Generative adversarial network and Diffusion model aided-Channel Estimation (GDCE) to estimate and refine the Channel State Information (CSI) of physical channels. Finally, simulation results demonstrate the advantages of the proposed GAM-3DSC system in effectively transmitting the goal-oriented 3D scenario.
翻訳日:2024-03-13 12:19:29 公開日:2024-03-09
# hufu : 置換等分散による予習変圧器用モダリティアグノシティック透かしシステム

Hufu: A Modality-Agnositc Watermarking System for Pre-Trained Transformers via Permutation Equivariance ( http://arxiv.org/abs/2403.05842v1 )

ライセンス: Link先を確認
Hengyuan Xu, Liyao Xiang, Xingjun Ma, Borui Yang, Baochun Li(参考訳) ディープラーニングモデルとサービスの花が咲き、貴重なモデルパラメータが盗まれることを防ぐことが必須の関心事になっている。 ウォーターマーキングは所有権検証の重要なツールと考えられている。 しかし、現在のウォーターマーク方式は異なるモデルやタスク用にカスタマイズされており、統合的な知的保護サービスとして統合することは困難である。 本稿では,変圧器の変分同値性に依存した事前学習型変圧器モデルに対するモダリティ非依存型透かしシステムであるヒューフを提案する。 Hufuは、特別に置換されたデータサンプルのセットに事前トレーニングされたモデルを微調整することで、透かしを埋め込む。 置換同分散は、これらの2つのモデル重みの組の間の最小限の干渉を保証し、従って下流タスクの忠実度を高くする。 本手法はモデル自体にのみ依存するので,自然にモダリティに依存し,タスクに依存しず,トリガーサンプルフリーである。 最先端のビジョントランスフォーマー、BERT、GPT2に関する広範な実験は、有効性、効率性、忠実性、堅牢性といったウォーターマーキング要件を満たす上で、ヒューフの優位性を証明し、様々なトランスフォーマーの統一所有権検証サービスとして展開する大きな可能性を示している。

With the blossom of deep learning models and services, it has become an imperative concern to safeguard the valuable model parameters from being stolen. Watermarking is considered an important tool for ownership verification. However, current watermarking schemes are customized for different models and tasks, hard to be integrated as an integrated intellectual protection service. We propose Hufu, a modality-agnostic watermarking system for pre-trained Transformer-based models, relying on the permutation equivariance property of Transformers. Hufu embeds watermark by fine-tuning the pre-trained model on a set of data samples specifically permuted, and the embedded model essentially contains two sets of weights -- one for normal use and the other for watermark extraction which is triggered on permuted inputs. The permutation equivariance ensures minimal interference between these two sets of model weights and thus high fidelity on downstream tasks. Since our method only depends on the model itself, it is naturally modality-agnostic, task-independent, and trigger-sample-free. Extensive experiments on the state-of-the-art vision Transformers, BERT, and GPT2 have demonstrated Hufu's superiority in meeting watermarking requirements including effectiveness, efficiency, fidelity, and robustness, showing its great potential to be deployed as a uniform ownership verification service for various Transformers.
翻訳日:2024-03-13 12:16:34 公開日:2024-03-09
# 長期フレームイベントビジュアルトラッキング:ベンチマークデータセットとベースライン

Long-term Frame-Event Visual Tracking: Benchmark Dataset and Baseline ( http://arxiv.org/abs/2403.05839v1 )

ライセンス: Link先を確認
Xiao Wang, Ju Huang, Shiao Wang, Chuanming Tang, Bo Jiang, Yonghong Tian, Jin Tang, Bin Luo(参考訳) 現在のイベント/フレームイベントベースのトラッカーは短期追跡データセットの評価を受けているが、実世界のシナリオの追跡には長期追跡が必要であり、これらのシナリオにおける既存のトラッキングアルゴリズムのパフォーマンスは未だ不明である。 本稿では, FELT と呼ばれる, 長期かつ大規模で大規模な単一オブジェクト追跡データセットを提案する。 742の動画と1,594,474のrgbフレームとイベントストリームペアがあり、これまでで最大のフレームイベントトラッキングデータセットとなっている。 今後比較する作業のために、データセット上で15のベースライントラッカーを再トレーニングし、評価します。 さらに重要なことは、RGBフレームとイベントストリームが自然に不完全であることは、困難な要因と空間的に疎いイベントフローの影響により明らかである。 そこで本稿では,rgbとイベントデータを融合するマルチヘッド自己アテンションブロックに現代的なホップフィールド層を導入することで,新たな連想メモリトランスフォーマーネットワークを提案する。 FELTとRGB-T追跡データセットLasHeRの大規模な実験により,本モデルの有効性が完全に検証された。 データセットとソースコードは \url{https://github.com/Event-AHU/FELT_SOT_Benchmark} で見ることができる。

Current event-/frame-event based trackers undergo evaluation on short-term tracking datasets, however, the tracking of real-world scenarios involves long-term tracking, and the performance of existing tracking algorithms in these scenarios remains unclear. In this paper, we first propose a new long-term and large-scale frame-event single object tracking dataset, termed FELT. It contains 742 videos and 1,594,474 RGB frames and event stream pairs and has become the largest frame-event tracking dataset to date. We re-train and evaluate 15 baseline trackers on our dataset for future works to compare. More importantly, we find that the RGB frames and event streams are naturally incomplete due to the influence of challenging factors and spatially sparse event flow. In response to this, we propose a novel associative memory Transformer network as a unified backbone by introducing modern Hopfield layers into multi-head self-attention blocks to fuse both RGB and event data. Extensive experiments on both FELT and RGB-T tracking dataset LasHeR fully validated the effectiveness of our model. The dataset and source code can be found at \url{https://github.com/Event-AHU/FELT_SOT_Benchmark}.
翻訳日:2024-03-13 12:15:59 公開日:2024-03-09
# 熱Rydberg原子を用いた室温単一光子テラヘルツ検出

Room temperature single-photon terahertz detection with thermal Rydberg atoms ( http://arxiv.org/abs/2403.05833v1 )

ライセンス: Link先を確認
Danyang Li, Zhengyang Bai, Xiaoliang Zuo, Yuelong Wu, Jiteng Sheng, and Haibin Wu(参考訳) 単一光子テラヘルツ(THz)検出は様々な分野において最も要求の高い技術の一つであり、多くのブレークスルーをもたらす可能性がある。 過去20年で大きな進歩を遂げたものの、室温で運用することは依然として大きな課題である。 ここでは, 熱Rydberg原子蒸気中の非線形波の混合に基づく室温THz検出器を, 単光子レベルで初めて実証する。 低エネルギーthz光子は6波長混合過程を含む非退化rydberg状態を介して高エネルギー光光子とコヒーレントに変換されるため、従来の光単光子計数モジュールにより単一光子thz検出を実現する。 このような検出器のノイズ等価電力は9.5*10^-19 W/Hz^1/2であり、これは最先端の室温THz検出器よりも4桁以上低い。 波動混合プロセス全体の最適量子効率は40.6dBのダイナミックレンジで約4.3%であり、最大変換帯域幅は172MHzであり、全光制御可能である。 室温動作における高速かつ連続波単光子型THz検出器の開発は、ポータブルでチップ規模の大きな可能性を秘めており、リモートセンシング、無線通信、バイオメディカル診断、量子光学の幅広い応用に革命をもたらす可能性がある。

Single-photon terahertz (THz) detection is one of the most demanding technology for a variety of fields and could lead to many breakthroughs. Although its significant progress has been made in the last two decades, operating it at room temperature still remains a great challenge. Here, we demonstrate, for the first time, the room temperature THz detector at single-photon levels based on nonlinear wave mixing in thermal Rydberg atomic vapor. The low-energy THz photons are coherently upconverted to the high-energy optical photons via a nondegenerate Rydberg state involved six-wave-mixing process, and therefore, the single-photon THz detection is achieved by a conventional optical single-photon counting module. The noise equivalent power of such a detector is reached to be 9.5*10^-19 W/Hz^1/2, which is more than four orders of magnitude lower than the state-of-the-art room temperature THz detectors. The optimum quantum efficiency of the whole wave-mixing process is about 4.3% with 40.6 dB dynamic range, and the maximum conversion bandwidth is 172 MHz, which is all-optically controllable. The developed fast and continuous-wave single-photon THz detector at room temperature operation has a great potential to be portable and chip-scale, and could be revolutionary for a wide range of applications in remote sensing, wireless communication, biomedical diagnostics, and quantum optics.
翻訳日:2024-03-13 12:15:38 公開日:2024-03-09
# マルチGPU対応ハイブリッド量子古典ワークフローを用いた量子HPCフレームワーク:量子シミュレーションへの応用

Quantum-HPC Framework with multi-GPU-Enabled Hybrid Quantum-Classical Workflow: Applications in Quantum Simulations ( http://arxiv.org/abs/2403.05828v1 )

ライセンス: Link先を確認
Kuan-Cheng Chen, Xiaoren Li, Xiaotian Xu, Yun-Yuan Wang and Chen-Yu Liu(参考訳) 量子システム上で高性能な計算を実現するには、量子ハードウェアと古典的コンピューティングリソースの能力の橋渡しが不可欠である。 このアーキテクチャは、最先端の量子ソフトウェアフレームワークを高性能な古典計算資源と統合し、材料や凝縮物質物理学の量子シミュレーションにおける課題に対処するものである。 このアーキテクチャの中心は、量子状態の効率的な準備のためにQPUで実行されるVQEアルゴリズムをシームレスに統合すること、テンソルネットワーク状態、古典的なハードウェア上で量子状態の分類のためのQCNNである。 量子シミュレータのベンチマークでは、QCQアーキテクチャはcuQuantum SDKを使用して、PennyLaneのLightningプラグインと統合されたマルチGPUアクセラレーションを活用し、従来のCPUベースの手法と比較して、複雑な相転移分類タスクの計算速度を最大10倍に向上させる。 この大きな加速により、横フィールドIsingやXXZシステムのようなモデルは99.5%の精度で位相遷移を正確に予測できる。 QPUと古典的なリソース間で計算を分散するアーキテクチャの能力は、量子HPCの重要なボトルネックに対処し、スケーラブルな量子シミュレーションの道を開く。 QCQフレームワークは、量子アルゴリズム、機械学習、量子-HPC機能の相乗的な組み合わせを具現化し、異なるスケールにわたる量子システムの振る舞いに関する変革的な洞察を提供する可能性を高める。 量子ハードウェアの改善が進むにつれて、このハイブリッド分散認識フレームワークは、分散量子リソースを最先端の古典的コンピューティング基盤とシームレスに統合することにより、量子コンピューティングの潜在能力を実現する上で重要な役割を果たす。

Achieving high-performance computation on quantum systems presents a formidable challenge that necessitates bridging the capabilities between quantum hardware and classical computing resources. This study introduces an innovative distribution-aware Quantum-Classical-Quantum (QCQ) architecture, which integrates cutting-edge quantum software framework works with high-performance classical computing resources to address challenges in quantum simulation for materials and condensed matter physics. At the heart of this architecture is the seamless integration of VQE algorithms running on QPUs for efficient quantum state preparation, Tensor Network states, and QCNNs for classifying quantum states on classical hardware. For benchmarking quantum simulators, the QCQ architecture utilizes the cuQuantum SDK to leverage multi-GPU acceleration, integrated with PennyLane's Lightning plugin, demonstrating up to tenfold increases in computational speed for complex phase transition classification tasks compared to traditional CPU-based methods. This significant acceleration enables models such as the transverse field Ising and XXZ systems to accurately predict phase transitions with a 99.5% accuracy. The architecture's ability to distribute computation between QPUs and classical resources addresses critical bottlenecks in Quantum-HPC, paving the way for scalable quantum simulation. The QCQ framework embodies a synergistic combination of quantum algorithms, machine learning, and Quantum-HPC capabilities, enhancing its potential to provide transformative insights into the behavior of quantum systems across different scales. As quantum hardware continues to improve, this hybrid distribution-aware framework will play a crucial role in realizing the full potential of quantum computing by seamlessly integrating distributed quantum resources with the state-of-the-art classical computing infrastructure.
翻訳日:2024-03-13 12:15:11 公開日:2024-03-09
# trafficgpt: 効率的な長時間トラフィック分析と生成のためのトークン障壁を破る

TrafficGPT: Breaking the Token Barrier for Efficient Long Traffic Analysis and Generation ( http://arxiv.org/abs/2403.05822v1 )

ライセンス: Link先を確認
Jian Qu, Xiaobo Ma, Jianfeng Li(参考訳) ここ数年、ネットワークトラフィック分析と生成は著しく進歩している。 従来の統計手法から、この分野は高度な深層学習技術へと発展してきた。 この進歩により、複雑なパターンやセキュリティ脅威を検出し、ネットワークパフォーマンスをテストおよび最適化する能力が改善された。 しかし、分析のためのラベル付きデータへの依存や、現実的なパターンに従うトラフィックサンプルの生成の困難など、障害は継続する。 事前トレーニングされたディープニューラルネットワークは、これらの問題を解決する強力なツールとして登場し、大きなラベルのないデータセットから堅牢なデータ表現を学習することで、パフォーマンスの向上を提供する。 それらの利点にもかかわらず、既存のトレーニング済みモデルはトークン長制限のような課題に直面しており、包括的なトラフィック分析と現実的なトラフィック生成においてその有用性を制限する。 これらの課題に対処するために、長いフローの分類と生成タスクに関連する複雑な課題に対処できるディープラーニングモデルであるTrafficGPTを導入する。 このモデルはリニアアテンション機構による生成前トレーニングを使用しており、以前の512トークンの制限から最大12,032トークンの容量を実質的に増やすことができる。 trafficgptは分類タスクにおいて優れた性能を示し、最先端レベルに達する。 生成タスクでは、JSのばらつきが低く、F1スコアが生成したデータの識別において0.5に近い(ランダムな推測を表す)ために、実際のトラフィックフローとよく似ている。 これらの進歩は、トラフィックフローの分類と生成タスクにおける将来の応用を約束する。

Over the years, network traffic analysis and generation have advanced significantly. From traditional statistical methods, the field has progressed to sophisticated deep learning techniques. This progress has improved the ability to detect complex patterns and security threats, as well as to test and optimize network performance. However, obstacles persist, such as the dependence on labeled data for analysis and the difficulty of generating traffic samples that follow realistic patterns. Pre-trained deep neural networks have emerged as powerful tools to resolve these issues, offering improved performance by learning robust data representations from large unlabeled datasets. Despite their benefits, existing pre-trained models face challenges like token length limitation, which restricts their usefulness in comprehensive traffic analysis and realistic traffic generation. To address these challenges, we introduce TrafficGPT, a deep learning model that can tackle complex challenges related to long flow classification and generation tasks. This model uses generative pre-training with the linear attention mechanism, which allows for a substantially increased capacity of up to 12,032 tokens from the previous limit of only 512 tokens. TrafficGPT demonstrates superior performance in classification tasks, reaching state-of-the-art levels. In generation tasks, it closely resembles real traffic flows, with low JS divergence and an F1 score close to 0.5 (representing a random guess) in discriminating generated data. These advancements hold promise for future applications in both traffic flow classification and generation tasks.
翻訳日:2024-03-13 12:14:40 公開日:2024-03-09
# リレーショナルワークロードにおけるLCMクエリの最適化

Optimizing LLM Queries in Relational Workloads ( http://arxiv.org/abs/2403.05821v1 )

ライセンス: Link先を確認
Shu Liu, Asim Biswal, Audrey Cheng, Xiangxi Mo, Shiyi Cao, Joseph E. Gonzalez, Ion Stoica, Matei Zaharia(参考訳) 分析データベースプロバイダ(Redshift、Databricks、BigQueryなど)は、分析ワークロード内での分類、エンティティ抽出、翻訳などの自然言語タスクの実行を支援するために、ネイティブユーザ定義関数(UDF)を通じて、LLM(Large Language Models)の呼び出しを迅速にサポートした。 例えば、アナリストは何百万もの製品レビューの顧客感情を抽出したいかもしれない。 例えば、Llama2-7Bで動作するNVIDIA L4 GPUは毎秒6KBのテキストしか処理できない。 本稿では,リレーショナルクエリ内でLLMを呼び出す解析負荷に対して,LLM推論を最適化する方法を検討する。 例えば,LLM推論エンジン内のキー値(KV)キャッシュ再利用を最大化するための行の順序変更,行内の列の順序変更によるキャッシュ再利用の促進,冗長な推論要求の重複化などである。 我々はこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供し、実際のデータセット上の多様なLCMベースのクエリのベンチマークでエンドツーエンドのレイテンシを最大4.4倍改善しました。 私たちの知る限りでは、SQLクエリ内でLLM呼び出しを最適化する問題を明示的に解決する最初の作業です。

Analytical database providers (e.g., Redshift, Databricks, BigQuery) have rapidly added support for invoking Large Language Models (LLMs) through native user-defined functions (UDFs) to help users perform natural language tasks, such as classification, entity extraction, and translation, inside analytical workloads. For instance, an analyst might want to extract customer sentiments on millions of product reviews. However, LLM inference is highly expensive in both computational and economic terms: for example, an NVIDIA L4 GPU running Llama2-7B can only process 6 KB of text per second. In this paper, we explore how to optimize LLM inference for analytical workloads that invoke LLMs within relational queries. We show that relational queries present novel opportunities for accelerating LLM inference, including reordering rows to maximize key-value (KV) cache reuse within the LLM inference engine, reordering columns within a row to further increase cache reuse, and deduplicating redundant inference requests. We implement these optimizations in Apache Spark, with vLLM as the model serving backend and achieve up to 4.4x improvement in end-to-end latency on a benchmark of diverse LLM-based queries on real datasets. To the best of our knowledge, this is the first work to explicitly address the problem of optimizing LLM invocations within SQL queries.
翻訳日:2024-03-13 12:14:17 公開日:2024-03-09
# SAFDNet: 完全スパース3Dオブジェクト検出のためのシンプルで効果的なネットワーク

SAFDNet: A Simple and Effective Network for Fully Sparse 3D Object Detection ( http://arxiv.org/abs/2403.05817v1 )

ライセンス: Link先を確認
Gang Zhang, Junnan Chen, Guohuan Gao, Jianmin Li, Si Liu, Xiaolin Hu(参考訳) LiDARベースの3Dオブジェクト検出は、自動運転において重要な役割を果たす。 既存の高性能な3Dオブジェクト検出器は通常、バックボーンネットワークと予測ヘッドに密度の高い特徴マップを構築する。 しかし、密度の高い特徴写像によってもたらされる計算コストは、知覚範囲が増加するにつれて二次的に増大し、これらのモデルは長距離検出までスケールアップしにくくなる。 いくつかの最近の研究は、この問題を解決するために完全なスパース検出器を構築しようとしたが、結果として得られたモデルは複雑な多段パイプラインに依存するか、性能が劣ることを示した。 本研究では,SAFDNetを提案する。SAFDNetは,完全スパースな3Dオブジェクト検出に適した,単純かつ高効率なアーキテクチャである。 SAFDNetでは、中心的特徴不足問題に対処するために適応的特徴拡散戦略が設計されている。 Waymo Open、nuScenes、Argoverse2データセットについて広範な実験を行った。 SAFDNetは、最初の2つのデータセットでは以前のSOTAよりも若干優れていたが、最後のデータセットでは、長距離検出を必要とするシナリオにおいて、SAFDNetの有効性を検証する。 特にArgoverse2では、SAFDNetは以前の最高のハイブリッド検出器であるHEDNetを2.1倍高速で2.6%上回り、以前の最高のスパース検出器であるFSDv2よりも2.1%上回った。 コードはhttps://github.com/zhanggang001/HEDNetで入手できる。

LiDAR-based 3D object detection plays an essential role in autonomous driving. Existing high-performing 3D object detectors usually build dense feature maps in the backbone network and prediction head. However, the computational costs introduced by the dense feature maps grow quadratically as the perception range increases, making these models hard to scale up to long-range detection. Some recent works have attempted to construct fully sparse detectors to solve this issue; nevertheless, the resulting models either rely on a complex multi-stage pipeline or exhibit inferior performance. In this work, we propose SAFDNet, a straightforward yet highly effective architecture, tailored for fully sparse 3D object detection. In SAFDNet, an adaptive feature diffusion strategy is designed to address the center feature missing problem. We conducted extensive experiments on Waymo Open, nuScenes, and Argoverse2 datasets. SAFDNet performed slightly better than the previous SOTA on the first two datasets but much better on the last dataset, which features long-range detection, verifying the efficacy of SAFDNet in scenarios where long-range detection is required. Notably, on Argoverse2, SAFDNet surpassed the previous best hybrid detector HEDNet by 2.6% mAP while being 2.1x faster, and yielded 2.1% mAP gains over the previous best sparse detector FSDv2 while being 1.3x faster. The code will be available at https://github.com/zhanggang001/HEDNet.
翻訳日:2024-03-13 12:12:16 公開日:2024-03-09
# MP2D:知識グラフを活用するトピックシフトダイアログ自動生成フレームワーク

MP2D: An Automated Topic Shift Dialogue Generation Framework Leveraging Knowledge Graphs ( http://arxiv.org/abs/2403.05814v1 )

ライセンス: Link先を確認
Yerin Hwang, Yongil Kim, Yunah Jang, Jeesoo Bang, Hyunkyung Bae, Kyomin Jung(参考訳) オントピック対話システムの進歩にもかかわらず、対話内のトピックシフトを効果的に管理することは永続的な課題であり、おもにトレーニングデータセットの可用性が制限されているためである。 この問題に対処するために,自然トピック遷移を伴う対話型質問応答データセットを自動生成するデータ生成フレームワークmp2dを提案する。 知識グラフ内のエンティティ間の関係を利用して、MP2Dは対話内のトピックの流れをマッピングし、人間の会話のダイナミクスを効果的に反映する。 トピックに対応する関連するパスを検索し、対話の方法を通じて対話に変換する。 定量的および定性的な実験を通じて,MP2Dが自然トピックシフトと対話する際の有効性を示す。 さらに,トピックシフト対話のための新しいベンチマークTS-WikiDialogを紹介する。 このデータセットを利用して,大規模言語モデル (llm) でさえ対話における話題シフトを効果的に処理できないことを実証し,mp2d が生成するデータセットに基づくモデルの性能改善を多様なトピックシフト対話タスクで示す。

Despite advancements in on-topic dialogue systems, effectively managing topic shifts within dialogues remains a persistent challenge, largely attributed to the limited availability of training datasets. To address this issue, we propose Multi-Passage to Dialogue (MP2D), a data generation framework that automatically creates conversational question-answering datasets with natural topic transitions. By leveraging the relationships between entities in a knowledge graph, MP2D maps the flow of topics within a dialogue, effectively mirroring the dynamics of human conversation. It retrieves relevant passages corresponding to the topics and transforms them into dialogues through the passage-to-dialogue method. Through quantitative and qualitative experiments, we demonstrate MP2D's efficacy in generating dialogue with natural topic shifts. Furthermore, this study introduces a novel benchmark for topic shift dialogues, TS-WikiDialog. Utilizing the dataset, we demonstrate that even Large Language Models (LLMs) struggle to handle topic shifts in dialogue effectively, and we showcase the performance improvements of models trained on datasets generated by MP2D across diverse topic shift dialogue tasks.
翻訳日:2024-03-13 12:11:51 公開日:2024-03-09
# 言語モデルにおけるアルゴリズムの進歩

Algorithmic progress in language models ( http://arxiv.org/abs/2403.05812v1 )

ライセンス: Link先を確認
Anson Ho, Tamay Besiroglu, Ege Erdil, David Owen, Robi Rahman, Zifan Carl Guo, David Atkinson, Neil Thompson, Jaime Sevilla(参考訳) 本研究では,ディープラーニングの出現以来,事前学習言語モデルのアルゴリズムが向上した速度について検討する。 2012-2023年のWikitextとPenn Treebankの200以上の言語モデル評価データセットを用いて、設定されたパフォーマンスしきい値に達するために必要な計算が約8ヶ月に半減し、95%の信頼区間は約5~14ヶ月となり、ムーアの法則によるハードウェアゲインよりも大幅に高速であることが判明した。 拡張スケーリング則を推定し,アルゴリズムの進歩を定量化し,スケーリングモデルの相対的貢献度とトレーニングアルゴリズムの革新度を判定する。 アルゴリズムの急速な進歩と、transformerのような新しいアーキテクチャの開発にもかかわらず、計算量の増加は、この期間の全体的なパフォーマンス改善にさらに大きな貢献をしたことが明らかとなった。 ノイズの多いベンチマークデータによって制限されるが、我々の分析は言語モデリングの急速な進歩を定量化し、計算とアルゴリズムからの相対的な貢献を隠蔽する。

We investigate the rate at which algorithms for pre-training language models have improved since the advent of deep learning. Using a dataset of over 200 language model evaluations on Wikitext and Penn Treebank spanning 2012-2023, we find that the compute required to reach a set performance threshold has halved approximately every 8 months, with a 95% confidence interval of around 5 to 14 months, substantially faster than hardware gains per Moore's Law. We estimate augmented scaling laws, which enable us to quantify algorithmic progress and determine the relative contributions of scaling models versus innovations in training algorithms. Despite the rapid pace of algorithmic progress and the development of new architectures such as the transformer, our analysis reveals that the increase in compute made an even larger contribution to overall performance improvements over this time period. Though limited by noisy benchmark data, our analysis quantifies the rapid progress in language modeling, shedding light on the relative contributions from compute and algorithms.
翻訳日:2024-03-13 12:11:33 公開日:2024-03-09
# 分布時間差の統計的効率

Statistical Efficiency of Distributional Temporal Difference ( http://arxiv.org/abs/2403.05811v1 )

ライセンス: Link先を確認
Yang Peng, Liangyu Zhang, Zhihua Zhang(参考訳) 分布強化学習(distributional reinforcement learning, drl)は、平均ではなくリターンの完全な分配に関心を持ち、様々な領域で実証的な成功を収めている。 DRL の分野における中核的なタスクの1つは、あるポリシーに対する戻り分布 $\eta^\pi$ を推定する分散ポリシー評価である。 そのため,古典的rl文献における時間差アルゴリズムの拡張として,分布時間差アルゴリズム(td)が提案されている。 表式の場合、 \citet{rowland2018 analysis} と \citet{rowland2023 analytic} はそれぞれ分布的tdの2つの例、すなわちカテゴリー的時間差アルゴリズム(ctd)と分位時差アルゴリズム(qtd)の漸近収束を証明した。 本稿では、さらに一歩進んで、分布性TDの有限サンプル性能を解析する。 理論的解析を容易にするため,非パラメトリック分布型TDアルゴリズム(NTD)を提案する。 状態空間 $S$ と作用空間 $A$ を持つ$\gamma$-discounted infinite-horizon tabular Markov decision process に対して、NTD の場合、$\wtilde O\prn{\frac{1}{\varepsilon^{2p}(1-\gamma)^{2p+2}}} が$\varepsilon$-optimal estimator を高い確率で達成するためには、推定誤差が$p$-ワッサーシュタイン距離で測定される場合、$\wtilde O\prn{\frac{1}{\varepsilon^{2p}(1-\gamma)^{2p+2}}} が必要であることを示す。 いくつかの穏やかな仮定の下で、$\wtilde o\prn{\frac{1}{\varepsilon^{2}(1-\gamma)^{4}}}$ 反復は、高い確率で$\hat\eta^\pi$ と$\eta^\pi$ と$\varepsilon$ の間のコルモゴロフ-スミルノフ距離を保証するのに十分である。 我々はCTDを再検討し、同じ非漸近収束境界が$p$-Wasserstein距離の場合、CTDに対して成り立つことを示した。

Distributional reinforcement learning (DRL), which cares about the full distribution of returns instead of just the mean, has achieved empirical success in various domains. One of the core tasks in the field of DRL is distributional policy evaluation, which involves estimating the return distribution $\eta^\pi$ for a given policy $\pi$. A distributional temporal difference (TD) algorithm has been accordingly proposed, which is an extension of the temporal difference algorithm in the classic RL literature. In the tabular case, \citet{rowland2018analysis} and \citet{rowland2023analysis} proved the asymptotic convergence of two instances of distributional TD, namely categorical temporal difference algorithm (CTD) and quantile temporal difference algorithm (QTD), respectively. In this paper, we go a step further and analyze the finite-sample performance of distributional TD. To facilitate theoretical analysis, we propose non-parametric distributional TD algorithm (NTD). For a $\gamma$-discounted infinite-horizon tabular Markov decision process with state space $S$ and action space $A$, we show that in the case of NTD we need $\wtilde O\prn{\frac{1}{\varepsilon^{2p}(1-\gamma)^{2p+2}}}$ iterations to achieve an $\varepsilon$-optimal estimator with high probability, when the estimation error is measured by the $p$-Wasserstein distance. Under some mild assumptions, $\wtilde O\prn{\frac{1}{\varepsilon^{2}(1-\gamma)^{4}}}$ iterations suffices to ensure the Kolmogorov-Smirnov distance between the NTD estimator $\hat\eta^\pi$ and $\eta^\pi$ less than $\varepsilon$ with high probability. And we revisit CTD, showing that the same non-asymptotic convergence bounds hold for CTD in the case of the $p$-Wasserstein distance.
翻訳日:2024-03-13 12:11:14 公開日:2024-03-09
# 一般歩行者軌跡予測のためのリカレントアライメントネットワーク

Recurrent Aligned Network for Generalized Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2403.05810v1 )

ライセンス: Link先を確認
Yonghao Dong, Le Wang, Sanping Zhou, Gang Hua, Changyin Sun(参考訳) 歩行者の軌道予測はコンピュータビジョンとロボティクスにおいて重要な要素であるが、ドメインシフトの問題により依然として困難である。 従来の研究では、対象領域からの軌道データの一部をモデルに適応させることで、この問題に対処しようと試みてきた。 しかし、そのような領域適応法は、全ての潜在的な対象領域から軌道データを集めることが不可能であるため、現実のシナリオでは実用的ではない。 本稿では, 一般歩行者軌跡予測という課題について検討し, トラジェクトリにアクセスすることなく, モデルが未確認領域に一般化されることを目標とした。 この課題に対処するために、ドメインアライメントによるドメインギャップを最小限に抑えるために、Recurrent Aligned Network~(RAN)を導入する。 具体的には,リカレントアライメント戦略により,時間と時間の両方における軌道特徴空間を効果的に整列するリカレントアライメントモジュールを考案し,さらに,ソーシャルインタラクションとリカレントアライメント戦略とを結合するプレアライメント表現モジュールを提案する。 本手法を広く評価し,3つのベンチマークで最新手法と比較した。 実験により,本手法のより優れた一般化能力を示す。 本研究は,実用的な歩行者軌跡予測のための一般化設定のギャップを埋めるだけでなく,この分野の強力なベースラインも設定する。

Pedestrian trajectory prediction is a crucial component in computer vision and robotics, but remains challenging due to the domain shift problem. Previous studies have tried to tackle this problem by leveraging a portion of the trajectory data from the target domain to adapt the model. However, such domain adaptation methods are impractical in real-world scenarios, as it is infeasible to collect trajectory data from all potential target domains. In this paper, we study a task named generalized pedestrian trajectory prediction, with the aim of generalizing the model to unseen domains without accessing their trajectories. To tackle this task, we introduce a Recurrent Aligned Network~(RAN) to minimize the domain gap through domain alignment. Specifically, we devise a recurrent alignment module to effectively align the trajectory feature spaces at both time-state and time-sequence levels by the recurrent alignment strategy.Furthermore, we introduce a pre-aligned representation module to combine social interactions with the recurrent alignment strategy, which aims to consider social interactions during the alignment process instead of just target trajectories. We extensively evaluate our method and compare it with state-of-the-art methods on three widely used benchmarks. The experimental results demonstrate the superior generalization capability of our method. Our work not only fills the gap in the generalization setting for practical pedestrian trajectory prediction but also sets strong baselines in this field.
翻訳日:2024-03-13 12:10:15 公開日:2024-03-09
# 深層学習に基づく整形外科ロボットのための音響計測手法

Deep Learning based acoustic measurement approach for robotic applications on orthopedics ( http://arxiv.org/abs/2403.05879v1 )

ライセンス: Link先を確認
Bangyu Lan, Momen Abayazid, Nico Verdonschot, Stefano Stramigioli, Kenan Niu(参考訳) 人工膝関節置換術 (total knee replacement arthroplasty, tka) では, 外科手術ロボットがインプラントを高精度にフィットさせるための画像誘導ナビゲーションを提供する。 その追跡アプローチは、光学追跡システムによって追跡された骨に骨ピンを挿入することに大きく依存している。 これは通常、侵襲的でラジエーティブな方法(インプリケート可能なマーカーとctスキャン)によって行われ、不必要な外傷を引き起こし、患者の準備期間を延ばす。 この問題に対処するために、超音波ベースの骨追跡は代替手段となるかもしれない。 本研究では,Aモード超音波(US)による骨追跡の精度を向上させるための新しい深層学習構造を提案する。 まず, 骨の真理位置を骨ピンを用いて計算したキャダバー実験から, 超音波データセットのセットを得た。 これらのデータは、提案されたCasAtt-UNetをトレーニングし、骨の位置を自動的かつ堅牢に予測するために使用された。 地上の真理の骨の位置と我々の位置を同時に記録した。 したがって、生の米国信号に骨ピークをラベル付けることができた。 その結果,足首の1チャンネルのみを例外として,8つの骨領域すべてにおいてサブミリ波精度を達成した。 1次元生超音波信号から下肢骨位置のロバストな測定を可能にする。 安全, 有用, 効率的の観点から, 整形外科手術にAモード超音波を適用する大きな可能性を示す。

In Total Knee Replacement Arthroplasty (TKA), surgical robotics can provide image-guided navigation to fit implants with high precision. Its tracking approach highly relies on inserting bone pins into the bones tracked by the optical tracking system. This is normally done by invasive, radiative manners (implantable markers and CT scans), which introduce unnecessary trauma and prolong the preparation time for patients. To tackle this issue, ultrasound-based bone tracking could offer an alternative. In this study, we proposed a novel deep learning structure to improve the accuracy of bone tracking by an A-mode ultrasound (US). We first obtained a set of ultrasound dataset from the cadaver experiment, where the ground truth locations of bones were calculated using bone pins. These data were used to train the proposed CasAtt-UNet to predict bone location automatically and robustly. The ground truth bone locations and those locations of US were recorded simultaneously. Therefore, we could label bone peaks in the raw US signals. As a result, our method achieved sub millimeter precision across all eight bone areas with the only exception of one channel in the ankle. This method enables the robust measurement of lower extremity bone positions from 1D raw ultrasound signals. It shows great potential to apply A-mode ultrasound in orthopedic surgery from safe, convenient, and efficient perspectives.
翻訳日:2024-03-13 12:06:58 公開日:2024-03-09
# 大域的最適化のための盆地ホッピングとメタヒューリスティックスの比較解析

A Performance Analysis of Basin Hopping Compared to Established Metaheuristics for Global Optimization ( http://arxiv.org/abs/2403.05877v1 )

ライセンス: Link先を確認
Marco Baioletti, Valentino Santucci, Marco Tomassini(参考訳) 過去数十年間、グローバル数値最適化のための多くのメタヒューリスティックが提案されてきた。 その中でも、盆地ホッピングは非常に単純で簡単に実装できるが、元の物理化学コミュニティ以外では滅多に使われない。 本研究の目的は,よく知られたメタヒューリスティックな微分進化,粒子群最適化,共分散行列適応進化戦略の実装により,流域のホッピングとその2つの個体群を比較することである。 BBOBテスト関数セットと2つの困難な実世界の問題を用いたIOHプロファイラ環境を用いた数値実験を行った。 実験は2つの異なる相補的な方法で実施され、機能評価の固定予算下での性能の測定と、目標値の固定を考慮した。 一般的な結論は、盆地のホッピングとその新しく導入された個体群は、合成ベンチマーク関数の共分散行列の適応にほぼ匹敵し、2つのハードクラスターエネルギー最小化問題より優れているということである。 したがって,提案手法は,特に未知問題に対して迅速かつ信頼性の高い結果を得たい場合において,より確立されたメタヒューリスティックスとともに,大域的な数値最適化問題の候補となりうることを示す。

During the last decades many metaheuristics for global numerical optimization have been proposed. Among them, Basin Hopping is very simple and straightforward to implement, although rarely used outside its original Physical Chemistry community. In this work, our aim is to compare Basin Hopping, and two population variants of it, with readily available implementations of the well known metaheuristics Differential Evolution, Particle Swarm Optimization, and Covariance Matrix Adaptation Evolution Strategy. We perform numerical experiments using the IOH profiler environment with the BBOB test function set and two difficult real-world problems. The experiments were carried out in two different but complementary ways: by measuring the performance under a fixed budget of function evaluations and by considering a fixed target value. The general conclusion is that Basin Hopping and its newly introduced population variant are almost as good as Covariance Matrix Adaptation on the synthetic benchmark functions and better than it on the two hard cluster energy minimization problems. Thus, the proposed analyses show that Basin Hopping can be considered a good candidate for global numerical optimization problems along with the more established metaheuristics, especially if one wants to obtain quick and reliable results on an unknown problem.
翻訳日:2024-03-13 12:06:38 公開日:2024-03-09
# WallStreetBetsの台頭と崩壊:GameStopのサガにおける社会的役割と世論のリーダー

The rise and fall of WallStreetBets: social roles and opinion leaders across the GameStop saga ( http://arxiv.org/abs/2403.05876v1 )

ライセンス: Link先を確認
Anna Mancini, Antonio Desiderio, Giovanni Palermo, Riccardo Di Clemente and Giulio Cimini(参考訳) 今日では、インターネット利用者の行動は、いくつかの一般的なタイプや「社会的役割」に陥ることが多い。 これらのうち、意見のリーダーは、アイデアや意見をネットワーク全体に大規模に広める能力を持っているため、現実の世界において有意義な結果をもたらす可能性がある。 この作業では、2021年1月のGameStopショートカットの頃、Reddit WallStreetBetsコミュニティ内のユーザの異なるソーシャルロールを抽出し、特徴付けしています。 我々は,社会的な役割を担うために必要な特徴を識別する,反復的半教師付き分類アルゴリズムを用いて,世論指導者を含む,平均的ユーザと関連する外れ者のプロファイルを識別する。 意見のリーダーの主な特徴は、大きなリスクの高い投資と、1つの株の継続的な更新であり、それによって大きなフォロワーを集め、GameStopの場合、コミュニティの関心を喚起する。 最後に、短命なイベントの後、ユーザの行動や態度が大幅に変化しているのを観察する。新しい意見のリーダーは見つからず、コミュニティは投資にあまり焦点を合わせなくなります。 全体として、この研究はゲームトップ・ショートスクイーズに繋がったユーザーの役割とダイナミクスに光を当てると同時に、この出来事の余波の中でウォールストリートベットが金融市場にこれほど大きな影響を及ぼさなかった理由も示唆している。

Nowadays human interactions largely take place on social networks, with online users' behavior often falling into a few general typologies or "social roles". Among these, opinion leaders are of crucial importance as they have the ability to spread an idea or opinion on a large scale across the network, with possible tangible consequences in the real world. In this work we extract and characterize the different social roles of users within the Reddit WallStreetBets community, around the time of the GameStop short squeeze of January 2021 -- when a handful of committed users led the whole community to engage in a large and risky financial operation. We identify the profiles of both average users and of relevant outliers, including opinion leaders, using an iterative, semi-supervised classification algorithm, which allows us to discern the characteristics needed to play a particular social role. The key features of opinion leaders are large risky investments and constant updates on a single stock, which allowed them to attract a large following and, in the case of GameStop, ignite the interest of the community. Finally, we observe a substantial change in the behavior and attitude of users after the short squeeze event: no new opinion leaders are found and the community becomes less focused on investments. Overall, this work sheds light on the users' roles and dynamics that led to the GameStop short squeeze, while also suggesting why WallStreetBets no longer wielded such large influence on financial markets, in the aftermath of this event.
翻訳日:2024-03-13 12:06:13 公開日:2024-03-09
# SPAFormer: トランスフォーマーを備えた逐次3Dパーツアセンブリ

SPAFormer: Sequential 3D Part Assembly with Transformers ( http://arxiv.org/abs/2403.05874v1 )

ライセンス: Link先を確認
Boshen Xu, Sipeng Zheng, Qin Jin(参考訳) SPAFormerは3Dパートアセンブリ(3D-PA)タスクにおける組合せ的爆発的課題を克服するために設計された革新的なモデルである。 このタスクは、各部品のポーズと形状を逐次的に正確に予測することを必要とし、部品の数が増えるにつれて、可能な組み立ての組み合わせは指数関数的に増加し、3D-PAの有効性を著しく阻害する組合せ爆発を引き起こす。 spaformerは、アセンブリシーケンスからの弱い制約を利用してこの問題に対処し、ソリューション空間の複雑さを効果的に低減する。 組み立て部分列は、文の構造に類似した構成規則を単語で伝達するので、並列生成と自己回帰生成の両方を探索する。 さらに、部品の属性とそのシーケンス情報を利用する知識強化戦略を通じてアセンブリを強化し、固有のアセンブリパターンと順序順に順序付けられた部品間の関係をキャプチャする。 また,21種類のカテゴリをカバーするpartnet-assemblyという,より挑戦的なベンチマークを構築し,spaformerの有効性をより包括的に検証した。 大規模な実験では、SPAFormerの優れた一般化能力、特にマルチタスクや長期水平組立を必要とするシナリオが示される。 コードとモデルウェイトは \url{https://github.com/xuboshen/spaformer} でリリースされる。

We introduce SPAFormer, an innovative model designed to overcome the combinatorial explosion challenge in the 3D Part Assembly (3D-PA) task. This task requires accurate prediction of each part's pose and shape in sequential steps, and as the number of parts increases, the possible assembly combinations increase exponentially, leading to a combinatorial explosion that severely hinders the efficacy of 3D-PA. SPAFormer addresses this problem by leveraging weak constraints from assembly sequences, effectively reducing the solution space's complexity. Since assembly part sequences convey construction rules similar to sentences being structured through words, our model explores both parallel and autoregressive generation. It further enhances assembly through knowledge enhancement strategies that utilize the attributes of parts and their sequence information, enabling it to capture the inherent assembly pattern and relationships among sequentially ordered parts. We also construct a more challenging benchmark named PartNet-Assembly covering 21 varied categories to more comprehensively validate the effectiveness of SPAFormer. Extensive experiments demonstrate the superior generalization capabilities of SPAFormer, particularly with multi-tasking and in scenarios requiring long-horizon assembly. Codes and model weights will be released at \url{https://github.com/xuboshen/SPAFormer}.
翻訳日:2024-03-13 12:05:43 公開日:2024-03-09
# LEGION: GitHub Topic Recommendations for Distribution-Balance Lossのトレーニング済み言語モデル

LEGION: Harnessing Pre-trained Language Models for GitHub Topic Recommendations with Distribution-Balance Loss ( http://arxiv.org/abs/2403.05873v1 )

ライセンス: Link先を確認
Yen-Trang Dang, Thanh-Le Cong, Phuc-Thanh Nguyen, Anh M. T. Bui, Phuong T. Nguyen, Bach Le, Quyet-Thang Huynh(参考訳) オープンソース開発は、コラボレーション、透明性、コミュニティ主導のイノベーションを促進することによって、ソフトウェア産業に革命をもたらした。 現在、リポジトリのネットワークを形成するさまざまな種類のオープンソースソフトウェアが、人気のあるソフトウェア開発プラットフォームであるGitHubにホストされていることが多い。 レポジトリネットワーク、すなわち類似するレポジトリのグループの発見可能性を高めるため、githubは2017年にrepository topicsを導入した。 そのため、GitHubリポジトリ毎にトピックを正確に割り当てることが重要です。 自動トピックレコメンデーションの現在の手法は、意味的ニュアンスを理解する上での課題として、テキストデータを符号化するTF-IDFに大きく依存している。 本稿では、GitHubリポジトリのトピック推奨に事前学習言語モデル(PTM)を活用する新しいアプローチであるLegionを提案することで、既存のテクニックの限界に対処する。 legion の重要な新しさは 3-fold である。 まず、Legionは言語理解におけるPTMの広範な機能を活用して、GitHubリポジトリのコンテキスト情報と意味をキャプチャする。 第二に、Legionは長期分布の課題を克服し、PTMのトレーニングを改善するためにDistributed-Balanced Loss (DB Loss)を提案する。 第3に、legionはフィルターを使用してあいまいな推奨を排除し、ptmの精度を向上させる。 実世界のgithubリポジトリのベンチマークデータセットにおける経験的評価から、legionはgithubのトピックを推奨することで、vanilla ptmsを最大26%改善できることが分かりました。 legion氏はまた、githubのトピックを最先端のベースラインよりも正確かつ効果的に提案できる。

Open-source development has revolutionized the software industry by promoting collaboration, transparency, and community-driven innovation. Today, a vast amount of various kinds of open-source software, which form networks of repositories, is often hosted on GitHub - a popular software development platform. To enhance the discoverability of the repository networks, i.e., groups of similar repositories, GitHub introduced repository topics in 2017 that enable users to more easily explore relevant projects by type, technology, and more. It is thus crucial to accurately assign topics for each GitHub repository. Current methods for automatic topic recommendation rely heavily on TF-IDF for encoding textual data, presenting challenges in understanding semantic nuances. This paper addresses the limitations of existing techniques by proposing Legion, a novel approach that leverages Pre-trained Language Models (PTMs) for recommending topics for GitHub repositories. The key novelty of Legion is three-fold. First, Legion leverages the extensive capabilities of PTMs in language understanding to capture contextual information and semantic meaning in GitHub repositories. Second, Legion overcomes the challenge of long-tailed distribution, which results in a bias toward popular topics in PTMs, by proposing a Distribution-Balanced Loss (DB Loss) to better train the PTMs. Third, Legion employs a filter to eliminate vague recommendations, thereby improving the precision of PTMs. Our empirical evaluation on a benchmark dataset of real-world GitHub repositories shows that Legion can improve vanilla PTMs by up to 26% on recommending GitHubs topics. Legion also can suggest GitHub topics more precisely and effectively than the state-of-the-art baseline with an average improvement of 20% and 5% in terms of Precision and F1-score, respectively.
翻訳日:2024-03-13 12:05:21 公開日:2024-03-09
# 量子グエラ・モラート作用関数について

On the quantum Guerra-Morato Action Functional ( http://arxiv.org/abs/2403.05865v1 )

ライセンス: Link先を確認
Josue Knorst and Artur O. Lopes(参考訳) Given a smooth potential $W:\mathrm{T}^{n} \to \mathbb{R}$ on the torus, the Quantum Guerra-Morato action functional is given by \smallskip $ \,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\, \,\,\,\,\,\,\,\,\, I(\psi) = \int\,(\, \, \,\frac{D v\, D v^*}{2}(x) - W(x) \,) \,\,a(x)^2 dx,$ \smallskip \noindent where $\psi $ is described by $\psi = a\, e^{i\,\frac{ u }{h}} $, $ u =\, \frac{v + v^*}{2},$ $a=e^{\,\frac{v^*\,-\,v}{2\, \hbar} }$, $v,v ^*$ are real functions, $\int a^2 (x) d x =1$, and $D$ is derivative on $x \in \mathrm{T}^{n}$. 制約 $ \mathrm{d}\mathrm{i}\mathrm{v}(a^{2}du)=0$ を考えるのは自然である。 そのような作用関数に対する臨界解(変分$\tau$)から得られる$a$と$u$はそのような制約を満たすことができ、量子ポテンシャルを持つハミルトン・ヤコビ方程式を満たす。 は $'=\frac{d}{d\tau}$ と表記する。 臨界解の第二変分表現は \smallskip $\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\ ,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\ ,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\ ,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\ ,\,\,\,\,\,\, $ \smallskip 制約 $\int a^2 \,D u \,dx = V$ を導入すると、後述の双対固有値問題も考慮される。 このことから、トランスポートと固有方程式の一種が導かれる。

Given a smooth potential $W:\mathrm{T}^{n} \to \mathbb{R}$ on the torus, the Quantum Guerra-Morato action functional is given by \smallskip $ \,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\, \,\,\,\,\,\,\,\,\, I(\psi) = \int\,(\, \, \,\frac{D v\, D v^*}{2}(x) - W(x) \,) \,\,a(x)^2 dx,$ \smallskip \noindent where $\psi $ is described by $\psi = a\, e^{i\,\frac{ u }{h}} $, $ u =\, \frac{v + v^*}{2},$ $a=e^{\,\frac{v^*\,-\,v}{2\, \hbar} }$, $v,v ^*$ are real functions, $\int a^2 (x) d x =1$, and $D$ is derivative on $x \in \mathrm{T}^{n}$. It is natural to consider the constraint $ \mathrm{d}\mathrm{i}\mathrm{v}(a^{2}Du)=0$, which means flux zero. The $a$ and $u$ obtained from a critical solution (under variations $\tau$) for such action functional, fulfilling such constraints, satisfy the Hamilton-Jacobi equation with a quantum potential. Denote $'=\frac{d}{d\tau}$. We show that the expression for the second variation of a critical solution is given by \smallskip $\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\, \,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\,\int a^{2}\,D[ v' ]\, D [(v ^*)']\, dx.$ \smallskip Introducing the constraint $\int a^2 \,D u \,dx =V$, we also consider later an associated dual eigenvalue problem. From this follows a transport and a kind of eikonal equation.
翻訳日:2024-03-13 12:04:50 公開日:2024-03-09
# paper-hilt: パーソナライズ・アダプティブ・プライバシ・アウェア・アーリーエクイットによるループ型人間学習の強化

PAPER-HILT: Personalized and Adaptive Privacy-Aware Early-Exit for Reinforcement Learning in Human-in-the-Loop Systems ( http://arxiv.org/abs/2403.05864v1 )

ライセンス: Link先を確認
Mojtaba Taherisadr, Salma Elmalaki(参考訳) 強化学習(Reinforcement Learning, RL)は、人間の相互作用の動的性質への適応性から、多様なヒト-イン-ループ(HITL)アプリケーションにおいて、従来のルールベースシステムよりも好まれる手法になりつつある。 しかし、そのような設定にRLを統合すると、機密性の高いユーザー情報を不注意に暴露する可能性があるため、重大なプライバシー上の懸念が生じる。 そこで本研究では,HITL環境におけるプライバシ保護を意識した早期退避アプローチを活用することで,革新的で適応的なRL戦略であるPAPER-HILTの開発に着目する。 このアプローチは、プライバシ保護とシステムユーティリティのトレードオフを動的に調整し、操作を個々の行動パターンや好みに合わせて調整する。 我々は主に、静的プライバシモデルに効果を及ぼさない人間の行動の可変性と進化的性質に対処することの課題を強調する。 PAPER-HILTの有効性は、スマートホーム環境とバーチャルリアリティ(VR)スマート教室の2つの異なる文脈で評価されている。 実験の結果,PAPER-HILTはユーザプライバシとアプリケーションユーティリティの個別均衡を提供し,個々のユーザニーズや好みに効果的に適応できることを示した。 どちらの実験も平均すると、ユーティリティ(パフォーマンス)は24%減少し、プライバシ(状態予測)は31%改善する。

Reinforcement Learning (RL) has increasingly become a preferred method over traditional rule-based systems in diverse human-in-the-loop (HITL) applications due to its adaptability to the dynamic nature of human interactions. However, integrating RL in such settings raises significant privacy concerns, as it might inadvertently expose sensitive user information. Addressing this, our paper focuses on developing PAPER-HILT, an innovative, adaptive RL strategy through exploiting an early-exit approach designed explicitly for privacy preservation in HITL environments. This approach dynamically adjusts the tradeoff between privacy protection and system utility, tailoring its operation to individual behavioral patterns and preferences. We mainly highlight the challenge of dealing with the variable and evolving nature of human behavior, which renders static privacy models ineffective. PAPER-HILT's effectiveness is evaluated through its application in two distinct contexts: Smart Home environments and Virtual Reality (VR) Smart Classrooms. The empirical results demonstrate PAPER-HILT's capability to provide a personalized equilibrium between user privacy and application utility, adapting effectively to individual user needs and preferences. On average for both experiments, utility (performance) drops by 24%, and privacy (state prediction) improves by 31%.
翻訳日:2024-03-13 12:02:04 公開日:2024-03-09
# POV:多視点世界におけるエゴセントリック・ハンドオブジェクトインタラクションのためのプロンプト指向ビュー非依存学習

POV: Prompt-Oriented View-Agnostic Learning for Egocentric Hand-Object Interaction in the Multi-View World ( http://arxiv.org/abs/2403.05856v1 )

ライセンス: Link先を確認
Boshen Xu, Sipeng Zheng, Qin Jin(参考訳) 人間は、手-物間相互作用(HOI)の第三者による観察をエゴセントリックな視点に翻訳するのが得意です。 しかし、現在の手法は、第三者から個人へ適応する能力の再現に苦慮している。 大規模ビデオデータセットからビュー非依存表現を学習しようとするアプローチもあるが、複数の第三者ビュー間の関係を無視するアプローチもある。 この目的のために,本論文で提案するPmpt-Oriented View-Agnostic Learning (POV) フレームワークを提案する。 具体的には,フレームレベルでのインタラクティブマスキングプロンプトを導入し,細粒度なアクション情報をキャプチャし,トークンレベルでのビュー認識プロンプトを導入し,ビュー非依存表現を学習する。 提案手法を検証するために,複数の第三者視点からエゴセントリック視点へ移動するための2つのベンチマークを構築した。 これらのベンチマークに関する広範な実験は、ビュー適応とビュー一般化の観点から、povフレームワークの効率性と有効性を示します。 私たちのコードは \url{https://github.com/xuboshen/pov_acmmm2023}で利用可能です。

We humans are good at translating third-person observations of hand-object interactions (HOI) into an egocentric view. However, current methods struggle to replicate this ability of view adaptation from third-person to first-person. Although some approaches attempt to learn view-agnostic representation from large-scale video datasets, they ignore the relationships among multiple third-person views. To this end, we propose a Prompt-Oriented View-agnostic learning (POV) framework in this paper, which enables this view adaptation with few egocentric videos. Specifically, We introduce interactive masking prompts at the frame level to capture fine-grained action information, and view-aware prompts at the token level to learn view-agnostic representation. To verify our method, we establish two benchmarks for transferring from multiple third-person views to the egocentric view. Our extensive experiments on these benchmarks demonstrate the efficiency and effectiveness of our POV framework and prompt tuning techniques in terms of view adaptation and view generalization. Our code is available at \url{https://github.com/xuboshen/pov_acmmm2023}.
翻訳日:2024-03-13 12:01:39 公開日:2024-03-09
# SSF-Net:ハイパースペクトル物体追跡のためのスペクトル角認識型空間スペクトル核融合ネットワーク

SSF-Net: Spatial-Spectral Fusion Network with Spectral Angle Awareness for Hyperspectral Object Tracking ( http://arxiv.org/abs/2403.05852v1 )

ライセンス: Link先を確認
Hanzheng Wang, Wei Li, Xiang-Gen Xia, Qian Du, and Jing Tian(参考訳) ハイパースペクトルビデオ(HSV)は、空間的、スペクトル的、時間的情報を同時に提供し、背景クラッタや物体追跡における視覚的類似性といった課題に非常に適している。 しかし、既存の手法は主にバンドの再グループ化に重点を置いており、特徴抽出のためにrgbトラッカに依存しており、スペクトル情報の探索やオブジェクトの特徴の補完的な表現の達成が困難になっている。 本稿では,超スペクトル(hs)物体追跡のためのスペクトル角認識(sst-net)を備えた空間スペクトル融合ネットワークを提案する。 まず、既存のネットワークにおけるスペクトル特徴抽出が不十分な問題に対処するため、空間スペクトル特徴バックボーン(S^2$FB)を設計する。 空間的およびスペクトル的抽出分岐により、テクスチャとスペクトルの結合表現が得られる。 次に、スペクトル注意融合モジュール(SAFM)を提示し、モダリティ内およびモダリティ間相関を捕捉し、HSおよびRGBモダリティから融合した特徴を得る。 視覚情報をHSスペクトルコンテキストに組み込んで、堅牢な表現を形成することができる。 第3に、対象位置に対するトラッカのより正確な応答を確保するため、スペクトル角認識モジュール(saam)は、予測段階におけるテンプレートと検索画像との領域レベルのスペクトル類似性を調べる。 さらに、同様の領域に基づくSAAMのガイダンスを提供するために、新しいスペクトル角認識損失(SAAL)を開発した。 最後に、ロバストな追跡結果を得るために、hsとrgbが予測した物体の動きを組み合わせて各モードの強さを活用する重み付き予測法を考える。 HOTCデータセットの大規模な実験は、最先端トラッカーと比較して提案したSSF-Netの有効性を示す。

Hyperspectral video (HSV) offers valuable spatial, spectral, and temporal information simultaneously, making it highly suitable for handling challenges such as background clutter and visual similarity in object tracking. However, existing methods primarily focus on band regrouping and rely on RGB trackers for feature extraction, resulting in limited exploration of spectral information and difficulties in achieving complementary representations of object features. In this paper, a spatial-spectral fusion network with spectral angle awareness (SST-Net) is proposed for hyperspectral (HS) object tracking. Firstly, to address the issue of insufficient spectral feature extraction in existing networks, a spatial-spectral feature backbone ($S^2$FB) is designed. With the spatial and spectral extraction branch, a joint representation of texture and spectrum is obtained. Secondly, a spectral attention fusion module (SAFM) is presented to capture the intra- and inter-modality correlation to obtain the fused features from the HS and RGB modalities. It can incorporate the visual information into the HS spectral context to form a robust representation. Thirdly, to ensure a more accurate response of the tracker to the object position, a spectral angle awareness module (SAAM) investigates the region-level spectral similarity between the template and search images during the prediction stage. Furthermore, we develop a novel spectral angle awareness loss (SAAL) to offer guidance for the SAAM based on similar regions. Finally, to obtain the robust tracking results, a weighted prediction method is considered to combine the HS and RGB predicted motions of objects to leverage the strengths of each modality. Extensive experiments on the HOTC dataset demonstrate the effectiveness of the proposed SSF-Net, compared with state-of-the-art trackers.
翻訳日:2024-03-13 12:00:41 公開日:2024-03-09
# tLaSDI:熱力学インフォームド潜在空間力学の同定

tLaSDI: Thermodynamics-informed latent space dynamics identification ( http://arxiv.org/abs/2403.05848v1 )

ライセンス: Link先を確認
Jun Sur Richard Park, Siu Wun Cheung, Youngsoo Choi, and Yeonjong Shin(参考訳) 熱力学の第一原理と第二原理を組み込んだデータ駆動潜在空間力学同定法(tLaSDI)を提案する。 潜在変数は非線形次元還元モデルとしてオートエンコーダを通して学習される。 潜在変数のダイナミクスは、ジェネリック形式を通じて熱力学的法則を尊重する特定の構造を保存するニューラルネットワークベースのモデルによって構成される。 オートエンコーダのヤコビアン計算を含む新たな損失定式化を提供する近似の抽象的誤差推定が確立される。 オートエンコーダと潜在ダイナミクスの両方が、新たな損失を最小限に抑えるように訓練されている。 数値的な例を示し,外挿においても堅牢な一般化能力を示すtLaSDIの性能を示す。 さらに, 潜在空間におけるエントロピー生成速度とフルステート溶液の挙動との間には, 興味深い相関関係がみられた。

We propose a data-driven latent space dynamics identification method (tLaSDI) that embeds the first and second principles of thermodynamics. The latent variables are learned through an autoencoder as a nonlinear dimension reduction model. The dynamics of the latent variables are constructed by a neural network-based model that preserves certain structures to respect the thermodynamic laws through the GENERIC formalism. An abstract error estimate of the approximation is established, which provides a new loss formulation involving the Jacobian computation of autoencoder. Both the autoencoder and the latent dynamics are trained to minimize the new loss. Numerical examples are presented to demonstrate the performance of tLaSDI, which exhibits robust generalization ability, even in extrapolation. In addition, an intriguing correlation is empirically observed between the entropy production rates in the latent space and the behaviors of the full-state solution.
翻訳日:2024-03-13 12:00:11 公開日:2024-03-09
# MirrorAttack:鏡を歪ませる3Dポイントクラウドのバックドア攻撃

MirrorAttack: Backdoor Attack on 3D Point Cloud with a Distorting Mirror ( http://arxiv.org/abs/2403.05847v1 )

ライセンス: Link先を確認
Yuhao Bian, Shengjing Tian, Xiuping Liu(参考訳) 3Dポイントクラウド処理のためのDeep Neural Networks(DNN)の広範な展開は、セキュリティ侵害、特にバックドア攻撃に対する感受性と非常に対照的である。 これらの攻撃はトレーニング中にハイジャックDNNを攻撃し、一度アクティベートされたデータにトリガーを埋め込むことで、ネットワークが未修正データの正常なパフォーマンスを維持しながら所定のエラーを発生させる。 このような高度な脅威に対する3Dポイントネットワークの堅牢な防御機構の研究が不十分であることを考えると、この脆弱性は大きなリスクをもたらす。 既存の攻撃は、基本的なポイントクラウド前処理手法に抵抗するか、微妙な手動設計に依存している。 3dポイントクラウドにおけるシンプルで効果的で難解なトリガーの探索は依然として困難な課題である。これらの課題に対処するため,我々は,自動エンコーダでクリーンポイントクラウドを再構築してトリガーをインプラントする,新しい有効な3dバックドア攻撃法であるmirrorattackを紹介する。 MirrorAttackのデータ駆動の性質は、複雑な手動設計の必要性を排除している。 リコンストラクションロスの最小化はインセプティビリティを自動改善する。 同時に、リコンストラクションネットワークはトリガーを非線形性とサンプル特異性で内包し、従来のプリプロセッシング技術では除去に役立たない。 また,球面高調波変換に基づくトリガー平滑化モジュールを取り付け,攻撃強度を制御し,定量的および定性的手法の有効性を検証した。 我々は,防衛技術の介入により,様々な種類の犠牲者モデルに対して最先端のASRを実現する。 さらに、トリガーによって導入された最小の摂動は、様々な指標によって評価され、メソッドのステルスを証明し、その不可避性を確実にする。

The widespread deployment of Deep Neural Networks (DNNs) for 3D point cloud processing starkly contrasts with their susceptibility to security breaches, notably backdoor attacks. These attacks hijack DNNs during training, embedding triggers in the data that, once activated, cause the network to make predetermined errors while maintaining normal performance on unaltered data. This vulnerability poses significant risks, especially given the insufficient research on robust defense mechanisms for 3D point cloud networks against such sophisticated threats. Existing attacks either struggle to resist basic point cloud pre-processing methods, or rely on delicate manual design. Exploring simple, effective, imperceptible, and difficult-to-defend triggers in 3D point clouds is still challenging.To address these challenges, we introduce MirrorAttack, a novel effective 3D backdoor attack method, which implants the trigger by simply reconstructing a clean point cloud with an auto-encoder. The data-driven nature of the MirrorAttack obviates the need for complex manual design. Minimizing the reconstruction loss automatically improves imperceptibility. Simultaneously, the reconstruction network endows the trigger with pronounced nonlinearity and sample specificity, rendering traditional preprocessing techniques ineffective in eliminating it. A trigger smoothing module based on spherical harmonic transformation is also attached to regulate the intensity of the attack.Both quantitive and qualitative results verify the effectiveness of our method. We achieve state-of-the-art ASR on different types of victim models with the intervention of defensive techniques. Moreover, the minimal perturbation introduced by our trigger, as assessed by various metrics, attests to the method's stealth, ensuring its imperceptibility.
翻訳日:2024-03-13 11:59:57 公開日:2024-03-09
# 拡散レンズ:テキスト間パイプラインにおけるテキストエンコーダの解釈

Diffusion Lens: Interpreting Text Encoders in Text-to-Image Pipelines ( http://arxiv.org/abs/2403.05846v1 )

ライセンス: Link先を確認
Michael Toker, Hadas Orgad, Mor Ventura, Dana Arad, Yonatan Belinkov(参考訳) テキスト間拡散モデル(T2I)は、テキストプロンプトの潜在表現を用いて、画像生成プロセスを導く。 しかし、エンコーダがテキスト表現を生成する過程は不明である。 中間表現から画像を生成することにより,T2Iモデルのテキストエンコーダを解析する拡散レンズを提案する。 拡散レンズを用いて、2つの最新のT2Iモデルの広範な解析を行う。 複合的なプロンプトを探索し、複数のオブジェクトを記述する複雑なシーンは、単純なシーンに比べて徐々に、よりゆっくりと構成されていることを発見した。 全体として、T2Iパイプラインのテキストエンコーダコンポーネントに関する貴重な洞察を提供する。

Text-to-image diffusion models (T2I) use a latent representation of a text prompt to guide the image generation process. However, the process by which the encoder produces the text representation is unknown. We propose the Diffusion Lens, a method for analyzing the text encoder of T2I models by generating images from its intermediate representations. Using the Diffusion Lens, we perform an extensive analysis of two recent T2I models. Exploring compound prompts, we find that complex scenes describing multiple objects are composed progressively and more slowly compared to simple scenes; Exploring knowledge retrieval, we find that representation of uncommon concepts requires further computation compared to common concepts, and that knowledge retrieval is gradual across layers. Overall, our findings provide valuable insights into the text encoder component in T2I pipelines.
翻訳日:2024-03-13 11:59:28 公開日:2024-03-09
# その番号を返せ! 算術学習における順序事項の復号化

Reverse That Number! Decoding Order Matters in Arithmetic Learning ( http://arxiv.org/abs/2403.05845v1 )

ライセンス: Link先を確認
Daniel Zhang-Li, Nianyi Lin, Jifan Yu, Zheyuan Zhang, Zijun Yao, Xiaokang Zhang, Lei Hou, Jing Zhang, Juanzi Li(参考訳) プレトレーニングの最近の進歩は、現代の大規模言語モデル(LLM)が算術演算を効果的に学習する能力を持っていることを示している。 しかし、算術演算における桁順の重要性を認めつつも、現在の方法論はLLMの算術を教えるための逐次的なステップバイステップのアプローチに大きく依存しており、結果としてより優れた性能を得るにはステップバイステップの細かなステップバイステップが伴うという結論が導かれる。 本研究は, 従来の経路から逸脱し, 最小の桁から出力を優先順位付けすることで, 桁順を再評価するだけでなく, ステップバイステップの手法を導入し, 複雑さを大幅に軽減する。 我々はこの手法を総合的な実験に応用した。 従来のSOTA法と比較すると,通常のトレーニングで使用するトークンの3分の1しか必要とせず,精度の全体的な改善が見られた。 レプリケーションとさらなる研究を容易にするため、コードとデータセットを \url{https://anonymous.4open.science/r/RAIT-9FB7/} で公開しました。

Recent advancements in pretraining have demonstrated that modern Large Language Models (LLMs) possess the capability to effectively learn arithmetic operations. However, despite acknowledging the significance of digit order in arithmetic computation, current methodologies predominantly rely on sequential, step-by-step approaches for teaching LLMs arithmetic, resulting in a conclusion where obtaining better performance involves fine-grained step-by-step. Diverging from this conventional path, our work introduces a novel strategy that not only reevaluates the digit order by prioritizing output from the least significant digit but also incorporates a step-by-step methodology to substantially reduce complexity. We have developed and applied this method in a comprehensive set of experiments. Compared to the previous state-of-the-art (SOTA) method, our findings reveal an overall improvement of in accuracy while requiring only a third of the tokens typically used during training. For the purpose of facilitating replication and further research, we have made our code and dataset publicly available at \url{https://anonymous.4open.science/r/RAIT-9FB7/}.
翻訳日:2024-03-13 11:59:15 公開日:2024-03-09
# 腫瘍病変セマンティクスセグメンテーションのためのマスク強調セグメントanyモデル

Mask-Enhanced Segment Anything Model for Tumor Lesion Semantic Segmentation ( http://arxiv.org/abs/2403.05912v1 )

ライセンス: Link先を確認
Hairong Shi, Songhao Han, Shaofei Huang, Yue Liao, Guanbin Li, Xiangxing Kong, Hua Zhu, Xiaomu Wang and Si Liu(参考訳) CTやMRI画像上の腫瘍病変の断片化は、がんの診断と治療計画において重要な役割を果たす。 各種医用画像・装置における腫瘍病変分画データの本質的差異を考慮すると,segment anything model (sam) に医学的知識を統合することは,その汎用性と一般化の可能性から有望な能力を示す。 近年の研究では、大規模医療セグメンテーションデータセットの事前トレーニングにより、SAMの医療的専門性の向上が試みられている。 しかし, 腫瘍の複雑化と前頭および背景領域の不均衡により, 3次元の腫瘍病変セグメンテーションにはまだ課題がある。 そこで我々は, 3D 腫瘍病変の分節化に適した斬新なアーキテクチャである Mask-Enhanced SAM (M-SAM) を導入する。 本研究では,m-sam内の新しいマスクエンハンスドアダプタ (mea) を提案する。これは,粗いセグメンテーションマスクからの位置データを用いて医用画像の意味情報を強化し,より精密なセグメンテーションマスクの生成を容易にする。 さらに, M-SAMに繰り返し改良方式を実装し, セグメンテーションマスクを徐々に改良し, 性能が向上した。 7つの腫瘍病変セグメンテーションデータセットの大規模な実験は、我々のM-SAMは高いセグメンテーション精度を達成するだけでなく、堅牢な一般化も示している。

Tumor lesion segmentation on CT or MRI images plays a critical role in cancer diagnosis and treatment planning. Considering the inherent differences in tumor lesion segmentation data across various medical imaging modalities and equipment, integrating medical knowledge into the Segment Anything Model (SAM) presents promising capability due to its versatility and generalization potential. Recent studies have attempted to enhance SAM with medical expertise by pre-training on large-scale medical segmentation datasets. However, challenges still exist in 3D tumor lesion segmentation owing to tumor complexity and the imbalance in foreground and background regions. Therefore, we introduce Mask-Enhanced SAM (M-SAM), an innovative architecture tailored for 3D tumor lesion segmentation. We propose a novel Mask-Enhanced Adapter (MEA) within M-SAM that enriches the semantic information of medical images with positional data from coarse segmentation masks, facilitating the generation of more precise segmentation masks. Furthermore, an iterative refinement scheme is implemented in M-SAM to refine the segmentation masks progressively, leading to improved performance. Extensive experiments on seven tumor lesion segmentation datasets indicate that our M-SAM not only achieves high segmentation accuracy but also exhibits robust generalization.
翻訳日:2024-03-13 11:55:24 公開日:2024-03-09
# オフライン強化学習によるAIによる意思決定における人間中心目標の最適化

Towards Optimizing Human-Centric Objectives in AI-Assisted Decision-Making With Offline Reinforcement Learning ( http://arxiv.org/abs/2403.05911v1 )

ライセンス: Link先を確認
Zana Bu\c{c}inca, Siddharth Swaroop, Amanda E. Paluch, Susan A. Murphy, Krzysztof Z. Gajos(参考訳) ai支援が意思決定プロセスにますます浸透するにつれ、私たちは、スキル向上やこれらのシステムと相互作用する個人のタスクの楽しさといった、意思決定の正確性を超えて、人間中心の目標を最適化しようとするかもしれません。 本稿では,このような人間中心の目的を最適化するための人間-AI意思決定をモデル化するための一般的なアプローチとして,オフライン強化学習(RL)を提案する。 我々のアプローチは、適切なタイプの支援を、適切なタイミングで、人間に適応的に提供することで、異なる目的を最適化することを目指している。 我々は、意思決定タスクにおける人間-AIの精度とタスクに関する人間の学習の2つの目標と、これらの2つの目標を前回の人間-AIインタラクションデータから最適化するポリシーの2つを用いて、このアプローチをインスタンス化する。 我々はAIによる意思決定における様々な基準に対する最適化されたポリシーを比較する。 2つの実験(N = 316 と N = 964)において、我々の結果は、精度に最適化されたポリシーと相互作用する人々が、他の種類のAIサポートと相互作用するよりもはるかに優れた精度(および人間とAIの相補性)を達成することを一貫して示しています。 以上の結果から,人間学習は正確性よりも最適化が困難であり,学習に最適化された政策と相互作用する参加者は,時にのみ大きな学習改善を示すことが示された。 本研究は,人間のAI意思決定のダイナミクスをモデル化する上で,オフラインRLが有望なアプローチであることを示し,AI支援意思決定空間に関する新たな知見を提供するとともに,AI支援意思決定における意思決定精度を超えた人間中心の目標を検討することの重要性を強調するとともに,その目的を最適化する新たな研究課題を開く。

As AI assistance is increasingly infused into decision-making processes, we may seek to optimize human-centric objectives beyond decision accuracy, such as skill improvement or task enjoyment of individuals interacting with these systems. With this aspiration in mind, we propose offline reinforcement learning (RL) as a general approach for modeling human-AI decision-making to optimize such human-centric objectives. Our approach seeks to optimize different objectives by adaptively providing decision support to humans -- the right type of assistance, to the right person, at the right time. We instantiate our approach with two objectives: human-AI accuracy on the decision-making task and human learning about the task, and learn policies that optimize these two objectives from previous human-AI interaction data. We compare the optimized policies against various baselines in AI-assisted decision-making. Across two experiments (N = 316 and N = 964), our results consistently demonstrate that people interacting with policies optimized for accuracy achieve significantly better accuracy -- and even human-AI complementarity -- compared to those interacting with any other type of AI support. Our results further indicate that human learning is more difficult to optimize than accuracy, with participants who interacted with learning-optimized policies showing significant learning improvement only at times. Our research (1) demonstrates offline RL to be a promising approach to model dynamics of human-AI decision-making, leading to policies that may optimize various human-centric objectives and provide novel insights about the AI-assisted decision-making space, and (2) emphasizes the importance of considering human-centric objectives beyond decision accuracy in AI-assisted decision-making, while also opening up the novel research challenge of optimizing such objectives.
翻訳日:2024-03-13 11:54:58 公開日:2024-03-09
# オープン量子系のダイナミクスのための低ランク変分量子アルゴリズム

Low-Rank Variational Quantum Algorithm for the Dynamics of Open Quantum Systems ( http://arxiv.org/abs/2403.05908v1 )

ライセンス: Link先を確認
Sara Santos, Xinyu Song and Vincenzo Savona(参考訳) 多体開量子システムのシミュレーションは、物理学、化学、物質科学、量子技術の発展において多くの顕著な問題を解決する鍵となる。 量子コンピュータは、量子状態を記述する密度行列のダイナミクスをアンサンブル平均で近似するハイブリッド量子古典的変分アルゴリズムにより、それらの静的および動的特性の効率的なシミュレーションにかなりの利点をもたらすかもしれない。 ここでは、密度行列の低ランク表現を含む量子状態がダイナミクスに沿って有界エントロピーを持つという仮定の下で、lindblad master方程式によって制御される密度行列のリアルタイム進化をシミュレートする変分量子アルゴリズムを開発した。 このアルゴリズムは、統計混合物の各純状態をパラメトリズド量子回路としてエンコードし、関連する確率を古典的に記憶される追加の変動パラメータとして、量子メモリに全密度行列が符号化されるアルゴリズムよりもはるかに少ない量子ビット数を要求する。 2つの変分Ans\atzeを提案し、その効果を2次元散逸横場Isingモデルの動力学シミュレーションで評価した。 結果は、近距離量子デバイス上の限られた量子資源を持つ低ランク状態におけるオープン量子システムのダイナミクスをシミュレートするアルゴリズムの効率を強調する。

The simulation of many-body open quantum systems is key to solving numerous outstanding problems in physics, chemistry, material science, and in the development of quantum technologies. Near-term quantum computers may bring considerable advantage for the efficient simulation of their static and dynamical properties, thanks to hybrid quantum-classical variational algorithms to approximate the dynamics of the density matrix describing the quantum state in terms of an ensemble average. Here, a variational quantum algorithm is developed to simulate the real-time evolution of the density matrix governed by the Lindblad master equation, under the assumption that the quantum state has a bounded entropy along the dynamics, entailing a low-rank representation of its density matrix. The algorithm encodes each pure state of the statistical mixture as a parametrized quantum circuit, and the associated probabilities as additional variational parameters stored classically, thereby requiring a significantly lower number of qubits than algorithms where the full density matrix is encoded in the quantum memory. Two variational Ans\"atze are proposed, and their effectiveness is assessed in the simulation of the dynamics of a 2D dissipative transverse field Ising model. The results underscore the algorithm's efficiency in simulating the dynamics of open quantum systems in the low-rank regime with limited quantum resources on a near-term quantum device.
翻訳日:2024-03-13 11:54:21 公開日:2024-03-09
# Lightning NeRF: 自律運転のための効率的なハイブリッドシーン表現

Lightning NeRF: Efficient Hybrid Scene Representation for Autonomous Driving ( http://arxiv.org/abs/2403.05907v1 )

ライセンス: Link先を確認
Junyi Cao, Zhichao Li, Naiyan Wang, Chao Ma(参考訳) 最近の研究は、自律運転におけるNeRFの有望な応用を強調している。 しかし,屋外環境の複雑さと運転シナリオの限定的な視点が相まって,景観形状を正確に再構成する作業が複雑になる。 このような課題は、リコンストラクションにおける品質の低下と、トレーニングとレンダリングの両方の期間の延長につながることが多い。 これらの課題に対処するために、Lightning NeRFを紹介する。 自動運転シナリオにおいて、lidar以前の幾何学を効果的に活用する効率的なハイブリッドシーン表現を使用する。 ライニングNeRFは、NeRFの新しいビュー合成性能を大幅に改善し、計算オーバーヘッドを低減する。 KITTI-360、Argoverse2、および我々のプライベートデータセットなどの実世界のデータセットの評価を通じて、我々のアプローチが、新しいビュー合成品質の最先端を超えるだけでなく、トレーニング速度の5倍向上とレンダリング速度の10倍改善を実現していることを示す。 コードはhttps://github.com/VISION-SJTU/Lightning-NeRFで公開されている。

Recent studies have highlighted the promising application of NeRF in autonomous driving contexts. However, the complexity of outdoor environments, combined with the restricted viewpoints in driving scenarios, complicates the task of precisely reconstructing scene geometry. Such challenges often lead to diminished quality in reconstructions and extended durations for both training and rendering. To tackle these challenges, we present Lightning NeRF. It uses an efficient hybrid scene representation that effectively utilizes the geometry prior from LiDAR in autonomous driving scenarios. Lightning NeRF significantly improves the novel view synthesis performance of NeRF and reduces computational overheads. Through evaluations on real-world datasets, such as KITTI-360, Argoverse2, and our private dataset, we demonstrate that our approach not only exceeds the current state-of-the-art in novel view synthesis quality but also achieves a five-fold increase in training speed and a ten-fold improvement in rendering speed. Codes are available at https://github.com/VISION-SJTU/Lightning-NeRF .
翻訳日:2024-03-13 11:53:57 公開日:2024-03-09
# 被表示カメラ画像復元のためのセグメンテーション誘導スパーストランス

Segmentation Guided Sparse Transformer for Under-Display Camera Image Restoration ( http://arxiv.org/abs/2403.05906v1 )

ライセンス: Link先を確認
Jingyun Xue, Tao Wang, Jun Wang, Kaihao Zhang, Wenhan Luo, Wenqi Ren, Zikun Liu, Hyunhee Park, Xiaochun Cao(参考訳) Under-Display Camera(UDC)は、ディスプレイパネルの下にカメラを隠してフルスクリーン表示を実現する新興技術である。 しかし、現在のudcの実装は深刻な劣化を引き起こす。 カメラ撮像に必要な入射光は、ディスプレイパネルを通過する際の減衰と回折を受け、udcイメージングの様々なアーティファクトに繋がる。 現在、一般的なudc画像復元法は畳み込みニューラルネットワークアーキテクチャを主に活用しているが、トランスフォーマー方式は画像復元タスクのほとんどにおいて優れた性能を示している。 これはトランスフォーマーが局所的な画像再構成のためにグローバルな特徴をサンプリングし、高品質な画像復元を実現する能力に起因している。 本稿では,udc劣化画像復元に視覚トランスフォーマを用いた場合,大域的注意が多量の冗長情報とノイズをサンプリングする。 さらに,集中注意を用いた通常の変圧器と比較して,疎注意を用いた変圧器は冗長な情報やノイズの悪影響を軽減することができる。 そこで本研究では,udc劣化画像から高品質画像の復元を行うためのセグメント化誘導スパーストランスフォーマ(sgsformer)を提案する。 具体的には,冗長な情報やノイズをフィルタリングするためにスパース・セルフ・アテンション(sparse self-attention)を利用し,モデルが注意を向けることにより,復元の必要な劣化した領域に関連する特徴に焦点をあてる。 さらに, インスタンス分割マップを事前情報として統合し, フィルタリングにおけるスパース自己意識を導出し, 適切な領域に焦点を当てる。

Under-Display Camera (UDC) is an emerging technology that achieves full-screen display via hiding the camera under the display panel. However, the current implementation of UDC causes serious degradation. The incident light required for camera imaging undergoes attenuation and diffraction when passing through the display panel, leading to various artifacts in UDC imaging. Presently, the prevailing UDC image restoration methods predominantly utilize convolutional neural network architectures, whereas Transformer-based methods have exhibited superior performance in the majority of image restoration tasks. This is attributed to the Transformer's capability to sample global features for the local reconstruction of images, thereby achieving high-quality image restoration. In this paper, we observe that when using the Vision Transformer for UDC degraded image restoration, the global attention samples a large amount of redundant information and noise. Furthermore, compared to the ordinary Transformer employing dense attention, the Transformer utilizing sparse attention can alleviate the adverse impact of redundant information and noise. Building upon this discovery, we propose a Segmentation Guided Sparse Transformer method (SGSFormer) for the task of restoring high-quality images from UDC degraded images. Specifically, we utilize sparse self-attention to filter out redundant information and noise, directing the model's attention to focus on the features more relevant to the degraded regions in need of reconstruction. Moreover, we integrate the instance segmentation map as prior information to guide the sparse self-attention in filtering and focusing on the correct regions.
翻訳日:2024-03-13 11:53:38 公開日:2024-03-09
# MaiBaamアノテーションガイドライン

MaiBaam Annotation Guidelines ( http://arxiv.org/abs/2403.05902v1 )

ライセンス: Link先を確認
Verena Blaschke, Barbara Kova\v{c}i\'c, Siyao Peng, Barbara Plank(参考訳) maibaamは、pos(part-of-speech)タグと構文依存でアノテートされたバイエルンのコーパスである。 MaiBaamは、Universal Dependencies (UD)プロジェクトに属しており、一般およびドイツのUDバージョン2ガイドラインを詳述しています。 本稿では,バイエルン語のデータの事前処理とトークン化方法,使用するPOSタグと依存関係の概要,ドイツ語などの近縁な言語にも適用可能なアノテーション決定の説明,さらにバイエルン語の文法に特有の決定の導入と動機付けについて述べる。

This document provides the annotation guidelines for MaiBaam, a Bavarian corpus annotated with part-of-speech (POS) tags and syntactic dependencies. MaiBaam belongs to the Universal Dependencies (UD) project, and our annotations elaborate on the general and German UD version 2 guidelines. In this document, we detail how to preprocess and tokenize Bavarian data, provide an overview of the POS tags and dependencies we use, explain annotation decisions that would also apply to closely related languages like German, and lastly we introduce and motivate decisions that are specific to Bavarian grammar.
翻訳日:2024-03-13 11:53:11 公開日:2024-03-09
# サンプルデータを用いた確率的連続時間ウィナーモデルのオンライン同定

Online Identification of Stochastic Continuous-Time Wiener Models Using Sampled Data ( http://arxiv.org/abs/2403.05899v1 )

ライセンス: Link先を確認
Mohamed Abdalmoaty, Efe C. Balta, John Lygeros, Roy S. Smith(参考訳) 確率的ウィナーモデルの同定において確率的外乱の存在を無視すると漸近的に偏った推定子が生じることはよく知られている。 一方、確率に基づく手法による最適な統計的同定は、データ分布の仮定に敏感であり、通常は比較的複雑なモンテカルロアルゴリズムに基づいている。 確率近似による連続時間確率的パラメトリックウィナーモデルの同定を目的として,出力誤差予測器に基づく簡易再帰的オンライン推定アルゴリズムを開発した。 この手法は一般的なモデルパラメータ化に適用でき、数値シミュレーションの例で示されているように、外乱過程のスペクトルに関する仮定に対して堅牢である。

It is well known that ignoring the presence of stochastic disturbances in the identification of stochastic Wiener models leads to asymptotically biased estimators. On the other hand, optimal statistical identification, via likelihood-based methods, is sensitive to the assumptions on the data distribution and is usually based on relatively complex sequential Monte Carlo algorithms. We develop a simple recursive online estimation algorithm based on an output-error predictor, for the identification of continuous-time stochastic parametric Wiener models through stochastic approximation. The method is applicable to generic model parameterizations and, as demonstrated in the numerical simulation examples, it is robust with respect to the assumptions on the spectrum of the disturbance process.
翻訳日:2024-03-13 11:53:00 公開日:2024-03-09
# RealNet: 異常検出のためのリアルな合成異常を含む特徴選択ネットワーク

RealNet: A Feature Selection Network with Realistic Synthetic Anomaly for Anomaly Detection ( http://arxiv.org/abs/2403.05897v1 )

ライセンス: Link先を確認
Ximiao Zhang, Min Xu, and Xiuzhuang Zhou(参考訳) 自己監督型特徴再構成法は, 産業画像の異常検出と局所化において有望な進歩を示した。 このような進歩にもかかわらず、これらの手法は、現実的で多様な異常サンプルを合成し、特徴の冗長性と事前訓練された特徴のバイアスに対処する上で、依然として課題に直面している。 本稿では,現実的な合成異常と適応的特徴選択を備えた機能再構成ネットワークであるrealnetを紹介する。 まず, 強度制御可能な拡散異常合成 (sdas) を提案し, 実異常の分布を模倣する様々な異常強度を持つ試料を生成できる拡散過程に基づく合成戦略を提案する。 第2に,anomaly-aware features selection (afs) を開発した。anomaly-aware features selection (afs) は,計算コストを制御しながら異常検出性能を向上させるために,代表的および識別的事前学習された特徴サブセットを選択する手法である。 第3に,複数レベルの粒度の異常領域を包括的に同定するための識別残差を適応的に選択する手法であるRestruction Residuals Selection(RRS)を導入する。 我々は4つのベンチマークデータセット上でRealNetを評価し、その結果、現在の最先端手法と比較して、Image AUROCとPixel AUROCに大きな改善が見られた。 コード、データ、モデルはhttps://github.com/cnulab/realnetで入手できる。

Self-supervised feature reconstruction methods have shown promising advances in industrial image anomaly detection and localization. Despite this progress, these methods still face challenges in synthesizing realistic and diverse anomaly samples, as well as addressing the feature redundancy and pre-training bias of pre-trained feature. In this work, we introduce RealNet, a feature reconstruction network with realistic synthetic anomaly and adaptive feature selection. It is incorporated with three key innovations: First, we propose Strength-controllable Diffusion Anomaly Synthesis (SDAS), a diffusion process-based synthesis strategy capable of generating samples with varying anomaly strengths that mimic the distribution of real anomalous samples. Second, we develop Anomaly-aware Features Selection (AFS), a method for selecting representative and discriminative pre-trained feature subsets to improve anomaly detection performance while controlling computational costs. Third, we introduce Reconstruction Residuals Selection (RRS), a strategy that adaptively selects discriminative residuals for comprehensive identification of anomalous regions across multiple levels of granularity. We assess RealNet on four benchmark datasets, and our results demonstrate significant improvements in both Image AUROC and Pixel AUROC compared to the current state-o-the-art methods. The code, data, and models are available at https://github.com/cnulab/RealNet.
翻訳日:2024-03-13 11:52:47 公開日:2024-03-09
# 高速カーネルシーンフロー

Fast Kernel Scene Flow ( http://arxiv.org/abs/2403.05896v1 )

ライセンス: Link先を確認
Xueqian Li and Simon Lucey(参考訳) シーンフローのモデル化に深い暗黙的ニューラル関数を用いるnsfp[25]のような現在の最先端手法とは対照的に,古典的カーネル表現を用いた新しいアプローチを提案する。 この表現は、線形システムの解法によって達成された最近の深いアプローチと比較して、特別な計算効率を示すと同時に、密集したライダーポイントを効果的に扱うことができる。 ランタイム最適化に基づく手法として,大規模lidarデータセットにおける競合性能を実現するため,様々な分散シナリオにまたがって印象的な一般化性を示す。 大規模クラウド上での効率的なライダーシーンフロー推定における最先端性能を示す新しい位置符号化型カーネルを提案する。 提案手法の重要な特徴は,高密度ライダーデータ(約8k-144kポイント)によるリアルタイムに近い性能(約150-170ms)であり,ロボット工学や自律運転シナリオにおける様々な実践的応用を可能にする。

In contrast to current state-of-the-art methods, such as NSFP [25], which employ deep implicit neural functions for modeling scene flow, we present a novel approach that utilizes classical kernel representations. This representation enables our approach to effectively handle dense lidar points while demonstrating exceptional computational efficiency -- compared to recent deep approaches -- achieved through the solution of a linear system. As a runtime optimization-based method, our model exhibits impressive generalizability across various out-of-distribution scenarios, achieving competitive performance on large-scale lidar datasets. We propose a new positional encoding-based kernel that demonstrates state-of-the-art performance in efficient lidar scene flow estimation on large-scale point clouds. An important highlight of our method is its near real-time performance (~150-170 ms) with dense lidar data (~8k-144k points), enabling a variety of practical applications in robotics and autonomous driving scenarios.
翻訳日:2024-03-13 11:52:23 公開日:2024-03-09
# DO3D:単眼映像からの物体認識3次元運動と深さの自己教師型学習

DO3D: Self-supervised Learning of Decomposed Object-aware 3D Motion and Depth from Monocular Videos ( http://arxiv.org/abs/2403.05895v1 )

ライセンス: Link先を確認
Xiuzhe Wu, Xiaoyang Lyu, Qihao Huang, Yong Liu, Yang Wu, Ying Shan, Xiaojuan Qi(参考訳) モノクロビデオからの自己監督深度推定においてかなりの進歩が達成されているが、既存の手法の多くは、ビデオ内の全ての物体を静的な実体として扱うが、現実のシーンの動的な性質に反し、動く物体の幾何学や動きをモデル化することができない。 本稿では,単眼映像から3次元動作と奥行きを共同学習する自己教師あり方式を提案する。 本システムでは,深度を推定する深度推定モジュールと,エゴモーションと3次元物体の動きを推定する新しい分解対象3次元運動推定モジュールを備える。 深度と動きのネットワークは、現実世界のシーンの幾何学とダイナミクスを忠実にモデル化するために協力的に働く。 これらの予測を組み合わせることで、自己監督訓練のための新しいビデオフレームを合成する。 私たちのフレームワークのコアコンポーネントであるdo3dは、カメラのエゴモーションとインスタンス認識された3dオブジェクトの動きを別々に予測することを学ぶ新しいモーションアンタグルメントモジュールです。 非剛体3次元物体の運動を推定する困難さを軽減するため、オブジェクトワイド6-DoF大域変換と画素ワイド局所3次元運動変形場に分解する。 KITTI,Cityscapes,VKITTI2といった3つのベンチマークデータセットを用いて定性的,定量的な実験を行い,評価されたすべての設定において優れた性能を提供する。 深度推定タスクでは、KITTIベンチマークで0.099の絶対相対深度誤差 (abs rel) を達成し、高分解能設定における比較研究を全て上回っている。 さらに,光学的フロー推定結果(KITTIの7.09のEPE)も最先端手法を超越し,動的領域の推定を大幅に改善し,動作モデルの有効性を示した。 私たちのコードは利用可能です。

Although considerable advancements have been attained in self-supervised depth estimation from monocular videos, most existing methods often treat all objects in a video as static entities, which however violates the dynamic nature of real-world scenes and fails to model the geometry and motion of moving objects. In this paper, we propose a self-supervised method to jointly learn 3D motion and depth from monocular videos. Our system contains a depth estimation module to predict depth, and a new decomposed object-wise 3D motion (DO3D) estimation module to predict ego-motion and 3D object motion. Depth and motion networks work collaboratively to faithfully model the geometry and dynamics of real-world scenes, which, in turn, benefits both depth and 3D motion estimation. Their predictions are further combined to synthesize a novel video frame for self-supervised training. As a core component of our framework, DO3D is a new motion disentanglement module that learns to predict camera ego-motion and instance-aware 3D object motion separately. To alleviate the difficulties in estimating non-rigid 3D object motions, they are decomposed to object-wise 6-DoF global transformations and a pixel-wise local 3D motion deformation field. Qualitative and quantitative experiments are conducted on three benchmark datasets, including KITTI, Cityscapes, and VKITTI2, where our model delivers superior performance in all evaluated settings. For the depth estimation task, our model outperforms all compared research works in the high-resolution setting, attaining an absolute relative depth error (abs rel) of 0.099 on the KITTI benchmark. Besides, our optical flow estimation results (an overall EPE of 7.09 on KITTI) also surpass state-of-the-art methods and largely improve the estimation of dynamic regions, demonstrating the effectiveness of our motion model. Our code will be available.
翻訳日:2024-03-13 11:52:07 公開日:2024-03-09
# 知識蒸留における周波数注意

Frequency Attention for Knowledge Distillation ( http://arxiv.org/abs/2403.05894v1 )

ライセンス: Link先を確認
Cuong Pham, Van-Anh Nguyen, Trung Le, Dinh Phung, Gustavo Carneiro, and Thanh-Toan Do(参考訳) 知識蒸留は、複雑な教師モデルから知識を蒸留することで、軽量の学生モデルを学ぶ、コンパクトなディープニューラルネットワークを学ぶための魅力的なアプローチである。 注意に基づく知識蒸留は、注意機構を用いて教師の模倣を奨励する中間的特徴に基づく知識蒸留の特定の形態である。 しかし,従来の注意に基づく蒸留手法のほとんどは,主に入力画像の局所領域に影響を与える空間領域に注意を向けている。 効果的な知識伝達に必要な広いコンテキストやグローバルな情報を捉える必要がある場合、これは不十分かもしれません。 周波数領域では、各周波数は空間領域内の画像のすべての画素から決定されるため、画像に関する大域的な情報を含むことができる。 周波数領域の利点に着想を得て,周波数領域の注意機構として機能する新しいモジュールを提案する。 このモジュールは学習可能なグローバルフィルタで構成されており、教師の特徴の指導の下で生徒の特徴の周波数を調整することができる。 そこで,提案する周波数アテンションモジュールを活用し,知識レビューに基づく蒸留モデルを提案する。 画像分類とオブジェクト検出ベンチマークデータセットに関する様々な教員・学生アーキテクチャによる広範な実験により,提案手法が他の知識蒸留法よりも優れていることが示された。

Knowledge distillation is an attractive approach for learning compact deep neural networks, which learns a lightweight student model by distilling knowledge from a complex teacher model. Attention-based knowledge distillation is a specific form of intermediate feature-based knowledge distillation that uses attention mechanisms to encourage the student to better mimic the teacher. However, most of the previous attention-based distillation approaches perform attention in the spatial domain, which primarily affects local regions in the input image. This may not be sufficient when we need to capture the broader context or global information necessary for effective knowledge transfer. In frequency domain, since each frequency is determined from all pixels of the image in spatial domain, it can contain global information about the image. Inspired by the benefits of the frequency domain, we propose a novel module that functions as an attention mechanism in the frequency domain. The module consists of a learnable global filter that can adjust the frequencies of student's features under the guidance of the teacher's features, which encourages the student's features to have patterns similar to the teacher's features. We then propose an enhanced knowledge review-based distillation model by leveraging the proposed frequency attention module. The extensive experiments with various teacher and student architectures on image classification and object detection benchmark datasets show that the proposed approach outperforms other knowledge distillation methods.
翻訳日:2024-03-13 11:51:29 公開日:2024-03-09
# 連帯型インクリメンタル学習における効率的なリプレイに向けて

Towards Efficient Replay in Federated Incremental Learning ( http://arxiv.org/abs/2403.05890v1 )

ライセンス: Link先を確認
Yichen Li, Qunwei Li, Haozhao Wang, Ruixuan Li, Wenliang Zhong, Guannan Zhang(参考訳) フェデレーション学習(fl)では、各クライアントのデータは通常固定または静的と仮定される。 しかし、データドメインが動的に増大する可能性がある現実世界のアプリケーションでは、データが漸進的に現れることが多い。 本研究では,エッジクライアントが全データを保持するのに十分なストレージスペースを欠くフェデレーション・インクリメンタル・ラーニング(fil)シナリオにおいて,データの不均一性を伴う破滅的な忘れ方について検討する。 我々はre-fedというfil用のシンプルな汎用フレームワークを使うことを提案し、各クライアントがリプレイのために重要なサンプルをキャッシュするためにコーディネートすることができる。 具体的には、新しいタスクが到着すると、各クライアントはまず、グローバルとローカルの重要度に基づいて、選択したサンプルをキャッシュする。 そして、クライアントは新しいタスクからキャッシュされたサンプルとサンプルの両方でローカルモデルをトレーニングします。 理論的には,リプレイのための重要なサンプルを見つけるための再送の能力を分析し,破滅的な忘れる問題を緩和する。 さらに,Re-Fedは最先端の手法に比べて競争性能が高いことを示す。

In Federated Learning (FL), the data in each client is typically assumed fixed or static. However, data often comes in an incremental manner in real-world applications, where the data domain may increase dynamically. In this work, we study catastrophic forgetting with data heterogeneity in Federated Incremental Learning (FIL) scenarios where edge clients may lack enough storage space to retain full data. We propose to employ a simple, generic framework for FIL named Re-Fed, which can coordinate each client to cache important samples for replay. More specifically, when a new task arrives, each client first caches selected previous samples based on their global and local importance. Then, the client trains the local model with both the cached samples and the samples from the new task. Theoretically, we analyze the ability of Re-Fed to discover important samples for replay thus alleviating the catastrophic forgetting problem. Moreover, we empirically show that Re-Fed achieves competitive performance compared to state-of-the-art methods.
翻訳日:2024-03-13 11:51:06 公開日:2024-03-09
# モデル再プログラミングによるサンプル外劣化の一般化

Generalizing to Out-of-Sample Degradations via Model Reprogramming ( http://arxiv.org/abs/2403.05886v1 )

ライセンス: Link先を確認
Runhua Jiang, Yahong Han(参考訳) 既存の画像復元モデルは、通常、特定のタスクのために設計され、トレーニング中に遭遇しないサンプル外劣化を一般化するのに苦労する。 ゼロショット法は、テストサンプルのモデルパラメータを微調整することでこの制限に対処できるが、その有効性は、事前定義された自然前処理と特定の劣化の物理モデルに依存する。 それでも、現実のシナリオで直面するサンプル外劣化を決定することは、常に非現実的です。 結果として,本質的な一般化能力を持つ復元モデルを訓練することが望ましい。 この目的のために, サンプル外劣化を処理可能な復元モデルを開発することを目的とした, サンプル外復元(OSR)タスクを導入する。 直感的な解決策は、サンプル外劣化を既知の復元モデルの劣化に事前翻訳することである。 しかし、画像空間で直接翻訳することは複雑な画像翻訳の問題につながる可能性がある。 この問題に対処するために,量子力学および波動関数によるサンプル外劣化を翻訳するモデル再プログラミングフレームワークを提案する。 具体的には、入力画像は振幅および位相項の波動関数として分離される。 位相項を適応させることにより、サンプル外劣化の翻訳を行う。 一方、振幅項では、画像内容を維持して拡張する。 これら2つの用語を入力とすることで、復元モデルは微調整なしでサンプル外劣化を処理できる。 複数の評価事例にわたる広範な実験を通じて,提案手法の有効性と柔軟性を実証する。 私たちのコードは、 \href{https://github.com/ddghjikle/Out-of-sample-restoration}{Github}で利用可能です。

Existing image restoration models are typically designed for specific tasks and struggle to generalize to out-of-sample degradations not encountered during training. While zero-shot methods can address this limitation by fine-tuning model parameters on testing samples, their effectiveness relies on predefined natural priors and physical models of specific degradations. Nevertheless, determining out-of-sample degradations faced in real-world scenarios is always impractical. As a result, it is more desirable to train restoration models with inherent generalization ability. To this end, this work introduces the Out-of-Sample Restoration (OSR) task, which aims to develop restoration models capable of handling out-of-sample degradations. An intuitive solution involves pre-translating out-of-sample degradations to known degradations of restoration models. However, directly translating them in the image space could lead to complex image translation issues. To address this issue, we propose a model reprogramming framework, which translates out-of-sample degradations by quantum mechanic and wave functions. Specifically, input images are decoupled as wave functions of amplitude and phase terms. The translation of out-of-sample degradation is performed by adapting the phase term. Meanwhile, the image content is maintained and enhanced in the amplitude term. By taking these two terms as inputs, restoration models are able to handle out-of-sample degradations without fine-tuning. Through extensive experiments across multiple evaluation cases, we demonstrate the effectiveness and flexibility of our proposed framework. Our codes are available at \href{https://github.com/ddghjikle/Out-of-sample-restoration}{Github}.
翻訳日:2024-03-13 11:50:48 公開日:2024-03-09
# 微分:安定階数に導かれる次元の縮小

DiffRed: Dimensionality Reduction guided by stable rank ( http://arxiv.org/abs/2403.05882v1 )

ライセンス: Link先を確認
Prarabdh Shukla, Gagan Raj Gupta, Kunal Dutta(参考訳) 本研究では,まずデータ行列 a を最初の $k_1$ 主成分と残差行列 $a^{*}$ (k_1$-rank 近似を減算した後) と $k_2$ gaussian のランダムベクトルに沿って投影する,新しい次元性低減手法 diffred を提案する。 本研究では,m1,平均二乗対距離の歪み,応力,対距離の歪みの正規化値を評価する。 DiffRedが$O\left(\sqrt {\frac{1-p}{k_2}}\right)$ on Stress と$O\left(\frac{(1-p)}{\sqrt{k_2*\rho(A^{*})}}\right)$ on M1 ここで$p$は最初の$k_1$主成分によって説明される分散の分数であり、$\rho(A^{*})$は$A^{*}$の安定ランクである。 これらの境界は、ランダムマップの現在知られている結果よりも厳密である。 実世界の様々なデータセットに関する広範な実験により、DiffRedは、よく知られた次元減少技術と比較して、M1のほぼ0とより低い値の応力を達成することを示した。 特にDiffRedは、600万の次元データセットをPCAよりも54%低い応力で10次元にマッピングすることができる。

In this work, we propose a novel dimensionality reduction technique, DiffRed, which first projects the data matrix, A, along first $k_1$ principal components and the residual matrix $A^{*}$ (left after subtracting its $k_1$-rank approximation) along $k_2$ Gaussian random vectors. We evaluate M1, the distortion of mean-squared pair-wise distance, and Stress, the normalized value of RMS of distortion of the pairwise distances. We rigorously prove that DiffRed achieves a general upper bound of $O\left(\sqrt{\frac{1-p}{k_2}}\right)$ on Stress and $O\left(\frac{(1-p)}{\sqrt{k_2*\rho(A^{*})}}\right)$ on M1 where $p$ is the fraction of variance explained by the first $k_1$ principal components and $\rho(A^{*})$ is the stable rank of $A^{*}$. These bounds are tighter than the currently known results for Random maps. Our extensive experiments on a variety of real-world datasets demonstrate that DiffRed achieves near zero M1 and much lower values of Stress as compared to the well-known dimensionality reduction techniques. In particular, DiffRed can map a 6 million dimensional dataset to 10 dimensions with 54% lower Stress than PCA.
翻訳日:2024-03-13 11:50:26 公開日:2024-03-09
# KG-Rank:知識グラフとランキング技術による医療QAのための大規模言語モデルの実現

KG-Rank: Enhancing Large Language Models for Medical QA with Knowledge Graphs and Ranking Techniques ( http://arxiv.org/abs/2403.05881v1 )

ライセンス: Link先を確認
Rui Yang, Haoran Liu, Qingcheng Zeng, Yu He Ke, Wanxin Li, Lechao Cheng, Qingyu Chen, James Caverlee, Yutaka Matsuo, Irene Li(参考訳) 大規模言語モデル(LLM)は、生成機能に対する医療革新が著しく進んでいる。 しかし、医学的事実や固有のバイアスから逸脱する可能性があるため、実際の臨床現場での応用は困難である。 本研究では,医学領域における自由文質問応答(QA)を改善することを目的として,医療知識グラフ(KG)をランク付けおよび再ランク付け技術に活用する拡張LDMフレームワークKG-Rankを開発する。 具体的には、質問を受信すると、まず医療用kgからトリプレットを取り出し、事実情報を集めます。 次に,これらの三重項の順序付けを洗練させる手法を革新的に適用し,より正確な解を求める。 我々の知る限りでは、KG-Rankは、医学的QAにおけるKGと組み合わせたランキングモデルの最初の応用である。 選択された4つの医療用qaデータセットの評価は、kg-rankがルージュ-lスコアで18%以上の改善を達成していることを示している。 さらに、KG-Rankをオープンドメインに拡張し、ROUGE-Lの14%の改善を実現し、KG-Rankの有効性と可能性を示す。

Large Language Models (LLMs) have significantly advanced healthcare innovation on generation capabilities. However, their application in real clinical settings is challenging due to potential deviations from medical facts and inherent biases. In this work, we develop an augmented LLM framework, KG-Rank, which leverages a medical knowledge graph (KG) with ranking and re-ranking techniques, aiming to improve free-text question-answering (QA) in the medical domain. Specifically, upon receiving a question, we initially retrieve triplets from a medical KG to gather factual information. Subsequently, we innovatively apply ranking methods to refine the ordering of these triplets, aiming to yield more precise answers. To the best of our knowledge, KG-Rank is the first application of ranking models combined with KG in medical QA specifically for generating long answers. Evaluation of four selected medical QA datasets shows that KG-Rank achieves an improvement of over 18% in the ROUGE-L score. Moreover, we extend KG-Rank to open domains, where it realizes a 14% improvement in ROUGE-L, showing the effectiveness and potential of KG-Rank.
翻訳日:2024-03-13 11:49:25 公開日:2024-03-09
# リカレントニューラルネットワークによる3次元点雲中の物体の分類:GRU LSTMハイブリッドアプローチ

Classifying Objects in 3D Point Clouds Using Recurrent Neural Network: A GRU LSTM Hybrid Approach ( http://arxiv.org/abs/2403.05950v1 )

ライセンス: Link先を確認
Ramin Mousa, Mitra Khezli, Saba Hesaraki(参考訳) 3Dポイントクラウドにおけるオブジェクトの正確な分類は、自律的なナビゲーションや拡張現実/仮想現実シナリオなど、いくつかのアプリケーションで大きな問題となっている。 本稿では,拡張現実における3次元物体分類のための深層学習戦略を提案する。 提案手法はGRUとLSTMの組み合わせである。 LSTMネットワークは、より長い依存性をよく学習するが、ゲートの数が多いため、トレーニングに時間がかかり、一方、GRUネットワークはLSTMよりも性能が低いが、GRUよりもトレーニング速度が高い。 提案手法では,これら2つのネットワークの速度と精度の組み合わせを用いた。 提案手法は4,499,0641点のデータセットで0.99の精度を達成し、8つのクラス(ラベルなし、人為的地形、自然地形、高植生、低植生、建物、ハードスケープ、スキャニングアーティファクト、車)を含む。 一方、従来の機械学習アプローチは、ベストケースで最大精度0.9489を達成することができる。 キーワード:ポイントクラウド分類、バーチャルリアリティ、ハイブリッドモデル、GRULSTM、GRU、LSTM

Accurate classification of objects in 3D point clouds is a significant problem in several applications, such as autonomous navigation and augmented/virtual reality scenarios, which has become a research hot spot. In this paper, we presented a deep learning strategy for 3D object classification in augmented reality. The proposed approach is a combination of the GRU and LSTM. LSTM networks learn longer dependencies well, but due to the number of gates, it takes longer to train; on the other hand, GRU networks have a weaker performance than LSTM, but their training speed is much higher than GRU, which is The speed is due to its fewer gates. The proposed approach used the combination of speed and accuracy of these two networks. The proposed approach achieved an accuracy of 0.99 in the 4,499,0641 points dataset, which includes eight classes (unlabeled, man-made terrain, natural terrain, high vegetation, low vegetation, buildings, hardscape, scanning artifacts, cars). Meanwhile, the traditional machine learning approaches could achieve a maximum accuracy of 0.9489 in the best case. Keywords: Point Cloud Classification, Virtual Reality, Hybrid Model, GRULSTM, GRU, LSTM
翻訳日:2024-03-13 11:45:34 公開日:2024-03-09
# diffツールの精度評価のための新しいリファクタリングおよび意味認識抽象構文木差異比較ツールとベンチマーク

A Novel Refactoring and Semantic Aware Abstract Syntax Tree Differencing Tool and a Benchmark for Evaluating the Accuracy of Diff Tools ( http://arxiv.org/abs/2403.05939v1 )

ライセンス: Link先を確認
Pouria Alikhanifard and Nikolaos Tsantalis(参考訳) ソフトウェアは新しい要件をサポートし、バグに対処し、パフォーマンスを向上し、メンテナンス性を確保するために、常に変更を行う。 このように、開発者は仕事のほとんどをチームメイトのコード変更を理解し、レビューするために費やします。 abstract syntax tree (ast) diffツールは、多くの開発者が使っている行ベースのdiffツールの制限を克服するために開発された。 複雑な変更を理解するためのAST diffツールによる顕著な改善にもかかわらず、(1)マルチマッピングサポートの欠如、(2)セマンティックに互換性のないASTノードのマッチング、(3)マッチングプロセスをガイドする言語ヒントの無視、(4)リファクタリングの意識の欠如、(5)コミットレベルのdiffサポートの欠如など、深刻な制限に悩まされている。 上記の制限をすべて解決するRefactoringMinerに基づく新しいAST diffツールを提案する。 まず、refactoringminerの改良により文のマッピング精度が向上し、refactoringminerが提供するリファクタリングインスタンスとマッチングされたプログラム要素宣言のペアに基づいて、所定のコミットやプルリクエストに対してast diffを生成するアルゴリズムを開発した。 ツールの精度を評価し、最先端のツールと比較するため、800のバグ修正コミットと188のリファクタリングコミットを含むASTノードマッピングの最初のベンチマークを作成しました。 評価の結果,我々のツールは,特にコミットのリファクタリングにおいて,より高速なツールに匹敵する実行時間で,大幅な精度の向上とリコールを実現していることがわかった。

Software undergoes constant changes to support new requirements, address bugs, enhance performance, and ensure maintainability. Thus, developers spend a great portion of their workday trying to understand and review the code changes of their teammates. Abstract Syntax Tree (AST) diff tools were developed to overcome the limitations of line-based diff tools, which are used by the majority of developers. Despite the notable improvements brought by AST diff tools in understanding complex changes, they still suffer from serious limitations, such as (1) lacking multi-mapping support, (2) matching semantically incompatible AST nodes, (3) ignoring language clues to guide the matching process, (4) lacking refactoring awareness, and (5) lacking commit-level diff support. We propose a novel AST diff tool based on RefactoringMiner that resolves all aforementioned limitations. First, we improved RefactoringMiner to increase its statement mapping accuracy, and then we developed an algorithm that generates AST diff for a given commit or pull request based on the refactoring instances and pairs of matched program element declarations provided by RefactoringMiner. To evaluate the accuracy of our tool and compare it with the state-of-the-art tools, we created the first benchmark of AST node mappings, including 800 bug-fixing commits and 188 refactoring commits. Our evaluation showed that our tool achieved a considerably higher precision and recall, especially for refactoring commits, with an execution time that is comparable with that of the faster tools.
翻訳日:2024-03-13 11:44:43 公開日:2024-03-09
# ニューラルネットワークに基づく画像符号化の提案に応えるウェーブレット様変換ベース技術

Wavelet-Like Transform-Based Technology in Response to the Call for Proposals on Neural Network-Based Image Coding ( http://arxiv.org/abs/2403.05937v1 )

ライセンス: Link先を確認
Cunhui Dong, Haichuan Ma, Haotian Zhang, Changsheng Gao, Li Li, Dong Liu(参考訳) ニューラルネットワークに基づく画像符号化は誕生以来急速に発展してきた。 2022年まで、その性能は従来の画像符号化フレームワーク、h.266/vvcを上回っていた。 このような成功を目撃したIEEE 1857.11のワーキングサブグループは、ニューラルネットワークベースの画像コーディング標準プロジェクトの初期化と、それに対応する提案(CfP)を発行している。 CfPに応答して、新しいウェーブレットのような変換ベースのエンドツーエンド画像符号化フレームワーク、iWaveV3を紹介する。 iWaveV3には、アフィンウェーブレットのような変換、知覚に優しい品質基準、より高度なトレーニングとオンライン最適化戦略など、多くの新機能が組み込まれています。 ロスレス圧縮とロスレス圧縮を同時にサポートする特徴を保ちながら、iWaveV3は客観的品質の最先端圧縮効率も達成し、知覚品質に非常に競争力がある。 その結果、iWaveV3は、ニューラルネットワークベースの画像符号化のためのIEEE標準を開発するための候補スキームとして採用されている。

Neural network-based image coding has been developing rapidly since its birth. Until 2022, its performance has surpassed that of the best-performing traditional image coding framework -- H.266/VVC. Witnessing such success, the IEEE 1857.11 working subgroup initializes a neural network-based image coding standard project and issues a corresponding call for proposals (CfP). In response to the CfP, this paper introduces a novel wavelet-like transform-based end-to-end image coding framework -- iWaveV3. iWaveV3 incorporates many new features such as affine wavelet-like transform, perceptual-friendly quality metric, and more advanced training and online optimization strategies into our previous wavelet-like transform-based framework iWave++. While preserving the features of supporting lossy and lossless compression simultaneously, iWaveV3 also achieves state-of-the-art compression efficiency for objective quality and is very competitive for perceptual quality. As a result, iWaveV3 is adopted as a candidate scheme for developing the IEEE Standard for neural-network-based image coding.
翻訳日:2024-03-13 11:44:15 公開日:2024-03-09
# 雲の3次元ボリュームリカバリと気候解析の不確実性

Learned 3D volumetric recovery of clouds and its uncertainty for climate analysis ( http://arxiv.org/abs/2403.05932v1 )

ライセンス: Link先を確認
Roi Ronen and Ilan Koren and Aviad Levis and Eshkol Eytan and Vadim Holodovsky and Yoav Y. Schechner(参考訳) 気候予測や雲物理学における重要な不確実性は、浅い散在する雲に関する観測上のギャップと結びついている。 これらの課題に対処するには、3次元(3次元)の不均質な体積散乱コンテンツをリモートセンシングする必要がある。 これはパッシブ散乱CT(PTCT)と呼ばれる。 クラウドのctを実現するための学習ベースモデル (probct) を, ノイズの多い多視点空間ベース画像に基づいて設計する。 ProbCTは3次元位置当たりの異種絶滅係数の後方確率分布を初めて推定した。 これは任意の価値統計、例えば最も可能性の高い絶滅の3次元場とその不確実性をもたらす。 ProbCTはニューラルネットワークの表現を使い、基本的にリアルタイムの推論を行う。 ProbCTは、新しいラベル付き物理に基づく雲の体積場とその対応する画像の多クラスデータベースによる教師付きトレーニングを行っている。 分散推論を改善するために,差分レンダリングによる自己教師付き学習を取り入れている。 シミュレーションおよび実世界のデータに基づくアプローチを実証し, 降水および再生可能エネルギーに対する3次元回復と不確実性との関連性を示す。

Significant uncertainty in climate prediction and cloud physics is tied to observational gaps relating to shallow scattered clouds. Addressing these challenges requires remote sensing of their three-dimensional (3D) heterogeneous volumetric scattering content. This calls for passive scattering computed tomography (CT). We design a learning-based model (ProbCT) to achieve CT of such clouds, based on noisy multi-view spaceborne images. ProbCT infers - for the first time - the posterior probability distribution of the heterogeneous extinction coefficient, per 3D location. This yields arbitrary valuable statistics, e.g., the 3D field of the most probable extinction and its uncertainty. ProbCT uses a neural-field representation, making essentially real-time inference. ProbCT undergoes supervised training by a new labeled multi-class database of physics-based volumetric fields of clouds and their corresponding images. To improve out-of-distribution inference, we incorporate self-supervised learning through differential rendering. We demonstrate the approach in simulations and on real-world data, and indicate the relevance of 3D recovery and uncertainty to precipitation and renewable energy.
翻訳日:2024-03-13 11:43:57 公開日:2024-03-09
# プロンプト最適化を用いた変圧器によるスレッド検出と応答生成

Thread Detection and Response Generation using Transformers with Prompt Optimisation ( http://arxiv.org/abs/2403.05931v1 )

ライセンス: Link先を確認
Kevin Joshua T, Arnav Agarwal, Shriya Sanjay, Yash Sarda, John Sahaya Rani Alex, Saurav Gupta, Sushant Kumar, Vishwanath Kamath(参考訳) 対話システムは、人間とコンピュータの対話、スレッドの識別と優先順位付けによる複雑な対話の管理に不可欠である。 これは、スレッドの正確な識別と戦略的応答優先が効果的な対話管理を保証する多人数会話において特に重要である。 これらの課題に対処するために、スレッドを識別し、その重要度に基づいて応答生成を優先順位付けするエンドツーエンドモデルを開発した。 これらの洗練されたコンポーネントは、会話システムにおける統一されたフレームワークにシームレスに統合される。 Llama2 7bは高レベルの一般化のために使用されるが、このシステムは任意のオープンソースのLarge Language Model(LLM)で更新できる。 Llama2モデルの計算能力は、モデルの性能を最適化し、計算時間を短縮し、モデルの精度を高めるために、微調整法と戦略的なプロンプト技術を用いて強化された。 モデルは最大10倍の速度向上を実現し、既存のモデルに比べて一貫性のある結果を生成する。

Conversational systems are crucial for human-computer interaction, managing complex dialogues by identifying threads and prioritising responses. This is especially vital in multi-party conversations, where precise identification of threads and strategic response prioritisation ensure efficient dialogue management. To address these challenges an end-to-end model that identifies threads and prioritises their response generation based on the importance was developed, involving a systematic decomposition of the problem into discrete components - thread detection, prioritisation, and performance optimisation which was meticulously analysed and optimised. These refined components seamlessly integrate into a unified framework, in conversational systems. Llama2 7b is used due to its high level of generalisation but the system can be updated with any open source Large Language Model(LLM). The computational capabilities of the Llama2 model was augmented by using fine tuning methods and strategic prompting techniques to optimise the model's performance, reducing computational time and increasing the accuracy of the model. The model achieves up to 10x speed improvement, while generating more coherent results compared to existing models.
翻訳日:2024-03-13 11:43:43 公開日:2024-03-09
# CSCNET: 合成ゼロショット学習のためのクラス指定カスケードネットワーク

CSCNET: Class-Specified Cascaded Network for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2403.05924v1 )

ライセンス: Link先を確認
Yanyi Zhang, Qi Jia, Xin Fan, Yu Liu, Ran He(参考訳) 属性とオブジェクト(a-o)のジエンタングルメントは合成ゼロショット学習(czsl)の基本的かつ批判的な問題であり、その目的は前例の知識に基づいて新しいa-o合成を認識することである。 アンタングル表現学習に基づく既存の手法は、A-Oプリミティブペア間のコンテキスト依存を見失う。 そこで我々は,czsl のクラス特定カスケードネットワーク (cscnet) という新しい a-o disentangled framework を提案する。 鍵となる洞察は、まず1つのプリミティブを分類し、次に予測されたクラスを、カスケードされた方法で別のプリミティブ認識を導くための優先順位として指定することである。 この目的のために、CSCNetは2つのプリミティブ全体をモデル化する合成ブランチに加えて、Attribute-to-ObjectとObject-to-Attributeのカスケードブランチを構築している。 特に、視覚と意味の埋め込みのマッチングを改善するためにパラメトリック分類器(ParamCls)を考案した。 A-Oの歪みを改善することで,従来の競合手法よりも優れた結果が得られる。

Attribute and object (A-O) disentanglement is a fundamental and critical problem for Compositional Zero-shot Learning (CZSL), whose aim is to recognize novel A-O compositions based on foregone knowledge. Existing methods based on disentangled representation learning lose sight of the contextual dependency between the A-O primitive pairs. Inspired by this, we propose a novel A-O disentangled framework for CZSL, namely Class-specified Cascaded Network (CSCNet). The key insight is to firstly classify one primitive and then specifies the predicted class as a priori for guiding another primitive recognition in a cascaded fashion. To this end, CSCNet constructs Attribute-to-Object and Object-to-Attribute cascaded branches, in addition to a composition branch modeling the two primitives as a whole. Notably, we devise a parametric classifier (ParamCls) to improve the matching between visual and semantic embeddings. By improving the A-O disentanglement, our framework achieves superior results than previous competitive methods.
翻訳日:2024-03-13 11:42:12 公開日:2024-03-09
# OntoChat:言語モデルを用いた会話オントロジーエンジニアリングフレームワーク

OntoChat: a Framework for Conversational Ontology Engineering using Language Models ( http://arxiv.org/abs/2403.05921v1 )

ライセンス: Link先を確認
Bohui Zhang and Valentina Anita Carriero and Katrin Schreiberhuber and Stefani Tsaneva and Luc\'ia S\'anchez Gonz\'alez and Jongmo Kim and Jacopo de Berardinis(参考訳) 大規模プロジェクトにおけるオントロジー工学(oe)は、様々な利害関係者、ドメインの専門家、そしてそのオントロジー設計者との複雑な相互作用から生じる多くの課題を提起する。 この多人数間相互作用は、しばしばオントロジー要求の明確化から体系的な曖昧さとバイアスを生み出し、設計、評価に直接影響を与え、ターゲットの再利用を脅かす可能性がある。 一方、現在のOE方法論は手動の活動(インタビュー、ディスカッションページなど)に強く依存している。 もっとも重要なOE活動の証拠を集めた後、要求の推論、分析、テストをサポートする会話オントロジーエンジニアリングのフレームワークであるOntoChatを紹介します。 会話型エージェントと対話することで、ユーザはユーザストーリーの作成と能力的な質問の抽出を制御でき、全体的な要求を分析して初期バージョンのオントロジーをテストするために計算支援を受けることができる。 音楽メタオントロジーのエンジニアリングを再現し,ユーザから各コンポーネントの有効性に関する予備的な指標を収集することにより,OntoChatを評価する。 すべてのコードはhttps://github.com/King-s-Knowledge-Graph-Lab/OntoChatでリリースします。

Ontology engineering (OE) in large projects poses a number of challenges arising from the heterogeneous backgrounds of the various stakeholders, domain experts, and their complex interactions with ontology designers. This multi-party interaction often creates systematic ambiguities and biases from the elicitation of ontology requirements, which directly affect the design, evaluation and may jeopardise the target reuse. Meanwhile, current OE methodologies strongly rely on manual activities (e.g., interviews, discussion pages). After collecting evidence on the most crucial OE activities, we introduce OntoChat, a framework for conversational ontology engineering that supports requirement elicitation, analysis, and testing. By interacting with a conversational agent, users can steer the creation of user stories and the extraction of competency questions, while receiving computational support to analyse the overall requirements and test early versions of the resulting ontologies. We evaluate OntoChat by replicating the engineering of the Music Meta Ontology, and collecting preliminary metrics on the effectiveness of each component from users. We release all code at https://github.com/King-s-Knowledge-Graph-Lab/OntoChat.
翻訳日:2024-03-13 11:41:31 公開日:2024-03-09
# 大規模言語とハイブリッドNLPモデルを用いた音符の高スループット表現

High Throughput Phenotyping of Physician Notes with Large Language and Hybrid NLP Models ( http://arxiv.org/abs/2403.05920v1 )

ライセンス: Link先を確認
Syed I. Munzir, Daniel B. Hier, Michael D. Carrithers(参考訳) 深部表現型は、オントロジーの概念を用いた患者徴候と症状の詳細な記述である。 電子健康記録における多くの医師ノートの深い表現型付けには高いスループットの方法が必要である。 過去30年間で,高スループット表現型化の進展がみられた。 本研究では,大規模言語モデルとハイブリッドNLPモデル(単語ベクトルを機械学習分類器と組み合わせた)が,医師のノートに高いスループットを高精度に表現できることを実証する。 大規模言語モデルは、医師注記の高スループット深部表現法として好まれるであろう。

Deep phenotyping is the detailed description of patient signs and symptoms using concepts from an ontology. The deep phenotyping of the numerous physician notes in electronic health records requires high throughput methods. Over the past thirty years, progress toward making high throughput phenotyping feasible. In this study, we demonstrate that a large language model and a hybrid NLP model (combining word vectors with a machine learning classifier) can perform high throughput phenotyping on physician notes with high accuracy. Large language models will likely emerge as the preferred method for high throughput deep phenotyping of physician notes.
翻訳日:2024-03-13 11:41:00 公開日:2024-03-09
# GPTは心理学者? 視覚効果コンピューティングにおけるGPT-4Vの予備評価

GPT as Psychologist? Preliminary Evaluations for GPT-4V on Visual Affective Computing ( http://arxiv.org/abs/2403.05916v1 )

ライセンス: Link先を確認
Hao Lu, Xuesong Niu, Jiyao Wang, Yin Wang, Qingyong Hu, Jiaqi Tang, Yuting Zhang, Kaishen Yuan, Bin Huang, Zitong Yu, Dengbo He, Shuiguang Deng, Hao Chen, Yingcong Chen, Shiguang Shan(参考訳) マルチモーダル言語モデル(MLM)は、テキスト、音声、画像、ビデオなどの複数のソースからの情報を処理、統合するために設計されている。 言語理解の成功にもかかわらず、より優れた人間中心のアプリケーションのために下流タスクのパフォーマンスを評価することは重要である。 本稿では、視覚的情緒的タスクと推論タスクにまたがる5つの重要な能力を持つMDMの適用性を評価する。 その結果, GPT4は表情認識性能が不正確であるにもかかわらず, 顔動作単位認識と微小表現検出の精度が高いことがわかった。 また,より複雑なタスク,例えば信号処理による心拍数推定など,タスク関連エージェントと統合することで,感情認識や関連分野における高度なタスクを扱うためのgpt4の汎用性と可能性について,より詳細なマイクロ表現認識の実現の課題とさらなる研究の可能性を強調した。 本稿では,人間中心型コンピューティングにおけるmlmsの応用可能性と課題について考察する。 興味深いサンプルは \url{https://github.com/lupaopao/gpt4affectivity} で入手できる。

Multimodal language models (MLMs) are designed to process and integrate information from multiple sources, such as text, speech, images, and videos. Despite its success in language understanding, it is critical to evaluate the performance of downstream tasks for better human-centric applications. This paper assesses the application of MLMs with 5 crucial abilities for affective computing, spanning from visual affective tasks and reasoning tasks. The results show that GPT4 has high accuracy in facial action unit recognition and micro-expression detection while its general facial expression recognition performance is not accurate. We also highlight the challenges of achieving fine-grained micro-expression recognition and the potential for further study and demonstrate the versatility and potential of GPT4 for handling advanced tasks in emotion recognition and related fields by integrating with task-related agents for more complex tasks, such as heart rate estimation through signal processing. In conclusion, this paper provides valuable insights into the potential applications and challenges of MLMs in human-centric computing. The interesting samples are available at \url{https://github.com/LuPaoPao/GPT4Affectivity}.
翻訳日:2024-03-13 11:39:46 公開日:2024-03-09
# 静的コード分析ツールチェーンの統合

Integrating Static Code Analysis Toolchains ( http://arxiv.org/abs/2403.05986v1 )

ライセンス: Link先を確認
Matthias Kern, Ferhat Erata, Markus Iser, Carsten Sinz, Frederic Loiret, Stefan Otten, Eric Sax(参考訳) 本稿では,ツールに依存しない異種静的コード解析ツールチェーンと交換形式を組み合わせたアプローチを提案する。 このアプローチは、分析結果のトレーサビリティとコンパラビリティの両方を高める。 最先端のツールチェーンは、テスト実行とビルド自動化、テスト、要件、設計情報間のトレーサビリティをサポートする。 当社のアプローチでは,これらすべての機能を組み合わせて,静的コード解析を取り入れて,トレーサビリティをソースコードレベルにまで拡張しています。 このアプローチの一環として、異なる静的コード解析結果のコンパラビリティを容易にする"asume static code analysis tool exchange format"を導入する。 我々は、このアプローチが開発プロセスにおける静的コード解析のユーザビリティと効率を高めることを実証する。 一方,本手法では静的コード解析ツール間の結果と評価の交換を可能にする。 一方、要求、設計、実装、および静的コード解析の結果の間の完全なトレーサビリティを実現する。 提案手法では,静的コード解析ツールのOSLC仕様とOSLC通信フレームワークも提案する。

This paper proposes an approach for a tool-agnostic and heterogeneous static code analysis toolchain in combination with an exchange format. This approach enhances both traceability and comparability of analysis results. State of the art toolchains support features for either test execution and build automation or traceability between tests, requirements and design information. Our approach combines all those features and extends traceability to the source code level, incorporating static code analysis. As part of our approach we introduce the "ASSUME Static Code Analysis tool exchange format" that facilitates the comparability of different static code analysis results. We demonstrate how this approach enhances the usability and efficiency of static code analysis in a development process. On the one hand, our approach enables the exchange of results and evaluations between static code analysis tools. On the other hand, it enables a complete traceability between requirements, designs, implementation, and the results of static code analysis. Within our approach we also propose an OSLC specification for static code analysis tools and an OSLC communication framework.
翻訳日:2024-03-13 11:32:46 公開日:2024-03-09
# ナノ粒子とグラフェン被覆シリカ板の非平衡カシミール-ポルダー力 : 化学ポテンシャルと質量ギャップの複合効果

Nonequilibrium Casimir-Polder Force between Nanoparticles and Graphene-Coated Silica Plate: Combined Effect of the Chemical Potential and Mass Gap ( http://arxiv.org/abs/2403.05983v1 )

ライセンス: Link先を確認
Galina L. Klimchitskaya, Constantine C. Korikov, and Vladimir M. Mostepanenko(参考訳) 球状ナノ粒子とグラフェン被覆シリカ板の間のカシミール-ポルダー力について熱平衡、すなわち時間反転対称性の破れから検討した。 電磁界に対するグラフェンコーティングの応答は、ディラック模型の枠組みにおける偏光テンソルの形式性を用いて、非零温度における量子電磁力学の第1原理に基づいて記述される。 非平衡カシミール-ポルダー力は、物質-ギャップパラメータ、グラフェンの化学ポテンシャル、グラフェン被覆板の温度の関数として計算される。 また, グラフェン被覆板の温度が環境の温度よりも低い場合, 圧力値は化学ポテンシャルの増加とともに上昇し, この上昇はより顕著であることが示された。 非平衡力はグラフェン被覆板の温度上昇とともに増大する。 この増加は、プレートが環境よりも熱い場合よりも大きい。 この効果は、化学ポテンシャル$\mu$と質量ギャップ$\Delta$のグラフェンコーティングによる影響が、$\Delta$と2$\mu$の関係に依存することを明らかにした。 2\mu>\delta$ の場合、ナノ粒子と冷却グラフェン被覆板の間の非平衡力の大きさは$\mu=0$ のグラフェンコーティングよりも大きくなる。 この効果を説明する物理的理由が解明される。 得られた結果の応用可能性について論じる。

The Casimir-Polder force between spherical nanoparticles and a graphene-coated silica plate is investigated in situations out of thermal equilibrium, i.e., with broken time-reversal symmetry. The response of graphene coating to the electromagnetic field is described on the basis of first principles of quantum electrodynamics at nonzero temperature using the formalism of the polarization tensor in the framework of the Dirac model. The nonequilibrium Casimir-Polder force is calculated as a function of the mass-gap parameter, chemical potential of graphene and temperature of the graphene-coated plate, which can be both higher and lower than that of the environment. It is shown that the force value increases with increasing chemical potential, and this increase is more pronounced when the temperature of a graphene-coated plate is lower than that of the environment. The nonequilibrium force also increases with increasing temperature of the graphene-coated plate. This increase is larger when the plate is hotter than the environment. The effect is revealed that the combined impact of the chemical potential $\mu$ and mass gap $\Delta$ of graphene coating depends on the relationship between $\Delta$ and 2$\mu$. If $2\mu>\Delta$ the magnitude of the nonequilibrium force between nanoparticles and a cooled graphene-coated plate becomes much larger than for a graphene coating with $\mu=0$. The physical reasons explaining this effect are elucidated. Possible applications of the obtained results are discussed.
翻訳日:2024-03-13 11:32:32 公開日:2024-03-09
# 辞書カプセルによる自動言語予測の強化 -- 新たなアプローチ

Enhanced Auto Language Prediction with Dictionary Capsule -- A Novel Approach ( http://arxiv.org/abs/2403.05982v1 )

ライセンス: Link先を確認
Pinni Venkata Abhiram, Ananya Rathore, Abhir Mirikar, Hari Krishna S, Sheena Christabel Pravin, Vishwanath Kamath Pethri, Manjunath Lokanath Belgod, Reetika Gupta, K Muthukumaran(参考訳) 本稿では,言語予測と機械翻訳のための新しい自動言語予測辞書(ALPDC)フレームワークを提案する。 このモデルはニューラルネットワークと記号表現の組み合わせを使用して、与えられた入力テキストの言語を予測し、事前に構築された辞書を使用してターゲット言語に翻訳する。 この研究は、様々な言語のテキストを英語で文字通りの意味に翻訳することを目的とする。 提案モデルでは,いくつかのベンチマークデータセットで最新の結果が得られ,既存の手法と比較して翻訳精度が大幅に向上した。 その結果,多言語コミュニケーションや自然言語処理タスクにおいて,提案手法の実用化の可能性を示した。

The paper presents a novel Auto Language Prediction Dictionary Capsule (ALPDC) framework for language prediction and machine translation. The model uses a combination of neural networks and symbolic representations to predict the language of a given input text and then translate it to a target language using pre-built dictionaries. This research work also aims to translate the text of various languages to its literal meaning in English. The proposed model achieves state-of-the-art results on several benchmark datasets and significantly improves translation accuracy compared to existing methods. The results show the potential of the proposed method for practical use in multilingual communication and natural language processing tasks.
翻訳日:2024-03-13 11:32:08 公開日:2024-03-09
# 機能選択のための強化学習による分類性能の向上

Enhancing Classification Performance via Reinforcement Learning for Feature Selection ( http://arxiv.org/abs/2403.05979v1 )

ライセンス: Link先を確認
Younes Ghazagh Jahed, Seyyed Ali Sadat Tavana(参考訳) 特徴の選択は、無関係な特徴をフィルタリングしながら関連する特徴を特定することによって予測精度を向上させる上で重要な役割を果たす。 本研究では,分類モデルの性能向上に有効な特徴選択の重要性を検討する。 本稿では,強化学習(rl)アルゴリズム,特にq-learning(ql)とsarsa学習を用いることで,特徴選択課題について述べる。 乳がんのコインブラデータセット(bccds)と3つの正規化法(min-max、l1、l2)を用いて、これらのアルゴリズムの性能を評価する。 その結果,QL@Min-MaxとSARSA@l2が最も高い分類精度を示し,それぞれ87%,88%に達した。 このことは、分類タスクの最適化におけるRLベースの特徴選択手法の有効性を強調し、モデルの精度と効率の向上に寄与する。

Feature selection plays a crucial role in improving predictive accuracy by identifying relevant features while filtering out irrelevant ones. This study investigates the importance of effective feature selection in enhancing the performance of classification models. By employing reinforcement learning (RL) algorithms, specifically Q-learning (QL) and SARSA learning, this paper addresses the feature selection challenge. Using the Breast Cancer Coimbra dataset (BCCDS) and three normalization methods (Min-Max, l1, and l2), the study evaluates the performance of these algorithms. Results show that QL@Min-Max and SARSA@l2 achieve the highest classification accuracies, reaching 87% and 88%, respectively. This highlights the effectiveness of RL-based feature selection methods in optimizing classification tasks, contributing to improved model accuracy and efficiency.
翻訳日:2024-03-13 11:31:58 公開日:2024-03-09
# 短時間軌跡から運動情報を抽出する:損失キャビティ分極の緩和と障害

Extracting Kinetic Information from Short-Time Trajectories: Relaxation and Disorder of Lossy Cavity Polaritons ( http://arxiv.org/abs/2403.05976v1 )

ライセンス: Link先を確認
Andrew Wu, Javier Cerrillo, Jianshu Cao(参考訳) 分子空洞分極の出現する分野は、実験的および理論的活動の急増を刺激し、多体シミュレーション手法を開発するユニークな機会を提供する。 本稿では,転送テンソル法(ttm)に基づく損失キャビティポラリトン鍵運動情報抽出のための数値計算手法を提案する。 定常状態、緩和時間スケール、振動現象はすべて、長時間のシミュレーションを必要とせずに、転送テンソルの集合から直接導出することができる。 さらに、TTMを動的マップをサンプリングして乱れたシステムに一般化し、少数の実現法を用いて乱れた平均力学への高速収束を実現する。 これらの手法を組み合わせることで、ポーラリトン緩和におけるキャビティ損失、障害、協調性の相互作用を特徴付けるツールボックスを提供し、初期励起状態、光子減衰率、乱れの強さ、キャビティモデルの種類に異常な依存性を予測できる。 そこで本研究では,TTMを用いた長期偏光子力学の効率的な計算と,短時間の軌跡から偏光子緩和に関する重要な運動情報抽出に有意な可能性を実証した。

The emerging field of molecular cavity polaritons has stimulated a surge of experimental and theoretical activities and presents a unique opportunity to develop the many-body simulation methodology. This paper presents a numerical scheme for the extraction of key kinetic information of lossy cavity polaritons based on the transfer tensor method (TTM). Steady state, relaxation timescales and oscillatory phenomena can all be deduced directly from a set of transfer tensors without the need for long-time simulation. Moreover, we generalize TTM to disordered systems by sampling dynamical maps and achieve fast convergence to disordered-averaged dynamics using a small set of realizations. Together, these techniques provide a toolbox for characterizing the interplay of cavity loss, disorder, and cooperativity in polariton relaxation and allow us to predict unusual dependences on the initial excitation state, photon decay rate, strength of disorder, and the type of cavity models. Thus, we have demonstrated significant potential in the use of the TTM towards both the efficient computation of long-time polariton dynamics and the extraction of crucial kinetic information about polariton relaxation from a small set of short-time trajectories.
翻訳日:2024-03-13 11:31:46 公開日:2024-03-09
# 項ベース表現を用いたランキングリストにおけるバイアスの測定

Measuring Bias in a Ranked List using Term-based Representations ( http://arxiv.org/abs/2403.05975v1 )

ライセンス: Link先を確認
Amin Abolghasemi, Leif Azzopardi, Arian Askari, Maarten de Rijke, Suzan Verberne(参考訳) 最近の研究では、文書のランク付けにおける性別バイアスを、各ランク付けされた文書の不偏度スコアの集計に基づいてランク付けリストのバイアスを測定するnfairrメトリックを用いて評価している。 ランク付けされたリストの個々のドキュメントは偏りがあり、ランク付けされたリストはグループの表現のバランスをとる。 この問題に対処するために,一般の公正度評価フレームワーク(AWRF)に対する2つの新たな拡張に基づく,TExFAIR (term exposure-based fairness) と呼ばれる新しい尺度を提案する。 TExFAIRは、ランクリスト内のグループの項ベースの表現に基づいてフェアネスを評価する。 一 確率的項レベルの関連に基づく団体に文書を関連付けることの明示的定義、及び 二 ランクリストの公平度の測定に向けて非表示文書を数えるためのランクバイアス割引係数(RBDF) パスランキングにおける性別バイアスの測定課題であるtexfairを評価し,texfairとnfairrの関係について検討した。 実験の結果,TExFAIRとNFaiRRの相関は認められず,TExFAIRはNFaiRRと異なる寸法の公正度を測っていることがわかった。 TExFAIRでは、文書内のグループを項ベースで表現した設定における公平性の評価を可能にするために、AWRFフレームワークを拡張した。

In most recent studies, gender bias in document ranking is evaluated with the NFaiRR metric, which measures bias in a ranked list based on an aggregation over the unbiasedness scores of each ranked document. This perspective in measuring the bias of a ranked list has a key limitation: individual documents of a ranked list might be biased while the ranked list as a whole balances the groups' representations. To address this issue, we propose a novel metric called TExFAIR (term exposure-based fairness), which is based on two new extensions to a generic fairness evaluation framework, attention-weighted ranking fairness (AWRF). TExFAIR assesses fairness based on the term-based representation of groups in a ranked list: (i) an explicit definition of associating documents to groups based on probabilistic term-level associations, and (ii) a rank-biased discounting factor (RBDF) for counting non-representative documents towards the measurement of the fairness of a ranked list. We assess TExFAIR on the task of measuring gender bias in passage ranking, and study the relationship between TExFAIR and NFaiRR. Our experiments show that there is no strong correlation between TExFAIR and NFaiRR, which indicates that TExFAIR measures a different dimension of fairness than NFaiRR. With TExFAIR, we extend the AWRF framework to allow for the evaluation of fairness in settings with term-based representations of groups in documents in a ranked list.
翻訳日:2024-03-13 11:31:26 公開日:2024-03-09
# 世代のみを用いた大規模言語モデルの校正

Calibrating Large Language Models Using Their Generations Only ( http://arxiv.org/abs/2403.05973v1 )

ライセンス: Link先を確認
Dennis Ulmer, Martin Gubri, Hwaran Lee, Sangdoo Yun, Seong Joon Oh(参考訳) 大きな言語モデル(LLM)がユーザ向けアプリケーションにますますデプロイされるにつれて、モデルの予測に対する信頼性を正確に定量化することによって、信頼性の構築と安全性の維持がさらに重要になる。 しかしながら、LCM(特にモデルへの唯一のインターフェースが生成されたテキストである場合)を効果的に校正する方法を見つけることは、依然として課題である。 apricot (auxiliary prediction of confidence targets): 信頼度目標を設定し、テキスト入力と出力のみに基づいてllmの信頼度を予測する追加モデルをトレーニングする手法。 概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、例えば、予測された自信を言語化したり、信頼に基づいて与えられた回答を調整することで、潜在的に多用されている。 閉書質問応答における白箱と黒箱のLCMの校正誤差から,提案手法の競合性を示す。

As large language models (LLMs) are increasingly deployed in user-facing applications, building trust and maintaining safety by accurately quantifying a model's confidence in its prediction becomes even more important. However, finding effective ways to calibrate LLMs - especially when the only interface to the models is their generated text - remains a challenge. We propose APRICOT (auxiliary prediction of confidence targets): A method to set confidence targets and train an additional model that predicts an LLM's confidence based on its textual input and output alone. This approach has several advantages: It is conceptually simple, does not require access to the target model beyond its output, does not interfere with the language generation, and has a multitude of potential usages, for instance by verbalizing the predicted confidence or adjusting the given answer based on the confidence. We show how our approach performs competitively in terms of calibration error for white-box and black-box LLMs on closed-book question-answering to detect incorrect LLM answers.
翻訳日:2024-03-13 11:31:03 公開日:2024-03-09
# 生成モデルは自己教師付き表現学習を改善するか?

Can Generative Models Improve Self-Supervised Representation Learning? ( http://arxiv.org/abs/2403.05966v1 )

ライセンス: Link先を確認
Arash Afkanpour, Vahid Reza Khazaie, Sana Ayromlou, Fereshteh Forghani(参考訳) 自己教師付き学習(SSL)の急速な進歩は、ラベルのないデータを活用して強力な視覚表現を学習する可能性を強調している。 しかし、既存のSSLアプローチ、特に同じイメージの異なるビューを使用するものは、しばしば、事前定義されたデータ拡張の限られたセットに依存する。 これは変換の多様性と品質を制約し、それが準最適表現につながる。 本稿では、生成モデルを利用して意味論的に一貫した画像拡張を生成することによってSSLパラダイムを充実させる新しいフレームワークを提案する。 ソース画像表現に生成モデルを直接条件付けすることにより、ソース画像のセマンティクスを維持しながら多様な拡張生成を生成できるため、自己教師付き学習のためのよりリッチなデータセットを提供する。 実験の結果,本フレームワークは学習した視覚表現の質を著しく向上させることがわかった。 この研究は、生成モデルをSSLワークフローに組み込むことで、未ラベルの視覚データの可能性を探究するための新たな道を開くことを実証している。 この開発は、より堅牢で汎用的な表現学習技術の道を開く。

The rapid advancement in self-supervised learning (SSL) has highlighted its potential to leverage unlabeled data for learning powerful visual representations. However, existing SSL approaches, particularly those employing different views of the same image, often rely on a limited set of predefined data augmentations. This constrains the diversity and quality of transformations, which leads to sub-optimal representations. In this paper, we introduce a novel framework that enriches the SSL paradigm by utilizing generative models to produce semantically consistent image augmentations. By directly conditioning generative models on a source image representation, our method enables the generation of diverse augmentations while maintaining the semantics of the source image, thus offering a richer set of data for self-supervised learning. Our experimental results demonstrate that our framework significantly enhances the quality of learned visual representations. This research demonstrates that incorporating generative models into the SSL workflow opens new avenues for exploring the potential of unlabeled visual data. This development paves the way for more robust and versatile representation learning techniques.
翻訳日:2024-03-13 11:30:43 公開日:2024-03-09
# 文脈偏見におけるロバスト感情認識

Robust Emotion Recognition in Context Debiasing ( http://arxiv.org/abs/2403.05963v1 )

ライセンス: Link先を確認
Dingkang Yang, Kun Yang, Mingcheng Li, Shunli Wang, Shuaibing Wang, Lihua Zhang(参考訳) コンテキストアウェア感情認識(caer)は、最近、制約のない環境における感情コンピューティング技術の実践的応用を促進する。 メインストリームCAER法は多様な文脈と主観的特徴からアンサンブル表現を抽出し,対象者の感情状態を知覚する。 進歩にもかかわらず、最大の課題はコンテキストバイアスの干渉である。 有害なバイアスは、モデルに背景のコンテキストと感情のラベルの間のスプリアスな相関に依存することを強いる。 本稿では,このような問題に対処する対実的感情推論(CLEF)フレームワークを提案する。 具体的には、まず一般化因果グラフを定式化し、CAERの変数間の因果関係を分離する。 因果グラフに続いて、CLEFは文脈バイアスによって引き起こされる副作用を捉えるために非侵襲的な文脈分岐を導入する。 提案手法では, 実測結果と実測結果とを比較して, 全体因果効果から直接文脈効果を排除し, バイアス緩和と頑健な予測を行う。 モデルに依存しないフレームワークとして、CLEFは既存のメソッドに簡単に統合でき、一貫したパフォーマンス向上をもたらす。

Context-aware emotion recognition (CAER) has recently boosted the practical applications of affective computing techniques in unconstrained environments. Mainstream CAER methods invariably extract ensemble representations from diverse contexts and subject-centred characteristics to perceive the target person's emotional state. Despite advancements, the biggest challenge remains due to context bias interference. The harmful bias forces the models to rely on spurious correlations between background contexts and emotion labels in likelihood estimation, causing severe performance bottlenecks and confounding valuable context priors. In this paper, we propose a counterfactual emotion inference (CLEF) framework to address the above issue. Specifically, we first formulate a generalized causal graph to decouple the causal relationships among the variables in CAER. Following the causal graph, CLEF introduces a non-invasive context branch to capture the adverse direct effect caused by the context bias. During the inference, we eliminate the direct context effect from the total causal effect by comparing factual and counterfactual outcomes, resulting in bias mitigation and robust prediction. As a model-agnostic framework, CLEF can be readily integrated into existing methods, bringing consistent performance gains.
翻訳日:2024-03-13 11:30:26 公開日:2024-03-09
# 操作エルゴトロピー:測地線駆動の準最適性

Operational Ergotropy: suboptimality of the geodesic drive ( http://arxiv.org/abs/2403.05956v1 )

ライセンス: Link先を確認
Pritam Halder, Srijon Ghosh, Saptarshi Roy, Tamal Guha(参考訳) 量子系における作業抽出に必要なダイナミクスを規定するエネルギー制約から導かれるエルゴトロピックな作業を抽出するための最適性の概念を述べる。 無限に等しい平和的ユニタリの集合を予測する伝統的なエルゴトロピーの枠組みの中で、最適な選択は、与えられた状態と対応する受動的状態とを繋ぐ測地線に沿って運転することにある。 さらに,一元論が環境要因の影響を受けない現実的なシナリオでは,既存のエルゴトロピーの定義を洗練し,運用エルゴトロピーの概念を導入する。 ノイズの多いシナリオで作業抽出のキャラクタリゼーションを可能にする。 特定の典型的な雑音モデルに対して、力学のシュロディンガー部分を支配する最適な選択は、乱れのないシナリオにおける最適駆動と整合する。 しかし,そのような最適性は明示的な逆例を示すことによって普遍的ではないことを示す。 さらに、この一般化された枠組みの中で、ノイズの存在下での量子システムからのより高速な仕事抽出の可能性について論じる。

We put forth a notion of optimality for extracting ergotropic work, derived from an energy constraint governing the necessary dynamics for work extraction in a quantum system. Within the traditional ergotropy framework, which predicts an infinite set of equivalent pacifying unitaries, we demonstrate that the optimal choice lies in driving along the geodesic connecting a given state to its corresponding passive state. Moreover, in a practical scenario where unitaries are inevitably affected by environmental factors, we refine the existing definition of ergotropy and introduce the notion of operational ergotropy. It enables the characterization of work extraction in noisy scenarios. We find that for certain typical noise models, the optimal choice which governs the Schrodinger part of the dynamics, aligns with the optimal drive in the unperturbed scenario. However, we demonstrate that such optimality is not universal by presenting an explicit counterexample. Additionally, within this generalized framework, we discuss the potential for faster work extraction from quantum systems in the presence of noise.
翻訳日:2024-03-13 11:30:06 公開日:2024-03-09
# IOI:非参照画像とビデオ品質メトリクスに対する不可視的ワンイテレーション・アドバイザリアタック

IOI: Invisible One-Iteration Adversarial Attack on No-Reference Image- and Video-Quality Metrics ( http://arxiv.org/abs/2403.05955v1 )

ライセンス: Link先を確認
Ekaterina Shumitskaya, Anastasia Antsiferova, Dmitriy Vatolin(参考訳) 非参照画像とビデオ品質のメトリクスは、ビデオ処理ベンチマークで広く使われている。 ビデオアタックによる学習ベースのメトリクスの堅牢性は、広く研究されていない。 成功に加えて、ビデオ処理ベンチマークで使用可能な攻撃は高速かつ不可避でなければならない。 本稿では,参照画像と映像品質指標を含まない非可視的一文攻撃(ioi)を提案する。 対象的および主観的テストによる画像および映像データセットを用いた8つの先行手法との比較を行った。 本手法は,攻撃性能と速度を同等に保ちながら,攻撃された各種メトリックアーキテクチャの視覚的品質に優れていた。 コードをGitHubで公開しました。

No-reference image- and video-quality metrics are widely used in video processing benchmarks. The robustness of learning-based metrics under video attacks has not been widely studied. In addition to having success, attacks that can be employed in video processing benchmarks must be fast and imperceptible. This paper introduces an Invisible One-Iteration (IOI) adversarial attack on no reference image and video quality metrics. We compared our method alongside eight prior approaches using image and video datasets via objective and subjective tests. Our method exhibited superior visual quality across various attacked metric architectures while maintaining comparable attack success and speed. We made the code available on GitHub.
翻訳日:2024-03-13 11:29:49 公開日:2024-03-09
# 逐次弱測定によるハイゼンベルク感度のアンロック

Unlocking Heisenberg Sensitivity with Sequential Weak Measurement Preparation ( http://arxiv.org/abs/2403.05954v1 )

ライセンス: Link先を確認
T. B. Lanta\~no, Dayou Yang, K. M. R. Audenaert, S. F. Huelga, M. B. Plenio(参考訳) 本稿では,スピンアンサンブルと結合した中心スピンの逐次測定に基づく状態生成プロトコルを提案し,生成した多スピン状態の量子拡張メトロロジーへの応用について検討する。 本プロトコルは、非線形スピン相互作用を必要とせず、非常に絡み合ったスピン状態を生成することが示されている。 結果として生じる状態の計量感度は標準量子限界を超え、対称結合強度条件下でハイゼンベルク極限に達する。 また,不斉結合強度についても検討し,最適感度に間に合うように特定の準備窓を同定した。 そこで本研究では, 大規模で非古典的, 絡み合った状態を生成する新しい手法を提案する。

We propose a state preparation protocol based on sequential measurements of a central spin coupled with a spin ensemble, and investigate the usefulness of the generated multi-spin states for quantum enhanced metrology. Our protocol is shown to generate highly entangled spin states, devoid of the necessity for non-linear spin interactions. The metrological sensitivity of the resulting state surpasses the standard quantum limit, reaching the Heisenberg limit under symmetric coupling strength conditions. We also explore asymmetric coupling strengths, identifying specific preparation windows in time for optimal sensitivity. Our findings introduce a novel method for generating large-scale, non-classical, entangled states, enhancing quantum-enhanced metrology within current experimental capabilities.
翻訳日:2024-03-13 11:29:42 公開日:2024-03-09
# 分類ロバスト性と説明ロバスト性は本当に相関しているか? 入力損失ランドスケープによる分析

Are Classification Robustness and Explanation Robustness Really Strongly Correlated? An Analysis Through Input Loss Landscape ( http://arxiv.org/abs/2403.06013v1 )

ライセンス: Link先を確認
Tiejin Chen, Wenwang Huang, Linsey Pang, Dongsheng Luo, Hua Wei(参考訳) 本稿では,画像分類システムにおける分類ロバスト性と説明ロバスト性は本質的に相関しているという従来の信念に挑戦する。 説明ロバストネスの効率的な評価にクラスタリングを利用する新しい評価手法を用いて,説明ロバスト性の向上は説明ロバスト性が向上することを示すフラット化ロスランドスケープとは対照的に,説明ロバストネスに関して必ずしも入力損失ランドスケープを平坦化しないことを示す。 この矛盾を深く研究するために,説明的損失に対する損失景観の調整を目的とした接地訓練手法を提案する。 新たな学習方法により,説明のロバスト性には影響を与えうるが,分類のロバスト性には影響を与えないことが明らかとなった。 これらの結果は,2種類の強靭性の間に強い相関関係が存在するという仮定に挑戦するだけでなく,損失景観と説明損失の関係を理解するための新たな経路を舗装する。

This paper delves into the critical area of deep learning robustness, challenging the conventional belief that classification robustness and explanation robustness in image classification systems are inherently correlated. Through a novel evaluation approach leveraging clustering for efficient assessment of explanation robustness, we demonstrate that enhancing explanation robustness does not necessarily flatten the input loss landscape with respect to explanation loss - contrary to flattened loss landscapes indicating better classification robustness. To deeply investigate this contradiction, a groundbreaking training method designed to adjust the loss landscape with respect to explanation loss is proposed. Through the new training method, we uncover that although such adjustments can impact the robustness of explanations, they do not have an influence on the robustness of classification. These findings not only challenge the prevailing assumption of a strong correlation between the two forms of robustness but also pave new pathways for understanding relationship between loss landscape and explanation loss.
翻訳日:2024-03-13 11:26:54 公開日:2024-03-09
# 構成可能な形式的意味論に基づくトレースの自動推論ツール

A Tool for Automated Reasoning About Traces Based on Configurable Formal Semantics ( http://arxiv.org/abs/2403.06012v1 )

ライセンス: Link先を確認
Ferhat Erata, Arda Goknil, Bedir Tekinerdogan, Geylani Kardas(参考訳) トレースの自動推論を容易にするために,設定可能なトレースセマンティクスを指定するツールであるtarskiを提案する。 ソフトウェア開発プロジェクトでは、様々な種類のトレースを開発成果物間でモデル化する必要がある。 任意のアーティファクト(要求、アーキテクチャモデル、ソースコードなど)に対して、Tarskiはユーザーが新しいトレースタイプと設定可能なセマンティクスを指定できるようにし、セマンティクスを使用して、ユーザが提供した既存のトレースに基づいて新しいトレースを自動的に推論し、トレースの一貫性をチェックする。 自動車分野における3つの産業ケーススタディ(https://modelwriter.github.io/Tarski/)で評価されている。

We present Tarski, a tool for specifying configurable trace semantics to facilitate automated reasoning about traces. Software development projects require that various types of traces be modeled between and within development artifacts. For any given artifact (e.g., requirements, architecture models and source code), Tarski allows the user to specify new trace types and their configurable semantics, while, using the semantics, it automatically infers new traces based on existing traces provided by the user, and checks the consistency of traces. It has been evaluated on three industrial case studies in the automotive domain (https://modelwriter.github.io/Tarski/).
翻訳日:2024-03-13 11:26:34 公開日:2024-03-09
# 多変量金融目標に対する強化学習報酬の最適化

Reinforcement Learning Paycheck Optimization for Multivariate Financial Goals ( http://arxiv.org/abs/2403.06011v1 )

ライセンス: Link先を確認
Melda Alaluf, Giulia Crippa, Sinong Geng, Zijian Jing, Nikhil Krishnan, Sanjeev Kulkarni, Wyatt Navarro, Ronnie Sircar, Jonathan Tang(参考訳) 我々は、いくつかの競合する財務目標を達成するために、収入の配分方法を検討する。 ペイチェック最適化では、適切な問題定式化がないため、定量的手法が欠落している。 この問題に対処するため、我々はこの問題を実用性最大化問題として定式化する。 提案された定式化は (i)異なる金融目標を統一すること。 二 目標に係るユーザの嗜好を取り入れること。 (iii)確率金利を扱う。 提案手法は,様々な問題設定に実装されたエンドツーエンド強化学習ソリューションも支援する。

We study paycheck optimization, which examines how to allocate income in order to achieve several competing financial goals. For paycheck optimization, a quantitative methodology is missing, due to a lack of a suitable problem formulation. To deal with this issue, we formulate the problem as a utility maximization problem. The proposed formulation is able to (i) unify different financial goals; (ii) incorporate user preferences regarding the goals; (iii) handle stochastic interest rates. The proposed formulation also facilitates an end-to-end reinforcement learning solution, which is implemented on a variety of problem settings.
翻訳日:2024-03-13 11:26:20 公開日:2024-03-09
# LLMの安全性と信頼性:実装,利用,限界

Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations ( http://arxiv.org/abs/2403.06009v1 )

ライセンス: Link先を確認
Swapnaja Achintalwar, Adriana Alvarado Garcia, Ateret Anaby-Tavor, Ioana Baldini, Sara E. Berger, Bishwaranjan Bhattacharjee, Djallel Bouneffouf, Subhajit Chaudhury, Pin-Yu Chen, Lamogha Chiazor, Elizabeth M. Daly, Rog\'erio Abreu de Paula, Pierre Dognin, Eitan Farchi, Soumya Ghosh, Michael Hind, Raya Horesh, George Kour, Ja Young Lee, Erik Miehling, Keerthiram Murugesan, Manish Nagireddy, Inkit Padhi, David Piorkowski, Ambrish Rawat, Orna Raz, Prasanna Sattigeri, Hendrik Strobelt, Sarathkrishna Swaminathan, Christoph Tillmann, Aashka Trivedi, Kush R. Varshney, Dennis Wei, Shalisha Witherspooon, Marcel Zalmanovici(参考訳) 大規模言語モデル(LLM)は、不誠実なアウトプットからバイアスや有害な世代に至るまで、さまざまなリスクを受けやすい。 LLMを取り巻くいくつかの制限要因(トレーニングコスト、APIアクセス、データ可用性など)により、デプロイされたモデルに直接的な安全制約を課すことが常に可能であるとは限らない。 そのため、効率的で信頼性の高い代替手段が必要となる。 この目的のために,我々は,様々な危険に対するラベルを提供するコンパクトでビルドが容易な分類モデルである検出器ライブラリの作成とデプロイを継続する取り組みについて紹介する。 検出器自体に加えて、ガードレールとしての役割から効果的なAIガバナンスの実現に至るまで、これらの検出モデルに対する幅広い用途について論じる。 また,その開発における本質的な課題を深く掘り下げ,検出器の信頼性向上とスコープの拡大を目的とした今後の課題について論じる。

Large language models (LLMs) are susceptible to a variety of risks, from non-faithful output to biased and toxic generations. Due to several limiting factors surrounding LLMs (training cost, API access, data availability, etc.), it may not always be feasible to impose direct safety constraints on a deployed model. Therefore, an efficient and reliable alternative is required. To this end, we present our ongoing efforts to create and deploy a library of detectors: compact and easy-to-build classification models that provide labels for various harms. In addition to the detectors themselves, we discuss a wide range of uses for these detector models - from acting as guardrails to enabling effective AI governance. We also deep dive into inherent challenges in their development and discuss future work aimed at making the detectors more reliable and broadening their scope.
翻訳日:2024-03-13 11:26:13 公開日:2024-03-09
# 選好に基づく報酬学習のための一般化獲得関数

A Generalized Acquisition Function for Preference-based Reward Learning ( http://arxiv.org/abs/2403.06003v1 )

ライセンス: Link先を確認
Evan Ellis, Gaurav R. Ghosal, Stuart J. Russell, Anca Dragan, Erdem B{\i}y{\i}k(参考訳) 選好に基づく報酬学習は、ロボットや自律システムに対して、人間がタスクを実行する方法を教える一般的なテクニックである。 これまでの研究では、報酬関数パラメータに関する情報獲得を最大化するために、優先クエリを積極的に合成することで、データ効率が向上することが示されている。 情報ゲイン基準は、報酬関数の全てのパラメータを正確に識別することに焦点を当てる。 これは、多くのパラメータが同じ報酬をもたらす可能性があるため、潜在的に無駄になり、多くの報酬が下流タスクで同じ振る舞いをもたらす可能性がある。 その代わりに、行動上の同じランク付け、選択上の分布、その他の関連する2つの報酬の類似性の定義など、行動同値クラスまで、報酬関数を学習するための最適化が可能であることを示す。 類似性の定義を捉えることのできる、抽出可能なフレームワークを導入する。 本研究は,合成環境,ドメイン転送を伴うロボット支援環境,実データを用いた自然言語処理問題において,最先端情報獲得手法よりもクエリ手法が優れていることを示す。

Preference-based reward learning is a popular technique for teaching robots and autonomous systems how a human user wants them to perform a task. Previous works have shown that actively synthesizing preference queries to maximize information gain about the reward function parameters improves data efficiency. The information gain criterion focuses on precisely identifying all parameters of the reward function. This can potentially be wasteful as many parameters may result in the same reward, and many rewards may result in the same behavior in the downstream tasks. Instead, we show that it is possible to optimize for learning the reward function up to a behavioral equivalence class, such as inducing the same ranking over behaviors, distribution over choices, or other related definitions of what makes two rewards similar. We introduce a tractable framework that can capture such definitions of similarity. Our experiments in a synthetic environment, an assistive robotics environment with domain transfer, and a natural language processing problem with real datasets demonstrate the superior performance of our querying method over the state-of-the-art information gain method.
翻訳日:2024-03-13 11:25:58 公開日:2024-03-09
# 実験的詳細の重要性について:「キャビティ修飾光化学における非ポラリトニック効果」へのコメント

On the importance of experimental details: A Comment on "Non-Polaritonic Effects in Cavity-Modified Photochemistry" ( http://arxiv.org/abs/2403.06001v1 )

ライセンス: Link先を確認
Tal Schwartz and James A. Hutchison(参考訳) 最近、Barnesグループによる論文は、光キャビティ内での光異性化反応の実験研究について報告し、ハッチンソンらによる以前の結果の再現を主張し、そのような状況下では、キャビティ内の分子による紫外線吸収の変化が光化学反応率の変化につながると指摘している。 ハッチソンらはこれらの変化と強い光と物質とのカップリングの出現を関連付け、これらの実験を再検討しようとしたが、バーンズらは観測された効果を説明するために強いカップリングが必要という証拠は見つからなかった。 本稿では,この2つの実験研究の主な相違点を明らかにするとともに,barnesらの結果が先行研究と無関係であり,結論に影響を与えていない理由を説明する。 具体的には,huchisonらが使用した実験条件下では,このような強度修飾効果は無視できるため排除できることを示した。

Recently, an article by the Barnes group reported on the experimental study of a photoisomerization reaction inside an optical cavity, claiming to reproduce previous results by Hutchison et al. and making the point that in such setups, changes in the absorption of ultraviolet radiation by the molecules in the cavity can lead to modifications in the photochemical reaction rate. While Hutchison et al. associated such modifications with the emergence of strong light-matter coupling, in their attempt to re-examine these experiments, Barnes et al. did not find any evidence that strong coupling needs to be invoked to explain the observed effects. In response to this publication, we herein highlight the main differences between the two experimental studies, and explain why the results of Barnes et al. are irrelevant to the former study and have no bearing on its conclusions. Specifically, we show that under the experimental conditions used by Hutchison et al. such intensity-modification effects are negligible and can therefore be ruled out.
翻訳日:2024-03-13 11:25:36 公開日:2024-03-09
# 高い更新率で分解するdeep rl:値の過大評価と発散と戦う

Dissecting Deep RL with High Update Ratios: Combatting Value Overestimation and Divergence ( http://arxiv.org/abs/2403.05996v1 )

ライセンス: Link先を確認
Marcel Hussing, Claas Voelcker, Igor Gilitschenski, Amir-massoud Farahmand, Eric Eaton(参考訳) 深層強化学習は,勾配更新数が環境サンプル数を大きく超える設定において,ネットワークパラメータを再設定することなく,学習能力を維持できることを示す。 このような大規模なデータ更新比の下で、nikishin et al. (2022) による最近の研究は、エージェントが初期の相互作用に過剰に適合し、後の経験を軽視し、学習能力を損なうプライマシーバイアスの出現を示唆した。 本研究では,プライマリーバイアスの根底にある現象を解明する。 学習の失敗の原因となるトレーニングの初期段階を調べ、基本的な課題が長年の知人、すなわち価値の過大評価であることを見出す。 オーバーインフレーションされたQ値は分布外だけでなく分布内データにも見出され、オプティマイザの運動量によって引き起こされる未知の行動予測に追従することができる。 我々は,大規模な更新率で学習し,広く使用されているdm_controlスイート上での有効性を示し,モデルベースアプローチと競合する犬のタスクにおいて強力なパフォーマンスを得るための,単純な単位球正規化を採用している。 以上の結果から,早期データへの過度な適合による準最適学習の事前説明が疑問視された。

We show that deep reinforcement learning can maintain its ability to learn without resetting network parameters in settings where the number of gradient updates greatly exceeds the number of environment samples. Under such large update-to-data ratios, a recent study by Nikishin et al. (2022) suggested the emergence of a primacy bias, in which agents overfit early interactions and downplay later experience, impairing their ability to learn. In this work, we dissect the phenomena underlying the primacy bias. We inspect the early stages of training that ought to cause the failure to learn and find that a fundamental challenge is a long-standing acquaintance: value overestimation. Overinflated Q-values are found not only on out-of-distribution but also in-distribution data and can be traced to unseen action prediction propelled by optimizer momentum. We employ a simple unit-ball normalization that enables learning under large update ratios, show its efficacy on the widely used dm_control suite, and obtain strong performance on the challenging dog tasks, competitive with model-based approaches. Our results question, in parts, the prior explanation for sub-optimal learning due to overfitting on early data.
翻訳日:2024-03-13 11:25:19 公開日:2024-03-09
# ソーシャルメディアにおけるコンテンツモデレーションの正義と公正性:異なる文脈とプラットフォームの比較

Content Moderation Justice and Fairness on Social Media: Comparisons Across Different Contexts and Platforms ( http://arxiv.org/abs/2403.06034v1 )

ライセンス: Link先を確認
Jie Cai, Aashka Patel, Azadeh Naderi, Donghee Yvette Wohn(参考訳) ソーシャルメディアのユーザは、プラットフォームによるモデレーションの決定が違って、フラストレーションやドロップアウトにつながる可能性がある。 本研究は、オンラインモデレーション決定の公正さと公正さを、さまざまな違法対法的シナリオ、再帰的/再帰的モデレーション戦略、ユーザモデレーション対商業的モデレーションプラットフォームに暴露する場合に検証する。 redditとtwitterの200人のアメリカのソーシャルメディアユーザーを対象に、オンライン実験を行いました。 その結果, 帰属的モデレーションは, 違法な違反行為において, ユーザモデレートされたプラットフォームに対してより高い公正性と公正性をもたらすことが明らかとなった。 我々は、モデレーションシステム設計を改善するためのプラットフォームポリシー作成の機会について論じる。

Social media users may perceive moderation decisions by the platform differently, which can lead to frustration and dropout. This study investigates users' perceived justice and fairness of online moderation decisions when they are exposed to various illegal versus legal scenarios, retributive versus restorative moderation strategies, and user-moderated versus commercially moderated platforms. We conduct an online experiment on 200 American social media users of Reddit and Twitter. Results show that retributive moderation delivers higher justice and fairness for commercially moderated than for user-moderated platforms in illegal violations; restorative moderation delivers higher fairness for legal violations than illegal ones. We discuss the opportunities for platform policymaking to improve moderation system design.
翻訳日:2024-03-13 09:13:52 公開日:2024-03-09
# 抑うつと不安の予測--covid-19の精神健康影響分析のための多層パーセプトロン

Predicting Depression and Anxiety: A Multi-Layer Perceptron for Analyzing the Mental Health Impact of COVID-19 ( http://arxiv.org/abs/2403.06033v1 )

ライセンス: Link先を確認
David Fong and Tianshu Chu and Matthew Heflin and Xiaosi Gu and Oshani Seneviratne(参考訳) 新型コロナウイルスのパンデミック(COVID-19 Depression and Anxiety Predictor(CoDAP)と呼ばれる多層パーセプトロン(MLP)を導入し、特に不安やうつ病などのメンタルヘルスの傾向を予測する。 2020年4月から6月まで)最初の新型コロナウイルス(covid-19)の波の間、米国成人の多様なコホートにおいて、毎週10週間にわたってメンタルヘルス症状を追跡する包括的データセットを用いている。 この期間はメンタルヘルスの症状や症状の急増によって特徴づけられ、我々の分析にとって重要な文脈を提供する。 codapを用いた質的個人属性のユニークなレンズを通して不安と抑うつのパターンを抽出・分析することに注力した。 このモデルは、パンデミック中の不安や抑うつのパターンを予測するだけでなく、人口統計要因、行動の変化、および精神健康の社会的決定要因の相互作用に関する重要な洞察も明らかにしている。 これらの発見は、世界的健康危機時のメンタルヘルス問題の複雑さをより微妙な理解に役立ち、将来の早期介入を導く可能性がある。

We introduce a multi-layer perceptron (MLP) called the COVID-19 Depression and Anxiety Predictor (CoDAP) to predict mental health trends, particularly anxiety and depression, during the COVID-19 pandemic. Our method utilizes a comprehensive dataset, which tracked mental health symptoms weekly over ten weeks during the initial COVID-19 wave (April to June 2020) in a diverse cohort of U.S. adults. This period, characterized by a surge in mental health symptoms and conditions, offers a critical context for our analysis. Our focus was to extract and analyze patterns of anxiety and depression through a unique lens of qualitative individual attributes using CoDAP. This model not only predicts patterns of anxiety and depression during the pandemic but also unveils key insights into the interplay of demographic factors, behavioral changes, and social determinants of mental health. These findings contribute to a more nuanced understanding of the complexity of mental health issues in times of global health crises, potentially guiding future early interventions.
翻訳日:2024-03-13 09:13:32 公開日:2024-03-09
# FairTargetSim: 目標変数定義の公正性効果の理解と説明のための対話型シミュレータ

FairTargetSim: An Interactive Simulator for Understanding and Explaining the Fairness Effects of Target Variable Definition ( http://arxiv.org/abs/2403.06031v1 )

ライセンス: Link先を確認
Dalia Gala, Milo Phillips-Brown, Naman Goel, Carinal Prunkl, Laura Alvarez Jubete, medb corcoran, Ray Eitel-Porter(参考訳) 機械学習は、予測や決定のためにターゲット変数を定義する必要があり、公正性に深い影響を持つプロセスである:バイアスは、データ収集やトレーニングの前に、ターゲット変数定義自体にエンコードされることが多い。 本稿では,対象変数定義が公平性に与える影響を示す対話型シミュレータFairTargetSim(FTS)を提案する。 FTSは、アルゴリズム開発者、研究者、非技術ステークホルダーにとって貴重なツールである。 FTSは、実世界のデータとユーザ定義のターゲット変数を使用して、アルゴリズム採用のケーススタディを使用する。 FTSはオープンソースで、http://tinyurl.com/ftsinterface.comで入手できる。 この論文に付随するビデオは以下のとおりである。

Machine learning requires defining one's target variable for predictions or decisions, a process that can have profound implications on fairness: biases are often encoded in target variable definition itself, before any data collection or training. We present an interactive simulator, FairTargetSim (FTS), that illustrates how target variable definition impacts fairness. FTS is a valuable tool for algorithm developers, researchers, and non-technical stakeholders. FTS uses a case study of algorithmic hiring, using real-world data and user-defined target variables. FTS is open-source and available at: http://tinyurl.com/ftsinterface. The video accompanying this paper is here: http://tinyurl.com/ijcaifts.
翻訳日:2024-03-13 09:13:12 公開日:2024-03-09
# マルチモーダル深層学習による心停止後のコーマからの神経学的回復の予測

Multimodal deep learning approach to predicting neurological recovery from coma after cardiac arrest ( http://arxiv.org/abs/2403.06027v1 )

ライセンス: Link先を確認
Felix H. Krones, Ben Walker, Guy Parsons, Terry Lyons, Adam Mahdi(参考訳) この研究は、2023年のGeorge B. Moody PhysioNet Challengeに対するチームの貢献(The BEEGees)を紹介します。 本研究の目的は,臨床データと多チャンネル脳波,心電図などの時系列データを用いて,心停止後の神経学的回復を予測することである。 脳波記録から直接抽出した臨床データと特徴の統合とともに,脳波チャネルから抽出した2次元スペクトログラム表現に基づくマルチモーダルなモデリング手法を提案する。 提案したモデルでは,自然循環復帰後,72ドルの予測を行うための隠れテストセットで0.53ドルのスコアを得た。 本研究は,医療分類における転校学習の有効性と限界を明らかにする。 予測的実装に関しては,モデルの性能が決定しきい値の選択と強く関連し,データ分割間で強い変動性を示すことが明らかとなった。

This work showcases our team's (The BEEGees) contributions to the 2023 George B. Moody PhysioNet Challenge. The aim was to predict neurological recovery from coma following cardiac arrest using clinical data and time-series such as multi-channel EEG and ECG signals. Our modelling approach is multimodal, based on two-dimensional spectrogram representations derived from numerous EEG channels, alongside the integration of clinical data and features extracted directly from EEG recordings. Our submitted model achieved a Challenge score of $0.53$ on the hidden test set for predictions made $72$ hours after return of spontaneous circulation. Our study shows the efficacy and limitations of employing transfer learning in medical classification. With regard to prospective implementation, our analysis reveals that the performance of the model is strongly linked to the selection of a decision threshold and exhibits strong variability across data splits.
翻訳日:2024-03-13 09:13:02 公開日:2024-03-09
# 学習型アプローチの複合的問題表現に向けて

Towards a Generic Representation of Cominatorial Problems for Learning-Based Approaches ( http://arxiv.org/abs/2403.06026v1 )

ライセンス: Link先を確認
L\'eo Boisvert, H\'el\`ene Verhaeghe, Quentin Cappart(参考訳) 近年,従来の最適化アルゴリズムと組み合わさって,組み合わさった問題を解決するための学習ベースのアプローチへの関心が高まっている。 どちらのシナリオでも、ターゲットの組合せ問題を学習アルゴリズムと互換性のある構造に符号化することが課題である。 既存の多くの著作は、しばしばグラフの形で問題固有の表現を提案し、 \textit{graph neural networks} の利点を生かしている。 しかし、これらのアプローチは、表現が一つの組合せ問題から別の問題へ容易に転送できないため、一般性に欠ける。 このギャップを埋める試みはいくつか行われているが、部分的な一般化のみを提供する。 この課題に対して,本論文は,学習ベースアプローチにおける組合せ問題を完全に一般化した表現に向けての進歩を提唱する。 提案するアプローチは、組合せ問題の制約を抽象構文木に分解し、エッジを通して関係(例えば制約に関わる変数)を表現することによってグラフを構築することである。 さらに,この表現から効率的に学習できるグラフニューラルネットワークアーキテクチャを導入する。 このツールはXCSP3フォーマットで表現された組合せ問題で動作し、2023年のミニトラックコンペティションで利用可能なすべての制約を処理する。 4つの組合せ問題に対する実験結果から,本アーキテクチャは汎用性を維持しつつ,専用アーキテクチャに匹敵する性能を実現することが示された。 私たちのコードとトレーニングされたモデルは、 \url{https://github.com/corail-research/learning-generic-csp}で公開されている。

In recent years, there has been a growing interest in using learning-based approaches for solving combinatorial problems, either in an end-to-end manner or in conjunction with traditional optimization algorithms. In both scenarios, the challenge lies in encoding the targeted combinatorial problems into a structure compatible with the learning algorithm. Many existing works have proposed problem-specific representations, often in the form of a graph, to leverage the advantages of \textit{graph neural networks}. However, these approaches lack generality, as the representation cannot be easily transferred from one combinatorial problem to another one. While some attempts have been made to bridge this gap, they still offer a partial generality only. In response to this challenge, this paper advocates for progress toward a fully generic representation of combinatorial problems for learning-based approaches. The approach we propose involves constructing a graph by breaking down any constraint of a combinatorial problem into an abstract syntax tree and expressing relationships (e.g., a variable involved in a constraint) through the edges. Furthermore, we introduce a graph neural network architecture capable of efficiently learning from this representation. The tool provided operates on combinatorial problems expressed in the XCSP3 format, handling all the constraints available in the 2023 mini-track competition. Experimental results on four combinatorial problems demonstrate that our architecture achieves performance comparable to dedicated architectures while maintaining generality. Our code and trained models are publicly available at \url{https://github.com/corail-research/learning-generic-csp}.
翻訳日:2024-03-13 09:12:49 公開日:2024-03-09
# CarbonNet: コンピュータビジョンは気候変動にどのように貢献するか? CCSの地下構造からジオメカニクスを学習して地球温暖化を緩和する応用

CarbonNet: How Computer Vision Plays a Role in Climate Change? Application: Learning Geomechanics from Subsurface Geometry of CCS to Mitigate Global Warming ( http://arxiv.org/abs/2403.06025v1 )

ライセンス: Link先を確認
Wei Chen, Yunan Li and Yuan Tian(参考訳) 本稿では,炭素捕獲・隔離のための地下地形画像から地表面の変位を予測するために,コンピュータビジョンを用いた新しいアプローチを提案する。 CCSは炭素中立社会の重要な構成要素であることが証明されている。 しかし、科学者は、大きなモデルスケールと複雑な物理を持つ事前学習モデルの一般化に制限があるため、計算コストが高いという課題があると考えている。 地下地形画像から直接モデルを訓練することで,これらの課題に対処する。 カーボンインジェクションによる地表面変位の応答を把握し,ccsプロジェクトにおける意思決定にトレーニングしたモデルを活用することが目的である。 我々は,画像予測問題である静的力学問題に対して,複数のモデル(CNN,ResNet,ResNetUNet)を実装した。 次に、ビデオ予測問題である過渡的力学シナリオにLSTMとトランスフォーマーを用いる。 ResNetUNetは静的力学問題におけるアーキテクチャにより他より優れており、LSTMは過渡問題におけるトランスフォーマーに匹敵する性能を示している。 このレポートでは、データセットを詳細に概説し、続いてモデル記述をメソッドセクションにまとめます。 結果と議論では、将来の作業で重要な学習、観察、結論が論文にまとめられている。

We introduce a new approach using computer vision to predict the land surface displacement from subsurface geometry images for Carbon Capture and Sequestration (CCS). CCS has been proved to be a key component for a carbon neutral society. However, scientists see there are challenges along the way including the high computational cost due to the large model scale and limitations to generalize a pre-trained model with complex physics. We tackle those challenges by training models directly from the subsurface geometry images. The goal is to understand the respons of land surface displacement due to carbon injection and utilize our trained models to inform decision making in CCS projects. We implement multiple models (CNN, ResNet, and ResNetUNet) for static mechanics problem, which is a image prediction problem. Next, we use the LSTM and transformer for transient mechanics scenario, which is a video prediction problem. It shows ResNetUNet outperforms the others thanks to its architecture in static mechanics problem, and LSTM shows comparable performance to transformer in transient problem. This report proceeds by outlining our dataset in detail followed by model descriptions in method section. Result and discussion state the key learning, observations, and conclusion with future work rounds out the paper.
翻訳日:2024-03-13 09:12:26 公開日:2024-03-09
# 大動脈狭窄診断のための半教師付きマルチモーダルマルチインスタンスラーニング

Semi-Supervised Multimodal Multi-Instance Learning for Aortic Stenosis Diagnosis ( http://arxiv.org/abs/2403.06024v1 )

ライセンス: Link先を確認
Zhe Huang, Xiaowei Yu, Benjamin S. Wessler and Michael C. Hughes(参考訳) 心臓の超音波画像(心エコー図)の自動解釈は、致命的な心臓疾患である大動脈狭窄(as)の検出と治療を改善する可能性がある。 しかし、心エコー図からASを評価するための既存のディープラーニングパイプラインには2つの重要な制限がある。 第一に、ほとんどの方法は限られた2dシネループに依存しており、圧力勾配と血流異常に関する重要な補完情報を含む広く利用可能なドップラーイメージングを無視している。 第2に,ラベル付きデータの取得が困難である。 しばしば、ラベルのない心エコー記録が利用可能であるが、既存の方法では使われていない。 これらの制約を克服するために,ASのような構造心疾患の自動解釈のための新しいディープラーニングフレームワークであるSMMIL(Semi-supervised Multimodal Multiple-Instance Learning)を導入する。 SMMILは、2つの入力モード、スペクトルドップラーと2Dシネループの情報を組み合わせて、研究レベルのAS診断を生成する。 トレーニング中、SMMILはより小さなラベル付きセットと豊富なラベル付き両方のモダリティセットを組み合わせて分類器を改善することができる。 実験により、SMMILは最近の3段階のAS重症度分類において、いくつかの臨床関連AS検出タスクよりも優れていることが示された。

Automated interpretation of ultrasound imaging of the heart (echocardiograms) could improve the detection and treatment of aortic stenosis (AS), a deadly heart disease. However, existing deep learning pipelines for assessing AS from echocardiograms have two key limitations. First, most methods rely on limited 2D cineloops, thereby ignoring widely available Doppler imaging that contains important complementary information about pressure gradients and blood flow abnormalities associated with AS. Second, obtaining labeled data is difficult. There are often far more unlabeled echocardiogram recordings available, but these remain underutilized by existing methods. To overcome these limitations, we introduce Semi-supervised Multimodal Multiple-Instance Learning (SMMIL), a new deep learning framework for automatic interpretation for structural heart diseases like AS. When deployed, SMMIL can combine information from two input modalities, spectral Dopplers and 2D cineloops, to produce a study-level AS diagnosis. During training, SMMIL can combine a smaller labeled set and an abundant unlabeled set of both modalities to improve its classifier. Experiments demonstrate that SMMIL outperforms recent alternatives at 3-level AS severity classification as well as several clinically relevant AS detection tasks.
翻訳日:2024-03-13 09:12:07 公開日:2024-03-09
# センティメント分類のためのソーシャルメディア上のペルシャ短文の形式的・深層学習へのペルシア語スラングテキスト変換

Persian Slang Text Conversion to Formal and Deep Learning of Persian Short Texts on Social Media for Sentiment Classification ( http://arxiv.org/abs/2403.06023v1 )

ライセンス: Link先を確認
Mohsen Khazeni, Mohammad Heydari, Amir Albadvi(参考訳) ペルシャ語における会話テキストの分析に適切なツールの欠如は、感情分析を含むこれらのテキストの様々な分析を困難にした。 本研究では,psc,ペルシャスラング変換器,会話用テキストを形式的に変換するツール,pscとともに最新かつ最高の深層学習手法,短期ペルシア語テキストの感情学習をよりよい方法で活用することにより,これらのテキストの理解を機械にとって容易にすることを試みた。 さまざまなソーシャルネットワークや映画のサブタイトル(会話テキスト)から1000万以上の未ラベルのテキストが作成され、(公式テキストとして)約1000万のニューステキストが、教師なしモデルのトレーニングやツールの正式な実装に使用されている。 短いテキストの感情分類モデルをトレーニングするための教師付きデータとして,肯定的,否定的,中立的なラベルを持つInstagramユーザのコメントから6万件のテキストが検討されている。 形式的ツールを使用して、会話コーパスの単語の57%が変換された。 最後に、フォーマル化器、FastTextモデル、深層LSTMネットワークを用いて、テストデータから81.91の精度を得た。

The lack of a suitable tool for the analysis of conversational texts in the Persian language has made various analyses of these texts, including Sentiment Analysis, difficult. In this research, we tried to make the understanding of these texts easier for the machine by providing PSC, Persian Slang Converter, a tool for converting conversational texts into formal ones, and by using the most up-to-date and best deep learning methods along with the PSC, the sentiment learning of short Persian language texts for the machine in a better way. be made More than 10 million unlabeled texts from various social networks and movie subtitles (as Conversational texts) and about 10 million news texts (as formal texts) have been used for training unsupervised models and formal implementation of the tool. 60,000 texts from the comments of Instagram social network users with positive, negative, and neutral labels are considered supervised data for training the emotion classification model of short texts. Using the formal tool, 57% of the words of the corpus of conversation were converted. Finally, by using the formalizer, FastText model, and deep LSTM network, an accuracy of 81.91 was obtained on the test data.
翻訳日:2024-03-13 09:11:46 公開日:2024-03-09
# Eコマース検索における階層的クエリ分類

Hierarchical Query Classification in E-commerce Search ( http://arxiv.org/abs/2403.06021v1 )

ライセンス: Link先を確認
Bing He, Sreyashi Nag, Limeng Cui, Suhang Wang, Zheng Li, Rahul Goutam, Zhen Li, Haiyang Zhang(参考訳) 電子商取引プラットフォームは通常、製品情報と検索データを階層構造に保存し、構造化する。 ユーザ検索クエリを同様の階層構造に効果的に分類することは,eコマースプラットフォーム上でのユーザエクスペリエンスの向上,ニュースキュレーションや学術研究において最重要である。 このタスクの重要性は、機密性の高いクエリ分類や重要な情報の拡散を扱う場合に増幅され、不正確さがかなりの悪影響をもたらす可能性がある。 階層的問合せ分類の固有の複雑さは,(1)支配的カテゴリに偏る発音クラス不均衡,(2)正確な分類を妨げる検索クエリの固有簡潔性と曖昧性,の2つの主な課題によって複雑化している。 これらの課題に対処するために,階層的情報を活用した新しい枠組みを提案する。 (i)'instance hierarchy'という、階層内のきめ細かいインスタンス関係を識別するために対照的な損失を利用する強化表現学習 (ii)「ラベル階層」という,内在的なラベル分類に付随するニュアンス的階層分類の損失 さらに,ラベル付きクエリがラベル付きクエリとタイポグラフィ的類似性を共有していることから,ラベル付きクエリをインテリジェントに選択し,分類性能を高める手法を提案する。 大規模な実験により,提案手法はAmazonのプロプライエタリなデータセット上での最先端(SOTA)よりも優れており,Web of ScienceとRCV1-V2の公開データセット上でのSOTAに匹敵することがわかった。 これらの結果は,提案手法の有効性を実証し,次世代の階層型クエリ分類システムへの道を開くものである。

E-commerce platforms typically store and structure product information and search data in a hierarchy. Efficiently categorizing user search queries into a similar hierarchical structure is paramount in enhancing user experience on e-commerce platforms as well as news curation and academic research. The significance of this task is amplified when dealing with sensitive query categorization or critical information dissemination, where inaccuracies can lead to considerable negative impacts. The inherent complexity of hierarchical query classification is compounded by two primary challenges: (1) the pronounced class imbalance that skews towards dominant categories, and (2) the inherent brevity and ambiguity of search queries that hinder accurate classification. To address these challenges, we introduce a novel framework that leverages hierarchical information through (i) enhanced representation learning that utilizes the contrastive loss to discern fine-grained instance relationships within the hierarchy, called ''instance hierarchy'', and (ii) a nuanced hierarchical classification loss that attends to the intrinsic label taxonomy, named ''label hierarchy''. Additionally, based on our observation that certain unlabeled queries share typographical similarities with labeled queries, we propose a neighborhood-aware sampling technique to intelligently select these unlabeled queries to boost the classification performance. Extensive experiments demonstrate that our proposed method is better than state-of-the-art (SOTA) on the proprietary Amazon dataset, and comparable to SOTA on the public datasets of Web of Science and RCV1-V2. These results underscore the efficacy of our proposed solution, and pave the path toward the next generation of hierarchy-aware query classification systems.
翻訳日:2024-03-13 09:11:22 公開日:2024-03-09
# ニューラルネットワーク探索のための多条件グラフ拡散

Multi-conditioned Graph Diffusion for Neural Architecture Search ( http://arxiv.org/abs/2403.06020v1 )

ライセンス: Link先を確認
Rohan Asthana, Joschua Conrad, Youssef Dawoud, Maurits Ortmanns, Vasileios Belagiannis(参考訳) ニューラルネットワーク検索は、通常、大きくて複雑なアーキテクチャ検索空間を探索することで、ニューラルネットワークアーキテクチャの設計を自動化する。 本稿では,分散条件付きグラフ拡散プロセスを用いて高パフォーマンスニューラルネットワークアーキテクチャを生成するグラフ拡散に基づくnas手法を提案する。 次に,グラフ拡散ネットワークに適用するマルチコンディショニング分類器フリー誘導手法を提案し,高い精度や低ハードウェアレイテンシなどの制約を協調的に課す。 関連する作業とは異なり,本手法は完全に微分可能であり,単一のモデルトレーニングのみを必要とする。 私たちの評価では、6つの標準ベンチマークで有望な結果を示し、新奇でユニークなアーキテクチャを高速に、すなわち1アーキテクチャあたり0.2秒未満で提供する。 さらに,ImageNetデータセットを用いた実験により,本手法の汎用性と効率性を示す。

Neural architecture search automates the design of neural network architectures usually by exploring a large and thus complex architecture search space. To advance the architecture search, we present a graph diffusion-based NAS approach that uses discrete conditional graph diffusion processes to generate high-performing neural network architectures. We then propose a multi-conditioned classifier-free guidance approach applied to graph diffusion networks to jointly impose constraints such as high accuracy and low hardware latency. Unlike the related work, our method is completely differentiable and requires only a single model training. In our evaluations, we show promising results on six standard benchmarks, yielding novel and unique architectures at a fast speed, i.e. less than 0.2 seconds per architecture. Furthermore, we demonstrate the generalisability and efficiency of our method through experiments on ImageNet dataset.
翻訳日:2024-03-13 09:10:54 公開日:2024-03-09
# 低リソース言語における大規模言語モデルを促すマイナショットクロスリンガルトランスファー

Few-Shot Cross-Lingual Transfer for Prompting Large Language Models in Low-Resource Languages ( http://arxiv.org/abs/2403.06018v1 )

ライセンス: Link先を確認
Christopher Toukmaji(参考訳) 大規模事前学習言語モデル(PLM)は自然言語処理の進歩の最前線にある。 plmの一般的なユースケースは"prompting"または"in-context learning"で、ユーザがタスクの説明とタスクの完了例をplmにコンテキストとして提供し、plmに新しい例でタスクを実行するように促す。 最も大きく、最も有能なPLMだけが文脈内学習を効果的に行うことができ、これらのモデルは典型的には英語コーパスで訓練され、他の全ての言語が残されている。 ほとんどの言語のデータ制限は、プロンプト可能な言語固有のplmのトレーニングを妨げる。 設定のプロンプト作業の急増にもかかわらず、PLMが言語横断的にプロンプトにどう適応すべきかはまだ不明である。 低リソース言語、すなわちKinyarwanda, Hausa, Lugandaにおいて、主に英語で訓練された7BパラメータのオープンソースPLMであるLLaMaを適用可能な手法を評価する。 提案手法は,少数ショットプロンプト(prompt),言語適応微調整(LAFT),ニューラルマシン翻訳(translate),抽象的要約,多クラストピック分類,名前付き親和性認識の3つの手法を検討する。 LAFTは計算コストが最も高く、直感的には最良の結果をもたらすべきであるが、我々の実験では、LAFTは時折PLMに適応する最適な選択である。 むしろ、変換とプロンプト設定は、選択された低リソース言語に対する数ショットプロンプトの計算効率とコスト効率のよい方法である。 結果はタスクと言語に依存していますが、プロンプトメソッドがすべてのタスクと言語の平均で最良であることが分かりました。 その結果、全てのタスクや言語にまたがって集約された場合、プロンプト設定は、全てのショットに対して統計的に有意な翻訳とLAFTの両方よりも優れていることがわかった。

Large pre-trained language models (PLMs) are at the forefront of advances in Natural Language Processing. One widespread use case of PLMs is "prompting" - or in-context learning - where a user provides a description of a task and some completed examples of the task to a PLM as context before prompting the PLM to perform the task on a new example. Only the largest, most capable PLMs are able to perform in-context learning effectively, and these models are typically trained with a predominantly English corpus, leaving all other languages behind. The data limitations in most languages preclude the training of language-specific PLMs capable of prompting. Albeit the surge in work of prompting settings, it is still unclear how PLMs should be adapted cross-lingually specifically for prompting. We evaluate the possible methods to adapt LLaMa, a 7B parameter open-source PLM mainly trained in English, for prompting in low-resource languages, namely for Kinyarwanda, Hausa, and Luganda. We consider three methods: few-shot prompting (prompt), language-adaptive fine-tuning (LAFT), and neural machine translation (translate), and evaluate on abstractive summarization, multi-class topic classification, and named-entity recognition. Although LAFT carries the greatest compute cost and intuitively should lead to the best results, our experiments exhibit that LAFT is only occasionally the optimal choice for adapting PLMs for prompting. Rather, the translate and prompt settings are a compute-efficient and cost-effective method of few-shot prompting for the selected low-resource languages. We find that the results are task and language dependent but find that the prompting method is the best on average across all tasks and languages. Results show that the prompt setting performs better than both translating and LAFT with statistical significance for all shots when aggregated across all tasks and languages.
翻訳日:2024-03-13 09:10:42 公開日:2024-03-09
# 公平なグラフ学習データセットの欠点に対処する - 新しいベンチマークに向けて

Addressing Shortcomings in Fair Graph Learning Datasets: Towards a New Benchmark ( http://arxiv.org/abs/2403.06017v1 )

ライセンス: Link先を確認
Xiaowei Qian, Zhimeng Guo, Jialiang Li, Haitao Mao, Bingheng Li, Suhang Wang, Yao Ma(参考訳) 公正なグラフ学習は多くの実践的応用において重要な役割を担っている。 近年,多くの公正なグラフ学習手法が提案されているが,その評価は十分に構築されていない半合成データセットや準標準実世界のデータセットに依存していることが多い。 このような場合、基本多層パーセプトロン(MLP)でさえ、実用性と公正性の両方でグラフニューラルネットワーク(GNN)より優れている。 本研究では,多くのデータセットがエッジにおいて有意義な情報提供に失敗していることを示す。 これらの問題に対処するため、幅広い要件を満たす合成、半合成、実世界のデータセット群を開発し、導入する。 これらのデータセットは、関連するグラフ構造とモデルの公正な評価に不可欠なバイアス情報を含むように設計されている。 提案した合成および半合成データセットは、制御可能なバイアスパラメータを持つデータを生成する柔軟性を提供する。 さらに,提案するデータセットを体系的に評価し,公平なグラフ学習モデルに対して統一的な評価手法を確立する。 データセット全体にわたるグラフ学習手法による広範な実験結果から,これらの手法の性能評価の有効性が示された。 私たちのデータセットと実験を再現するためのコードは、https://github.com/xweiq/benchmark-graphfairnessで利用可能です。

Fair graph learning plays a pivotal role in numerous practical applications. Recently, many fair graph learning methods have been proposed; however, their evaluation often relies on poorly constructed semi-synthetic datasets or substandard real-world datasets. In such cases, even a basic Multilayer Perceptron (MLP) can outperform Graph Neural Networks (GNNs) in both utility and fairness. In this work, we illustrate that many datasets fail to provide meaningful information in the edges, which may challenge the necessity of using graph structures in these problems. To address these issues, we develop and introduce a collection of synthetic, semi-synthetic, and real-world datasets that fulfill a broad spectrum of requirements. These datasets are thoughtfully designed to include relevant graph structures and bias information crucial for the fair evaluation of models. The proposed synthetic and semi-synthetic datasets offer the flexibility to create data with controllable bias parameters, thereby enabling the generation of desired datasets with user-defined bias values with ease. Moreover, we conduct systematic evaluations of these proposed datasets and establish a unified evaluation approach for fair graph learning models. Our extensive experimental results with fair graph learning methods across our datasets demonstrate their effectiveness in benchmarking the performance of these methods. Our datasets and the code for reproducing our experiments are available at https://github.com/XweiQ/Benchmark-GraphFairness.
翻訳日:2024-03-13 09:10:06 公開日:2024-03-09
# linked open data query logs分析のためのエンドツーエンドソリューション

End-to-end solution for linked open data query logs analytics ( http://arxiv.org/abs/2403.06016v1 )

ライセンス: Link先を確認
Dihia Lanasri(参考訳) 柱ドメインにおける重要な進歩は、ユーザの興味や好みを表すクエリログを活用することに由来する。 ユーザの深い理解は、強い意思決定に影響を与える有用な知識を提供する。 本稿では,Linked Open Data (LOD) クエリログから貴重な情報を抽出したい。 LODログは、LODデータセットの大規模な活用により、大きな成長を遂げている。 しかし、これらのログの利用は複雑な構造のため難しい作業である。 さらに、これらのログは品質と成功に関連する多くのリスクに悩まされ、信頼に影響を与えます。 これらの問題に対処するために、LODクエリログのエコシステムを明確に定義することから始めます。 そして、これらのログを利用するエンドツーエンドのソリューションを提供します。 最後に、実際のLODログを使用し、提案したソリューションを検証するための一連の実験を行う。

Important advances in pillar domains are derived from exploiting query-logs which represents users interest and preferences. Deep understanding of users provides useful knowledge which can influence strongly decision-making. In this work, we want to extract valuable information from Linked Open Data (LOD) query-logs. LOD logs have experienced significant growth due to the large exploitation of LOD datasets. However, exploiting these logs is a difficult task because of their complex structure. Moreover, these logs suffer from many risks related to their Quality and Provenance, impacting their trust. To tackle these issues, we start by clearly defining the ecosystem of LOD query-logs. Then, we provide an end-to-end solution to exploit these logs. At the end, real LOD logs are used and a set of experiments are conducted to validate the proposed solution.
翻訳日:2024-03-13 09:09:46 公開日:2024-03-09
# グラフト:ランダムな森林を一貫性を持たせる

Grafting: Making Random Forests Consistent ( http://arxiv.org/abs/2403.06015v1 )

ライセンス: Link先を確認
Nicholas Waltz(参考訳) その性能と広範な利用にもかかわらず、ランダム森林の理論についてはほとんど知られていない。 主要な疑問は、ランダムフォレストアルゴリズムが一貫性があるかどうかである。 この文献は古典的ランダムフォレストアルゴリズムの様々な変種を探求し、この疑問と手法の既知の欠点に対処する。 本論文はこの文献への貢献である。 具体的には,浅部CARTへの一貫した推定器の移植性を検討した。 このアプローチには一貫性の保証があり、実証的な設定でうまく機能することが示されている。

Despite their performance and widespread use, little is known about the theory of Random Forests. A major unanswered question is whether, or when, the Random Forest algorithm is consistent. The literature explores various variants of the classic Random Forest algorithm to address this question and known short-comings of the method. This paper is a contribution to this literature. Specifically, the suitability of grafting consistent estimators onto a shallow CART is explored. It is shown that this approach has a consistency guarantee and performs well in empirical settings.
翻訳日:2024-03-13 09:09:37 公開日:2024-03-09
# ハードラベルベースの小クエリブラックボックス攻撃

Hard-label based Small Query Black-box Adversarial Attack ( http://arxiv.org/abs/2403.06014v1 )

ライセンス: Link先を確認
Jeonghwan Park, Paul Miller, Niall McLaughlin(参考訳) ターゲットモデルから予測されたクラスのみを観測するハードラベルベースのブラックボックス攻撃設定を考える。 この設定でのほとんどの攻撃方法は、攻撃を成功させるのに必要な非実用的なクエリに苦しむ。 この欠点に取り組む1つのアプローチは、ホワイトボックスサーロゲートモデルとブラックボックスターゲットモデル間の逆転送可能性を活用することである。 しかし、このアプローチを採用するほとんどのメソッドは、ゼロ階最適化の利点をフル活用するためにソフトラベルをベースとしている。 主流手法と異なり,プリトレーニングされたサロゲートモデルによる最適化プロセスによるハードラベル攻撃の実用的設定を提案する。 実験により,提案手法は,様々なターゲットモデルアーキテクチャにおいて,ハードラベルベースのブラックボックス攻撃のクエリ効率を大幅に改善することを示した。 提案手法は,ベンチマークに比べて攻撃成功率の約5倍,特に100から250という小さなクエリ予算で達成できることがわかった。

We consider the hard label based black box adversarial attack setting which solely observes predicted classes from the target model. Most of the attack methods in this setting suffer from impractical number of queries required to achieve a successful attack. One approach to tackle this drawback is utilising the adversarial transferability between white box surrogate models and black box target model. However, the majority of the methods adopting this approach are soft label based to take the full advantage of zeroth order optimisation. Unlike mainstream methods, we propose a new practical setting of hard label based attack with an optimisation process guided by a pretrained surrogate model. Experiments show the proposed method significantly improves the query efficiency of the hard label based black-box attack across various target model architectures. We find the proposed method achieves approximately 5 times higher attack success rate compared to the benchmarks, especially at the small query budgets as 100 and 250.
翻訳日:2024-03-13 09:09:28 公開日:2024-03-09
# MATRIX: 多様なコンテキストを持つマルチエージェント軌道生成

MATRIX: Multi-Agent Trajectory Generation with Diverse Contexts ( http://arxiv.org/abs/2403.06041v1 )

ライセンス: Link先を確認
Zhuo Xu, Rui Zhou, Yida Yin, Huidong Gao, Masayoshi Tomizuka, Jiachen Li(参考訳) データ駆動手法は複雑な人間の行動力学をモデル化し、多くの人間とロボットの相互作用アプリケーションを扱う点で大きな利点がある。 しかし、特に高度にインタラクティブなシナリオでは、大規模な、注釈付きの現実世界の人間データセットの収集は大変な作業でした。 一方、アルゴリズムによるデータ生成手法は通常、そのモデル能力によって制限され、様々なアプリケーションユーザが必要とするリアルで多様なデータを提供することができない。 本研究では,マルチヒューマン・ロボットインタラクションシナリオにおけるトラジェクトリレベルのデータ生成について検討し,dIverse conteXts (MATRIX) を用いたマルチエージェントTRajectory生成と呼ばれる学習に基づく自動トラジェクトリ生成モデルを提案する。 MATRIXは、現実的な多様な文脈で対話的な人間の行動を生成することができる。 この目標を明示的かつ解釈可能な目的をモデル化することにより達成し、マトリックスは多様な目的地や不均一な振る舞いに基づいて人間の動きを生成することができる。 我々は,様々な測定値にまたがるアプローチの有効性を説明するため,広範囲な比較・アブレーション研究を行った。 また、模倣に基づく動き計画のためのデータ拡張として、MATRIXの能力を示す実験を行った。

Data-driven methods have great advantages in modeling complicated human behavioral dynamics and dealing with many human-robot interaction applications. However, collecting massive and annotated real-world human datasets has been a laborious task, especially for highly interactive scenarios. On the other hand, algorithmic data generation methods are usually limited by their model capacities, making them unable to offer realistic and diverse data needed by various application users. In this work, we study trajectory-level data generation for multi-human or human-robot interaction scenarios and propose a learning-based automatic trajectory generation model, which we call Multi-Agent TRajectory generation with dIverse conteXts (MATRIX). MATRIX is capable of generating interactive human behaviors in realistic diverse contexts. We achieve this goal by modeling the explicit and interpretable objectives so that MATRIX can generate human motions based on diverse destinations and heterogeneous behaviors. We carried out extensive comparison and ablation studies to illustrate the effectiveness of our approach across various metrics. We also presented experiments that demonstrate the capability of MATRIX to serve as data augmentation for imitation-based motion planning.
翻訳日:2024-03-13 09:00:21 公開日:2024-03-09
# 電子量子シミュレータにおけるサイス格子の実装と評価

Implementation and characterization of the dice lattice in the electron quantum simulator ( http://arxiv.org/abs/2403.06040v1 )

ライセンス: Link先を確認
Camillo Tassi and Dario Bercioux(参考訳) 接点、局所状態、平らなバンドを特徴とする材料は、トポロジー、量子幾何学、超伝導、相互作用に影響を及ぼすため、凝縮物質や人工システムに大きな関心を持っている。 本研究では, 111)銅表面の二次元電子系上に一酸化炭素分子を配置することにより, 調整可能なパラメータによるダイス格子の実験的実現を提案する。 まず、ほぼ自由電子近似におけるスペクトル特性を得るための理論的枠組みを開発し、それらを密結合計算と比較する。 本研究は, ショックレー状態電子の高モビリティにより, 局所密度における接触点, 準平ら帯, 局所格子部位の挙動の出現により, 隣り合う強結合モデルを用いて, 人工格子の正確な理論的記述が可能であることを明らかにした。 さらに,次のアレスト近傍ホッピング項を考慮した長波長低エネルギーモデルに関する理論的結果を示す。 さらに, 格子モデルに磁場を組み込む理論物理学における一般的な手法であるパイエルの置換を用いて, 外部磁場下でのモデル挙動を理論的に検討する。 理論的には, 異常な電子移動性のため, アハロノフ-ボームカウジング機構にともなう高度に縮退した固有エネルギーは, 提案実験では現れない可能性が示唆された。

Materials featuring touching points, localized states, and flat bands are of great interest in condensed matter and artificial systems due to their implications in topology, quantum geometry, superconductivity, and interactions. In this theoretical study, we propose the experimental realization of the dice lattice with adjustable parameters by arranging carbon monoxide molecules on a two-dimensional electron system at a (111) copper surface. First, we develop a theoretical framework to obtain the spectral properties within a nearly free electron approximation and then compare them with tight-binding calculations. Our investigation reveals that the high mobility of Shockley state electrons enables an accurate theoretical description of the artificial lattice using a next-nearest-neighbor tight-binding model, resulting in the emergence of a touching point, a quasi-flat band, and localized lattice site behavior in the local density of states. Additionally, we present theoretical results for a long-wavelength low-energy model that accounts for next-nearest-neighbor hopping terms. Furthermore, we theoretically examine the model's behavior under an external magnetic field by employing Peierl's substitution, a commonly used technique in theoretical physics to incorporate magnetic fields into lattice models. Our theoretical findings suggest that, owing to the exceptional electron mobility, the highly degenerate eigenenergy associated with the Aharonov-Bohm caging mechanism may not manifest in the proposed experiment.
翻訳日:2024-03-13 09:00:00 公開日:2024-03-09
# YouTuberによるコンテンツ作成における生成AI活用の予備的検討

A Preliminary Exploration of YouTubers' Use of Generative-AI in Content Creation ( http://arxiv.org/abs/2403.06039v1 )

ライセンス: Link先を確認
Yao Lyu, He Zhang, Shuo Niu, Jie Cai(参考訳) コンテンツクリエーターは、YouTube、TikTok、Instagramなどのプラットフォーム上の生成人工知能(Gen-AI)を利用して、想像力のある画像、AI生成ビデオ、Large Language Models(LLMs)を使った記事を生成する。 人気が高まっているにもかかわらず、AI生成コンテンツが適用されている特定のドメインや、コンテンツ作成者が作成プロセス中にGen-AIツールで使用する方法論に関して、未調査の領域が残っている。 この研究は当初、68本のyoutubeビデオの質的分析を通じて、この新興領域を探求した。 本研究は,Gen-AIが生成する最終製品について,ユーザ生成コンテンツのコンテキストにおいて,コンテンツドメイン,使用するツールの種類,動作状況,および特性を明らかにすることに焦点を当てる。

Content creators increasingly utilize generative artificial intelligence (Gen-AI) on platforms such as YouTube, TikTok, Instagram, and various blogging sites to produce imaginative images, AI-generated videos, and articles using Large Language Models (LLMs). Despite its growing popularity, there remains an underexplored area concerning the specific domains where AI-generated content is being applied, and the methodologies content creators employ with Gen-AI tools during the creation process. This study initially explores this emerging area through a qualitative analysis of 68 YouTube videos demonstrating Gen-AI usage. Our research focuses on identifying the content domains, the variety of tools used, the activities performed, and the nature of the final products generated by Gen-AI in the context of user-generated content.
翻訳日:2024-03-13 08:59:35 公開日:2024-03-09
# 対話状態追跡のための思考説明の連鎖

Chain of Thought Explanation for Dialogue State Tracking ( http://arxiv.org/abs/2403.04656v2 )

ライセンス: Link先を確認
Lin Xu, Ningxin Peng, Daquan Zhou, See-Kiong Ng, Jinlan Fu(参考訳) 対話状態追跡(DST)は、事前に定義されたスロットセットとその対応する値を維持することで達成された対話間におけるユーザクエリと目標を記録することを目的としている。 現在のアプローチではスロット値を不透明に決定するが、人間は通常、関連する対話の順番から情報を集め、適切な値を推論することで、より慎重なアプローチを採用する。 本研究では,DSTタスクに対してChain-of-Thought-Explanation(CoTE)というモデルを提案することにより,スロット値の探索に必要なステップに着目した。 CoTEは生成DSTフレームワーク上に構築されており、スロット値を決定した後、ステップごとに詳細な説明を作成するように設計されている。 このプロセスは、より正確で信頼性の高いスロット値をもたらす。 さらに, コーテの推論能力を向上させるために, より精巧で高品質な説明を自動パラフレージングで構築し, コーテ精製法を導いた。 3つの広く知られているDSTベンチマーク(MultiWOZ 2.2、WoZ 2.0、M2M)の実験結果は、CoTEの顕著な効果を実証している。 さらに,細粒度に細分化した分析を行い,より長い対話の交代,ユーザ応答,推論ステップを特徴とするサンプルに対するコーテの有意な効果を検証した。

Dialogue state tracking (DST) aims to record user queries and goals during a conversational interaction achieved by maintaining a predefined set of slots and their corresponding values. Current approaches decide slot values opaquely, while humans usually adopt a more deliberate approach by collecting information from relevant dialogue turns and then reasoning the appropriate values. In this work, we focus on the steps needed to figure out slot values by proposing a model named Chain-of-Thought-Explanation (CoTE) for the DST task. CoTE, which is built on the generative DST framework, is designed to create detailed explanations step by step after determining the slot values. This process leads to more accurate and reliable slot values. More-over, to improve the reasoning ability of the CoTE, we further construct more fluent and high-quality explanations with automatic paraphrasing, leading the method CoTE-refined. Experimental results on three widely recognized DST benchmarks-MultiWOZ 2.2, WoZ 2.0, and M2M-demonstrate the remarkable effectiveness of the CoTE. Furthermore, through a meticulous fine-grained analysis, we observe significant benefits of our CoTE on samples characterized by longer dialogue turns, user responses, and reasoning steps.
翻訳日:2024-03-12 17:24:26 公開日:2024-03-09
# Egocentric 3D Hand Pose 推定のための一対二の視点適応

Single-to-Dual-View Adaptation for Egocentric 3D Hand Pose Estimation ( http://arxiv.org/abs/2403.04381v2 )

ライセンス: Link先を確認
Ruicong Liu, Takehiko Ohkawa, Mingfang Zhang, Yoichi Sato(参考訳) 正確な3次元手ポーズ推定の追求は、自我中心の視覚領域における人間の活動を理解するための鍵となる。 既存の推定手法の大半は入力として単一ビュー画像に依存しており、視野の制限や奥行きの曖昧さといった潜在的な制限につながっている。 これらの問題に対処するために、手の形をよりよく捉えるために別のカメラを追加することは実用的な方向である。 しかし, 既存の多視点ハンドポーズ推定手法では, 主な欠点が2つある。 1) トレーニングに多視点アノテーションを必要とするが、これは高価である。 2) テスト中は, カメラパラメータやレイアウトがトレーニングで使用するものと同じでない場合, モデルは適用不能となる。 本稿では,事前学習した単一視点推定器をデュアルビューに適応させる新しいS2DHand法を提案する。 既存の多視点訓練法と比較する。 1) 適応プロセスは教師なしであり,マルチビューアノテーションは不要である。 2) 任意のデュアルビュー対を未知のカメラパラメータで処理でき, 多様なカメラ設定に適用できる。 具体的には、s2dhandは、ペアワイズクロスビューコンセンサスや両ビュー間の変換の不変性など、ある種のステレオ制約に基づいて構築されている。 これら2つのステレオ制約は、擬似ラベルを生成するために相補的な方法で使用され、信頼性の高い適応を可能にする。 評価の結果,in-datasetとcross-dataset設定の両方において,s2dhandは任意のカメラペアに対して大幅な改善を達成し,既存の適応手法よりも優れた性能を実現していることがわかった。 プロジェクトページ:https://github.com/MickeyLLG/S2DHand。

The pursuit of accurate 3D hand pose estimation stands as a keystone for understanding human activity in the realm of egocentric vision. The majority of existing estimation methods still rely on single-view images as input, leading to potential limitations, e.g., limited field-of-view and ambiguity in depth. To address these problems, adding another camera to better capture the shape of hands is a practical direction. However, existing multi-view hand pose estimation methods suffer from two main drawbacks: 1) Requiring multi-view annotations for training, which are expensive. 2) During testing, the model becomes inapplicable if camera parameters/layout are not the same as those used in training. In this paper, we propose a novel Single-to-Dual-view adaptation (S2DHand) solution that adapts a pre-trained single-view estimator to dual views. Compared with existing multi-view training methods, 1) our adaptation process is unsupervised, eliminating the need for multi-view annotation. 2) Moreover, our method can handle arbitrary dual-view pairs with unknown camera parameters, making the model applicable to diverse camera settings. Specifically, S2DHand is built on certain stereo constraints, including pair-wise cross-view consensus and invariance of transformation between both views. These two stereo constraints are used in a complementary manner to generate pseudo-labels, allowing reliable adaptation. Evaluation results reveal that S2DHand achieves significant improvements on arbitrary camera pairs under both in-dataset and cross-dataset settings, and outperforms existing adaptation methods with leading performance. Project page: https://github.com/MickeyLLG/S2DHand.
翻訳日:2024-03-12 17:23:49 公開日:2024-03-09
# ランダム利用と経路制約下における競争施設配置

Competitive Facility Location under Random Utilities and Routing Constraints ( http://arxiv.org/abs/2403.04264v2 )

ライセンス: Link先を確認
Hoang Giang Pham, Tien Thanh Dam, Ngan Ha Duong, Tien Mai and Minh Hoang Ha(参考訳) 本稿では,顧客需要をランダムなユーティリティ選択モデルによって予測する競争市場環境における施設立地問題について検討する。 選択した場所数に対する基数制約などの単純な制約に主に焦点をあてた先行研究とは異なり、指定されたツアー長上限に固執しながら、選択した場所を訪問するツアーの存在を保証するために、場所の選択を必要とするルーティング制約を導入する。 このようなルーティング制約は、現実世界のさまざまなシナリオにおいて重要なアプリケーションを見つける。 この問題は、複雑なルーティング制約とともにランダムなユーティリティの利用による非線形目的関数が特徴であり、計算的に困難である。 この問題に対処するために,非線形目的関数を扱うための外周切断と部分モジュラー切断,複雑なルーティング制約に対処する部分変数除去切断の3種類の有効切断について検討した。 これらは、ネストカットプレーンとネストブランチ・アンド・カットアルゴリズムの2つの厳密な解法の開発につながり、これらの有効なカットを2つのネストループを通じてマスター問題に反復的に付加する。 また、ネストされた切断平面法は有限反復の後に常に最適に収束することを示す。 さらに,大規模インスタンスの解決に適した局所探索型メタヒューリスティクスを開発し,その長所と短所を正確な方法と比較した。 様々なサイズの問題インスタンスについて広範な実験を行い、我々のアプローチが、他のベースラインアプローチと比較してソリューションの品質と計算時間において優れていることを実証した。

In this paper, we study a facility location problem within a competitive market context, where customer demand is predicted by a random utility choice model. Unlike prior research, which primarily focuses on simple constraints such as a cardinality constraint on the number of selected locations, we introduce routing constraints that necessitate the selection of locations in a manner that guarantees the existence of a tour visiting all chosen locations while adhering to a specified tour length upper bound. Such routing constraints find crucial applications in various real-world scenarios. The problem at hand features a non-linear objective function, resulting from the utilization of random utilities, together with complex routing constraints, making it computationally challenging. To tackle this problem, we explore three types of valid cuts, namely, outer-approximation and submodular cuts to handle the nonlinear objective function, as well as sub-tour elimination cuts to address the complex routing constraints. These lead to the development of two exact solution methods: a nested cutting plane and nested branch-and-cut algorithms, where these valid cuts are iteratively added to a master problem through two nested loops. We also prove that our nested cutting plane method always converges to optimality after a finite number of iterations. Furthermore, we develop a local search-based metaheuristic tailored for solving large-scale instances and show its pros and cons compared to exact methods. Extensive experiments are conducted on problem instances of varying sizes, demonstrating that our approach excels in terms of solution quality and computation time when compared to other baseline approaches.
翻訳日:2024-03-12 17:23:20 公開日:2024-03-09
# ユーザの認知能力に対するAIによるヒントのパーソナライズの説明--実証的評価

Personalizing explanations of AI-driven hints to users' cognitive abilities: an empirical evaluation ( http://arxiv.org/abs/2403.04035v2 )

ライセンス: Link先を確認
Vedant Bahel, Harshinee Sriram and Cristina Conati(参考訳) 本稿では,生徒が学習を促進するためのヒントを正当化するために,知能学習システムが生み出す説明をパーソナライズすることを検討する。 このパーソナライゼーションは、認知と良心という2つの特性の低い学生を対象とし、これらの学生が説明に自然に関与しないという以前の知見に基づいて、説明への関与を強化することを目的としている。 パーソナライゼーションの有効性を評価するために,提案するパーソナライゼーションにより,提案するパーソナライゼーションによって,対象ユーザのヒント説明,ヒントの理解,学習とのインタラクションが著しく向上することを示すユーザ調査を行った。 したがって、この研究はAIによる説明を効果的にパーソナライズするための貴重な洞察を提供する。

We investigate personalizing the explanations that an Intelligent Tutoring System generates to justify the hints it provides to students to foster their learning. The personalization targets students with low levels of two traits, Need for Cognition and Conscientiousness, and aims to enhance these students' engagement with the explanations, based on prior findings that these students do not naturally engage with the explanations but they would benefit from them if they do. To evaluate the effectiveness of the personalization, we conducted a user study where we found that our proposed personalization significantly increases our target users' interaction with the hint explanations, their understanding of the hints and their learning. Hence, this work provides valuable insights into effectively personalizing AI-driven explanations for cognitively demanding tasks such as learning.
翻訳日:2024-03-12 17:22:50 公開日:2024-03-09
# DeepCRE: カットエッジ計算モデルによるドラッグR&Dの革新

DeepCRE: Revolutionizing Drug R&D with Cutting-Edge Computational Models ( http://arxiv.org/abs/2403.03768v2 )

ライセンス: Link先を確認
Yushuai Wu(参考訳) 医薬品開発と治療の分野はどちらも大きな課題に直面している。 治療領域はより多くの治療法を要求し、多くの有望な前臨床薬は臨床試験で失敗している。 その原因の1つは、薬物開発後期におけるクロスドラッグ反応評価(cre)の不十分さである。 in-silico creモデルはこの問題に対する解決策を提供するが、既存の方法論は初期開発段階に限定するか、包括的なcre分析の能力に欠ける。 本稿では、DeepCREという新しい計算モデルを紹介し、DeepCREが治療の発見と開発を進展させる可能性を示す。 deepcreは、患者レベルのcreで平均17.7\%、適応レベルのcreで5倍のパフォーマンス向上を達成して、既存のベストモデルを上回る。 さらに、DeepCREは5/8大腸癌(CRC)オルガノイドの2つの承認された薬物のコンパレータセットよりもはるかに有効である6つの薬物候補を同定した。 このことは、DeepCREが優れた治療効果を持つ薬物候補の収集を識別する能力を強調し、治療開発分野に革命をもたらす可能性を強調している。

The fields of pharmaceutical development and therapeutic application both face substantial challenges. The therapeutic domain calls for more treatment alternatives, while numerous promising pre-clinical drugs have failed in clinical trials. One of the reasons is the inadequacy of Cross-drug Response Evaluation (CRE) during the late stage of drug development. Although in-silico CRE models offer a solution to this problem, existing methodologies are either limited to early development stages or lack the capacity for a comprehensive CRE analysis. Herein, we introduce a novel computational model named DeepCRE and present the potential of DeepCRE in advancing therapeutic discovery and development. DeepCRE outperforms the existing best models by achieving an average performance improvement of 17.7\% in patient-level CRE and a 5-fold increase in indication-level CRE. Furthermore, DeepCRE has identified six drug candidates that show significantly greater effectiveness than a comparator set of two approved drugs in 5/8 colorectal cancer (CRC) organoids. This highlights DeepCRE's ability to identify a collection of drug candidates with superior therapeutic effects, underscoring its potential to revolutionize the field of therapeutic development.
翻訳日:2024-03-12 17:22:12 公開日:2024-03-09
# Apollo: 医療AIを60億人に民主化するための軽量多言語医療LLM

Apollo: An Lightweight Multilingual Medical LLM towards Democratizing Medical AI to 6B People ( http://arxiv.org/abs/2403.03640v2 )

ライセンス: Link先を確認
Xidong Wang, Nuo Chen, Junyin Chen, Yan Hu, Yidong Wang, Xiangbo Wu, Anningzhe Gao, Xiang Wan, Haizhou Li, Benyou Wang(参考訳) グローバル医療知識の膨大な蓄積は英語が中心であるが、地域言語は、特に医療資源が限られている地域で、カスタマイズされた医療サービスを提供するために重要である。 医療AIの進歩の範囲を広い人口に広げるため、私たちは6つの最も広く話されている言語にわたる医療用LLMの開発を目標としています。 この取り組みは、apollocorpora多言語医療データセットとxmedbenchベンチマークの作成に結実した。 マルチリンガル・メディカル・ベンチマークでは、リリースされたApolloモデルは様々な比較的小さなサイズ(0.5B, 1.8B, 2B, 6B, 7B)で、同等サイズのモデルの中で最高の性能を達成する。 特にアポロ7Bは、最先端の多言語医療用LLMである。 さらに、これらのライトモデルは、プロキシチューニング方式で微調整することなく、より大きなモデルの多言語医療能力を改善するために使用できる。 トレーニングコーパス、コード、モデルの重み付け、評価ベンチマークをオープンソースにします。

Despite the vast repository of global medical knowledge predominantly being in English, local languages are crucial for delivering tailored healthcare services, particularly in areas with limited medical resources. To extend the reach of medical AI advancements to a broader population, we aim to develop medical LLMs across the six most widely spoken languages, encompassing a global population of 6.1 billion. This effort culminates in the creation of the ApolloCorpora multilingual medical dataset and the XMedBench benchmark. In the multilingual medical benchmark, the released Apollo models, at various relatively-small sizes (i.e., 0.5B, 1.8B, 2B, 6B, and 7B), achieve the best performance among models of equivalent size. Especially, Apollo-7B is the state-of-the-art multilingual medical LLMs up to 70B. Additionally, these lite models could be used to improve the multi-lingual medical capabilities of larger models without fine-tuning in a proxy-tuning fashion. We will open-source training corpora, code, model weights and evaluation benchmark.
翻訳日:2024-03-12 17:21:55 公開日:2024-03-09
# D4Cグローブトレイン:概念の分散と循環によるRPMとBongard-logo問題の解法

D4C glove-train: solving the RPM and Bongard-logo problem by distributing and Circumscribing concepts ( http://arxiv.org/abs/2403.03452v2 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan(参考訳) 本稿では,抽象的推論の分野において,特にRaven's Progressive Matrices(RPM)問題とBongard-Logo問題に対処する上で,大きな進歩をもたらす。 我々は,これらの領域における概念境界を再定義し,ハイレベル概念と低次元表現とのギャップを埋めるd2cアプローチを提案する。 そこで本研究では,Bongard-Logo問題に対処し,画像表現の分布を推定し,シンクホーン距離を測定することにより推論精度を大幅に向上するD3C手法を提案する。 計算効率を向上させるために,分布距離を制約することでRPM問題に対する効率的かつ正確な解を提供するD3C-cos変法を導入する。 さらに,D3CとD3Cを併用したネットワークLico-Netを提案する。 最後に,我々のアプローチをd4cに拡張し,概念境界をさらに洗練し,rpm問題とbongard-logo問題の両方に対して顕著な改善を示す。 全体として、私たちの貢献は抽象的推論の分野に対する新しい視点と実践的な解決策を提供します。

This paper achieves significant progress in the field of abstract reasoning, particularly in addressing Raven's Progressive Matrices (RPM) and Bongard-Logo problems. We propose the D2C approach, which redefines conceptual boundaries in these domains and bridges the gap between high-level concepts and their low-dimensional representations. Based on this, we further introduce the D3C method that handles Bongard-Logo problems and significantly improves reasoning accuracy by estimating the distribution of image representations and measuring their Sinkhorn distance. To enhance computational efficiency, we introduce the D3C-cos variant, which provides an efficient and accurate solution for RPM problems by constraining distribution distances. Additionally, we present Lico-Net, a network that combines D3C and D3C-cos to achieve state-of-the-art performance in both problem-solving and interpretability. Finally, we extend our approach to D4C, employing adversarial strategies to further refine conceptual boundaries and demonstrate notable improvements for both RPM and Bongard-Logo problems. Overall, our contributions offer a new perspective and practical solutions to the field of abstract reasoning.
翻訳日:2024-03-12 17:21:37 公開日:2024-03-09
# ニュージーランドにおけるAI対応エージェントベースモデルとその麻疹発生シミュレーションへの応用

An AI-enabled Agent-Based Model and Its Application in Measles Outbreak Simulation for New Zealand ( http://arxiv.org/abs/2403.03434v2 )

ライセンス: Link先を確認
Sijin Zhang, Alvaro Orsi, Lei Chen(参考訳) エージェントベースモデル(ABM)は、複雑な社会的相互作用、特に公衆衛生や感染症の調査の文脈において、強力なツールとして登場した。 従来のabmの拡張,モデルキャリブレーションの自動化,モデルのスケールアップに必要な計算リソースの削減を目的として,グラフニューラルネットワーク(gnn)とlong short-term memory(lstm)ネットワークを結合した,テンソル化および微分可能なエージェントベースモデルを開発した。 このモデルは、2019年にニュージーランドで発生した麻疹の流行を調査するために使用され、特に繰り返し発生するケースのピーク期間中に、感染のダイナミクスを正確にシミュレートする有望な能力を実証した。 本稿では,最新の人工知能(ai)技術と従来のabmの能力を活用することで,感染症発生のダイナミクスに関する深い洞察を得る。 このことは、アウトブレイク管理と日常生活の混乱を最小限に抑えるバランスをとる効果的な戦略を開発する上で、より深い意思決定に役立つ。

Agent Based Models (ABMs) have emerged as a powerful tool for investigating complex social interactions, particularly in the context of public health and infectious disease investigation. In an effort to enhance the conventional ABM, enabling automated model calibration and reducing the computational resources needed for scaling up the model, we have developed a tensorized and differentiable agent-based model by coupling Graph Neural Network (GNN) and Long Short-Term Memory (LSTM) network. The model was employed to investigate the 2019 measles outbreak occurred in New Zealand, demonstrating a promising ability to accurately simulate the outbreak dynamics, particularly during the peak period of repeated cases. This paper shows that by leveraging the latest Artificial Intelligence (AI) technology and the capabilities of traditional ABMs, we gain deeper insights into the dynamics of infectious disease outbreaks. This, in turn, helps us make more informed decision when developing effective strategies that strike a balance between managing outbreaks and minimizing disruptions to everyday life.
翻訳日:2024-03-12 17:21:16 公開日:2024-03-09
# Triple-CFN:抽象推論プロセスの強化のための概念空間の再構築

Triple-CFN: Restructuring Conceptual Spaces for Enhancing Abstract Reasoning process ( http://arxiv.org/abs/2403.03190v3 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan(参考訳) 抽象的推論問題は、人工知能アルゴリズムに重大な課題をもたらし、知覚タスクに必要な以上の認知能力を要求する。 本研究では,競合するインスタンスの概念空間を暗黙的に再編成することにより,ボナード・ローゴ問題に対処するトリプルCFN手法を提案する。 さらに、トリプルCFNパラダイムは、必要な修正を加えてRPM問題に有効であることを証明し、競争結果をもたらす。 rpm問題の性能をさらに高めるために,プログレッシブパターンの解釈性を維持しつつ問題空間を明示的に構築するメタトリプルcfnネットワークを開発した。 Meta Triple-CFNの成功は、概念空間をモデル化するパラダイムが、正規化推論情報と等価であることによる。 このイデオロギーに基づいて、Re-space層を導入し、Meta Triple-CFNとTriple-CFNの両方の性能を向上させる。 本稿では、抽象推論問題に対処する革新的なネットワーク設計を探求し、この領域におけるさらなるブレークスルーへの道を開くことにより、機械学習の進歩に貢献することを目的とする。

Abstract reasoning problems pose significant challenges to artificial intelligence algorithms, demanding cognitive capabilities beyond those required for perception tasks. This study introduces the Triple-CFN approach to tackle the Bongard-Logo problem, achieving notable reasoning accuracy by implicitly reorganizing the concept space of conflicting instances. Additionally, the Triple-CFN paradigm proves effective for the RPM problem with necessary modifications, yielding competitive results. To further enhance performance on the RPM issue, we develop the Meta Triple-CFN network, which explicitly structures the problem space while maintaining interpretability on progressive patterns. The success of Meta Triple-CFN is attributed to its paradigm of modeling the conceptual space, equivalent to normalizing reasoning information. Based on this ideology, we introduce the Re-space layer, enhancing the performance of both Meta Triple-CFN and Triple-CFN. This paper aims to contribute to advancements in machine intelligence by exploring innovative network designs for addressing abstract reasoning problems, paving the way for further breakthroughs in this domain.
翻訳日:2024-03-12 17:20:58 公開日:2024-03-09
# 確率モデルによるbongard-logo問題の解法

Solving the bongard-logo problem by modeling a probabilistic model ( http://arxiv.org/abs/2403.03173v2 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan(参考訳) 抽象推論問題は、AIアルゴリズムの知覚的および認知的能力に挑戦し、明示的な画像特徴以上のパターン識別と帰納的推論を要求する。 本研究は, ボナード・ローゴ問題に適した確率モデルであるPMoCを導入し, 独立確率モデルを構築して高い推論精度を実現する。 さらに,bongard-logo,raven,i-raven,pgmなど,複雑な抽象推論タスク用に設計された拡張トランスフォーマトランスフォーマを提案する。 Pose-Transformerは、カプセルネットワークのポーズ行列にインスパイアされた位置情報学習を取り入れ、画像データ処理における局所的な位置関係に焦点を当てる。 PMoCと統合すると、推論精度がさらに向上する。 提案手法は,抽象エンティティの位置変化に伴う推論の難しさを効果的に解決し,OIG,D3$\times$3サブセットのRAVEN,PGMデータベース上でのモデルよりも優れている。 この研究は、抽象的推論と認知パターン認識におけるAIの能力向上に寄与する。

Abstract reasoning problems challenge the perceptual and cognitive abilities of AI algorithms, demanding deeper pattern discernment and inductive reasoning beyond explicit image features. This study introduces PMoC, a tailored probability model for the Bongard-Logo problem, achieving high reasoning accuracy by constructing independent probability models. Additionally, we present Pose-Transformer, an enhanced Transformer-Encoder designed for complex abstract reasoning tasks, including Bongard-Logo, RAVEN, I-RAVEN, and PGM. Pose-Transformer incorporates positional information learning, inspired by capsule networks' pose matrices, enhancing its focus on local positional relationships in image data processing. When integrated with PMoC, it further improves reasoning accuracy. Our approach effectively addresses reasoning difficulties associated with abstract entities' positional changes, outperforming previous models on the OIG, D3$\times$3 subsets of RAVEN, and PGM databases. This research contributes to advancing AI's capabilities in abstract reasoning and cognitive pattern recognition.
翻訳日:2024-03-12 17:20:36 公開日:2024-03-09
# PromptKD:ビジョンランゲージモデルのための教師なしプロンプト蒸留

PromptKD: Unsupervised Prompt Distillation for Vision-Language Models ( http://arxiv.org/abs/2403.02781v4 )

ライセンス: Link先を確認
Zheng Li, Xiang Li, Xinyi Fu, Xin Zhang, Weiqiang Wang, Shuo Chen, Jian Yang(参考訳) プロンプト学習は、特定のドメインの下流タスクのためのCLIPのような視覚言語モデル(VLM)を強化するための貴重なテクニックとして登場した。 既存の研究は主に様々な学習形態のプロンプトの設計に重点を置いており、より大きな教師モデルから学ぶための効果的な蒸留器としてのプロンプトの可能性を無視している。 本稿では,大規模教師モデルの知識を,ラベルなしドメイン画像を用いた即時模倣により軽量ターゲットモデルに伝達することを目的とした,教師なしドメインプロンプト蒸留フレームワークを提案する。 具体的には,2つの異なる段階から構成される。 最初の段階では、ドメインラベルを用いて大規模なCLIP教師モデルを事前訓練する。 事前学習後,教師のテキストエンコーダを通じてのみ,テキスト特徴をクラスベクトルとして事前計算し,保存することにより,CLIPの独特な分離モダリティ特性を活用する。 その後の段階では、記憶されたクラスベクトルを教師と生徒の画像エンコーダ間で共有し、予測ロジットを算出する。 さらに,教師と生徒モデルのロジットをklダイバージェンスを通じて調整し,学習可能なプロンプトを通じて,生徒画像エンコーダが教師と同じような確率分布を生成するように促す。 提案するプロンプト蒸留プロセスはラベル付きデータへの依存をなくし、アルゴリズムはドメイン内の大量のラベル付き画像を活用することができる。 最後に、よく訓練された学生画像エンコーダと事前記憶されたテキスト特徴(クラスベクトル)を推論に利用する。 最善の知識として,(1)非教師付きドメイン特化プロンプト型知識蒸留をクリップに対して実施し,(2)教師と生徒の共有クラスベクトルとしてテキスト特徴の実用的事前保存機構を確立する。 11のデータセットに関する広範囲な実験により,本手法の有効性が示された。

Prompt learning has emerged as a valuable technique in enhancing vision-language models (VLMs) such as CLIP for downstream tasks in specific domains. Existing work mainly focuses on designing various learning forms of prompts, neglecting the potential of prompts as effective distillers for learning from larger teacher models. In this paper, we introduce an unsupervised domain prompt distillation framework, which aims to transfer the knowledge of a larger teacher model to a lightweight target model through prompt-driven imitation using unlabeled domain images. Specifically, our framework consists of two distinct stages. In the initial stage, we pre-train a large CLIP teacher model using domain (few-shot) labels. After pre-training, we leverage the unique decoupled-modality characteristics of CLIP by pre-computing and storing the text features as class vectors only once through the teacher text encoder. In the subsequent stage, the stored class vectors are shared across teacher and student image encoders for calculating the predicted logits. Further, we align the logits of both the teacher and student models via KL divergence, encouraging the student image encoder to generate similar probability distributions to the teacher through the learnable prompts. The proposed prompt distillation process eliminates the reliance on labeled data, enabling the algorithm to leverage a vast amount of unlabeled images within the domain. Finally, the well-trained student image encoders and pre-stored text features (class vectors) are utilized for inference. To our best knowledge, we are the first to (1) perform unsupervised domain-specific prompt-driven knowledge distillation for CLIP, and (2) establish a practical pre-storing mechanism of text features as shared class vectors between teacher and student. Extensive experiments on 11 datasets demonstrate the effectiveness of our method.
翻訳日:2024-03-12 17:20:16 公開日:2024-03-09