このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240322となっている論文です。

PDF登録状況(公開日: 20240322)

TitleAuthorsAbstract論文公表日・翻訳日
# Metric3D v2: ゼロショットメートル深度と表面正規化のための垂直な単色幾何学的基礎モデル

Metric3D v2: A Versatile Monocular Geometric Foundation Model for Zero-shot Metric Depth and Surface Normal Estimation ( http://arxiv.org/abs/2404.15506v1 )

ライセンス: Link先を確認
Mu Hu, Wei Yin, Chi Zhang, Zhipeng Cai, Xiaoxiao Long, Hao Chen, Kaixuan Wang, Gang Yu, Chunhua Shen, Shaojie Shen, (参考訳) ゼロショット距離深度と1枚の画像からの表面正規推定のための幾何学的基礎モデルであるMetric3D v2を導入する。 深さと正規度は幾何学的に関連し、高度に補完的であるが、それらは異なる課題を提示する。 SoTA単分子深度法は、実世界のメトリクスを回復できないアフィン不変深度を学習することでゼロショットの一般化を実現する。 一方、SoTA正規推定法は、大規模ラベル付きデータの欠如により、ゼロショット性能が制限されている。 これらの問題に対処するために,計量深度推定と表面正規度推定の両方の解を提案する。 距離深度推定において、ゼロショット単一ビューモデルの鍵となるのは、様々なカメラモデルからの距離のあいまいさを解消し、大規模データトレーニングを行うことである。 本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。 表面の正規度推定には, 様々なデータ知識を計量深度から抽出し, 正規度推定器が通常のラベルを超えて学習できるようにする, 共同深度正規度最適化モジュールを提案する。 これらのモジュールを組み込んだ私たちのディープノーマルモデルは、異なるタイプのアノテーションを持つ何千ものカメラモデルから1600万枚以上の画像を安定的にトレーニングすることができる。 提案手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。 私たちのプロジェクトページはhttps://JUGGHM.github.io/Metric3Dv2.comです。

We introduce Metric3D v2, a geometric foundation model for zero-shot metric depth and surface normal estimation from a single image, which is crucial for metric 3D recovery. While depth and normal are geometrically related and highly complimentary, they present distinct challenges. SoTA monocular depth methods achieve zero-shot generalization by learning affine-invariant depths, which cannot recover real-world metrics. Meanwhile, SoTA normal estimation methods have limited zero-shot performance due to the lack of large-scale labeled data. To tackle these issues, we propose solutions for both metric depth estimation and surface normal estimation. For metric depth estimation, we show that the key to a zero-shot single-view model lies in resolving the metric ambiguity from various camera models and large-scale data training. We propose a canonical camera space transformation module, which explicitly addresses the ambiguity problem and can be effortlessly plugged into existing monocular models. For surface normal estimation, we propose a joint depth-normal optimization module to distill diverse data knowledge from metric depth, enabling normal estimators to learn beyond normal labels. Equipped with these modules, our depth-normal models can be stably trained with over 16 million of images from thousands of camera models with different-type annotations, resulting in zero-shot generalization to in-the-wild images with unseen camera settings. Our method enables the accurate recovery of metric 3D structures on randomly collected internet images, paving the way for plausible single-image metrology. Our project page is at https://JUGGHM.github.io/Metric3Dv2.
翻訳日:2024-04-28 10:36:53 公開日:2024-03-22
# ポインターGPTを用いたバイオメディカルテキスト要約のための最適経路

Optimal path for Biomedical Text Summarization Using Pointer GPT ( http://arxiv.org/abs/2404.08654v1 )

ライセンス: Link先を確認
Hyunkyung Han, Jaesik Choi, (参考訳) バイオメディカルテキスト要約は、臨床医が患者の地位を効果的に確認するための重要なツールである。 伝統的に、テキスト要約は、長い文書を短い要約に圧縮できるトランスフォーマーモデルによって達成されてきた。 しかし、トランスモデルは最も困難な自然言語処理(NLP)タスクの一つであることが知られている。 特に、GPTモデルは、事実エラーを生成し、文脈を欠き、単語を単純化する傾向にある。 これらの制約に対処するため、GPTモデルの注意機構をポインタネットワークに置き換えた。 この修正は、要約処理中に元のテキストのコア値を保存するように設計された。 ROUGEスコアを用いてポインター-GPTモデルの有効性を評価した。 その結果、Pointer-GPT はオリジナルの GPT モデルよりも優れていた。 これらの結果から, ポインターネットワークは, EMRシステムに付加価値があり, 臨床医に患者の医療記録のより正確かつ情報的な要約を提供する可能性が示唆された。 この研究は、EMRシステムにおける新しいパラダイムを開拓し、臨床医が患者の医療記録と相互作用する方法に革命をもたらす可能性がある。

Biomedical text summarization is a critical tool that enables clinicians to effectively ascertain patient status. Traditionally, text summarization has been accomplished with transformer models, which are capable of compressing long documents into brief summaries. However, transformer models are known to be among the most challenging natural language processing (NLP) tasks. Specifically, GPT models have a tendency to generate factual errors, lack context, and oversimplify words. To address these limitations, we replaced the attention mechanism in the GPT model with a pointer network. This modification was designed to preserve the core values of the original text during the summarization process. The effectiveness of the Pointer-GPT model was evaluated using the ROUGE score. The results demonstrated that Pointer-GPT outperformed the original GPT model. These findings suggest that pointer networks can be a valuable addition to EMR systems and can provide clinicians with more accurate and informative summaries of patient medical records. This research has the potential to usher in a new paradigm in EMR systems and to revolutionize the way that clinicians interact with patient medical records.
翻訳日:2024-04-21 20:04:31 公開日:2024-03-22
# 動的スキャッピングステア埋め込みによるレコメンダモデルトレーニングの高速化

Accelerating Recommender Model Training by Dynamically Skipping Stale Embeddings ( http://arxiv.org/abs/2404.04270v1 )

ライセンス: Link先を確認
Yassaman Ebrahimzadeh Maboud, Muhammad Adnan, Divya Mahajan, Prashant J. Nair, (参考訳) トレーニングレコメンデーションモデルは、リソース利用とパフォーマンスに関する重要な課題を提起する。 先行研究は、リコメンデーションモデルのトレーニング時間を短縮するために、人気クラスと非人気クラスに埋め込みを分類するアプローチを提案している。 一般的な埋め込みにおいても,ある程度の埋め込みが急激な訓練を施し,後続の変動が最小限に抑えられ,飽和が生じることが観察された。 結果として、これらの埋め込みの更新は、モデル品質への貢献を欠いている。 本稿では,スリップストリーム(Slipstream)について述べる。スリップストリーム(Slipstream)は,高速な埋め込みを識別し,その更新をスキップして性能を向上させるソフトウェアフレームワークである。 これにより、Slipstreamはかなりのスピードアップを実現し、CPU-GPU帯域幅の使用を最適化し、不要なメモリアクセスを排除できる。 SlipStreamは、ベースラインXDL、Intel最適化DRLM、FAE、Hotlineと比較して、2x、2.4x、1.2x、1.175xのトレーニング時間短縮を実世界のデータセットと構成で示す。

Training recommendation models pose significant challenges regarding resource utilization and performance. Prior research has proposed an approach that categorizes embeddings into popular and non-popular classes to reduce the training time for recommendation models. We observe that, even among the popular embeddings, certain embeddings undergo rapid training and exhibit minimal subsequent variation, resulting in saturation. Consequently, updates to these embeddings lack any contribution to model quality. This paper presents Slipstream, a software framework that identifies stale embeddings on the fly and skips their updates to enhance performance. This capability enables Slipstream to achieve substantial speedup, optimize CPU-GPU bandwidth usage, and eliminate unnecessary memory access. SlipStream showcases training time reductions of 2x, 2.4x, 1.2x, and 1.175x across real-world datasets and configurations, compared to Baseline XDL, Intel-optimized DRLM, FAE, and Hotline, respectively.
翻訳日:2024-04-14 13:21:48 公開日:2024-03-22
# リモートセンシングデータを用いた空間的・意味的拡張

Towards Effective Next POI Prediction: Spatial and Semantic Augmentation with Remote Sensing Data ( http://arxiv.org/abs/2404.04271v1 )

ライセンス: Link先を確認
Nan Jiang, Haitao Yuan, Jianing Si, Minxiao Chen, Shangguang Wang, (参考訳) 次なる関心点予測(POI)は位置情報ベースのサービスにおいて重要な課題であるが、その複雑さは空間的および意味的意図の統合から生じる。 この融合は、歴史的嗜好、一般的な位置、環境要因の影響を受けており、重要な課題を提起している。 さらに、不均一なPOI分布は、次のPOI予測手順をさらに複雑にする。 これらの課題に対処するため、入力機能を強化し、2段階の予測フレームワーク内で効果的なディープラーニング手法を提案する。 提案手法は,まずリモートセンシングデータを組み込んで,位置情報とセマンティクスの両方に関する入力特徴を高めるために,重要な環境コンテキストをキャプチャする。 その後,都市部におけるリモートセンシング,道路ネットワーク,POI分布空間を統合するために,地域クワッドツリー構造を採用し,都市空間に対するより一貫性のあるグラフ表現法を考案した。 本手法を応用して,ユーザの履歴トラジェクトリのためのQR-Pグラフを構築し,過去の旅行知識をカプセル化することにより,包括的空間的・意味的な洞察で入力機能を増強する。 これらの特徴をエンコードするために異なる埋め込みモジュールを考案し、多種多様なエンコーディングを融合するためのアテンションメカニズムを採用した。 2段階の予測手順では,まずユーザが優先するタイルを予測し,次に投影されたタイル内の指定されたタイプの特定のPOIをピンポイントすることで,潜在的な空間領域を同定する。 4つの実世界の位置情報ベースのソーシャルネットワークデータセットから得られた経験的発見は、提案手法が競争基準法よりも優れていることを示す。

The next point-of-interest (POI) prediction is a significant task in location-based services, yet its complexity arises from the consolidation of spatial and semantic intent. This fusion is subject to the influences of historical preferences, prevailing location, and environmental factors, thereby posing significant challenges. In addition, the uneven POI distribution further complicates the next POI prediction procedure. To address these challenges, we enrich input features and propose an effective deep-learning method within a two-step prediction framework. Our method first incorporates remote sensing data, capturing pivotal environmental context to enhance input features regarding both location and semantics. Subsequently, we employ a region quad-tree structure to integrate urban remote sensing, road network, and POI distribution spaces, aiming to devise a more coherent graph representation method for urban spatial. Leveraging this method, we construct the QR-P graph for the user's historical trajectories to encapsulate historical travel knowledge, thereby augmenting input features with comprehensive spatial and semantic insights. We devise distinct embedding modules to encode these features and employ an attention mechanism to fuse diverse encodings. In the two-step prediction procedure, we initially identify potential spatial zones by predicting user-preferred tiles, followed by pinpointing specific POIs of a designated type within the projected tiles. Empirical findings from four real-world location-based social network datasets underscore the remarkable superiority of our proposed approach over competitive baseline methods.
翻訳日:2024-04-14 13:21:48 公開日:2024-03-22
# 情報検索のための擬似関連フィードバックとしてのクエリバッグの選択

Selecting Query-bag as Pseudo Relevance Feedback for Information-seeking Conversations ( http://arxiv.org/abs/2404.04272v1 )

ライセンス: Link先を確認
Xiaoqing Zhang, Xiuying Chen, Shen Gao, Shuqi Li, Xin Gao, Ji-Rong Wen, Rui Yan, (参考訳) 情報検索対話システムは電子商取引システムで広く使われており、オンラインシステムの特定の設定に適合するように調整する必要がある。 ユーザクエリを前提として、情報検索対話システムはまず、応答候補のサブセットを取得し、次に、再ランク付けによって設定された候補から最適な応答を選択する。 しかし、現在の手法は、主に現在のクエリのみに基づいて応答候補を検索するが、類似した質問を取り入れることで、より多様なコンテンツが導入され、表現を洗練し、マッチングプロセスを改善する可能性がある。 そこで,本稿では,クエリベースのPseudo Relevance Feedback framework (QB-PRF)を提案する。 具体的には、まず、コントラスト学習を利用して、事前学習されたVAEから学習した表現を活用して、教師なしの方法で同義語クエリの選択を訓練するクエリバグ選択モジュール(QBS)を提案する。 次に,同義語クエリを融合させて,多次元アテンション計算によって元のクエリのセマンティック表現を強化するクエリ・バグ・フュージョン・モジュール(QBF)を提案する。 BERT と GPT-2 を含む2つの競合事前学習バックボーンモデルに対するQB-PRF フレームワークの有効性を検証する。 2つのベンチマークデータセットによる実験結果から,我々のフレームワークは強いベースラインよりも優れた性能を発揮することが示された。

Information-seeking dialogue systems are widely used in e-commerce systems, with answers that must be tailored to fit the specific settings of the online system. Given the user query, the information-seeking dialogue systems first retrieve a subset of response candidates, then further select the best response from the candidate set through re-ranking. Current methods mainly retrieve response candidates based solely on the current query, however, incorporating similar questions could introduce more diverse content, potentially refining the representation and improving the matching process. Hence, in this paper, we proposed a Query-bag based Pseudo Relevance Feedback framework (QB-PRF), which constructs a query-bag with related queries to serve as pseudo signals to guide information-seeking conversations. Concretely, we first propose a Query-bag Selection module (QBS), which utilizes contrastive learning to train the selection of synonymous queries in an unsupervised manner by leveraging the representations learned from pre-trained VAE. Secondly, we come up with a Query-bag Fusion module (QBF) that fuses synonymous queries to enhance the semantic representation of the original query through multidimensional attention computation. We verify the effectiveness of the QB-PRF framework on two competitive pretrained backbone models, including BERT and GPT-2. Experimental results on two benchmark datasets show that our framework achieves superior performance over strong baselines.
翻訳日:2024-04-14 13:21:48 公開日:2024-03-22
# オンライン自己監督型自己蒸留(Sequential Recommendation)

Leave No One Behind: Online Self-Supervised Self-Distillation for Sequential Recommendation ( http://arxiv.org/abs/2404.07219v1 )

ライセンス: Link先を確認
Shaowei Wei, Zhengwei Wu, Xin Li, Qintong Wu, Zhiqiang Zhang, Jun Zhou, Lihong Gu, Jinjie Gu, (参考訳) シーケンシャルレコメンデーション手法は、現代のレコメンデーションシステムにおいて重要な役割を担っている。 重要な課題は、データの疎さに直面したユーザの好みを正確にモデル化することである。 この課題に対処するために,近年の手法では,従来のユーザ行動シーケンスの2つの拡張ビューの相互情報を最大化することにより,コントラッシブラーニング(CL)を利用して自己超越信号を導出する手法が提案されている。 その効果にもかかわらず、CLベースの手法は、限られた行動データを持つユーザには、完全な自己超越シグナルを活用できる限界に直面する。 この問題に対処するために,オンライン自己監督型自己蒸留(Online Self-Supervised Self-distillation for Sequential Recommendation)(S^4$Rec)という新たな学習パラダイムを導入する。 具体的には、オンラインクラスタリングを用いて、ユーザに対して、独自の潜伏意図を適切にグループ化する。 また、対向学習戦略を用いて、クラスタリング手順が行動長因子の影響を受けないようにする。 その後、幅広い行動を持つユーザ(教師)から限られた行動を持つユーザ(学生)への知識伝達を容易にするために、自己蒸留を用いる。 提案したmethod\footnote{Codeの有効性を検証する4つの実世界のデータセットで実施された実験はhttps://github.com/xjaw/S4Recで公開されている。

Sequential recommendation methods play a pivotal role in modern recommendation systems. A key challenge lies in accurately modeling user preferences in the face of data sparsity. To tackle this challenge, recent methods leverage contrastive learning (CL) to derive self-supervision signals by maximizing the mutual information of two augmented views of the original user behavior sequence. Despite their effectiveness, CL-based methods encounter a limitation in fully exploiting self-supervision signals for users with limited behavior data, as users with extensive behaviors naturally offer more information. To address this problem, we introduce a novel learning paradigm, named Online Self-Supervised Self-distillation for Sequential Recommendation ($S^4$Rec), effectively bridging the gap between self-supervised learning and self-distillation methods. Specifically, we employ online clustering to proficiently group users by their distinct latent intents. Additionally, an adversarial learning strategy is utilized to ensure that the clustering procedure is not affected by the behavior length factor. Subsequently, we employ self-distillation to facilitate the transfer of knowledge from users with extensive behaviors (teachers) to users with limited behaviors (students). Experiments conducted on four real-world datasets validate the effectiveness of the proposed method\footnote{Code is available at https://github.com/xjaw/S4Rec
翻訳日:2024-04-14 13:13:23 公開日:2024-03-22
# Blended RAG: セマンティック検索とハイブリッドクエリベースの検索によるRAG(Retriever-Augmented Generation)精度の向上

Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers ( http://arxiv.org/abs/2404.07220v1 )

ライセンス: Link先を確認
Kunal Sawarkar, Abhilasha Mangal, Shivam Raj Solanki, (参考訳) Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q\&A (Question-Answering) システムを構築するための一般的なアプローチである。 しかし、文書のコーパスが拡大するにつれて、RAGの精度はますます難しくなり、レトリバーは、コーパスから最も関連性の高い文書を抽出し、LCMにコンテキストを提供することにより、RAGの精度において大きすぎる役割を担っている。 本稿では,Dense Vector index や Sparse Encoder index などのセマンティック検索手法を併用した 'Blended RAG' 手法を提案する。 本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。 このような「ブレンドレトリバー」をRAGシステムに拡張し、SQUADのような生成Q\&Aデータセットにおいてより優れた結果を示し、微調整性能を上回ります。

Retrieval-Augmented Generation (RAG) is a prevalent approach to infuse a private knowledge base of documents with Large Language Models (LLM) to build Generative Q\&A (Question-Answering) systems. However, RAG accuracy becomes increasingly challenging as the corpus of documents scales up, with Retrievers playing an outsized role in the overall RAG accuracy by extracting the most relevant document from the corpus to provide context to the LLM. In this paper, we propose the 'Blended RAG' method of leveraging semantic search techniques, such as Dense Vector indexes and Sparse Encoder indexes, blended with hybrid query strategies. Our study achieves better retrieval results and sets new benchmarks for IR (Information Retrieval) datasets like NQ and TREC-COVID datasets. We further extend such a 'Blended Retriever' to the RAG system to demonstrate far superior results on Generative Q\&A datasets like SQUAD, even surpassing fine-tuning performance.
翻訳日:2024-04-14 13:13:23 公開日:2024-03-22
# マルチエージェント大言語モデル(LLM)を用いたコンテンツ知識の同定

Content Knowledge Identification with Multi-Agent Large Language Models (LLMs) ( http://arxiv.org/abs/2404.07960v1 )

ライセンス: Link先を確認
Kaiqi Yang, Yucheng Chu, Taylor Darwin, Ahreum Han, Hang Li, Hongzhi Wen, Yasemin Copur-Gencturk, Jiliang Tang, Hui Liu, (参考訳) 教師の数学的内容知識(CK)は、教師の専門的開発(PD)プログラムにおいて不可欠である。 コンピュータ支援型非同期PDシステムは近年提案されているPD技術であり、時間や場所のコストや制限に対する懸念が少なく、教師のPD改善を支援することを目的としている。 しかし、現在の非同期PDシステムの中核となる自動CK識別手法は、ユーザ応答の多様性、高品質な注釈付きデータの不足、予測の解釈可能性の低下といった課題に直面している。 これらの課題に対処するために,マルチエージェント LLM ベースのフレームワーク LLMAgent-CK を提案する。 LLMAgent-CK は,多エージェント LLM を強力な一般化能力と人間のような議論に活用することにより,実世界の数学的 CK データセット MaCKT 上での CK 識別性能を示す。 さらに,本ケーススタディではマルチエージェントフレームワークの動作をさらに実証する。

Teachers' mathematical content knowledge (CK) is of vital importance and need in teacher professional development (PD) programs. Computer-aided asynchronous PD systems are the most recent proposed PD techniques, which aim to help teachers improve their PD equally with fewer concerns about costs and limitations of time or location. However, current automatic CK identification methods, which serve as one of the core techniques of asynchronous PD systems, face challenges such as diversity of user responses, scarcity of high-quality annotated data, and low interpretability of the predictions. To tackle these challenges, we propose a Multi-Agent LLMs-based framework, LLMAgent-CK, to assess the user responses' coverage of identified CK learning goals without human annotations. By taking advantage of multi-agent LLMs in strong generalization ability and human-like discussions, our proposed LLMAgent-CK presents promising CK identifying performance on a real-world mathematical CK dataset MaCKT. Moreover, our case studies further demonstrate the working of the multi-agent framework.
翻訳日:2024-04-14 13:03:36 公開日:2024-03-22
# UWB位置決めシステムにおける第1経路構成電力に基づくNLOS低減

First path component power based NLOS mitigation in UWB positioning system ( http://arxiv.org/abs/2403.19706v1 )

ライセンス: Link先を確認
Marcin Kolakowski, Jozef Modelski, (参考訳) 本稿では,UWB位置決めシステムにおけるNLOS(Non-Line-of-Sight)緩和法について述べる。 提案手法では,LOS(Line-of-Sight),NLOS(NLOS),重度NLOS(NLOS)の3つのカテゴリに分類される。 第1経路信号成分パワー測定に基づいて、非視線検出を行う。 各カテゴリーについて, 完全集合住宅において実施した測定キャンペーンの結果から, 平均NLOSインダクタンス時間, 到着バイアス時間, 偏差標準偏差を推定した。 タグを見つけるには、EKF(Extended Kalman Filter)ベースのアルゴリズムを用いる。 提案手法は,NLOS条件下で得られた測定結果を補正し,タグ位置推定プロセスにおいてその意義を低下させる。 本報告では,本手法と実験結果について述べる。

The paper describes an NLOS (Non-Line-of-Sight) mitigation method intended for use in a UWB positioning system. In the proposed method propagation conditions between the localized objects and the anchors forming system infrastructure are classified into one of three categories: LOS (Line-of-Sight), NLOS and severe NLOS. Non-Line-of-Sight detection is conducted based on first path signal component power measurements. For each of the categories, average NLOS inducted time of arrival bias and bias standard deviation have been estimated based on results gathered during a measurement campaign conducted in a fully furnished apartment. To locate a tag, an EKF (Extended Kalman Filter) based algorithm is used. The proposed method of NLOS mitigation consists in correcting measurement results obtained in NLOS conditions and lowering their significance in a tag position estimation process. The paper includes the description of the method and the results of the conducted experiments.
翻訳日:2024-04-07 23:24:36 公開日:2024-03-22
# 非構造化スポーツデータの可視化 -クリケット短文解説の例-

Visualization of Unstructured Sports Data -- An Example of Cricket Short Text Commentary ( http://arxiv.org/abs/2404.00030v1 )

ライセンス: Link先を確認
Swarup Ranjan Behera, Vijaya V Saradhi, (参考訳) スポーツビジュアライゼーションは、ボックススコアデータや追跡データなどの構造化データの使用に焦点を当てている。 スポーツに関する非構造化データソースは、ブログ、ソーシャルメディア投稿、オンラインニュース記事など様々な場所で利用可能である。 スポーツビジュアライゼーション手法は、これらの情報源に存在する情報を完全に活用していないか、あるいはこれらの情報源を用いて提案されたヴィジュアライゼーションは、スポーツビジュアライゼーション手法の本体を増強しなかった。 本研究では,非構造化データ,すなわちビジュアライゼーションのためのクリケット短いテキストコメンタリーの利用を提案する。 短いテキストコメンタリーデータは、個々のプレイヤーの強みルールと弱みルールを構築するために使用される。 プレイヤーの強みルールと弱みルールの計算可能定義を提案する。 構築されたルールの可視化方法を示す。 また、同様の強度ルールや弱点ルールを持つプレイヤーを計算して視覚化する。 我々は,100万以上のテキストコメンタリーを用いてクリケット選手の長所と短所を解析し,ビジュアライゼーションにおける短いテキストコメンタリーの有用性を示す。 構築されたルールを2つの検証方法により検証する。 500人以上のプレーヤーの収集したデータ、ソースコード、および得られた結果が公開されている。

Sports visualization focuses on the use of structured data, such as box-score data and tracking data. Unstructured data sources pertaining to sports are available in various places such as blogs, social media posts, and online news articles. Sports visualization methods either not fully exploited the information present in these sources or the proposed visualizations through the use of these sources did not augment to the body of sports visualization methods. We propose the use of unstructured data, namely cricket short text commentary for visualization. The short text commentary data is used for constructing individual player's strength rules and weakness rules. A computationally feasible definition for player's strength rule and weakness rule is proposed. A visualization method for the constructed rules is presented. In addition, players having similar strength rules or weakness rules is computed and visualized. We demonstrate the usefulness of short text commentary in visualization by analyzing the strengths and weaknesses of cricket players using more than one million text commentaries. We validate the constructed rules through two validation methods. The collected data, source code, and obtained results on more than 500 players are made publicly available.
翻訳日:2024-04-07 23:17:33 公開日:2024-03-22
# 視線非依存型c-VEP BCIに向けたパイロット研究

Towards gaze-independent c-VEP BCI: A pilot study ( http://arxiv.org/abs/2404.00031v1 )

ライセンス: Link先を確認
S. Narayanan, S. Ahmadi, P. Desain, J. Thielen, (参考訳) 脳コンピュータインタフェース(BCI)のスペルの制限は、ユーザーがターゲットに固定するために目を動かさなければならないことである。 これは、例えば後期筋萎縮性側索硬化症(ALS)の患者など、自発的に眼球運動を制御することができないユーザにとって問題となる。 このパイロット研究は、コード変調された視覚誘発電位(c-VEP)に基づいて、視線に依存しないスペルに向けての第一歩となる。 被験者には2つの横位置刺激が提示され、そのうちの1つは点滅しており、刺激(オーバート状態)を直接観察するか、あるいは空間的注意を用いて眼球運動(カバート状態)の必要性を排除して、これらの刺激の1つに出席するよう指示された。 被験者の刺激は脳波検査(EEG)から復号し, 88%, 100%の分類精度が得られた。 これらの基本的な知見は、両方の刺激が同時に点滅したときに隠れた空間的注意を利用する視線非依存のBCIに対して、c-VEPプロトコルを利用することが期待できる可能性を示している。

A limitation of brain-computer interface (BCI) spellers is that they require the user to be able to move the eyes to fixate on targets. This poses an issue for users who cannot voluntarily control their eye movements, for instance, people living with late-stage amyotrophic lateral sclerosis (ALS). This pilot study makes the first step towards a gaze-independent speller based on the code-modulated visual evoked potential (c-VEP). Participants were presented with two bi-laterally located stimuli, one of which was flashing, and were tasked to attend to one of these stimuli either by directly looking at the stimuli (overt condition) or by using spatial attention, eliminating the need for eye movement (covert condition). The attended stimuli were decoded from electroencephalography (EEG) and classification accuracies of 88% and 100% were obtained for the covert and overt conditions, respectively. These fundamental insights show the promising feasibility of utilizing the c-VEP protocol for gaze-independent BCIs that use covert spatial attention when both stimuli flash simultaneously.
翻訳日:2024-04-07 23:17:33 公開日:2024-03-22
# 実地臨床における深層学習モデルの展開 : 産科超音波を事例として

Deployment of Deep Learning Model in Real World Clinical Setting: A Case Study in Obstetric Ultrasound ( http://arxiv.org/abs/2404.00032v1 )

ライセンス: Link先を確認
Chun Kit Wong, Mary Ngo, Manxi Lin, Zahra Bashir, Amihai Heen, Morten Bo Søndergaard Svendsen, Martin Grønnebæk Tolsgaard, Anders Nymark Christensen, Aasa Feragen, (参考訳) 医療画像解析におけるAIモデルの急速な発展にもかかわらず、実際の臨床環境での検証は限られている。 これを解決するために、画像ベースのAIモデルをそのような設定でデプロイするために設計された汎用フレームワークを導入する。 このフレームワークを用いて胎児超音波標準平面検出のための訓練モデルを構築し,初級者および熟練者の双方でリアルタイムに評価した。 これらのセッションからのフィードバックは、このモデルが医療従事者に潜在的利益をもたらす一方で、ナビゲーションガイダンスの必要性が改善の鍵となる領域として認識されたことを明らかにした。 これらの発見は、AIモデルの現実の環境での初期展開の重要性を強調し、実際のユーザフィードバックに基づいてモデルとシステムの洗練を導くための洞察をもたらす。

Despite the rapid development of AI models in medical image analysis, their validation in real-world clinical settings remains limited. To address this, we introduce a generic framework designed for deploying image-based AI models in such settings. Using this framework, we deployed a trained model for fetal ultrasound standard plane detection, and evaluated it in real-time sessions with both novice and expert users. Feedback from these sessions revealed that while the model offers potential benefits to medical practitioners, the need for navigational guidance was identified as a key area for improvement. These findings underscore the importance of early deployment of AI models in real-world settings, leading to insights that can guide the refinement of the model and system based on actual user feedback.
翻訳日:2024-04-07 23:17:33 公開日:2024-03-22
# 非凸正則凸スパースモデルの解集合幾何学と正則化経路

Solution-Set Geometry and Regularization Path of a Nonconvexly Regularized Convex Sparse Model ( http://arxiv.org/abs/2311.18438v2 )

ライセンス: Link先を確認
Yi Zhang, Isao Yamada, (参考訳) 一般化ミニマックス・コンケーブ(GMC)ペナルティは、非凸スパース正規化器であり、正規化最小二乗問題の全体凸性を維持することができる。 本稿では,スケールドGCC(sGMC)と呼ばれるGMCモデルの重要な事例に着目し,その解集合幾何と正規化経路について,様々な顕著な知見を示す。 本研究は, sGMCペナルティがLASSOペナルティの非凸拡大(すなわち$\ell_1$-norm)であるのに対して, sGMCモデルはLASSOモデルの多くの有望な特性を保ち, その利点を損なうことなく, LASSOの非凸拡大として機能することを示唆している。 具体的には、固定正則化パラメータ $\lambda$ に対して、sGMCモデルの解集合幾何学、解の一意性、スパース性はLASSOモデルと同様のエレガントな方法で特徴づけられることを示す(例:Osborne et al 2000, R. J. Tibshirani 2013)。 様々な$\lambda$に対して、sGMC の解集合が $\lambda$ の連続ポリトープ値写像であることを証明する。 最も顕著な研究は、LASSO と同様、sGMC モデルの最小$\ell_2$-norm正規化パスは $\lambda$ において連続かつ断片線型であることを示している。 これらの理論的な結果に基づき、sGMCモデルに対して効率的な正規化パスアルゴリズムを提案し、LASSOのよく知られた最小角度回帰(LARS)アルゴリズムを拡張した。 本研究では,提案アルゴリズムの正しさと有限終了性を軽微な仮定で証明し,数値実験によりその正しさ,汎用性,有効性,実用性を確認した。 本研究の成果はLASSOの理論研究にも貢献している。

The generalized minimax concave (GMC) penalty is a nonconvex sparse regularizer which can preserve the overall-convexity of the regularized least-squares problem. In this paper, we focus on a significant instance of the GMC model termed scaled GMC (sGMC), and present various notable findings on its solution-set geometry and regularization path. Our investigation indicates that while the sGMC penalty is a nonconvex extension of the LASSO penalty (i.e., the $\ell_1$-norm), the sGMC model preserves many celebrated properties of the LASSO model, hence can serve as a less biased surrogate of LASSO without losing its advantages. Specifically, for a fixed regularization parameter $\lambda$, we show that the solution-set geometry, solution uniqueness and sparseness of the sGMC model can be characterized in a similar elegant way to the LASSO model (see, e.g., Osborne et al. 2000, R. J. Tibshirani 2013). For a varying $\lambda$, we prove that the sGMC solution set is a continuous polytope-valued mapping of $\lambda$. Most noticeably, our study indicates that similar to LASSO, the minimum $\ell_2$-norm regularization path of the sGMC model is continuous and piecewise linear in $\lambda$. Based on these theoretical results, an efficient regularization path algorithm is proposed for the sGMC model, extending the well-known least angle regression (LARS) algorithm for LASSO. We prove the correctness and finite termination of the proposed algorithm under a mild assumption, and confirm its correctness-in-general-situation, efficiency, and practical utility through numerical experiments. Many results in this study also contribute to the theoretical research of LASSO.
翻訳日:2024-04-01 03:58:36 公開日:2024-03-22
# 2次元のフェルミオン等尺性テンソルネットワーク状態

Fermionic Isometric Tensor Network States in Two Dimensions ( http://arxiv.org/abs/2211.00043v3 )

ライセンス: Link先を確認
Zhehao Dai, Yantao Wu, Taige Wang, Michael P. Zaletel, (参考訳) 我々は、等尺テンソルネットワーク状態をフェルミオン系に一般化し、1次元テンソルネットワークアルゴリズムを2次元フェルミオン系に効率的に適用する方法を編み出した。 このフォーマリズムの最初の応用として、リアルタイムおよび仮想時間進化のための時間進化ブロック決定アルゴリズム(TEBD)を開発し、ベンチマークを行った。 仮想時間進化は、ギャップ化されたシステム、ディラック点を持つシステム、ギャップのないエッジモードを持つシステムの基底状態エネルギーを精度良く生成する。 リアルタイムTEBDはチャーン絶縁体の境界上の2つのフェルミオンの散乱とカイラルエッジのダイナミクスをキャプチャする。

We generalize isometric tensor network states to fermionic systems, paving the way for efficient adaptations of 1D tensor network algorithms to 2D fermionic systems. As the first application of this formalism, we developed and benchmarked a time-evolution block-decimation (TEBD) algorithm for real-time and imaginary-time evolution. The imaginary-time evolution produces ground-state energies for gapped systems, systems with a Dirac point, and systems with gapless edge modes to good accuracy. The real-time TEBD captures the scattering of two fermions and the chiral edge dynamics on the boundary of a Chern insulator.
翻訳日:2024-03-27 06:02:58 公開日:2024-03-22
# ゼロショット関係抽出のための銀標準データによる学習

Learning with Silver Standard Data for Zero-shot Relation Extraction ( http://arxiv.org/abs/2211.13883v2 )

ライセンス: Link先を確認
Tianyin Wang, Jianwei Wang, Ziqian Zeng, (参考訳) 教師付き関係抽出法(RE法)の優れた性能は、大量の金標準データに大きく依存している。 最近のゼロショット関係抽出法は、REタスクを他のNLPタスクに変換し、これらのNLPタスクのオフザシェルフモデルを使用して、大量のREアノテーションデータを用いることなく、テストデータ上で直接推論を行う。 これらの手法の潜在的に価値のある副産物は、大規模な銀標準データである。 しかし、潜在的に価値のある銀標準データの使用に関するさらなる調査は行われていない。 本稿では,まず銀標準データから少量のクリーンデータを検出し,選択したクリーンデータを用いて事前学習したモデルを微調整する。 次に、微調整されたモデルを使って関係型を推論します。 また,クリーンなデータを選択する際に,クラス情報を考慮したクリーンなデータ検出モジュールを提案する。 実験の結果, ゼロショットREタスクにおけるTACREDおよびWiki80データセットにおいて, ベースラインを12%, 11%上回る性能が得られた。 異なる分布の銀標準データを使用することで、さらなる性能向上が可能となる。

The superior performance of supervised relation extraction (RE) methods heavily relies on a large amount of gold standard data. Recent zero-shot relation extraction methods converted the RE task to other NLP tasks and used off-the-shelf models of these NLP tasks to directly perform inference on the test data without using a large amount of RE annotation data. A potentially valuable by-product of these methods is the large-scale silver standard data. However, there is no further investigation on the use of potentially valuable silver standard data. In this paper, we propose to first detect a small amount of clean data from silver standard data and then use the selected clean data to finetune the pretrained model. We then use the finetuned model to infer relation types. We also propose a class-aware clean data detection module to consider class information when selecting clean data. The experimental results show that our method can outperform the baseline by 12% and 11% on TACRED and Wiki80 dataset in the zero-shot RE task. By using extra silver standard data of different distributions, the performance can be further improved.
翻訳日:2024-03-27 06:02:58 公開日:2024-03-22
# 予測区間生成のための二重精度品質駆動型ニューラルネットワーク

Dual Accuracy-Quality-Driven Neural Network for Prediction Interval Generation ( http://arxiv.org/abs/2212.06370v4 )

ライセンス: Link先を確認
Giorgio Morales, John W. Sheppard, (参考訳) 現実世界の応用において、ディープラーニングモデルの信頼性を高めるためには、正確な不確実性定量化が必要である。 回帰タスクの場合、深層学習モデルの決定論的予測とともに予測間隔(PI)を提供する必要がある。 このようなPIは、十分に狭く、確率密度の大部分を捉えている限り、有用または「高品質」である。 本稿では,従来の目標予測に加えて,回帰型ニューラルネットワークの予測間隔を自動的に学習する手法を提案する。 特に,1つの出力,対象推定,および2つの出力,対応するPIの上と下の境界を使用するニューラルネットワークを訓練する。 我々の主な貢献は、目標推定ネットワークの出力を考慮に入れ、平均予測間隔幅を最小化し、予測間隔確率を暗黙的に最大化する制約を用いてPI整合性を確保するという2つの最適化目標を持つPI世代ネットワークの新規損失関数の設計である。 さらに、損失関数内の両方の目的をバランスさせる自己適応係数を導入し、微調整の作業を軽減する。 合成データセット,8つのベンチマークデータセット,および実世界の収量予測データセットを用いて実験したところ,本手法は,3つの最先端ニューラルネットワーク法により生成されたPIと比較して,目標推定精度を損なうことなく,有意な確率カバレッジを維持し,はるかに狭いPIを生成することができた。 言い換えれば,本手法は高品質なPIを生成することが示されている。

Accurate uncertainty quantification is necessary to enhance the reliability of deep learning models in real-world applications. In the case of regression tasks, prediction intervals (PIs) should be provided along with the deterministic predictions of deep learning models. Such PIs are useful or "high-quality" as long as they are sufficiently narrow and capture most of the probability density. In this paper, we present a method to learn prediction intervals for regression-based neural networks automatically in addition to the conventional target predictions. In particular, we train two companion neural networks: one that uses one output, the target estimate, and another that uses two outputs, the upper and lower bounds of the corresponding PI. Our main contribution is the design of a novel loss function for the PI-generation network that takes into account the output of the target-estimation network and has two optimization objectives: minimizing the mean prediction interval width and ensuring the PI integrity using constraints that maximize the prediction interval probability coverage implicitly. Furthermore, we introduce a self-adaptive coefficient that balances both objectives within the loss function, which alleviates the task of fine-tuning. Experiments using a synthetic dataset, eight benchmark datasets, and a real-world crop yield prediction dataset showed that our method was able to maintain a nominal probability coverage and produce significantly narrower PIs without detriment to its target estimation accuracy when compared to those PIs generated by three state-of-the-art neural-network-based methods. In other words, our method was shown to produce higher-quality PIs.
翻訳日:2024-03-27 06:02:58 公開日:2024-03-22
# 皮質-視床-皮質回路にインスパイアされた音声-視覚音声分離モデル

An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits ( http://arxiv.org/abs/2212.10744v2 )

ライセンス: Link先を確認
Kai Li, Fenghua Xie, Hang Chen, Kexin Yuan, Xiaolin Hu, (参考訳) 視覚入力を含む視覚的アプローチは、近年の音声分離の進展の基盤となっている。 しかし、聴覚と視覚入力の同時使用の最適化は依然として活発な研究分野である。 異なるモーダルの感覚処理機構が非強膜性知覚視床を通じて相互に調節される皮質-視床皮質回路に着想を得て,音声-視覚音声分離のための新しい皮質-視床皮質神経回路(CTCNet)を提案する。 まず、CTCNetは、聴覚と視覚のサブネットにおいて、階層的な聴覚と視覚の表現をボトムアップ的に学習し、聴覚と視覚の皮質の機能を模倣する。 そして、皮質領域と視床の間の多数の接続に触発され、このモデルは、トップダウン接続を通して視床下部の聴覚情報と視覚情報を融合する。 最後に、この融合した情報を聴覚及び視覚サブネットに送信し、上記の処理を何度も繰り返す。 3つの音声分離ベンチマークデータセットによる実験の結果、CTCNetはパラメータがかなり少ない既存のAVSS法よりも著しく優れていた。 これらの結果は、哺乳類の脳の解剖学的コネクトームを模倣することは、ディープニューラルネットワークの発展を促進する大きな可能性を持っていることを示唆している。 プロジェクトリポジトリはhttps://github.com/JusperLee/CTCNet。

Audio-visual approaches involving visual inputs have laid the foundation for recent progress in speech separation. However, the optimization of the concurrent usage of auditory and visual inputs is still an active research area. Inspired by the cortico-thalamo-cortical circuit, in which the sensory processing mechanisms of different modalities modulate one another via the non-lemniscal sensory thalamus, we propose a novel cortico-thalamo-cortical neural network (CTCNet) for audio-visual speech separation (AVSS). First, the CTCNet learns hierarchical auditory and visual representations in a bottom-up manner in separate auditory and visual subnetworks, mimicking the functions of the auditory and visual cortical areas. Then, inspired by the large number of connections between cortical regions and the thalamus, the model fuses the auditory and visual information in a thalamic subnetwork through top-down connections. Finally, the model transmits this fused information back to the auditory and visual subnetworks, and the above process is repeated several times. The results of experiments on three speech separation benchmark datasets show that CTCNet remarkably outperforms existing AVSS methods with considerably fewer parameters. These results suggest that mimicking the anatomical connectome of the mammalian brain has great potential for advancing the development of deep neural networks. Project repo is https://github.com/JusperLee/CTCNet.
翻訳日:2024-03-27 06:02:58 公開日:2024-03-22
# スパーススパイクニューラルネットワークのためのワークロードベースプルーニング

Workload-Balanced Pruning for Sparse Spiking Neural Networks ( http://arxiv.org/abs/2302.06746v2 )

ライセンス: Link先を確認
Ruokai Yin, Youngeun Kim, Yuhang Li, Abhishek Moitra, Nitin Satpute, Anna Hambitzer, Priyadarshini Panda, (参考訳) Pruning for Spiking Neural Networks (SNN)は、リソース制約のあるエッジデバイスにディープSNNをデプロイするための基本的な方法論として登場した。 既存の刈り取り法は、深いSNNに対して非常に高い重み空間を与えることができるが、高い重み空間は、作業負荷の不均衡問題を引き起こす。 特に、ワークロードの不均衡は、異なる数の非ゼロ重みが並列に実行されるハードウェアユニットに割り当てられたときに発生する。 これにより、ハードウェア使用率が低くなり、より長いレイテンシとより高いエネルギーコストが課される。 予備実験では, スパースSNN(重量の約98%)が59%の低利用率で悩まされることが判明した。 作業負荷の不均衡問題を解決するために,LTH(Lottery Ticket hypothesis)に基づくプルーニング中にSNNの重み接続を監視・調整するu-Ticketを提案する。 実験の結果,U-Ticketは最大100%のハードウェア利用を保証でき,76.9%のレイテンシと63.8%のエネルギーコストを低減できることがわかった。

Pruning for Spiking Neural Networks (SNNs) has emerged as a fundamental methodology for deploying deep SNNs on resource-constrained edge devices. Though the existing pruning methods can provide extremely high weight sparsity for deep SNNs, the high weight sparsity brings a workload imbalance problem. Specifically, the workload imbalance happens when a different number of non-zero weights are assigned to hardware units running in parallel. This results in low hardware utilization and thus imposes longer latency and higher energy costs. In preliminary experiments, we show that sparse SNNs (~98% weight sparsity) can suffer as low as ~59% utilization. To alleviate the workload imbalance problem, we propose u-Ticket, where we monitor and adjust the weight connections of the SNN during Lottery Ticket Hypothesis (LTH) based pruning, thus guaranteeing the final ticket gets optimal utilization when deployed onto the hardware. Experiments indicate that our u-Ticket can guarantee up to 100% hardware utilization, thus reducing up to 76.9% latency and 63.8% energy cost compared to the non-utilization-aware LTH method.
翻訳日:2024-03-27 04:08:18 公開日:2024-03-22
# PatchZero: ゼロショット自動パッチ精度評価

PatchZero: Zero-Shot Automatic Patch Correctness Assessment ( http://arxiv.org/abs/2303.00202v3 )

ライセンス: Link先を確認
Xin Zhou, Bowen Xu, Kisub Kim, DongGyun Han, Thanh Le-Cong, Junda He, Bach Le, David Lo, (参考訳) APR(Automated Program repair)技術は、現実のバグを修正する上で、より多くの有望な結果を示している。 有効性にも拘わらず、APRのテクニックは相変わらず過度な問題に直面している。 すべてのテストに合格できる、生成されたパッチの正確さを手作業で評価するのは、時間を要する。 この問題に対処するために、APR技術によって生成されたパッチの正当性を自動的に評価する多くの手法が提案されている。 これらのアプローチは、主にクロスバリデーション設定で評価される。 しかし、新しいまたは見えないAPRツールによって生成されたパッチに対しては、ユーザーは、残りのパッチを推測する前に、これらのパッチのかなりの部分をクロスバリデーション設定で手動でラベル付けする必要がある。 そこで本研究では,コードに大規模言語モデルを適用することにより,パッチの正当性評価を行う「toolname」を提案する。 具体的には、新しいまたは見えないAPRツールによって生成されたパッチに対して、トレーニングのために新しいまたは見えないAPRツールのラベル付きパッチは必要ないが、トレーニングなしで正しいラベルの予測を得るために、コードの大きな言語モデルを直接クエリする。 このようにして、 \toolnameは、新しいAPRツールの生成したパッチの正しさを自動的に評価するモデルを構築する際に、手作業によるラベル付けの労力を削減することができる。 新しいAPRツールが生成したパッチとセマンティックな類似性を示す既存のAPRツールからのラベル付きパッチを優先し、新しいAPRツールからのパッチに対する \toolnameによって達成された精度を高める。 実験の結果,新しいAPRツールのラベル付きパッチは使用できないが,<toolname</to>の精度は84.4%,F1スコアは86.5%であった。 さらに,提案手法は従来の最先端技術よりも大きなマージンで優れていた。

Automated Program Repair (APR) techniques have shown more and more promising results in fixing real-world bugs. Despite the effectiveness, APR techniques still face an overfitting problem: a generated patch can be incorrect although it passes all tests. It is time-consuming to manually evaluate the correctness of generated patches that can pass all tests. To address this problem, many approaches have been proposed to automatically assess the correctness of patches generated by APR techniques. These approaches are mainly evaluated within the cross-validation setting. However, for patches generated by a new or unseen APR tool, users are implicitly required to manually label a significant portion of these patches in the cross-validation setting before inferring the remaining patches. To mitigate the issue, in this study, we propose \toolname, the patch correctness assessment by adopting a large language model for code. Specifically, for patches generated by a new or unseen APR tool, \toolname does not need labeled patches of this new or unseen APR tool for training but directly queries the large language model for code to get predictions on the correctness labels without training. In this way, \toolname can reduce the manual labeling effort when building a model to automatically assess the correctness of generated patches of new APR tools. \toolname prioritizes labeled patches from existing APR tools that exhibit semantic similarity to those generated by new APR tools, enhancing the accuracy achieved by \toolname for patches from new APR tools. Our experimental results showed that \toolname can achieve an accuracy of 84.4% and an F1-score of 86.5% on average although no labeled patch of the new or unseen APR tool is available. In addition, our proposed technique outperformed the prior state-of-the-art by a large margin.
翻訳日:2024-03-27 04:08:18 公開日:2024-03-22
# 欠陥の存在下での量子誤り訂正符号とモジュラーチップレットの符号

Codesign of quantum error-correcting codes and modular chiplets in the presence of defects ( http://arxiv.org/abs/2305.00138v3 )

ライセンス: Link先を確認
Sophia Fuhui Lin, Joshua Viszlai, Kaitlin N. Smith, Gokul Subramanian Ravi, Charles Yuan, Frederic T. Chong, Benjamin J. Brown, (参考訳) 製造エラーは、固体量子デバイスをフォールトトレラント(FT)量子アプリケーションに必要なサイズにスケールアップする上で大きな課題となる。 1) モジュラーアーキテクチャの柔軟性を活用すること,(2) 量子エラー補正(QEC)の手順を適用して製造欠陥を考慮すること,の2つのアプローチを組み合わせる。 我々は、任意に分散した欠陥を持つキュービットアレイに適応した表面コードをシミュレートし、欠陥が忠実性にどう影響するかを特徴付けるメトリクスを見つける。 次に、フォールトトレラントな量子コンピュータを実現する際のリソースオーバーヘッドに対する欠陥の影響をチップレットベースのモジュラーアーキテクチャで決定する。 本研究では, 回路ベースノイズモデルにおいて, 非正則な物理量子ビットの誤差率が0.1%程度である場合, 論理的故障の指数関数的抑制効果を示す。 これは、欠陥のないサーフェスコードの実行を想像する典型的な仕組みです。 我々は,欠陥チップレットからデバイスを構築するための選択後の基準を確立するために,数値結果を用いている。 この基準を用いて,論理キュービット当たりの物理キュービットの平均個数の観点から,資源のオーバーヘッドを評価する。 欠陥率と目標忠実度に基づいて最適なチップレットサイズを選択することは、欠陥による追加のエラー修正オーバーヘッドを制限するのに不可欠である。 最適チップレットサイズを選択すると、1%の欠陥率で、リソースのオーバーヘッドを2つの欠陥モデルに対してそれぞれ3Xと6X以下に減らすことができる。 また、誤り訂正符号の一部として、キュービットを無効にするか、保持するかを識別するためのカットオフ忠実度値も決定する。

Fabrication errors pose a significant challenge in scaling up solid-state quantum devices to the sizes required for fault-tolerant (FT) quantum applications. To mitigate the resource overhead caused by fabrication errors, we combine two approaches: (1) leveraging the flexibility of a modular architecture, (2) adapting the procedure of quantum error correction (QEC) to account for fabrication defects. We simulate the surface code adapted to qubit arrays with arbitrarily distributed defects to find metrics that characterize how defects affect fidelity. We then determine the impact of defects on the resource overhead of realizing a fault-tolerant quantum computer, on a chiplet-based modular architecture. Our strategy for dealing with fabrication defects demonstrates an exponential suppression of logical failure where error rates of non-faulty physical qubits are ~0.1% in a circuit-based noise model. This is a typical regime where we imagine running the defect-free surface code. We use our numerical results to establish post-selection criteria for building a device from defective chiplets. Using our criteria, we then evaluate the resource overhead in terms of the average number of fabricated physical qubits per logical qubit. We find that an optimal choice of chiplet size, based on the defect rate and target fidelity, is essential to limiting any additional error correction overhead due to defects. When the optimal chiplet size is chosen, at a defect rate of 1% the resource overhead can be reduced to below 3X and 6X respectively for the two defect models we use, for a wide range of target performance. We also determine cutoff fidelity values that help identify whether a qubit should be disabled or kept as part of the error correction code.
翻訳日:2024-03-27 03:48:07 公開日:2024-03-22
# オープンワールド認識におけるトランスダクティブ閾値校正の学習

Learning for Transductive Threshold Calibration in Open-World Recognition ( http://arxiv.org/abs/2305.12039v2 )

ライセンス: Link先を確認
Qin Zhang, Dongsheng An, Tianjun Xiao, Tong He, Qingming Tang, Ying Nian Wu, Joseph Tighe, Yifan Xing, Stefano Soatto, (参考訳) 距離しきい値のキャリブレーションは, 真正レート(TPR)や真負レート(TNR)において, 所望のモデル性能を達成するために重要である。 しかしながら、このしきい値の校正は、テストクラスがトレーニング中に遭遇したクラスと完全に相容れないような、オープンワールドシナリオにおける課題を示す。 未確認のオープンワールドテストクラスに対する目標性能指標をオープンワールドしきい値キャリブレーションとして達成するために,トレーニング済み埋め込みモデルの距離しきい値を求める問題を定義する。 既存のポストホックしきい値のキャリブレーション法は、帰納的推論に依存し、テストデータと同じような距離分布のキャリブレーションデータセットを必要とするが、オープンワールドのシナリオでは効果がないことがしばしば証明される。 そこで我々は,適応性とロバスト性を高めたグラフニューラルネットワークを用いたトランスダクティブしきい値キャリブレーション手法OpenGCNを紹介する。 OpenGCNはグラフに埋め込まれた未ラベルのテストインスタンスのペアワイズ接続を予測して、そのTPRとTNRを様々な距離しきい値で決定し、テスト時間情報も含む距離しきい値のトランスダクティブ推論を可能にする。 オープンワールド視覚認識ベンチマークの広範な実験は、オープンワールドしきい値キャリブレーションのための既存のポストホックキャリブレーション法よりもOpenGCNの方が優れていることを証明している。

In deep metric learning for visual recognition, the calibration of distance thresholds is crucial for achieving desired model performance in the true positive rates (TPR) or true negative rates (TNR). However, calibrating this threshold presents challenges in open-world scenarios, where the test classes can be entirely disjoint from those encountered during training. We define the problem of finding distance thresholds for a trained embedding model to achieve target performance metrics over unseen open-world test classes as open-world threshold calibration. Existing posthoc threshold calibration methods, reliant on inductive inference and requiring a calibration dataset with a similar distance distribution as the test data, often prove ineffective in open-world scenarios. To address this, we introduce OpenGCN, a Graph Neural Network-based transductive threshold calibration method with enhanced adaptability and robustness. OpenGCN learns to predict pairwise connectivity for the unlabeled test instances embedded in a graph to determine its TPR and TNR at various distance thresholds, allowing for transductive inference of the distance thresholds which also incorporates test-time information. Extensive experiments across open-world visual recognition benchmarks validate OpenGCN's superiority over existing posthoc calibration methods for open-world threshold calibration.
翻訳日:2024-03-27 03:48:07 公開日:2024-03-22
# PLANNER:潜時言語拡散モデルによる分散パラグラフの生成

PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model ( http://arxiv.org/abs/2306.02531v3 )

ライセンス: Link先を確認
Yizhe Zhang, Jiatao Gu, Zhuofeng Wu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly, (参考訳) テキストの自動回帰モデルは、生成のステップ中にエラーが蓄積されるため、繰り返し、低品質の出力を生成することがある。 この問題は、しばしば露出バイアス(モデルがどのようにトレーニングされているか、そして推論中にどのように使用されるかの違い)に起因する。 拡散モデルのデノイングは、モデルがその出力を再検討し、再検討できる別のアプローチを提供する。 しかし、これらは計算コストが高く、テキストに対する以前の取り組みは、特に長いテキストや段落に対して、自己回帰モデルに比べて、より流動性の低い出力を生み出すモデルに導かれる。 本稿では,潜在意味拡散と自己回帰生成を組み合わせたモデルであるPLANNERを提案する。 このモデルでは、自己回帰的なデコーディングモジュールと、遅延拡散を用いた「計画」モジュールを組み合わせることで、セマンティックな段落の埋め込みを粗い方法で生成する。 提案手法は, 各種条件生成タスクに基づいて評価し, セマンティック生成, テキスト補完, 要約の結果から, 高品質な長文を効率よく生成できることを示す。

Autoregressive models for text sometimes generate repetitive and low-quality output because errors accumulate during the steps of generation. This issue is often attributed to exposure bias - the difference between how a model is trained, and how it is used during inference. Denoising diffusion models provide an alternative approach in which a model can revisit and revise its output. However, they can be computationally expensive and prior efforts on text have led to models that produce less fluent output compared to autoregressive models, especially for longer text and paragraphs. In this paper, we propose PLANNER, a model that combines latent semantic diffusion with autoregressive generation, to generate fluent text while exercising global control over paragraphs. The model achieves this by combining an autoregressive "decoding" module with a "planning" module that uses latent diffusion to generate semantic paragraph embeddings in a coarse-to-fine manner. The proposed method is evaluated on various conditional generation tasks, and results on semantic generation, text completion and summarization show its effectiveness in generating high-quality long-form text in an efficient manner.
翻訳日:2024-03-27 03:38:04 公開日:2024-03-22
# 生体配列のオフライン設計のためのスコアコンディション発電機のブートストラップトレーニング

Bootstrapped Training of Score-Conditioned Generator for Offline Design of Biological Sequences ( http://arxiv.org/abs/2306.03111v2 )

ライセンス: Link先を確認
Minsu Kim, Federico Berto, Sungsoo Ahn, Jinkyoo Park, (参考訳) オフラインデータセットでのみ評価されるブラックボックススコア関数を最大化するために,生物配列,タンパク質,DNA,RNAを最適化する問題について検討する。 本稿では,スコア条件付きジェネレータ(BootGen)アルゴリズムのブートストラップ型学習法を提案する。 私たちのアルゴリズムは2段階のプロセスを繰り返します。 第1段階では, アルゴリズムは, 高得点に基づくシーケンス生成の精度を高めるために, ランクベース重み付き生物配列生成装置を訓練する。 次のステージはブートストレッピングで、プロキシスコア関数によってラベル付けされた自己生成データでトレーニングデータセットを拡張する。 我々のキーとなるアイデアは、スコアベースの生成をプロキシスコア関数と整合させることで、プロキシスコア関数の知識をジェネレータに抽出する。 トレーニング後、複数のブートストラップされたジェネレータとプロキシからサンプルを収集し、多様なデザインを作成します。 大規模実験により,本手法は生物の逐次設計タスクにおける競争基準よりも優れていた。 再現可能なソースコードを提供する。 \href{https://github.com/kaist-silab/bootgen}{https://github.com/kaist-silab/bootgen}。

We study the problem of optimizing biological sequences, e.g., proteins, DNA, and RNA, to maximize a black-box score function that is only evaluated in an offline dataset. We propose a novel solution, bootstrapped training of score-conditioned generator (BootGen) algorithm. Our algorithm repeats a two-stage process. In the first stage, our algorithm trains the biological sequence generator with rank-based weights to enhance the accuracy of sequence generation based on high scores. The subsequent stage involves bootstrapping, which augments the training dataset with self-generated data labeled by a proxy score function. Our key idea is to align the score-based generation with a proxy score function, which distills the knowledge of the proxy score function to the generator. After training, we aggregate samples from multiple bootstrapped generators and proxies to produce a diverse design. Extensive experiments show that our method outperforms competitive baselines on biological sequential design tasks. We provide reproducible source code: \href{https://github.com/kaist-silab/bootgen}{https://github.com/kaist-silab/bootgen}.
翻訳日:2024-03-27 03:38:04 公開日:2024-03-22
# セルフ・スーパーバイザード・ラーニングが自動変形性音声評価に及ぼす影響に関する研究

A study on the impact of Self-Supervised Learning on automatic dysarthric speech assessment ( http://arxiv.org/abs/2306.04337v2 )

ライセンス: Link先を確認
Xavier F. Cadet, Ranya Aloufi, Sara Ahmadi-Abhari, Hamed Haddadi, (参考訳) 変形評価の自動化は、手動および主観的評価の現在の限界に対処する実用的で低コストのツールを開発する機会を提供する。 それでも、ほとんどの嫌がらせデータセットの小さなサイズは、自動アセスメントの開発を困難にしている。 近年の研究では、大容量未ラベルデータに事前学習したモデルからの音声表現が、変形性音声に対する自動音声認識(ASR)性能を向上させることが示されている。 本研究は, 変形性関節症における3つの下流課題, 疾患分類, 単語認識, 知性分類, およびUA-Speechデータセットにおける3つの雑音シナリオを対象とした, 先行訓練済みの自己監督モデルの表現を, 初めて評価するものである。 以上の結果から,HuBERTは難聴分類,単語認識,知能分類において最も汎用性の高い特徴抽出器であり,従来の音響特徴と比較して,それぞれ$+24.7\%,+61\%, \text{and} +7.2\%の精度が得られた。

Automating dysarthria assessments offers the opportunity to develop practical, low-cost tools that address the current limitations of manual and subjective assessments. Nonetheless, the small size of most dysarthria datasets makes it challenging to develop automated assessment. Recent research showed that speech representations from models pre-trained on large unlabelled data can enhance Automatic Speech Recognition (ASR) performance for dysarthric speech. We are the first to evaluate the representations from pre-trained state-of-the-art Self-Supervised models across three downstream tasks on dysarthric speech: disease classification, word recognition and intelligibility classification, and under three noise scenarios on the UA-Speech dataset. We show that HuBERT is the most versatile feature extractor across dysarthria classification, word recognition, and intelligibility classification, achieving respectively $+24.7\%, +61\%, \text{and} +7.2\%$ accuracy compared to classical acoustic features.
翻訳日:2024-03-27 03:38:04 公開日:2024-03-22
# ディファレンシャル・プライベート・コンディショナル・インディペンデント・テスト

Differentially Private Conditional Independence Testing ( http://arxiv.org/abs/2306.06721v3 )

ライセンス: Link先を確認
Iden Kalemaj, Shiva Prasad Kasiviswanathan, Aaditya Ramdas, (参考訳) 条件独立性テスト(CI)は統計データ解析において広く使われており、例えば、因果グラフ発見のための多くのアルゴリズムの構成要素である。 CIテストの目標は、$X \perp \! あー! あー! \perp Y \mid Z$, where $X \in \mathbb{R}, Y \in \mathbb{R}, Z \in \mathbb{R}^d$。 本研究では,差分プライバシー制約下での条件付き独立試験について検討する。 我々は、ShahとPetersの一般化共分散尺度(2020年)とCand\`es et al(2016年)の条件付きランダム化テスト(モデル-X仮定)の2つのプライベートCIテスト手順を設計する。 テストのパフォーマンスを理論的に保証し、それを実証的に検証します。 これらは、Z$が連続している場合の一般的なケースで機能する厳密な理論的保証を持つ最初のプライベートCIテストである。

Conditional independence (CI) tests are widely used in statistical data analysis, e.g., they are the building block of many algorithms for causal graph discovery. The goal of a CI test is to accept or reject the null hypothesis that $X \perp \!\!\! \perp Y \mid Z$, where $X \in \mathbb{R}, Y \in \mathbb{R}, Z \in \mathbb{R}^d$. In this work, we investigate conditional independence testing under the constraint of differential privacy. We design two private CI testing procedures: one based on the generalized covariance measure of Shah and Peters (2020) and another based on the conditional randomization test of Cand\`es et al. (2016) (under the model-X assumption). We provide theoretical guarantees on the performance of our tests and validate them empirically. These are the first private CI tests with rigorous theoretical guarantees that work for the general case when $Z$ is continuous.
翻訳日:2024-03-27 03:38:04 公開日:2024-03-22
# ODD: 自然言語処理に基づくオピオイド関連異常検出のためのベンチマークデータセット

ODD: A Benchmark Dataset for the Natural Language Processing based Opioid Related Aberrant Behavior Detection ( http://arxiv.org/abs/2307.02591v4 )

ライセンス: Link先を確認
Sunjae Kwon, Xun Wang, Weisong Liu, Emily Druhl, Minhee L. Sung, Joel I. Reisman, Wenjun Li, Robert D. Kerns, William Becker, Hong Yu, (参考訳) オピオイド関連異常行動(ORAB)はオピオイド過剰摂取の新しい危険因子である。 本稿では,ORAB 検出データセットのためのバイオメディカル自然言語処理ベンチマークである ODD を提案する。 ODDは、患者のEHRノートからORABを識別し、それらを9つのカテゴリに分類する専門家アノテーション付きデータセットである。 1)確認された異常行動 2【不当行為の推奨】 3)オピオイド。 4) 表示。 5)オピオイド依存性の診断。 6)ベンゾジアゼピン 7) 薬効の変化。 8)中枢神経系関連、及び 9) 健康の社会的決定要因。 我々は,ORABを識別するために,最先端の自然言語処理モデル(微細チューニングと高速チューニング)を2つ検討した。 実験の結果, 早期調整モデルはほとんどのカテゴリーにおいて細調整モデルよりも優れており, 特に異常なカテゴリー(推奨異常行動, 確認異常行動, 診断オピオイド依存度, メディカチオン変化)では利得が高かった。 最も優れたモデルは、精度の高いリコール曲線の下でマクロ平均領域で88.17%を達成したが、一般的なクラスにはパフォーマンス改善のための大きなスペースがある。 ODDは一般公開されている。

Opioid related aberrant behaviors (ORABs) present novel risk factors for opioid overdose. This paper introduces a novel biomedical natural language processing benchmark dataset named ODD, for ORAB Detection Dataset. ODD is an expert-annotated dataset designed to identify ORABs from patients' EHR notes and classify them into nine categories; 1) Confirmed Aberrant Behavior, 2) Suggested Aberrant Behavior, 3) Opioids, 4) Indication, 5) Diagnosed opioid dependency, 6) Benzodiazepines, 7) Medication Changes, 8) Central Nervous System-related, and 9) Social Determinants of Health. We explored two state-of-the-art natural language processing models (fine-tuning and prompt-tuning approaches) to identify ORAB. Experimental results show that the prompt-tuning models outperformed the fine-tuning models in most categories and the gains were especially higher among uncommon categories (Suggested Aberrant Behavior, Confirmed Aberrant Behaviors, Diagnosed Opioid Dependence, and Medication Change). Although the best model achieved the highest 88.17% on macro average area under precision recall curve, uncommon classes still have a large room for performance improvement. ODD is publicly available.
翻訳日:2024-03-27 03:38:04 公開日:2024-03-22
# 筋電図に基づくジェスチャ分類のための誤差増強によるユーザトレーニング

User Training with Error Augmentation for Electromyogram-based Gesture Classification ( http://arxiv.org/abs/2309.07289v3 )

ライセンス: Link先を確認
Yunus Bicer, Niklas Smedemark-Margulies, Basak Celik, Elifnur Sunger, Ryan Orendorff, Stephanie Naufel, Tales Imbiriba, Deniz Erdoğmuş, Eugene Tunik, Mathew Yarossi, (参考訳) 手首バンド構成の8電極から表面筋電図(sEMG)活性を抽出し,ユーザインタフェースをリアルタイムに制御するシステムの設計と試験を行った。 sEMGデータは、リアルタイムで手の動きを分類する機械学習アルゴリズムにストリームされた。 最初のモデル校正後, 被験者は, 人間の学習段階における3種類のフィードバックのうちの1つとして, ジェスチャー分類アルゴリズムから予測された確率を変更せずに表示する検証的フィードバック, 修正的フィードバック, それらの確率に誤りの隠蔽を施し, フィードバックを伴わない検証的フィードバックを提示した。 ユーザパフォーマンスは、一連のミニゲームで評価され、被験者は8つのジェスチャーを使ってゲームアバターを操作してタスクを完了させる必要があった。 実験の結果, ベースラインと比較して, フィードバック条件の修正により精度が向上し, ジェスチャークラス分離が向上した。 これらの結果から,フィードバック操作によるゲーミフィケーションユーザインタフェースにおけるリアルタイムフィードバックは,sEMGに基づくジェスチャー認識アプリケーションにおいて,直感的かつ迅速かつ正確なタスク獲得を可能にする可能性が示唆された。

We designed and tested a system for real-time control of a user interface by extracting surface electromyographic (sEMG) activity from eight electrodes in a wrist-band configuration. sEMG data were streamed into a machine-learning algorithm that classified hand gestures in real-time. After an initial model calibration, participants were presented with one of three types of feedback during a human-learning stage: veridical feedback, in which predicted probabilities from the gesture classification algorithm were displayed without alteration, modified feedback, in which we applied a hidden augmentation of error to these probabilities, and no feedback. User performance was then evaluated in a series of minigames, in which subjects were required to use eight gestures to manipulate their game avatar to complete a task. Experimental results indicated that, relative to baseline, the modified feedback condition led to significantly improved accuracy and improved gesture class separation. These findings suggest that real-time feedback in a gamified user interface with manipulation of feedback may enable intuitive, rapid, and accurate task acquisition for sEMG-based gesture recognition applications.
翻訳日:2024-03-27 03:17:47 公開日:2024-03-22
# 潜在確率微分モデルを用いた運動量を考慮した軌道生成と予測

Kinematics-aware Trajectory Generation and Prediction with Latent Stochastic Differential Modeling ( http://arxiv.org/abs/2309.09317v2 )

ライセンス: Link先を確認
Ruochen Jiao, Yixuan Wang, Xiangguo Liu, Chao Huang, Qi Zhu, (参考訳) 軌道生成と軌道予測は、自律走行において重要な2つのタスクであり、開発中に様々な軌道を発生させ、運転中に周囲の車両の軌道を予測する。 近年,データ駆動型深層学習手法は,様々な交通シナリオを学習し,物理的モデルを仮定せずに平均性能を向上させる上で,これらの2つの課題に対して大きな期待を抱いている。 しかし、生成/予測された軌道が物理的に現実的であることを保証するためには、これらの手法が依然として難しい問題である。 この問題は、学習に基づくアプローチが不透明なブラックボックスとして機能し、物理法則に従わないためである。 逆に、既存のモデルベースのメソッドは、物理的に実現可能な結果を提供するが、事前定義されたモデル構造によって制約され、複雑なシナリオに対処する能力を制限する。 これらの2種類のアプローチの限界に対処するため,ニューラル確率微分方程式 (SDE) にキネマティック知識を統合し,この潜在キネマティックス認識SDE (LK-SDE) に基づく変分オートエンコーダを設計し,車両の動きを生成する手法を提案する。 実験により,本手法は,物理的に現実的で正確に制御可能な車両軌道を生成する上で,モデルベースベースラインと学習ベースラインの両方を著しく上回ることを示した。 さらに、潜在空間における観測不可能な物理変数の予測にもうまく機能する。

Trajectory generation and trajectory prediction are two critical tasks in autonomous driving, which generate various trajectories for testing during development and predict the trajectories of surrounding vehicles during operation, respectively. In recent years, emerging data-driven deep learning-based methods have shown great promise for these two tasks in learning various traffic scenarios and improving average performance without assuming physical models. However, it remains a challenging problem for these methods to ensure that the generated/predicted trajectories are physically realistic. This challenge arises because learning-based approaches often function as opaque black boxes and do not adhere to physical laws. Conversely, existing model-based methods provide physically feasible results but are constrained by predefined model structures, limiting their capabilities to address complex scenarios. To address the limitations of these two types of approaches, we propose a new method that integrates kinematic knowledge into neural stochastic differential equations (SDE) and designs a variational autoencoder based on this latent kinematics-aware SDE (LK-SDE) to generate vehicle motions. Experimental results demonstrate that our method significantly outperforms both model-based and learning-based baselines in producing physically realistic and precisely controllable vehicle trajectories. Additionally, it performs well in predicting unobservable physical variables in the latent space.
翻訳日:2024-03-27 03:07:37 公開日:2024-03-22
# リッチインサイトのためのエンブレス多様性:多文書要約ベンチマークとニュース記事からの異種情報の要約に関する事例研究

Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles ( http://arxiv.org/abs/2309.09369v2 )

ライセンス: Link先を確認
Kung-Hsiang Huang, Philippe Laban, Alexander R. Fabbri, Prafulla Kumar Choubey, Shafiq Joty, Caiming Xiong, Chien-Sheng Wu, (参考訳) 複数文書のニュース要約に関するこれまでの研究は、典型的には、すべての情報源が同意する照合情報に集中してきた。 しかし、イベントに関する複数の記事にまたがる多様な情報の要約については、まだ未定である。 本稿では,同イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。 この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。 データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事で構成され、人間検証された参照とペアリングされる。 次に,一貫した自動評価を実現するために,要約のカバレッジと忠実度を評価するために,Large Language Model (LLM) ベースの指標を用いて,位置と冗長性バイアスをピンポイントする総合的な分析を行った。 相関分析を通じて、DiverseSummデータセット上で自動LLMベースのメトリクスを効果的に活用するためのベストプラクティスを概説する。 最後に,LLMが特定可能な多様な情報の種類を分析し,複数のニュース記事の要約方法を検討する。 本研究は, 単一文書要約におけるLCMの異常な能力にもかかわらず, GPT-4は平均的な多様性情報の40%以下しかカバーできないため, 提案課題は, 主に範囲が限られているため, 複雑な課題であり続けていることを示唆する。

Previous research in multi-document news summarization has typically concentrated on collating information that all sources agree upon. However, the summarization of diverse information dispersed across multiple articles about an event remains underexplored. In this paper, we propose a new task of summarizing diverse information encountered in multiple news articles encompassing the same event. To facilitate this task, we outlined a data collection schema for identifying diverse information and curated a dataset named DiverseSumm. The dataset includes 245 news stories, with each story comprising 10 news articles and paired with a human-validated reference. Next, to enable consistent automatic evaluation, we conducted a comprehensive analysis to pinpoint the position and verbosity biases when utilizing Large Language Model (LLM)-based metrics for evaluating the coverage and faithfulness of summaries. Through correlation analyses, we outline the best practices for effectively using automatic LLM-based metrics on the DiverseSumm dataset. Finally, we study how LLMs summarize multiple news articles by analyzing which type of diverse information LLMs are capable of identifying. Our analyses suggest that despite the extraordinary capabilities of LLMs in single-document summarization, the proposed task remains a complex challenge for them mainly due to their limited coverage, with GPT-4 only able to cover under 40% of the diverse information on average.
翻訳日:2024-03-27 03:07:37 公開日:2024-03-22
# ローカル検索GFlowNets

Local Search GFlowNets ( http://arxiv.org/abs/2310.02710v2 )

ライセンス: Link先を確認
Minsu Kim, Taeyoung Yun, Emmanuel Bengio, Dinghuai Zhang, Yoshua Bengio, Sungsoo Ahn, Jinkyoo Park, (参考訳) Generative Flow Networks (GFlowNets) は、報酬に比例した離散オブジェクト上の分布を学習するアモータイズされたサンプリング手法である。 GFlowNetsは、多様なサンプルを生成する素晴らしい能力を示していますが、広いサンプル空間での過剰な探索のために、常に高い報酬を持つサンプルを生成するのに苦労することがあります。 本稿では,局所探索によるGFlowNetsの学習について提案する。 本研究の主目的は, 後進政策と前進政策によるバックトラックと再建を通じて, 地域を探索することである。 これは典型的なGFlowNetソリューション生成スキームでは不可能であり、フォワードポリシーを使ってソリューションをゼロから生成する。 大規模な実験は、いくつかの生化学的タスクにおいて顕著な性能改善を示す。 ソースコードは: \url{https://github.com/dbsxodud-11/ls_gfn}.

Generative Flow Networks (GFlowNets) are amortized sampling methods that learn a distribution over discrete objects proportional to their rewards. GFlowNets exhibit a remarkable ability to generate diverse samples, yet occasionally struggle to consistently produce samples with high rewards due to over-exploration on wide sample space. This paper proposes to train GFlowNets with local search, which focuses on exploiting high-rewarded sample space to resolve this issue. Our main idea is to explore the local neighborhood via backtracking and reconstruction guided by backward and forward policies, respectively. This allows biasing the samples toward high-reward solutions, which is not possible for a typical GFlowNet solution generation scheme, which uses the forward policy to generate the solution from scratch. Extensive experiments demonstrate a remarkable performance improvement in several biochemical tasks. Source code is available: \url{https://github.com/dbsxodud-11/ls_gfn}.
翻訳日:2024-03-27 02:57:27 公開日:2024-03-22
# HalluciDet: 限定情報による人物検出のためのRGBモダリティの幻覚

HalluciDet: Hallucinating RGB Modality for Person Detection Through Privileged Information ( http://arxiv.org/abs/2310.04662v2 )

ライセンス: Link先を確認
Heitor Rapela Medeiros, Fidel A. Guerrero Pena, Masih Aminbeidokhti, Thomas Dubail, Eric Granger, Marco Pedersoli, (参考訳) 視覚認識モデルを新しい領域に適応させる強力な方法は、画像翻訳である。 しかし、一般的な画像変換手法は、ターゲット領域と同じ分布からデータを生成することのみに焦点を当てる。 空中画像からの歩行者検出などのクロスモーダルな応用が、赤外線(IR)から可視画像(RGB)へのデータ分散にかなりの変化をもたらしているため、生成に焦点を絞った翻訳は、タスクの無関係な詳細に焦点を絞った結果、パフォーマンスが低下する可能性がある。 本稿では,物体検出のためのIR-RGB画像変換モデルであるHaluciDetを提案する。 IRモダリティで元のイメージを再構成する代わりに、RGB検出器の検出損失を減らすことを目的としており、そのためRGBデータにアクセスする必要がなくなる。 このモデルは、シーンへの関心を増し、検出性能を大幅に改善する新しい画像表現を生成する。 我々は、画像翻訳とIRの微調整のための最先端手法に対する我々のアプローチを実証的に比較し、事前訓練されたRGB検出器に符号化された特権情報を利用することで、ほとんどのケースにおける検出精度を向上させることを示す。 コード:https://github.com/heitorrapela/HalluciDet

A powerful way to adapt a visual recognition model to a new domain is through image translation. However, common image translation approaches only focus on generating data from the same distribution as the target domain. Given a cross-modal application, such as pedestrian detection from aerial images, with a considerable shift in data distribution between infrared (IR) to visible (RGB) images, a translation focused on generation might lead to poor performance as the loss focuses on irrelevant details for the task. In this paper, we propose HalluciDet, an IR-RGB image translation model for object detection. Instead of focusing on reconstructing the original image on the IR modality, it seeks to reduce the detection loss of an RGB detector, and therefore avoids the need to access RGB data. This model produces a new image representation that enhances objects of interest in the scene and greatly improves detection performance. We empirically compare our approach against state-of-the-art methods for image translation and for fine-tuning on IR, and show that our HalluciDet improves detection accuracy in most cases by exploiting the privileged information encoded in a pre-trained RGB detector. Code: https://github.com/heitorrapela/HalluciDet
翻訳日:2024-03-27 02:57:27 公開日:2024-03-22
# SOTOPIA:言語エージェントにおけるソーシャルインテリジェンスのための対話的評価

SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents ( http://arxiv.org/abs/2310.11667v2 )

ライセンス: Link先を確認
Xuhui Zhou, Hao Zhu, Leena Mathur, Ruohong Zhang, Haofei Yu, Zhengyang Qi, Louis-Philippe Morency, Yonatan Bisk, Daniel Fried, Graham Neubig, Maarten Sap, (参考訳) 人間は社会的存在であり、社会知性の重要な側面である日々の交流において社会的目標を追求する。 しかし、この領域におけるAIシステムの能力はいまだ解明されていない。 人工エージェント間の複雑な社会的相互作用をシミュレートし,その社会的知性を評価するためのオープンな環境であるSOTOPIAを提案する。 エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。 SOTOPIA-Eval と呼ばれる総合評価フレームワークを用いて,LLM をベースとしたエージェントと人間とのロールプレイの相互作用をシミュレートし,その性能評価を行う。 SOTOPIAでは、これらのモデル間で社会的知性の観点から大きな違いが見られ、SOTOPIAのシナリオのサブセットであるSOTOPIA-hardを特定します。 このサブセットでは,GPT-4は人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。 これらの結果から,SOTOPIAは人工エージェントにおける社会的知能の評価・改善のための総合的なプラットフォームとしての存在が示唆された。

Humans are social beings; we pursue social goals in our daily interactions, which is a crucial aspect of social intelligence. Yet, AI systems' abilities in this realm remain elusive. We present SOTOPIA, an open-ended environment to simulate complex social interactions between artificial agents and evaluate their social intelligence. In our environment, agents role-play and interact under a wide variety of scenarios; they coordinate, collaborate, exchange, and compete with each other to achieve complex social goals. We simulate the role-play interaction between LLM-based agents and humans within this task space and evaluate their performance with a holistic evaluation framework called SOTOPIA-Eval. With SOTOPIA, we find significant differences between these models in terms of their social intelligence, and we identify a subset of SOTOPIA scenarios, SOTOPIA-hard, that is generally challenging for all models. We find that on this subset, GPT-4 achieves a significantly lower goal completion rate than humans and struggles to exhibit social commonsense reasoning and strategic communication skills. These findings demonstrate SOTOPIA's promise as a general platform for research on evaluating and improving social intelligence in artificial agents.
翻訳日:2024-03-27 02:45:56 公開日:2024-03-22
# 多ノード干渉による線形混合因数表現の同定

Identifying Linearly-Mixed Causal Representations from Multi-Node Interventions ( http://arxiv.org/abs/2311.02695v2 )

ライセンス: Link先を確認
Simon Bing, Urmi Ninad, Jonas Wahl, Jakob Runge, (参考訳) 低レベルの観測から高レベルの因果変数を推定するタスク(一般に因果表現学習と呼ばれる)は、基本的に過小評価されている。 このように、この問題に対処する最近の研究は、根底にある潜在因果変数の識別可能性につながる様々な仮定に焦点を当てている。 これらのアプローチの大規模なコーパスは、因果モデルに対する異なる介入の下で収集されたマルチ環境データを考える。 これらの研究の事実上の共通点は、各環境において、一つの変数だけが介入されるという制限的な仮定である。 本研究では、この仮定を緩和し、複数の変数を1つの環境内の介入によって対象とする因果表現学習のための最初の識別可能性結果を提供する。 われわれのアプローチは、環境全体にわたる介入のカバレッジと多様性に関する一般的な仮定に基づいており、また、以前の研究の単一ノード介入の仮定の共有も含んでいる。 このアプローチの背景にある主な考え方は、介入が基礎となる真理因果変数の分散に残した痕跡を利用して、このトレースに関する特定の空間概念を規則化することである。 理論的な貢献に加えて,多ノード干渉データから因果表現を学習し,その妥当性を実証する実証的証拠を提供するための実践的アルゴリズムを提案する。

The task of inferring high-level causal variables from low-level observations, commonly referred to as causal representation learning, is fundamentally underconstrained. As such, recent works to address this problem focus on various assumptions that lead to identifiability of the underlying latent causal variables. A large corpus of these preceding approaches consider multi-environment data collected under different interventions on the causal model. What is common to virtually all of these works is the restrictive assumption that in each environment, only a single variable is intervened on. In this work, we relax this assumption and provide the first identifiability result for causal representation learning that allows for multiple variables to be targeted by an intervention within one environment. Our approach hinges on a general assumption on the coverage and diversity of interventions across environments, which also includes the shared assumption of single-node interventions of previous works. The main idea behind our approach is to exploit the trace that interventions leave on the variance of the ground truth causal variables and regularizing for a specific notion of sparsity with respect to this trace. In addition to and inspired by our theoretical contributions, we present a practical algorithm to learn causal representations from multi-node interventional data and provide empirical evidence that validates our identifiability results.
翻訳日:2024-03-27 02:35:50 公開日:2024-03-22
# 1次元半古典型Bose-Hubbard鎖の熱力学的形式と異常輸送

Thermodynamic formalism and anomalous transport in 1D semiclassical Bose-Hubbard chain ( http://arxiv.org/abs/2312.17008v2 )

ライセンス: Link先を確認
Dragan Marković, Mihailo Čubrović, (参考訳) 半古典的な1次元Bose-Hubbard鎖の時間依存性自由エネルギー汎関数を解析した。 まず,弱いカオス力学とそれに伴うシステム内の異常拡散について概説する。 異常拡散は頑健であり、厳密な量子化係数を持ち、非常に長い鎖(100箇所以上)でさえ持続し、後期に通常の拡散に渡る。 高速な(角度の)変数と遅い(動作の)変数を識別し、それぞれアクションの修正とアクションの統合に対応する、アニールされたおよびクエンチされたパーティション関数について検討する。 加熱された自由エネルギーにおける主量子効果を観測する一方、焼成エネルギーは熱力学的限界で定義されず、焼成状態における熱力学的平衡の欠如を示唆する。 しかし、すでに焼成された状態から先導した補正は、焼成された分割関数を正確に再現している。 このことは、遅いカオス状態と速いカオス状態の両方において、異常と通常の拡散の両方が見られるという事実をカプセル化している(ただし、異なる時期に)。

We analyze the time-dependent free energy functionals of the semiclassical one-dimensional Bose-Hubbard chain. We first review the weakly chaotic dynamics and the consequent early-time anomalous diffusion in the system. The anomalous diffusion is robust, appears with strictly quantized coefficients, and persists even for very long chains (more than hundred sites), crossing over to normal diffusion at late times. We identify fast (angle) and slow (action) variables and thus consider annealed and quenched partition functions, corresponding to fixing the actions and integrating over the actions, respectively. We observe the leading quantum effects in the annealed free energy, whereas the quenched energy is undefined in the thermodynamic limit, signaling the absence of thermodynamic equilibrium in the quenched regime. But already the leading correction away from the quenched regime reproduces the annealed partition function exactly. This encapsulates the fact that in both slow- and fast-chaos regime both the anomalous and the normal diffusion can be seen (though at different times).
翻訳日:2024-03-27 01:55:44 公開日:2024-03-22
# 視覚と言語エンコーダは世界を表現するか?

Do Vision and Language Encoders Represent the World Similarly? ( http://arxiv.org/abs/2401.05224v2 )

ライセンス: Link先を確認
Mayug Maniparambil, Raiymbek Akshulakov, Yasser Abdelaziz Dahou Djilali, Sanath Narayan, Mohamed El Amine Seddik, Karttikeya Mangalam, Noel E. O'Connor, (参考訳) CLIPのようなアライメントされたテキストイメージエンコーダは、視覚言語タスクのデファクトモデルになっている。 さらに、モダリティ固有のエンコーダは、それぞれのドメインで印象的なパフォーマンスを達成する。 これは、一様視と言語エンコーダの間にアライメントが存在し、それらは基本的に同じ物理世界を表すのだろうか? Centered Kernel Alignment (CKA) を用いた画像キャプションベンチマークにおいて,視覚と言語モデルの潜在空間構造を解析した結果,不整合および整合エンコーダの表現空間は意味論的に類似していることがわかった。 CLIPのようなアライメントエンコーダに統計的に類似性がない場合、アライメントされていないエンコーダのマッチングがトレーニングなしで存在することを示す。 本稿では,グラフ間のセマンティックな類似性を利用したグラフマッチング問題として,高速2次アサインメント問題最適化と,新しい局所化CKAメトリックベースのマッチング/検索という2つの手法を提案する。 本稿では, 言語横断, ドメイン横断のキャプションマッチング, 画像分類など, 下流タスクにおけるこれの有効性を実証する。 github.com/mayug/0-shot-llm-visionで公開されている。

Aligned text-image encoders such as CLIP have become the de facto model for vision-language tasks. Furthermore, modality-specific encoders achieve impressive performances in their respective domains. This raises a central question: does an alignment exist between uni-modal vision and language encoders since they fundamentally represent the same physical world? Analyzing the latent spaces structure of vision and language models on image-caption benchmarks using the Centered Kernel Alignment (CKA), we find that the representation spaces of unaligned and aligned encoders are semantically similar. In the absence of statistical similarity in aligned encoders like CLIP, we show that a possible matching of unaligned encoders exists without any training. We frame this as a seeded graph-matching problem exploiting the semantic similarity between graphs and propose two methods - a Fast Quadratic Assignment Problem optimization, and a novel localized CKA metric-based matching/retrieval. We demonstrate the effectiveness of this on several downstream tasks including cross-lingual, cross-domain caption matching and image classification. Code available at github.com/mayug/0-shot-llm-vision.
翻訳日:2024-03-27 01:55:44 公開日:2024-03-22
# 雑音のある確率帯域に対するトンプソンサンプリング:情報理論レグレット解析

Thompson Sampling for Stochastic Bandits with Noisy Contexts: An Information-Theoretic Regret Analysis ( http://arxiv.org/abs/2401.11565v2 )

ライセンス: Link先を確認
Sharu Theresa Jose, Shana Moothedath, (参考訳) エージェントが未知の雑音パラメータを持つノイズチャネルを通して真の文脈のノイズ、破損したバージョンを観測する確率的文脈線形帯域問題について検討する。 我々の目的は、報奨モデル、チャネルパラメータ、および観測されたノイズコンテキストから真コンテキストの予測分布にアクセス可能なオラクルの「近似可能なアクションポリシー」を設計することである。 ベイズ的枠組みでは,ガウス的文脈雑音を持つガウス的帯域に対するトンプソンサンプリングアルゴリズムを導入する。 情報理論解析を応用し、オラクルの行動方針に関するベイズ的アルゴリズムの後悔を実演する。 また、報酬を受け取った後、エージェントが真の文脈をある程度の遅延で観察するシナリオにこの問題を拡張し、遅延した真の文脈がベイズ的後悔を減少させることを示す。 最後に,提案アルゴリズムのベースラインに対する性能を実証的に示す。

We explore a stochastic contextual linear bandit problem where the agent observes a noisy, corrupted version of the true context through a noise channel with an unknown noise parameter. Our objective is to design an action policy that can approximate" that of an oracle, which has access to the reward model, the channel parameter, and the predictive distribution of the true context from the observed noisy context. In a Bayesian framework, we introduce a Thompson sampling algorithm for Gaussian bandits with Gaussian context noise. Adopting an information-theoretic analysis, we demonstrate the Bayesian regret of our algorithm concerning the oracle's action policy. We also extend this problem to a scenario where the agent observes the true context with some delay after receiving the reward and show that delayed true contexts lead to lower Bayesian regret. Finally, we empirically demonstrate the performance of the proposed algorithms against baselines.
翻訳日:2024-03-27 01:55:44 公開日:2024-03-22
# 厳密な2成分行列分解に基づく1次元制御による2次元クビットアレイの深さ最適アドレス化

Depth-Optimal Addressing of 2D Qubit Array with 1D Controls Based on Exact Binary Matrix Factorization ( http://arxiv.org/abs/2401.13807v2 )

ライセンス: Link先を確認
Daniel Bochen Tan, Shuohao Ping, Jason Cong, (参考訳) 制御複雑性の低減は、大規模量子コンピューティングを実現する上で不可欠である。 しかし、制御ノブを減らすことは、各キュービットに独立して対処する能力を損なう可能性がある。 最近の中性原子系プラットフォームの進歩は、2次元量子ビットアレイの制御粒度と柔軟性のバランスに長方形(ロウカラム)アドレスが当てられることを示唆している。 このスキームは、行と列の集合の交点上のキュービットに毎回対処することを可能にする。 二次的に制御を減らすが、より深みを必要とする可能性がある。 深さ最適長方形アドレッシング問題を、通信複雑性や組合せ最適化にも現れるNPハード問題である、正確な二進行列分解として定式化する。 この問題に対して, 満足度変調理論に基づく解法と, 様々なベンチマークにおいて最適解法に近いヒューリスティックな行パッキングを導入する。 さらに, フォールトトレラント量子コンピューティングの文脈における長方形のアドレッシングについて論じ, 自然な2段階構造を生かした。

Reducing control complexity is essential for achieving large-scale quantum computing. However, reducing control knobs may compromise the ability to independently address each qubit. Recent progress in neutral atom-based platforms suggests that rectangular (row-column) addressing may strike a balance between control granularity and flexibility for 2D qubit arrays. This scheme allows addressing qubits on the intersections of a set of rows and columns each time. While quadratically reducing controls, it may necessitate more depth. We formulate the depth-optimal rectangular addressing problem as exact binary matrix factorization, an NP-hard problem also appearing in communication complexity and combinatorial optimization. We introduce a satisfiability modulo theories-based solver for this problem, and a heuristic, row packing, performing close to the optimal solver on various benchmarks. Furthermore, we discuss rectangular addressing in the context of fault-tolerant quantum computing, leveraging a natural two-level structure.
翻訳日:2024-03-27 01:45:48 公開日:2024-03-22
# 時間依存力学学習におけるリッチフロー誘導オートエンコーダ

Ricci flow-guided autoencoders in learning time-dependent dynamics ( http://arxiv.org/abs/2401.14591v6 )

ライセンス: Link先を確認
Andrew Gracyk, (参考訳) 本稿では, 時間的非線形力学, 特に偏微分方程式 (PDE) を学習するための多様体ベースオートエンコーダ法を提案する。 これは、物理学的インフォームドな設定でリッチフローをシミュレートすることで実現でき、また、リッチフローが経験的に達成されるように、多様体の量と一致させることができる。 我々の方法論では、多様体は訓練手順の一部として学習されるので、理想的な測地は識別されうるが、進化は静的な方法よりも共役な潜在表現を同時に引き起こす。 本稿では,周期性やランダム性,分布内誤差,外挿シナリオなどの望ましい特徴を包含するPDEを用いた数値実験について述べる。

We present a manifold-based autoencoder method for learning nonlinear dynamics in time, notably partial differential equations (PDEs), in which the manifold latent space evolves according to Ricci flow. This can be accomplished by simulating Ricci flow in a physics-informed setting, and manifold quantities can be matched so that Ricci flow is empirically achieved. With our methodology, the manifold is learned as part of the training procedure, so ideal geometries may be discerned, while the evolution simultaneously induces a more accommodating latent representation over static methods. We present our method on a range of numerical experiments consisting of PDEs that encompass desirable characteristics such as periodicity and randomness, remarking error on in-distribution and extrapolation scenarios.
翻訳日:2024-03-27 01:45:48 公開日:2024-03-22
# ダッフィング非線形性を利用した量子絡み移動

Quantum entanglement transfer assisted via Duffing nonlinearity ( http://arxiv.org/abs/2401.16809v2 )

ライセンス: Link先を確認
D. R. Kenigoule Massembele, P. Djorwé, Amarendra K. Sarma, S. G. Nana Engo, (参考訳) 本稿では,いわゆるダッフィング非線形性を利用して,光学系の量子絡み合いを高める手法を提案する。 メカニカル共振器は2つのメカニカル共振器から構成される。 1つの共振器はダッフィング非線形性をサポートし、もう1つの共振器はサポートしない。 共振器は、いわゆるフォノンホッピング機構を介して互いに結合される。 ホッピングレートは$\theta$-phase-dependentであり、システム内の例外点(EP)特異点を誘導する。 興味深いことに、ダッフィング非線形性を持つ共振器は両部共振器の絡み合いが消える一方、他の機械共振器への絡み合い伝達現象を観察する。 この非線形に誘起される絡み合いは、非線形性のない絡み合いに比べ、熱ゆらぎに対して優れた堅牢性を示す。 さらに、この絡み合いは急激な死と復活現象を特徴とし、ピークは$\theta=\frac{\pi}{2}$の倍数で起こる。 この研究は、非線形資源を利用して堅牢な量子絡み合いを発生させ、複雑なシステム内の量子情報処理、量子センシング、量子コンピューティングの進歩の道を開く新しい道を開く。

We propose a scheme to enhance quantum entanglement in an optomechanical system by exploiting the so-called Duffing nonlinearity. Our model system consists of two mechanically coupled mechanical resonators, both driven by an optical field. One resonator supports Duffing nonlinearity, while the other does not. The resonators are coupled to each other via the so-called phonon hopping mechanism. The hopping rate is $\theta$-phase-dependent that induces Exceptional Points (EPs) singularities in the system. Interestingly, while the resonator with Duffing nonlinearity exhibits vanishing bipartite entanglement, we observe an entanglement transfer phenomenon into the other mechanical resonator. This nonlinearly induced entanglement demonstrates superior robustness against thermal fluctuations compared to entanglement generated without the nonlinearity. Additionally, this entanglement features the sudden death and revival phenomenon, where the peaks happen at the multiple of $\theta=\frac{\pi}{2}$. This work opens a new avenue for exploiting nonlinear resources to generate robust quantum entanglement, paving the way for advancements in quantum information processing, quantum sensing, and quantum computing within complex systems.
翻訳日:2024-03-27 01:45:48 公開日:2024-03-22
# 安全なマルチモーダル学習システムに関する調査研究

A Survey on Safe Multi-Modal Learning System ( http://arxiv.org/abs/2402.05355v2 )

ライセンス: Link先を確認
Tianyi Zhao, Liangliang Zhang, Yao Ma, Lu Cheng, (参考訳) 人工知能の急速な発展の中で、マルチモーダル学習システム(MMLS)は、様々なモーダル入力から情報を処理し統合する能力によって、注目を集めている。 医療などの重要な分野での利用が拡大し、安全保証が重要な関心事となっている。 しかし、その安全性に関する体系的な研究が欠如していることは、この分野の進歩にとって重要な障壁である。 このギャップを埋めるために,MMLSの安全性を体系的に分類し評価する最初の分類法を提案する。 この分類は、MMLSの安全性を保証するために重要な4つの基本的な柱、すなわち堅牢性、アライメント、監視、制御性に基づいて構成されている。 この分類を活用して、既存の方法論、ベンチマーク、研究の現状をレビューするとともに、知識の主な限界とギャップを指摘します。 最後に,MMLSの安全性に関するユニークな課題について論じる。 これらの課題を明らかにするために,我々は今後の研究の道を開くことを目指しており,MMLSの安全性プロトコルの大幅な進歩につながる可能性のある潜在的方向性を提案する。

In the rapidly evolving landscape of artificial intelligence, multimodal learning systems (MMLS) have gained traction for their ability to process and integrate information from diverse modality inputs. Their expanding use in vital sectors such as healthcare has made safety assurance a critical concern. However, the absence of systematic research into their safety is a significant barrier to progress in this field. To bridge the gap, we present the first taxonomy that systematically categorizes and assesses MMLS safety. This taxonomy is structured around four fundamental pillars that are critical to ensuring the safety of MMLS: robustness, alignment, monitoring, and controllability. Leveraging this taxonomy, we review existing methodologies, benchmarks, and the current state of research, while also pinpointing the principal limitations and gaps in knowledge. Finally, we discuss unique challenges in MMLS safety. In illuminating these challenges, we aim to pave the way for future research, proposing potential directions that could lead to significant advancements in the safety protocols of MMLS.
翻訳日:2024-03-27 01:35:51 公開日:2024-03-22
# 意思決定の決定力:低分散リスク制限監査とマルジナルマーク記録による選挙コンテスト

The Decisive Power of Indecision: Low-Variance Risk-Limiting Audits and Election Contestation via Marginal Mark Recording ( http://arxiv.org/abs/2402.06515v2 )

ライセンス: Link先を確認
Benjamin Fuller, Rashmi Pai, Alexander Russell, (参考訳) リスクリミット監査(リスクリミット監査、RLA)は、大規模な選挙の結果を検証する技術である。 正確性に関する厳密な保証を提供する一方で、効率上の懸念と、それらが絶対的な結論ではなく統計的に提供しているという事実の両方によって広く採用が妨げられている。 我々は、これらの困難に両立し、効率を改善し、統計力の質的な進歩を提供する新しい監査の家族を定義します。 我々の新しい監査は、キャスト・ボイト・レコードの標準概念を再考することで、単一の決定ではなく、複数の可能なマーク解釈を宣言できるようにします。 既存の監査インフラにマイナーな変更を加えるだけで、この単純な迅速さによって、大幅な効率改善が実現できることが示される。 これらのベイズ比較監査は、正式な意味ではリスク制限である(Fuller, Harrison, and Russell, 2022)。 次に、競合監査と呼ぶ新しいタイプの選挙後監査を定義します。 これにより、各候補者は、自身の勝利の主張を推し進めるキャスト・ボイト・レコード・テーブルを提供することができる。 これらの監査が顕著なサンプル効率を示し、一定の数のサンプル(マージンとは無関係)でリスクを制御できることを実証する。 これは、証明可能な音のオーディションとしては初めてのものです。 これらの結果は、定量的な音質と完全性を保証するゲームベースのセキュリティモデルで定式化される。 最後に,これらの監査は,従来のRSAによる選挙結果の競合に対処する直接的な手段となることを観察する。

Risk-limiting audits (RLAs) are techniques for verifying the outcomes of large elections. While they provide rigorous guarantees of correctness, widespread adoption has been impeded by both efficiency concerns and the fact they offer statistical, rather than absolute, conclusions. We attend to both of these difficulties, defining new families of audits that improve efficiency and offer qualitative advances in statistical power. Our new audits are enabled by revisiting the standard notion of a cast-vote record so that it can declare multiple possible mark interpretations rather than a single decision; this can reflect the presence of ambiguous marks, which appear regularly on hand-marked ballots. We show that this simple expedient can offer significant efficiency improvements with only minor changes to existing auditing infrastructure. We establish that these Bayesian comparison audits are indeed risk-limiting in the formal sense of (Fuller, Harrison, and Russell, 2022). We then define a new type of post-election audit we call a contested audit. These permit each candidate to provide a cast-vote record table advancing their own claim to victory. We prove that these audits offer remarkable sample efficiency, yielding control of risk with a constant number of samples (that is independent of margin). This is a first for an audit with provable soundness. These results are formulated in a game-based security model that specify quantitative soundness and completeness guarantees. Finally, we observe that these audits provide a direct means to handle contestation of election results affirmed by conventional RLAs.
翻訳日:2024-03-27 01:35:51 公開日:2024-03-22
# 初心者がアロイでソフトウェアモデルを記述する方法を実証的に探る

Empirically Exploring How Novices Write Software Models in Alloy ( http://arxiv.org/abs/2402.06624v2 )

ライセンス: Link先を確認
Ana Jovanovic, Allison Sullivan, (参考訳) 宣言型モデルの記述には,システム構築前の自動推論や設計レベルのプロパティの修正,ビルド後の実装の自動テストとデバッグなど,数多くのメリットがある。 Alloyは宣言型モデリング言語であり、システム設計を検証するのに適しています。 Alloyの重要な強みは、そのシナリオフィニングツールセットであるAnalyzerである。 しかし、視覚化されたシナリオであっても、正しい合金モデルを書くのは難しい。 これを解決するために、成長する研究機関は、アロイモデルをデバッグする様々なテクニックを探求する。 そこで本研究では,アロイを学習しようとする初心者が作成した97,000以上のモデルについて,実証的研究を行った。 本研究は,アロイモデル開発におけるデバッグと教育の取り組みをガイドする一連の観察とともに,ユーザが将来使用するための総合的なベンチマークを作成するために,正しいモデルと間違ったモデルの両方を書く方法について考察する。

Writing declarative models has numerous benefits, ranging from automated reasoning and correction of design-level properties before systems are built, to automated testing and debugging of their implementations after they are built. Alloy is a declarative modeling language that is well-suited for verifying system designs. A key strength of Alloy is its scenario-finding toolset, the Analyzer, which allows users to explore all valid scenarios that adhere to the model's constraints up to a user-provided scope. However, even with visualized scenarios, it is difficult to write correct Alloy models. To address this, a growing body of work explores different techniques for debugging Alloy models. In order to develop and evaluate these techniques in an effective manor, this paper presents an empirical study of over 97,000 models written by novice users trying to learn Alloy. We investigate how users write both correct and incorrect models in order to produce a comprehensive benchmark for future use as well as a series of observations to guide debugging and educational efforts for Alloy model development.
翻訳日:2024-03-27 01:35:51 公開日:2024-03-22
# YIG/Permalloy界面における反強磁性結合の起源の解明

Unraveling the origin of antiferromagnetic coupling at YIG/permalloy interface ( http://arxiv.org/abs/2402.14553v2 )

ライセンス: Link先を確認
Jiangchao Qian, Yi Li, Zhihao Jiang, Robert Busch, Hsu-Chih Ni, Tzu-Hsiang Lo, Axel Hoffmann, André Schleife, Jian-Min Zuo, (参考訳) イットリウム鉄ガーネット(YIG)とパーマロイ(Py)の原子レベルにおける反強磁性結合の構造と電子的起源について検討した。 強磁性共鳴(FMR)は、YIG/Py界面における反強磁性交換結合を示す表面イオンミリング法を用いて作製した試料に独自のハイブリッドモードを示す。 走査型透過電子顕微鏡(STEM)を用いて,イオンミリングによる界面の顕著な相違を明らかにする。 これらの結果から,YIG/Py二層膜の反強磁性結合は,密度汎関数理論(DFT)計算によって支持される四面体FeのYIG表面上の酸素を介する超交換結合機構によって主に駆動されることが示唆された。 本研究は, 磁気二層膜における結合の効率を制御し, 磁気界面力学の制御における酸化膜表面の終端が果たす重要な役割について考察する。

We investigate the structural and electronic origin of antiferromagnetic coupling in the Yttrium iron garnet (YIG) and permalloy (Py) bilayer system at the atomic level. Ferromagnetic Resonance (FMR) reveal unique hybrid modes in samples prepared with surface ion milling, indicative of antiferromagnetic exchange coupling at the YIG/Py interface. Using scanning transmission electron microscopy (STEM), we highlight significant interfacial differences introduced by ion-milling. The observations suggests that the antiferromagnetic coupling in YIG/Py bilayers is predominantly driven by an oxygen-mediated super-exchange coupling mechanism on the tetrahedral Fe terminated YIG surface, which is supported by density functional theory (DFT) calculations. This research provides critical insight into the fundamental mechanisms governing the efficiency of coupling in magnetic bilayers and underscores the pivotal role of oxide surface termination in modulating magnetic interfacial dynamics.
翻訳日:2024-03-27 01:25:45 公開日:2024-03-22
# スマートグリッドにおける計測異常の個人差分通信

Differentially Private Communication of Measurement Anomalies in the Smart Grid ( http://arxiv.org/abs/2403.02324v2 )

ライセンス: Link先を確認
Nikhil Ravi, Anna Scaglione, Sean Peisert, Parth Pradhan, (参考訳) 本稿では,差分プライバシ(DP)に基づく電力測定を問合せし,システム異常や悪いデータを検出するフレームワークを提案する。 提案手法では,不確実な第三者が仮説検証に十分な統計データを無作為に公開することにより,不確実な第三者が不正データの存在などの異常な仮説を検証できるようにする。 本稿では,ガウス雑音による測定モデルと攻撃を表すスパース雑音ベクトルを考察し,最適検定統計量はカイ二乗確率変数であることを示した。 攻撃の可能性を検出するため,電力注入やシステムマトリックスに関するプライベート情報を明らかにしない新しいDPチ方形ノイズ機構を提案する。 提案するフレームワークは、機密性のある電力系統データのプライバシーを維持しながら、悪いデータを検出する堅牢なソリューションを提供する。

In this paper, we present a framework based on differential privacy (DP) for querying electric power measurements to detect system anomalies or bad data. Our DP approach conceals consumption and system matrix data, while simultaneously enabling an untrusted third party to test hypotheses of anomalies, such as the presence of bad data, by releasing a randomized sufficient statistic for hypothesis-testing. We consider a measurement model corrupted by Gaussian noise and a sparse noise vector representing the attack, and we observe that the optimal test statistic is a chi-square random variable. To detect possible attacks, we propose a novel DP chi-square noise mechanism that ensures the test does not reveal private information about power injections or the system matrix. The proposed framework provides a robust solution for detecting bad data while preserving the privacy of sensitive power system data.
翻訳日:2024-03-27 01:15:57 公開日:2024-03-22
# 遅発性逆行訓練による予期せぬ障害モードの予防

Defending Against Unforeseen Failure Modes with Latent Adversarial Training ( http://arxiv.org/abs/2403.05030v2 )

ライセンス: Link先を確認
Stephen Casper, Lennart Schulze, Oam Patel, Dylan Hadfield-Menell, (参考訳) AIシステムは、デプロイ後の有害な意図しない行動を示すことがある。 ディベロッパによる広範な診断とデバッグにもかかわらず、これはしばしばある。 攻撃面が非常に大きいため、モデルからのリスクを最小限に抑えることは難しい。 モデルが失敗する可能性のある入力を徹底的に検索することは難しい。 赤いチームと敵のトレーニング(AT)は、AIシステムをより堅牢にするために一般的に使用される。 しかし、現実の障害モードの多くを避けるには十分ではない。 本研究では,LAT(Latent Adversarial Training)を用いて,脆弱性を誘発する入力を発生させることなく脆弱性を防御する。 LATは、ネットワークが実際に予測に使用している概念の圧縮、抽象、構造化された潜在表現を利用する。 LATを使ってトロイの木馬を排除し、敵攻撃の抑止クラスを防御します。 画像分類, テキスト分類, テキスト生成タスクにおいて, LATは通常, ATに対するクリーンデータに対するロバスト性, 性能を改善していることを示す。 これは、LATが開発者によって明確に特定されていない障害モードを防御するための有望なツールになり得ることを示唆している。

AI systems sometimes exhibit harmful unintended behaviors post-deployment. This is often despite extensive diagnostics and debugging by developers. Minimizing risks from models is challenging because the attack surface is so large. It is not tractable to exhaustively search for inputs that may cause a model to fail. Red-teaming and adversarial training (AT) are commonly used to make AI systems more robust. However, they have not been sufficient to avoid many real-world failure modes that differ from the ones adversarially trained on. In this work, we utilize latent adversarial training (LAT) to defend against vulnerabilities without generating inputs that elicit them. LAT leverages the compressed, abstract, and structured latent representations of concepts that the network actually uses for prediction. We use LAT to remove trojans and defend against held-out classes of adversarial attacks. We show in image classification, text classification, and text generation tasks that LAT usually improves both robustness and performance on clean data relative to AT. This suggests that LAT can be a promising tool for defending against failure modes that are not explicitly identified by developers.
翻訳日:2024-03-27 01:06:08 公開日:2024-03-22
# 画像復元のための拡散浄化を伴うデカップリングデータ整合性

Decoupled Data Consistency with Diffusion Purification for Image Restoration ( http://arxiv.org/abs/2403.06054v3 )

ライセンス: Link先を確認
Xiang Li, Soo Min Kwon, Ismail R. Alkhouri, Saiprasad Ravishankar, Qing Qu, (参考訳) 拡散モデルは最近、データ分布をモデル化する能力に優れ、幅広い画像復元タスクに優れており、強力な生成前駆体として注目を集めている。 画像復元の問題を解決するために,拡散モデルの逆サンプリングプロセスに追加の確率勾配ステップを組み込むことで,データ一貫性を実現する手法が多数存在する。 しかし、さらなる勾配のステップは、計算オーバーヘッドが大きくなり、推論時間が増大するにつれて、現実の実用的な応用に挑戦する。 また、データ一貫性ステップの数は、逆サンプリングステップの数によって制限されるため、加速拡散モデルサンプリング器を使用する際のさらなる困難が生じる。 本研究では,データ整合性から逆処理を分離することにより,これらの問題に対処する新しい拡散型画像復元法を提案する。 本手法は,データの整合性を維持するための再構成フェーズと,拡散浄化による事前処理を行う精製フェーズの交互化を含む。 我々の手法は多目的性を示し、潜在空間における効率的な問題解決に高い適応性を与える。 さらに、一貫性モデルを統合することで、多数のサンプリングステップの必要性を低減する。 提案手法の有効性は,画像のデノイング,デブロアリング,インペイント,超解像など,画像修復作業における総合的な実験を通じて検証される。

Diffusion models have recently gained traction as a powerful class of deep generative priors, excelling in a wide range of image restoration tasks due to their exceptional ability to model data distributions. To solve image restoration problems, many existing techniques achieve data consistency by incorporating additional likelihood gradient steps into the reverse sampling process of diffusion models. However, the additional gradient steps pose a challenge for real-world practical applications as they incur a large computational overhead, thereby increasing inference time. They also present additional difficulties when using accelerated diffusion model samplers, as the number of data consistency steps is limited by the number of reverse sampling steps. In this work, we propose a novel diffusion-based image restoration solver that addresses these issues by decoupling the reverse process from the data consistency steps. Our method involves alternating between a reconstruction phase to maintain data consistency and a refinement phase that enforces the prior via diffusion purification. Our approach demonstrates versatility, making it highly adaptable for efficient problem-solving in latent space. Additionally, it reduces the necessity for numerous sampling steps through the integration of consistency models. The efficacy of our approach is validated through comprehensive experiments across various image restoration tasks, including image denoising, deblurring, inpainting, and super-resolution.
翻訳日:2024-03-27 01:06:08 公開日:2024-03-22
# 深層学習対応超広視野レンズレスイメージング

Generative deep learning-enabled ultra-large field-of-view lens-free imaging ( http://arxiv.org/abs/2403.07786v3 )

ライセンス: Link先を確認
Ronald B. Liu, Zhe Liu, Max G. A. Wolf, Krishna P. Purohit, Gregor Fritz, Yi Feng, Carsten G. Hansen, Pierre O. Bagnaninchi, Xavier Casadevall i Solvas, Yunjie Yang, (参考訳) 高スループットバイオメディカルアプリケーションの進歩は、リアルタイム、大視野(FOV)イメージング機能を必要とする。 物理レンズの限界に対処する従来のレンズレスイメージング (LFI) システムは、ダイナミックでハード・ツー・モデルの光学場によって制約され、その結果、約20$mm^2$の1ショットFOVとなる。 この制限は、生体医学研究のためのライブセルイメージングやマイクロ流体システムの自動化といった応用において、大きなボトルネックとなっている。 本稿では、ホログラム画像再構成のための生成人工知能(AI)を活用したディープラーニング(DL)ベースのイメージングフレームワーク、GenLFIを提案する。 我々は、GenLFIが550$mm^2$以上のリアルタイムFOVを達成でき、現在のLFIシステムを20倍以上上回り、世界最大規模の共焦点顕微鏡よりも1.76倍大きいことを実証した。 解像度は5.52$\mu m$のサブピクセルレベルで、シフトする光源を必要としない。 教師なし学習に基づく再構成は光学場モデリングを必要としないため、複雑な光学場においてダイナミックな3Dサンプル(例えば、液滴ベースのマイクロ流体学と3Dセルモデル)をイメージングすることができる。 このGenLFIフレームワークはLFIシステムの可能性を解き放ち、薬物発見のような高スループットのバイオメディカル応用において、新しいフロンティアに取り組むための堅牢なツールを提供する。

Advancements in high-throughput biomedical applications necessitate real-time, large field-of-view (FOV) imaging capabilities. Conventional lens-free imaging (LFI) systems, while addressing the limitations of physical lenses, have been constrained by dynamic, hard-to-model optical fields, resulting in a limited one-shot FOV of approximately 20 $mm^2$. This restriction has been a major bottleneck in applications like live-cell imaging and automation of microfluidic systems for biomedical research. Here, we present a deep-learning(DL)-based imaging framework - GenLFI - leveraging generative artificial intelligence (AI) for holographic image reconstruction. We demonstrate that GenLFI can achieve a real-time FOV over 550 $mm^2$, surpassing the current LFI system by more than 20-fold, and even larger than the world's largest confocal microscope by 1.76 times. The resolution is at the sub-pixel level of 5.52 $\mu m$, without the need for a shifting light source. The unsupervised learning-based reconstruction does not require optical field modeling, making imaging dynamic 3D samples (e.g., droplet-based microfluidics and 3D cell models) in complex optical fields possible. This GenLFI framework unlocks the potential of LFI systems, offering a robust tool to tackle new frontiers in high-throughput biomedical applications such as drug discovery.
翻訳日:2024-03-27 00:56:02 公開日:2024-03-22
# Scene-LLM:3次元視覚理解と推論のための言語モデルの拡張

Scene-LLM: Extending Language Model for 3D Visual Understanding and Reasoning ( http://arxiv.org/abs/2403.11401v2 )

ライセンス: Link先を確認
Rao Fu, Jingyu Liu, Xilun Chen, Yixin Nie, Wenhan Xiong, (参考訳) 本稿では,大規模言語モデル(LLM)の推論強度を統合することで,対話型3次元屋内環境におけるエージェントの身体的能力を高める3次元視覚言語モデルであるScene-LLMを紹介する。 Scene-LLMは、密集した空間情報とシーン状態更新をサポートするハイブリッドな3D視覚特徴表現を採用している。 このモデルでは、これらの特徴を事前訓練されたテキスト埋め込み空間に効率的に投影するプロジェクション層を用いて、3次元視覚情報の効果的な解釈を可能にする。 私たちのアプローチに共通しているのは、シーンレベルとエゴ中心の3D情報の統合です。 この組み合わせは、シーンレベルのデータがグローバルプランニングをサポートし、エゴ中心のデータがローカライズに重要である、インタラクティブプランニングにおいて重要である。 特に,エゴ中心の3次元フレームを特徴アライメントに利用し,モデルがシーン内の小さなオブジェクトの特徴をアライメントする能力を向上させる。 Scene-LLMを用いた実験は, 密接なキャプション, 質問応答, 対話型プランニングにおいて, 強力な機能を示す。 我々は、Scene-LLMが3次元視覚理解と推論の分野を前進させ、屋内環境における高度なエージェントインタラクションの新たな可能性を提供すると考えている。

This paper introduces Scene-LLM, a 3D-visual-language model that enhances embodied agents' abilities in interactive 3D indoor environments by integrating the reasoning strengths of Large Language Models (LLMs). Scene-LLM adopts a hybrid 3D visual feature representation, that incorporates dense spatial information and supports scene state updates. The model employs a projection layer to efficiently project these features in the pre-trained textual embedding space, enabling effective interpretation of 3D visual information. Unique to our approach is the integration of both scene-level and ego-centric 3D information. This combination is pivotal for interactive planning, where scene-level data supports global planning and ego-centric data is important for localization. Notably, we use ego-centric 3D frame features for feature alignment, an efficient technique that enhances the model's ability to align features of small objects within the scene. Our experiments with Scene-LLM demonstrate its strong capabilities in dense captioning, question answering, and interactive planning. We believe Scene-LLM advances the field of 3D visual understanding and reasoning, offering new possibilities for sophisticated agent interactions in indoor settings.
翻訳日:2024-03-26 23:01:39 公開日:2024-03-22
# SymboSLAM:マルチエージェントシステムにおける意味マップ生成

SymboSLAM: Semantic Map Generation in a Multi-Agent System ( http://arxiv.org/abs/2403.15504v1 )

ライセンス: Link先を確認
Brandon Curtis Colelough, (参考訳) サブシンボリックな人工知能手法は、環境タイプの分類と同時局所化とマッピングの分野を支配している。 しかしながら、これらの分野で見過ごされている重要な領域は、マップ生成に使用されるサブシンボリックな手法は、生成したソリューションの説明可能性を考慮していないため、人間と機械の相互作用空間に対するソリューション透過性である。 本稿では,共生的局所化とマッピングによる環境型分類への新たなアプローチ,SymboSLAMを提案し,その説明可能性のギャップを埋める。 環境型分類法は, 環境の文脈を, 内在する特徴を通して合成するために用いられる存在論的推論を観察する。 ランドマークと特徴のセマンティックラベル付き占有マップによってオーバーレイされた環境型分類を演算子に提示することにより、モデル内の説明可能性を実現する。 カンベラ地域の地盤構造図を用いてSymboSLAMを評価し,手法の有効性を実証した。 シミュレーションと実世界の試行を通してシステムの評価を行った。

Sub-symbolic artificial intelligence methods dominate the fields of environment-type classification and Simultaneous Localisation and Mapping. However, a significant area overlooked within these fields is solution transparency for the human-machine interaction space, as the sub-symbolic methods employed for map generation do not account for the explainability of the solutions generated. This paper proposes a novel approach to environment-type classification through Symbolic Simultaneous Localisation and Mapping, SymboSLAM, to bridge the explainability gap. Our method for environment-type classification observes ontological reasoning used to synthesise the context of an environment through the features found within. We achieve explainability within the model by presenting operators with environment-type classifications overlayed by a semantically labelled occupancy map of landmarks and features. We evaluate SymboSLAM with ground-truth maps of the Canberra region, demonstrating method effectiveness. We assessed the system through both simulations and real-world trials.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-22
# ヘノンカオス写像理論と逆学習競合戦略を組み合わせた非線形アフリカヴァルチャー最適化アルゴリズム

A Nonlinear African Vulture Optimization Algorithm Combining Henon Chaotic Mapping Theory and Reverse Learning Competition Strategy ( http://arxiv.org/abs/2403.15505v1 )

ライセンス: Link先を確認
Baiyi Wang, Zipeng Zhang, Patrick Siarry, Xinhua Liu, Grzegorz Królczyk, Dezheng Hua, Frantisek Brumercik, Zhixiong Li, (参考訳) AVOAの主な欠点を軽減するために、ヘノンカオスマッピング理論と逆学習競争戦略(HWEAVOA)を組み合わせた非線形アフリカハゲェル最適化アルゴリズムを提案する。 まず、ハゲワシの初期個体数のランダム性と多様性を改善するため、ヘノンカオスマッピング理論とエリート集団戦略を提案し、また、探索と搾取能力の合理的なバランスをとるために、位置更新フェーズに非線形適応的漸進的慣性重因子を導入し、各個体が局所最適に落下することを避ける。 HWEAVOAや他の高度な比較アルゴリズムは古典的およびCEC2022テスト関数を解くために用いられる。 他のアルゴリズムと比較して、HWEAVOAの収束曲線は速く、直線体は滑らかである。 これらの実験結果から,提案したHWEAVOAは, 収束速度, 最適化能力, 解安定性において, 比較アルゴリズムよりも優れている全試験関数において第1位であることがわかった。 一方、HWEAVOAはアルゴリズムの複雑さの一般的なレベルに達し、その全体的な性能はSwarmインテリジェンスアルゴリズムと競合している。

In order to alleviate the main shortcomings of the AVOA, a nonlinear African vulture optimization algorithm combining Henon chaotic mapping theory and reverse learning competition strategy (HWEAVOA) is proposed. Firstly, the Henon chaotic mapping theory and elite population strategy are proposed to improve the randomness and diversity of the vulture's initial population; Furthermore, the nonlinear adaptive incremental inertial weight factor is introduced in the location update phase to rationally balance the exploration and exploitation abilities, and avoid individual falling into a local optimum; The reverse learning competition strategy is designed to expand the discovery fields for the optimal solution and strengthen the ability to jump out of the local optimal solution. HWEAVOA and other advanced comparison algorithms are used to solve classical and CEC2022 test functions. Compared with other algorithms, the convergence curves of the HWEAVOA drop faster and the line bodies are smoother. These experimental results show the proposed HWEAVOA is ranked first in all test functions, which is superior to the comparison algorithms in convergence speed, optimization ability, and solution stability. Meanwhile, HWEAVOA has reached the general level in the algorithm complexity, and its overall performance is competitive in the swarm intelligence algorithms.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-22
# AIの倫理的懸念をエスケープするための規制を含む潜在的な解決策の分析

Analyzing Potential Solutions Involving Regulation to Escape Some of AI's Ethical Concerns ( http://arxiv.org/abs/2403.15507v1 )

ライセンス: Link先を確認
Jay Nemec, (参考訳) 人工知能(AI)は現在、人間の多くの複雑さを捉えることができないが、徐々に人間の能力に適応している。 ChatGPTなどのAIシステムは、特定のプロセスのためにさまざまな業界で利用されているが、急速に変化している。 しかし、この変換は特定の措置が取らなければ非常に関係のある方法で起こる。 この記事では、AIにおける差別の懸念や、AIですぐに利用できるようになる偽情報など、人工知能倫理的危機における現在の問題について触れる。 この記事では、規制に関するもっともらしい解決策と、それらが倫理的懸念を緩和する方法について論じる。 これらには、企業の自己規制と政府の規制が含まれており、これら可能なソリューションが現在のAIの懸念に影響を及ぼす可能性がある。

Artificial intelligence (AI), although not able to currently capture the many complexities of humans, are slowly adapting to have certain capabilities of humans, many of which can revolutionize our world. AI systems, such as ChatGPT and others utilized within various industries for specific processes, have been transforming rapidly. However, this transformation can occur in an extremely concerning way if certain measures are not taken. This article touches on some of the current issues within the artificial intelligence ethical crisis, such as the concerns of discrimination within AI and false information that is becoming readily available with AI. Within this article, plausible solutions involving regulation are discussed and how they would mitigate ethical concerns. These include the self-regulation of businesses along with government regulation, and the effects these possible solutions can both have on current AI concerns.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-22
# サイバー攻撃検出における分離表現学習のためのツインオートエンコーダモデル

Twin Auto-Encoder Model for Learning Separable Representation in Cyberattack Detection ( http://arxiv.org/abs/2403.15509v1 )

ライセンス: Link先を確認
Phai Vu Dinh, Quang Uy Nguyen, Thai Hoang Dinh, Diep N. Nguyen, Bao Son Pham, Eryk Dutkiewicz, (参考訳) 表現学習(Representation Learning, RL)は、サイバー攻撃検出を含む多くの問題の成功において重要な役割を担っている。 サイバー攻撃検出のためのRL法のほとんどは、オートエンコーダ(AE)モデルの潜伏ベクトルに基づいている。 AEは、生データを新しい潜在表現に変換し、入力データの基盤となる特性をよりよく公開する。 そのため、サイバー攻撃の特定に非常に有用である。 しかし、サイバー攻撃の不均一性と高度化のため、AEsの表現はしばしば絡み合わされ混合されるため、下流攻撃検出モデルは困難である。 この問題に対処するため,Twin Auto-Encoder (TAE) と呼ばれる新しいモードを提案する。 TAE は遅延表現をより区別可能な表現、すなわち \textit{separable representation} に決定的に変換し、出力で分離可能な表現を再構成する。 textit{reconstruction representation} と呼ばれるTAEの出力は、サイバー攻撃を検出するために下流モデルに入力される。 幅広いベンチマーキングデータセットを用いてTAEの有効性を広範囲に評価した。 実験結果は、最先端のRLモデルとよく知られた機械学習アルゴリズムよりもTAEの精度が優れていることを示す。 さらにTAEは、高度で挑戦的な攻撃に対して最先端のモデルよりも優れています。 次に,TAEの諸特性について検討し,その優位性を示す。

Representation Learning (RL) plays a pivotal role in the success of many problems including cyberattack detection. Most of the RL methods for cyberattack detection are based on the latent vector of Auto-Encoder (AE) models. An AE transforms raw data into a new latent representation that better exposes the underlying characteristics of the input data. Thus, it is very useful for identifying cyberattacks. However, due to the heterogeneity and sophistication of cyberattacks, the representation of AEs is often entangled/mixed resulting in the difficulty for downstream attack detection models. To tackle this problem, we propose a novel mod called Twin Auto-Encoder (TAE). TAE deterministically transforms the latent representation into a more distinguishable representation namely the \textit{separable representation} and the reconstructsuct the separable representation at the output. The output of TAE called the \textit{reconstruction representation} is input to downstream models to detect cyberattacks. We extensively evaluate the effectiveness of TAE using a wide range of bench-marking datasets. Experiment results show the superior accuracy of TAE over state-of-the-art RL models and well-known machine learning algorithms. Moreover, TAE also outperforms state-of-the-art models on some sophisticated and challenging attacks. We then investigate various characteristics of TAE to further demonstrate its superiority.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-22
# プライバシー保護によるエンド・ツー・エンドの音声言語理解

Privacy-Preserving End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2403.15510v1 )

ライセンス: Link先を確認
Yinggui Wang, Wei Huang, Le Yang, (参考訳) Spoken Language Understanding (SLU)は、IoTデバイスにおけるヒューマンコンピュータインタラクションを実現する重要な技術のひとつで、使いやすいユーザインターフェースを提供する。 人間のスピーチには、性別、アイデンティティ、センシティブなコンテンツなど、多くのユーザセンシティブな情報が含まれる。 新たなタイプのセキュリティおよびプライバシ侵害が発生している。 ユーザは、信頼できない第三者による悪意のある攻撃に対して、個人情報を公開したくない。 したがって、SLUシステムは、潜在的に悪意のある攻撃者がユーザの機密属性を推論できないことを保証するとともに、SLUの精度を大幅に損なうことを避ける必要がある。 上記の課題に対処するために,音声認識(ASR)とID認識(IR)の両方を防止するために,新しいSLUマルチタスクプライバシ保護モデルを提案する。 本モデルは、隠蔽層分離技術を用いて、SLU情報を隠蔽層の特定部分にのみ分散し、他の2種類の情報を除去し、プライバシー保護された隠蔽層を得る。 効率性とプライバシのバランスを良くするために,ユーザプライバシをさらに高めるために,モデル事前学習,すなわち共同敵トレーニングの新たなメカニズムを導入する。 2つのSLUデータセットに対する実験により、提案手法はランダムな推定値に近いASRとIRの両方の攻撃の精度を低減し、SLU性能にほとんど影響を与えないことが示されている。

Spoken language understanding (SLU), one of the key enabling technologies for human-computer interaction in IoT devices, provides an easy-to-use user interface. Human speech can contain a lot of user-sensitive information, such as gender, identity, and sensitive content. New types of security and privacy breaches have thus emerged. Users do not want to expose their personal sensitive information to malicious attacks by untrusted third parties. Thus, the SLU system needs to ensure that a potential malicious attacker cannot deduce the sensitive attributes of the users, while it should avoid greatly compromising the SLU accuracy. To address the above challenge, this paper proposes a novel SLU multi-task privacy-preserving model to prevent both the speech recognition (ASR) and identity recognition (IR) attacks. The model uses the hidden layer separation technique so that SLU information is distributed only in a specific portion of the hidden layer, and the other two types of information are removed to obtain a privacy-secure hidden layer. In order to achieve good balance between efficiency and privacy, we introduce a new mechanism of model pre-training, namely joint adversarial training, to further enhance the user privacy. Experiments over two SLU datasets show that the proposed method can reduce the accuracy of both the ASR and IR attacks close to that of a random guess, while leaving the SLU performance largely unaffected.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-22
# IoT侵入検知システムにおけるマルチ入力オートエンコーダによる特徴選択

Multiple-Input Auto-Encoder Guided Feature Selection for IoT Intrusion Detection Systems ( http://arxiv.org/abs/2403.15511v1 )

ライセンス: Link先を確認
Phai Vu Dinh, Diep N. Nguyen, Dinh Thai Hoang, Quang Uy Nguyen, Eryk Dutkiewicz, Son Pham Bao, (参考訳) 侵入検出システム(IDS)はIoTデータ機能の多様性と一般化の恩恵を受ける一方で、データの多様性(例えば、不均一性とデータの高次元)は、IoT IDSにおける効果的な機械学習モデルのトレーニングを困難にする。 これはまた、IDSにおける検出エンジンの精度を低下させる可能性のある、冗長/ノイズの可能性のある機能にも繋がる。 本稿ではまず,Multiple-Input Auto-Encoder (MIAE)と呼ばれるニューラルネットワークアーキテクチャを紹介する。 MIAEは複数のサブエンコーダで構成されており、異なる特性を持つ異なるソースからの入力を処理できる。 MIAEモデルは教師なし学習モードで訓練され、不均一な入力を低次元の表現に変換する。 さらに,MIAEの表現層に先立って特徴選択層を設計・組込み,MIAEFSと呼ばれる新しいモデルを構築した。 この層は表現ベクトルにおける特徴の重要性を学習し、表現ベクトルから情報的特徴の選択を容易にする。 3つのIDSデータセット、すなわちNSLKDD, UNSW-NB15, IDS2017の結果は、MIAEとMIAEFSの他の手法、例えば従来の分類器、次元縮小モデル、異なる入力次元を持つ教師なし表現学習法、および教師なし特徴選択モデルよりも優れた性能を示した。 さらに、MIAEとMIAEFSはランダムフォレスト(RF)分類器と組み合わせて96.5%の精度で高度な攻撃(例えばSlowloris)を検出する。 MIAEとMIAEFSの表現でRFを用いて攻撃サンプルを検出する平均走行時間は1.7E-6秒であり、モデルサイズは1MB以下である。

While intrusion detection systems (IDSs) benefit from the diversity and generalization of IoT data features, the data diversity (e.g., the heterogeneity and high dimensions of data) also makes it difficult to train effective machine learning models in IoT IDSs. This also leads to potentially redundant/noisy features that may decrease the accuracy of the detection engine in IDSs. This paper first introduces a novel neural network architecture called Multiple-Input Auto-Encoder (MIAE). MIAE consists of multiple sub-encoders that can process inputs from different sources with different characteristics. The MIAE model is trained in an unsupervised learning mode to transform the heterogeneous inputs into lower-dimensional representation, which helps classifiers distinguish between normal behaviour and different types of attacks. To distil and retain more relevant features but remove less important/redundant ones during the training process, we further design and embed a feature selection layer right after the representation layer of MIAE resulting in a new model called MIAEFS. This layer learns the importance of features in the representation vector, facilitating the selection of informative features from the representation vector. The results on three IDS datasets, i.e., NSLKDD, UNSW-NB15, and IDS2017, show the superior performance of MIAE and MIAEFS compared to other methods, e.g., conventional classifiers, dimensionality reduction models, unsupervised representation learning methods with different input dimensions, and unsupervised feature selection models. Moreover, MIAE and MIAEFS combined with the Random Forest (RF) classifier achieve accuracy of 96.5% in detecting sophisticated attacks, e.g., Slowloris. The average running time for detecting an attack sample using RF with the representation of MIAE and MIAEFS is approximate 1.7E-6 seconds, whilst the model size is lower than 1 MB.
翻訳日:2024-03-26 22:22:15 公開日:2024-03-22
# 決定境界対応データ拡張による低リソースレジームの有効性とロバスト性の向上

Enhancing Effectiveness and Robustness in a Low-Resource Regime via Decision-Boundary-aware Data Augmentation ( http://arxiv.org/abs/2403.15512v1 )

ライセンス: Link先を確認
Kyohoon Jin, Junho Lee, Juhwan Choi, Sangmin Song, Youngbin Kim, (参考訳) 低リソース体制におけるディープラーニングモデルを活用する努力は、多くの強化研究につながった。 しかし,テキストデータへのミックスアップやカットアウトといった手法の直接適用は,個々の特性によって制限されている。 事前訓練された言語モデルを用いた手法は効率性を示しているが、堅牢性についてはさらなる検討が必要である。 意思決定境界に関する最近の研究から着想を得た本論文では,事前学習言語モデルを用いた堅牢性向上のための決定境界対応データ拡張戦略を提案する。 提案手法は、まず、決定境界に近い潜在特徴のシフトに焦点をあて、続いて、ソフトラベル付き曖昧なバージョンを生成する再構成を行う。 さらに、生成した文の多様性を高めるために、中間Kサンプリングを提案する。 本稿では, 提案手法の性能を他の手法と比較し, 広範囲な実験により検証した。 さらに, 軟式ラベルと中Kサンプリングの効果, カリキュラムデータ拡張による拡張性について検討した。

Efforts to leverage deep learning models in low-resource regimes have led to numerous augmentation studies. However, the direct application of methods such as mixup and cutout to text data, is limited due to their discrete characteristics. While methods using pretrained language models have exhibited efficiency, they require additional considerations for robustness. Inspired by recent studies on decision boundaries, this paper proposes a decision-boundary-aware data augmentation strategy to enhance robustness using pretrained language models. The proposed technique first focuses on shifting the latent features closer to the decision boundary, followed by reconstruction to generate an ambiguous version with a soft label. Additionally, mid-K sampling is suggested to enhance the diversity of the generated sentences. This paper demonstrates the performance of the proposed augmentation strategy compared to other methods through extensive experiments. Furthermore, the ablation study reveals the effect of soft labels and mid-K sampling and the extensibility of the method with curriculum data augmentation.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# CTSM : 情緒的反応モデルのためのトラストと状態感情の組み合わせ

CTSM: Combining Trait and State Emotions for Empathetic Response Model ( http://arxiv.org/abs/2403.15516v1 )

ライセンス: Link先を確認
Wang Yufeng, Chen Chao, Yang Zhou, Wang Shuhui, Liao Xiangwen, (参考訳) 共感応答生成は、対話システムに話者の感情を知覚し、それに応じて共感応答を生成する。 心理学的研究は、感情が共感に不可欠な要素として、静的で文脈に依存しない特性的感情と、動的で文脈に依存した状態的感情を含んでいることを示した。 しかし、以前の研究では、これらを単独で扱うことで、文脈に対する感情的な認識が不十分になり、その後、効果の低い共感的表現へと繋がる。 そこで本研究では,共感反応モデル(CTSM)のためのトラストと状態の感情の組み合わせを提案する。 具体的には、対話における感情を十分に知覚するために、まず特徴と状態の感情の埋め込みを構築し、次に感情表現を誘導する感情誘導モジュールを通して感情の知覚能力を更に強化する。 さらに,モデルが生成した応答と文脈の間に特性と状態の感情を整列させることで,共感的表現能力を向上するクロスコントラスト学習デコーダを提案する。 自動的および手動的評価の結果から,CTSMは最先端のベースラインより優れ,共感的反応がより高くなることが示された。 私たちのコードはhttps://github.com/wangyufeng-empty/CTSMで利用可能です。

Empathetic response generation endeavors to empower dialogue systems to perceive speakers' emotions and generate empathetic responses accordingly. Psychological research demonstrates that emotion, as an essential factor in empathy, encompasses trait emotions, which are static and context-independent, and state emotions, which are dynamic and context-dependent. However, previous studies treat them in isolation, leading to insufficient emotional perception of the context, and subsequently, less effective empathetic expression. To address this problem, we propose Combining Trait and State emotions for Empathetic Response Model (CTSM). Specifically, to sufficiently perceive emotions in dialogue, we first construct and encode trait and state emotion embeddings, and then we further enhance emotional perception capability through an emotion guidance module that guides emotion representation. In addition, we propose a cross-contrastive learning decoder to enhance the model's empathetic expression capability by aligning trait and state emotions between generated responses and contexts. Both automatic and manual evaluation results demonstrate that CTSM outperforms state-of-the-art baselines and can generate more empathetic responses. Our code is available at https://github.com/wangyufeng-empty/CTSM
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# クラス増分学習における表現ランクと特徴量の増加による前方適合性の向上

Improving Forward Compatibility in Class Incremental Learning by Increasing Representation Rank and Feature Richness ( http://arxiv.org/abs/2403.15517v1 )

ライセンス: Link先を確認
Jaeill Kim, Wonseok Lee, Moonjung Eo, Wonjong Rhee, (参考訳) クラスインクリメンタルラーニング(クラスインクリメンタルラーニング, Class Incremental Learning, CIL)は、モデルが先行タスクから得られる知識を維持しながら、段階的に新しい分類タスクを学習できるようにすることを目的とした、連続学習における重要なサブフィールドを構成する。 従来の研究は、破滅的な忘れを緩和するための後方互換アプローチに重点を置いてきたが、近年の研究では、新しいタスクの性能向上と既存の後方互換手法を補完する前方互換手法を導入している。 本研究では,前方互換性向上を目的としたRFR法を提案する。 具体的には、本手法は、ベースセッション中の効果的な表現ランクを高め、未知の新規タスクに関連するより情報性の高い特徴の取り込みを容易にする。 その結果、RFRは、それぞれ特徴抽出器の変更を最小化し、新しいタスク性能を向上させるという、後方互換性と前方互換性の両目標を達成する。 提案手法の有効性を検証するため,有効ランクと表現のシャノンエントロピーの理論的関係を確立する。 その後、RFRを11種類のよく知られたCIL手法に統合し、総合的な実験を行う。 本研究は,破滅的忘れ込みを緩和しつつ,新規タスク性能を高めるためのアプローチの有効性を実証するものである。 さらに,本手法は,全11症例の平均増分精度を著しく向上させる。

Class Incremental Learning (CIL) constitutes a pivotal subfield within continual learning, aimed at enabling models to progressively learn new classification tasks while retaining knowledge obtained from prior tasks. Although previous studies have predominantly focused on backward compatible approaches to mitigate catastrophic forgetting, recent investigations have introduced forward compatible methods to enhance performance on novel tasks and complement existing backward compatible methods. In this study, we introduce an effective-Rank based Feature Richness enhancement (RFR) method, designed for improving forward compatibility. Specifically, this method increases the effective rank of representations during the base session, thereby facilitating the incorporation of more informative features pertinent to unseen novel tasks. Consequently, RFR achieves dual objectives in backward and forward compatibility: minimizing feature extractor modifications and enhancing novel task performance, respectively. To validate the efficacy of our approach, we establish a theoretical connection between effective rank and the Shannon entropy of representations. Subsequently, we conduct comprehensive experiments by integrating RFR into eleven well-known CIL methods. Our results demonstrate the effectiveness of our approach in enhancing novel-task performance while mitigating catastrophic forgetting. Furthermore, our method notably improves the average incremental accuracy across all eleven cases examined.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# GTC: 自己教師付き不均一グラフ表現のためのGNN変換器のココントラスト学習

GTC: GNN-Transformer Co-contrastive Learning for Self-supervised Heterogeneous Graph Representation ( http://arxiv.org/abs/2403.15520v1 )

ライセンス: Link先を確認
Yundong Sun, Dongjie Zhu, Yansong Wang, Zhaoshuo Tian, (参考訳) グラフニューラルネットワーク(GNN)は、メッセージパッシング機構の偉大なローカル情報集約能力のために、様々なグラフタスクの最も強力な武器として登場した。 しかし、過度にスムースな行為は、GNNがより深く行き来し、複数のホップの隣人を捕らえるのを常に妨げてきた。 GNNとは異なり、トランスフォーマーはマルチヘッド自己アテンションを通じてグローバル情報やマルチホップインタラクションをモデル化することができ、適切なトランスフォーマー構造はオーバースムーシング問題に対する免疫力を高めることができる。 そこで、GNNとTransformerを組み合わせた新しいフレームワークを提案し、GNNのローカル情報集約とTransformerのグローバル情報モデリング機能を統合して、過度にスムースな問題を解消できるだろうか? そこで本研究では,GNN-Transformerの協調学習手法を提案し,GTCアーキテクチャを構築する。 GTCはGNNとTransformerのブランチを利用してそれぞれ異なるビューからノード情報を符号化し、符号化されたクロスビュー情報に基づいてコントラスト学習タスクを確立し、自己教師付きヘテロジニアスグラフ表現を実現する。 The Transformer branch for the Metapath-aware Hop2Token and CG-Hetphormer which can Cooper with GNN to Attentively encoding neighborhood information from different levels。 私たちが知る限り、グラフ表現学習の分野において、GNNとTransformerを併用して、異なるビュー情報を協調的に取得し、クロスビューのコントラスト学習を行う最初の試みである。 実データを用いた実験により, GTCは最先端の手法に比べて優れた性能を示した。 コードはhttps://github.com/PHD-lanyu/GTCで入手できる。

Graph Neural Networks (GNNs) have emerged as the most powerful weapon for various graph tasks due to the message-passing mechanism's great local information aggregation ability. However, over-smoothing has always hindered GNNs from going deeper and capturing multi-hop neighbors. Unlike GNNs, Transformers can model global information and multi-hop interactions via multi-head self-attention and a proper Transformer structure can show more immunity to the over-smoothing problem. So, can we propose a novel framework to combine GNN and Transformer, integrating both GNN's local information aggregation and Transformer's global information modeling ability to eliminate the over-smoothing problem? To realize this, this paper proposes a collaborative learning scheme for GNN-Transformer and constructs GTC architecture. GTC leverages the GNN and Transformer branch to encode node information from different views respectively, and establishes contrastive learning tasks based on the encoded cross-view information to realize self-supervised heterogeneous graph representation. For the Transformer branch, we propose Metapath-aware Hop2Token and CG-Hetphormer, which can cooperate with GNN to attentively encode neighborhood information from different levels. As far as we know, this is the first attempt in the field of graph representation learning to utilize both GNN and Transformer to collaboratively capture different view information and conduct cross-view contrastive learning. The experiments on real datasets show that GTC exhibits superior performance compared with state-of-the-art methods. Codes can be available at https://github.com/PHD-lanyu/GTC.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# 新しい地面を歩くことを学ぶ:c-VEP BCIの校正自由復号法

Learning to walk on new ground: Calibration-free decoding for c-VEP BCI ( http://arxiv.org/abs/2403.15521v1 )

ライセンス: Link先を確認
J. Thielen, J. Sosulski, M. Tangermann, (参考訳) 本研究では,脳-コンピュータインタフェース(BCI)のユーザビリティ向上を目的とした,校正セッションの不要化を目的とした2つのゼロトレーニング手法について検討した。 本稿では, 事象関連電位 (ERP) 領域に根ざした新しい手法, 教師なし平均最大化 (UMM) を, 高速符号変調視覚誘発電位 (c-VEP) 刺激プロトコルに導入する。 標準相関解析(CCA)を用いて,UMMと最先端のc-VEPゼロトレーニング法を比較した。 比較対象は、CCAとUMMの双方に対して、以前に分類された試験から得られた累積学習と即時分類と分類を含む。 本研究は,c-VEPデータセットの複雑さをナビゲートする手法の有効性を示し,その差と強度を明らかにする。 この研究は、キャリブレーションフリーなBCI手法の実践的実装に関する洞察を提供するだけでなく、さらなる探索と改良の道を開く。 CCAとUMMの融合は、様々なアプリケーション領域にわたるBCIシステムのアクセシビリティとユーザビリティの向上と、多数の刺激プロトコルを約束する。

This study explores two zero-training methods aimed at enhancing the usability of brain-computer interfaces (BCIs) by eliminating the need for a calibration session. We introduce a novel method rooted in the event-related potential (ERP) domain, unsupervised mean maximization (UMM), to the fast code-modulated visual evoked potential (c-VEP) stimulus protocol. We compare UMM to the state-of-the-art c-VEP zero-training method that uses canonical correlation analysis (CCA). The comparison includes instantaneous classification and classification with cumulative learning from previously classified trials for both CCA and UMM. Our study shows the effectiveness of both methods in navigating the complexities of a c-VEP dataset, highlighting their differences and distinct strengths. This research not only provides insights into the practical implementation of calibration-free BCI methods but also paves the way for further exploration and refinement. Ultimately, the fusion of CCA and UMM holds promise for enhancing the accessibility and usability of BCI systems across various application domains and a multitude of stimulus protocols.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# 医用サイバー物理システムのための医用画像データ公開

Medical Image Data Provenance for Medical Cyber-Physical System ( http://arxiv.org/abs/2403.15522v1 )

ライセンス: Link先を確認
Vijay Kumar, Kolin Paul, (参考訳) 医療技術の継続的な進歩は、遠隔医療や遠隔監視に適した安価なモバイルイメージング装置の開発に繋がった。 しかし、人口の急激な検査は、医療従事者による不正行為のリスクや、未確認画像をモバイルアプリケーションで交換するソーシャルワーカーなど、課題を提起している。 これらのリスクを軽減するために,デバイス指紋(DFP)をキャプチャ画像に埋め込むための透かし技術を提案する。 DFPは、キャプチャ装置のユニークな特性と生画像を表すもので、記憶前の生画像に埋め込まれ、画像の信頼性とソースの検証を可能にする。 さらに、画像認証のための堅牢な遠隔検証手法を導入し、相互接続型医療システムにおける医療画像データの整合性を高める。 モバイル・ファンド・イメージングのケーススタディを通じて,提案手法の有効性を,計算効率,画質,セキュリティ,信頼性の観点から評価した。 このアプローチは、遠隔医療、医療物のインターネット(IoMT)、eHealth、MCPS(Medicical Cyber-Physical Systems)アプリケーションなど、幅広いアプリケーションに適している。

Continuous advancements in medical technology have led to the creation of affordable mobile imaging devices suitable for telemedicine and remote monitoring. However, the rapid examination of large populations poses challenges, including the risk of fraudulent practices by healthcare professionals and social workers exchanging unverified images via mobile applications. To mitigate these risks, this study proposes using watermarking techniques to embed a device fingerprint (DFP) into captured images, ensuring data provenance. The DFP, representing the unique attributes of the capturing device and raw image, is embedded into raw images before storage, thus enabling verification of image authenticity and source. Moreover, a robust remote validation method is introduced to authenticate images, enhancing the integrity of medical image data in interconnected healthcare systems. Through a case study on mobile fundus imaging, the effectiveness of the proposed framework is evaluated in terms of computational efficiency, image quality, security, and trustworthiness. This approach is suitable for a range of applications, including telemedicine, the Internet of Medical Things (IoMT), eHealth, and Medical Cyber-Physical Systems (MCPS) applications, providing a reliable means to maintain data provenance in diagnostic settings utilizing medical images or videos.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# ノイズタグ付き聴覚注意復号化に向けて:パイロット研究

Towards auditory attention decoding with noise-tagging: A pilot study ( http://arxiv.org/abs/2403.15523v1 )

ライセンス: Link先を確認
H. A. Scheppink, S. Ahmadi, P. Desain, M. Tangermann, J. Thielen, (参考訳) AAD(Auditory attention decoding)は、脳活動から参加者の話者の脳活動を抽出することを目的としており、ニューロステアリング補聴器や脳とコンピュータのインターフェイスに有望な応用を提供する。 このパイロット研究は、信頼あるコード変調誘発電位を誘発するノイズタギング刺激プロトコルを用いて、AADに向けての第一歩を踏み出すが、聴覚モードでは最小限に探索される。 参加者は2つのオランダ語音声刺激を連続的に提示し、ユニークな擬似ランダムノイズコードで振幅を変調し、これらに付加可能な情報で効果的にタグ付けした。 我々は、変調されていない音声の復号化を、様々な変調深度で変調されたオーディオと比較し、従来のAAD法と比較した。 実験の結果, 従来手法では変調深度が70~100%であった場合, 非変調オーディオに比べて高い性能を示した。 ノイズコードデコーダはこれらの結果をさらに改善しなかった。 これらの基本的な洞察は、複数の話者が同時に提示されたときの聴覚話者検出を強化するために、音声にノイズコードを統合する可能性を強調する。

Auditory attention decoding (AAD) aims to extract from brain activity the attended speaker amidst candidate speakers, offering promising applications for neuro-steered hearing devices and brain-computer interfacing. This pilot study makes a first step towards AAD using the noise-tagging stimulus protocol, which evokes reliable code-modulated evoked potentials, but is minimally explored in the auditory modality. Participants were sequentially presented with two Dutch speech stimuli that were amplitude modulated with a unique binary pseudo-random noise-code, effectively tagging these with additional decodable information. We compared the decoding of unmodulated audio against audio modulated with various modulation depths, and a conventional AAD method against a standard method to decode noise-codes. Our pilot study revealed higher performances for the conventional method with 70 to 100 percent modulation depths compared to unmodulated audio. The noise-code decoder did not further improve these results. These fundamental insights highlight the potential of integrating noise-codes in speech to enhance auditory speaker detection when multiple speakers are presented simultaneously.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# PPA-Game:オンラインコンテンツクリエータ間の競合ダイナミクスの特性と学習

PPA-Game: Characterizing and Learning Competitive Dynamics Among Online Content Creators ( http://arxiv.org/abs/2403.15524v1 )

ライセンス: Link先を確認
Renzhe Xu, Haotian Wang, Xingxuan Zhang, Bo Li, Peng Cui, (参考訳) Proportional Payoff Allocation Game (PPA-Game)を導入し、YouTubeやTikTokなどのプラットフォーム上のコンテンツクリエーターと同様、さまざまなリソースと消費者の注意を競うエージェントをモデル化した。 支払いは、作者間のコンテンツ品質の多様性を反映して、異質な重みに基づくエージェントに割り当てられる。 解析の結果, 純粋なナッシュ平衡 (PNE) はすべてのシナリオにおいて保証されていないが, 一般に観察され, シミュレーションではその欠如が稀であることがわかった。 静的なペイオフの分析以外にも、マルチプレイヤーのマルチアームバンディットフレームワークを統合することで、エージェントのリソースペイオフに関するオンライン学習についても議論する。 本稿では,各エージェントの累積支払額の最大化を容易にするオンラインアルゴリズムを提案する。 理論的には、任意のエージェントの後悔は任意の$\eta > 0$に対して$O(\log^{1 + \eta} T)$で束縛される。 実験結果は我々のアプローチの有効性をさらに検証する。

We introduce the Proportional Payoff Allocation Game (PPA-Game) to model how agents, akin to content creators on platforms like YouTube and TikTok, compete for divisible resources and consumers' attention. Payoffs are allocated to agents based on heterogeneous weights, reflecting the diversity in content quality among creators. Our analysis reveals that although a pure Nash equilibrium (PNE) is not guaranteed in every scenario, it is commonly observed, with its absence being rare in our simulations. Beyond analyzing static payoffs, we further discuss the agents' online learning about resource payoffs by integrating a multi-player multi-armed bandit framework. We propose an online algorithm facilitating each agent's maximization of cumulative payoffs over $T$ rounds. Theoretically, we establish that the regret of any agent is bounded by $O(\log^{1 + \eta} T)$ for any $\eta > 0$. Empirical results further validate the effectiveness of our approach.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# 資源効率の良い画像復元のための潜在神経セルオートマタ

Latent Neural Cellular Automata for Resource-Efficient Image Restoration ( http://arxiv.org/abs/2403.15525v1 )

ライセンス: Link先を確認
Andrea Menta, Alberto Archetti, Matteo Matteucci, (参考訳) ニューラルセルオートマトンは、深層学習に基づく遷移関数の統合によって強化された従来のセルオートマトンモデルの進化を表す。 このマニュアルからデータ駆動アプローチへのシフトは、これらのモデルの適応性を著しく向上させ、コンテンツ生成や人工生命を含むさまざまな領域での応用を可能にした。 しかし、それらの広範な応用は、重要な計算要求によって妨げられている。 本研究では,LNCA(Latent Neural Cellular Automata)モデルを提案する。 提案手法は,事前学習したオートエンコーダに頼って,従来の入力空間から特別に設計された潜在空間へ計算をシフトする。 劣化した画像から高品質な画像を再構成することを目的とした,画像復元の文脈に本モデルを適用した。 この修正は、モデルのリソース消費を減らすだけでなく、様々なアプリケーションに適した柔軟なフレームワークも維持する。 提案モデルでは,高い再構成精度を維持しつつ,計算要求の大幅な削減を実現している。 この効率の向上により、同じリソースを使用して、現在の最先端のニューラルセルオートマトンモデルよりも最大16倍の入力が可能になる。

Neural cellular automata represent an evolution of the traditional cellular automata model, enhanced by the integration of a deep learning-based transition function. This shift from a manual to a data-driven approach significantly increases the adaptability of these models, enabling their application in diverse domains, including content generation and artificial life. However, their widespread application has been hampered by significant computational requirements. In this work, we introduce the Latent Neural Cellular Automata (LNCA) model, a novel architecture designed to address the resource limitations of neural cellular automata. Our approach shifts the computation from the conventional input space to a specially designed latent space, relying on a pre-trained autoencoder. We apply our model in the context of image restoration, which aims to reconstruct high-quality images from their degraded versions. This modification not only reduces the model's resource consumption but also maintains a flexible framework suitable for various applications. Our model achieves a significant reduction in computational requirements while maintaining high reconstruction fidelity. This increase in efficiency allows for inputs up to 16 times larger than current state-of-the-art neural cellular automata models, using the same resources.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# コンフォーマルオンラインモデルアグリゲーション

Conformal online model aggregation ( http://arxiv.org/abs/2403.15527v1 )

ライセンス: Link先を確認
Matteo Gasparin, Aaditya Ramdas, (参考訳) コンフォーマル予測は、強い分布仮定を行うことなく、不確実性定量化の合理的な概念を機械学習モデルに装備する。 ブラックボックス予測モデルをラップし、ポイント予測を予め定義された範囲範囲の保証を持つセット予測に変換する。 しかし、共形予測は、基礎となる機械学習モデルを事前に修正した場合にのみ有効である。 共形予測における比較的未適応な問題は、モデル選択と/または集約である:与えられた問題に対して、予測方法(ランダムフォレスト、ニューラルネット、正規化線形モデルなど)のどれを共形化するべきか? 本稿では,複数アルゴリズムの予測セットを投票によって組み合わせたオンライン環境における共形モデルアグリゲーションへの新たなアプローチを提案する。

Conformal prediction equips machine learning models with a reasonable notion of uncertainty quantification without making strong distributional assumptions. It wraps around any black-box prediction model and converts point predictions into set predictions that have a predefined marginal coverage guarantee. However, conformal prediction only works if we fix the underlying machine learning model in advance. A relatively unaddressed issue in conformal prediction is that of model selection and/or aggregation: for a given problem, which of the plethora of prediction methods (random forests, neural nets, regularized linear models, etc.) should we conformalize? This paper proposes a new approach towards conformal model aggregation in online settings that is based on combining the prediction sets from several algorithms by voting, where weights on the models are adapted over time based on past performance.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# 胸部X線写真における放射線所見の可視化によるGPT-4の評価

Evaluating GPT-4 with Vision on Detection of Radiological Findings on Chest Radiographs ( http://arxiv.org/abs/2403.15528v1 )

ライセンス: Link先を確認
Yiliang Zhou, Hanley Ong, Patrick Kennedy, Carol Wu, Jacob Kazam, Keith Hentel, Adam Flanders, George Shih, Yifan Peng, (参考訳) 本研究は,100個の胸部X線写真から放射線学的所見を検出するためのマルチモーダルな大規模言語モデルであるGPT-4Vの応用について検討し,GPT-4Vは現在,胸部X線画像の解釈において現実的な診断の準備ができていないことを示唆している。

The study examines the application of GPT-4V, a multi-modal large language model equipped with visual recognition, in detecting radiological findings from a set of 100 chest radiographs and suggests that GPT-4V is currently not ready for real-world diagnostic usage in interpreting chest radiographs.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# LimGen:研究論文の推奨限度作成のためのLCMの提案

LimGen: Probing the LLMs for Generating Suggestive Limitations of Research Papers ( http://arxiv.org/abs/2403.15529v1 )

ライセンス: Link先を確認
Abdur Rahman Bin Md Faizullah, Ashok Urlana, Rahul Mishra, (参考訳) 限界を調べることは、学術研究のレビュープロセスにおいて重要なステップであり、ある研究が決定性を欠いているか、強化を必要とする側面を明らかにする。 これにより、読者はさらなる研究のためにより広範な意味を考えるのに役立ちます。 本稿では,研究論文におけるSLG(Suggestive Limitation Generation)の課題について紹介する。 我々はLimGenと呼ばれるデータセットをコンパイルし、ACLアンソロジーから4068の研究論文とその関連する制限を包含する。 提案する制約を生み出すために,大規模言語モデル(LLM)を利用するいくつかのアプローチについて検討し,関連する課題,実践的洞察,潜在的な機会について徹底的に検討する。 私たちのLimGenデータセットとコードはhttps://github.com/armbf/LimGenでアクセスできます。

Examining limitations is a crucial step in the scholarly research reviewing process, revealing aspects where a study might lack decisiveness or require enhancement. This aids readers in considering broader implications for further research. In this article, we present a novel and challenging task of Suggestive Limitation Generation (SLG) for research papers. We compile a dataset called LimGen, encompassing 4068 research papers and their associated limitations from the ACL anthology. We investigate several approaches to harness large language models (LLMs) for producing suggestive limitations, by thoroughly examining the related challenges, practical insights, and potential opportunities. Our LimGen dataset and code can be accessed at https://github.com/armbf/LimGen.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# Pixel-GS:3次元ガウス平滑化のための画素認識勾配を用いた密度制御

Pixel-GS: Density Control with Pixel-aware Gradient for 3D Gaussian Splatting ( http://arxiv.org/abs/2403.15530v1 )

ライセンス: Link先を確認
Zheng Zhang, Wenbo Hu, Yixing Lao, Tong He, Hengshuang Zhao, (参考訳) 3D Gaussian Splatting (3DGS) は、リアルタイムレンダリング性能を向上しながら、印象的なビュー合成結果を示した。 しかし、初期点雲の品質に大きく依存しており、初期化点が不十分な地域では、ぼやけや針状のアーティファクトが生じる。 これは主に、3DGSの点雲成長条件によるもので、観測可能な視点から点の平均勾配等級しか考慮していないため、多くの視点で観測可能であるが、その多くは境界線でしかカバーされていない大きなガウスに対して成長しない。 そこで本研究では,成長条件の計算において,各ビューでガウスがカバーする画素数を考慮に入れた,Pixel-GSという新しい手法を提案する。 被被覆画素数は異なる視点からの勾配を動的に平均する重みと見なす。 結果として、初期化点が不十分な領域内の点をより効果的に成長させ、より正確で詳細な再構築を行うことができる。 さらに,カメラからの距離に応じて勾配場を拡大し,カメラ近傍のフローターの成長を抑制するための簡易かつ効果的な手法を提案する。 提案手法は,Mip-NeRF 360 と Tanks & Temples のデータセットを用いて,リアルタイムレンダリング速度を維持しながら,最先端のレンダリング品質を実現することを定性的かつ定量的に実証した。

3D Gaussian Splatting (3DGS) has demonstrated impressive novel view synthesis results while advancing real-time rendering performance. However, it relies heavily on the quality of the initial point cloud, resulting in blurring and needle-like artifacts in areas with insufficient initializing points. This is mainly attributed to the point cloud growth condition in 3DGS that only considers the average gradient magnitude of points from observable views, thereby failing to grow for large Gaussians that are observable for many viewpoints while many of them are only covered in the boundaries. To this end, we propose a novel method, named Pixel-GS, to take into account the number of pixels covered by the Gaussian in each view during the computation of the growth condition. We regard the covered pixel numbers as the weights to dynamically average the gradients from different views, such that the growth of large Gaussians can be prompted. As a result, points within the areas with insufficient initializing points can be grown more effectively, leading to a more accurate and detailed reconstruction. In addition, we propose a simple yet effective strategy to scale the gradient field according to the distance to the camera, to suppress the growth of floaters near the camera. Extensive experiments both qualitatively and quantitatively demonstrate that our method achieves state-of-the-art rendering quality while maintaining real-time rendering speed, on the challenging Mip-NeRF 360 and Tanks & Temples datasets.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# 結局のところ、時非依存の古典的源を持つスカラー場は自明ではない:真空崩壊から散乱まで

Scalar field with a time-independent classical source, not trivial after all: from vacuum decay to scattering ( http://arxiv.org/abs/2403.15531v1 )

ライセンス: Link先を確認
Leonardo Tinti, Arthur Vereijken, Shahriyar Jafarzade, Francesco Giacosa, (参考訳) 歴史的に、時間に依存しない古典的な情報源は、単一粒子量子力学とは対照的に相対論的非電荷場の散乱には影響しないと考えられている。 この研究で、ダイナミクスは自明ではないことを示す。 散乱振幅を正確に解き、鍵となる成分は不安定真空からの粒子の生成であり、概念的にはシュウィンガー機構に類似している。 真空が$n$の粒子で崩壊する確率を正確に計算する。 そのような確率の時間依存性は、量子ゼノ効果のような興味深い性質を示し、特に指数的崩壊則が良い近似であるような状態を持たない。 過去に見いだされた自明な散乱は、相互作用の断熱スイッチングの副産物であることを示す。 実際、遠く離れた時間に相互作用をオフにしたり、正確な結果を回復することは不可能である。 最後に、この非自明な真空挙動は粒子生成の源である。 このような非摂動計算は、例えば媒質中でのディラトン生成のような摂動理論の下位順序で抑制される生産過程に現象論的に関係していると論じる。

Historically it has been believed that a time-independent classical source has no effect on the scattering of relativistic uncharged field, in contrast with single particle quantum mechanics. In this work we show that the dynamics is not trivial. We solve exactly for the scattering amplitudes and find that a key ingredient is the production of particles from the unstable vacuum, conceptually similar to the Schwinger mechanism. We compute exactly the probabilities for the vacuum to decay in $n$ particles. The time dependence of such probabilities displays interesting properties such as the quantum Zeno effect and in particular has no regime where the exponential decay law is a good approximation. We show that the trivial scattering found in the past is the byproduct of the adiabatic switching of the interaction. In fact, it is not possible to switch off the interaction (adiabatically or otherwise) at distant times and recover the exact results. Finally, this non trivial vacuum behavior is a source of particle production. We argue that such non-perturbative calculations can be phenomenologically relevant for the production processes that are suppressed at the lower orders in perturbation theory, for instance dilaton production in a medium.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# 量子近似最適化による非構造探索の深さスケーリング

Depth scaling of unstructured search via quantum approximate optimization ( http://arxiv.org/abs/2403.15540v1 )

ライセンス: Link先を確認
Ernesto Campos, Daniil Rabinovich, Alexey Uvarov, (参考訳) 変分量子アルゴリズムは、現在の量子計算のデファクトモデルとなっている。 このようなアルゴリズムの顕著な例である量子近似最適化アルゴリズム(QAOA)は、もともと組合せ最適化タスクのために設計されたものであるが、他の様々な問題に対して成功したことが示されている。 しかし、これらの問題の多くは最適回路深さが不明である。 そのような問題の1つは、特定のビット文字列を見つけること、または同等に、ターゲット状態と高い重なり合う状態を作成することで構成される非構造化探索である。 このような問題に対して最適なQAOA深さをバウンドするには、その既知の解を連続時間量子ウォーク(CTQW)で構築する。 我々はCTQWを用いてQAOAシークエンスを復元し、ターゲット状態とほぼ完全に重なる状態を作成するのに必要なクエリ複雑性(回路深さ)を束縛するために、最近のトロッター公式理論の進歩を利用する。 得られた複雑性はグロバーのアルゴリズムの複雑さ$O\left(N^\frac{1}{2}\right)$を超えるが、古典解よりもQAOAの量子的優位性を示す任意の$c>0$に対して$O \left(N^{\frac{1}{2}+c}\right)$よりも小さい。 我々は,最大68量子ビットの数値シミュレーションにより解析的予測を検証し,この結果から,少なくとも多項式係数による散乱CTQWから得られたQAOA層数を過大評価することを示した。

Variational quantum algorithms have become the de facto model for current quantum computations. A prominent example of such algorithms -- the quantum approximate optimization algorithm (QAOA) -- was originally designed for combinatorial optimization tasks, but has been shown to be successful for a variety of other problems. However, for most of these problems the optimal circuit depth remains unknown. One such problem is unstructured search which consists on finding a particular bit string, or equivalently, preparing a state of high overlap with a target state. To bound the optimal QAOA depth for such problem we build on its known solution in a continuous time quantum walk (CTQW). We trotterize a CTQW to recover a QAOA sequence, and employ recent advances on the theory of Trotter formulas to bound the query complexity (circuit depth) needed to prepare a state of almost perfect overlap with the target state. The obtained complexity exceeds the Grover's algorithm complexity $O\left(N^\frac{1}{2}\right)$, but remains smaller than $O \left(N^{\frac{1}{2}+c}\right)$ for any $c>0$, which shows quantum advantage of QAOA over classical solutions. We verify our analytical predictions by numerical simulations of up to 68 qubits, which demonstrate that our result overestimates the number of QAOA layers resulting from a trotterized CTQW by at most a polynomial factor.
翻訳日:2024-03-26 22:12:28 公開日:2024-03-22
# パーコレーション量子系のエンタングルメントシグネチャ

Entanglement signatures of a percolating quantum system ( http://arxiv.org/abs/2403.15541v1 )

ライセンス: Link先を確認
Subrata Pachhal, Adhip Agarwala, (参考訳) エンタングルメント対策は、量子相とその遷移を診断するための多用途プローブの1つとして登場した。 普遍的な特徴は、待ち時間障害を含む様々なシステムに応用範囲を広げる。 本研究では,基礎となる格子がパーコレーション障害を持つとき,有限密度の自由フェルミオンが興味深い絡み合い特性を示すことを示す。 これらは、標準的な二部交絡エントロピーの概念を再考する必要があるような、非常に退化した固有空間から生じる。 適切に定義された絡み合い尺度は、パーコレーションされた量子系の幾何学的側面と電子的相関の両方を捉えることができることを示す。 様々なおもちゃモデルを用いて、この物理学の豊かな現象論を明らかにする。 さらに、これらの絡み合い特性には古典的なパーコレーション遷移の解読可能なシグネチャが存在することを示す。 本研究は,多体量子系における格子の幾何学的性質と量子絡み合いの間の興味深い相互作用を示す。

Entanglement measures have emerged as one of the versatile probes to diagnose quantum phases and their transitions. Universal features in them expand their applicability to a range of systems, including those with quenched disorder. In this work, we show that when the underlying lattice has percolation disorder, free fermions at a finite density show interesting entanglement properties. These emerge from massively degenerate eigenspaces where the notion of standard bipartite entanglement entropy needs to be revisited. We show that appropriately defined entanglement measures can capture both geometrical aspects and electronic correlations of the percolated quantum system. Using a variety of toy models, we uncover the rich phenomenology of this physics. We further show that there are decipherable signatures of the classical percolation transition in these entanglement properties. Our work presents an interesting interplay between the geometrical properties of a lattice and quantum entanglement in a many-body quantum system.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# 単眼深度推定のための言語ベース深度ヒント

Language-Based Depth Hints for Monocular Depth Estimation ( http://arxiv.org/abs/2403.15551v1 )

ライセンス: Link先を確認
Dylan Auty, Krystian Mikolajczyk, (参考訳) 単眼深度推定(MDE)は本質的に不明瞭であり、与えられた画像は多くの異なる3Dシーンから生じる可能性がある。 この曖昧さを解決するために、MDEシステムは与えられた入力に対して最も可能性の高い3Dシーンを仮定する必要がある。 これらの仮定は明示的か暗黙的である。 本研究は,世界構造に関する明示的な事前の情報源として,自然言語の利用を実証するものである。 人間の言語は様々な物体の深さ空間の分布を符号化していると仮定する。 まず、学習中にこの暗黙のバイアスを符号化した言語モデルを示し、非常に単純な学習手法を用いて抽出できることを示す。 次に、この予測は、言語モデルへの入力として使われるラベルを提供するオフ・ザ・シェルフ・インスタンス・セグメンテーション・モデルを用いて、MDEシステムへの仮定の明示的な情報源として提供されることを示す。 提案手法の性能をNYUD2データセットに示すとともに,ベースラインやランダム制御に比較して改善点を示す。

Monocular depth estimation (MDE) is inherently ambiguous, as a given image may result from many different 3D scenes and vice versa. To resolve this ambiguity, an MDE system must make assumptions about the most likely 3D scenes for a given input. These assumptions can be either explicit or implicit. In this work, we demonstrate the use of natural language as a source of an explicit prior about the structure of the world. The assumption is made that human language encodes the likely distribution in depth-space of various objects. We first show that a language model encodes this implicit bias during training, and that it can be extracted using a very simple learned approach. We then show that this prediction can be provided as an explicit source of assumption to an MDE system, using an off-the-shelf instance segmentation model that provides the labels used as the input to the language model. We demonstrate the performance of our method on the NYUD2 dataset, showing improvement compared to the baseline and to random controls.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# ガリレオ相対性と波動-粒子双対性はシュレーディンガー方程式を暗示する

Galilean relativity and wave-particle duality imply the Schrödinger equation ( http://arxiv.org/abs/2403.15555v1 )

ライセンス: Link先を確認
Gustavo Rigolin, (参考訳) 一般波動方程式のガリレオ共分散とデ・ブログリの波動-粒子双対性仮説の妥当性を仮定して、シュル・オーディンガー方程式が導出可能であることを示す。 また、この一連の仮定からガリレオブーストの下での波動関数の変換則を求め、複素波動関数が物理系の一貫した記述には避けられないことを証明した。 また、上記の分析の相対論的領域の拡張も提供する。 ローレンツの共分散と波動粒子の双対性は、ローレンツブーストの下での波動関数に対する2つの異なる変換則と一致することを示す。 これは2つの異なる波動方程式、すなわちクライン=ゴルドン方程式とローレンツ共変シュリンガー方程式につながる。

We show that the Schr\"odinger equation can be derived assuming the Galilean covariance of a generic wave equation and the validity of the de Broglie's wave-particle duality hypothesis. We also obtain from this set of assumptions the transformation law for the wave function under a Galilean boost and prove that complex wave functions are unavoidable for a consistent description of a physical system. The extension to the relativistic domain of the above analysis is also provided. We show that Lorentz covariance and wave-particle duality are consistent with two different transformation laws for the wave function under a Lorentz boost. This leads to two different wave equations, namely, the Klein-Gordon equation and the Lorentz covariant Schr\"odinger equation.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# 自由空間における超低温原子ガスの方向超放射

Directional superradiance in a driven ultracold atomic gas in free-space ( http://arxiv.org/abs/2403.15556v1 )

ライセンス: Link先を確認
Sanaa Agarwal, Edwin Chaparro, Diego Barberena, A. Piñeiro Orioli, G. Ferioli, S. Pancaldi, I. Ferrier-Barbut, A. Browaeys, A. M. Rey, (参考訳) 超低温原子系は、多体量子系の複雑な挙動に光を当てる可能性を持つ最も有望なプラットフォームの一つである。 1つの顕著な例は、双極子-双極子相互作用を介して相互作用しながら強いコヒーレント駆動によって照らされた密度のアンサンブルの場合である。 厳しい調査を受けたにもかかわらず、このシステムには多くのオープンな疑問が残る。 鉛筆形状の幾何学で最近行われた実験では、前向きの発光特性を見るとき、自由空間における ‘superradiant' 相転移の形で強い集団効果が出現したように思われたと報告された。 実験により, 駆動強度と原子番号の関数として, 系の定常特性の系統的理論的解析を行った。 システムがランダムに整列された双極子からなる単一粒子状混合状態へと進化するにつれて、駆動強度の増大とともに消滅する弱い駆動系における集合効果のシグネチャを観察する。 定常状態は、報告された超ラジカルと通常の非平衡遷移(共振蛍光とも呼ばれる)にいくつかの類似性があるが、臨界駆動パラメータのスケーリング($N$から$\sqrt{N}$)を含む、有意な定性的および定量的な差異を観察する。 我々は,現在アクセス可能な条件下での定常状態のダイナミクスを捉えるために,平均場処理の適用性を検証する。 さらに,自由空間における不均一な配列の相互作用の内在的特徴である,相互作用による不均一な効果と自然発生を考慮した,スケーリング特性の簡易な理論的モデルを構築した。

Ultra-cold atomic systems are among the most promising platforms that have the potential to shed light on the complex behavior of many-body quantum systems. One prominent example is the case of a dense ensemble illuminated by a strong coherent drive while interacting via dipole-dipole interactions. Despite being subjected to intense investigations, this system retains many open questions. A recent experiment carried out in a pencil-shaped geometry reported measurements that seemed consistent with the emergence of strong collective effects in the form of a ``superradiant'' phase transition in free space, when looking at the light emission properties in the forward direction. Motivated by the experimental observations, we carry out a systematic theoretical analysis of the system's steady-state properties as a function of the driving strength and atom number, $N$. We observe signatures of collective effects in the weak drive regime, which disappear with increasing drive strength as the system evolves into a single-particle-like mixed state comprised of randomly aligned dipoles. Although the steady-state features some similarities to the reported superradiant to normal non-equilibrium transition, also known as cooperative resonance fluorescence, we observe significant qualitative and quantitative differences, including a different scaling of the critical drive parameter (from $N$ to $\sqrt{N}$). We validate the applicability of a mean-field treatment to capture the steady-state dynamics under currently accessible conditions. Furthermore, we develop a simple theoretical model that explains the scaling properties by accounting for interaction-induced inhomogeneous effects and spontaneous emission, which are intrinsic features of interacting disordered arrays in free space.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# 検出されていない光子のセンシングに基づくセキュア通信

Secure communication based on sensing of undetected photons ( http://arxiv.org/abs/2403.15557v1 )

ライセンス: Link先を確認
Jean Sternberg, Julien Voisin, Charline Roux, Yannick Chassagneux, Maria Ines Amanti, (参考訳) 本稿では,絡み合った光子対内の量子相関を利用するセキュアな光通信プロトコルを提案する。 いずれかの光子に作用して書かれたメッセージは、対の他の光子を排他的に測定することで読み取ることができる。 このスキームでは、明るい無意味な光ビームがメッセージを隠して、盗聴者に対してアクセスできないようにしている。 従来の方法とは異なり、我々のアプローチは許可されていないユーザだけに影響を与え、基本的には通信チャネルへのアクセスを制限する。 我々は、振幅変調と位相変調の両方を通してセキュアな通信を実現することで、プロトコルの有効性を実証する。 我々は、画像の安全な転送にこの手法をうまく利用した。 我々は、対応するアイダイアグラムとともに、毎秒8ビットのデータ交換速度を実証した。

In this paper, we introduce a secure optical communication protocol that harnesses quantum correlation within entangled photon pairs. A message written by acting on one of the photons can be read by exclusive measurements of the other photon of the pair. In this scheme a bright, meaningless optical beam hides the message rendering it inaccessible to potential eavesdroppers. Unlike traditional methods our approach only affects unauthorized users, fundamentally limiting their access to the communication channel. We demonstrate the effectiveness of our protocol by achieving secure communication through both amplitude and phase modulation. We successfully employ this technique for the secure transfer of an image. We demonstrate data exchange speed of up to 8 bits per second, along with the corresponding eye diagrams.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# テキスト・ツー・イメージ・モデルを用いた3次元メッシュのテクスチャ化のためのマルチビュー整合性向上のための最適化フレームワーク

An Optimization Framework to Enforce Multi-View Consistency for Texturing 3D Meshes Using Pre-Trained Text-to-Image Models ( http://arxiv.org/abs/2403.15559v1 )

ライセンス: Link先を確認
Zhengyi Zhao, Chen Song, Xiaodong Gu, Yuan Dong, Qi Zuo, Weihao Yuan, Zilong Dong, Liefeng Bo, Qixing Huang, (参考訳) 事前訓練されたテキスト・ツー・イメージモデルを用いた3Dメッシュのテクスチャ化における根本的な問題は、マルチビューの一貫性を保証することである。 最先端のアプローチでは、一般的に拡散モデルを用いてマルチビュー入力を集約するが、一般的な問題は集約ステップにおける平均演算による曖昧さや局所的な特徴の不整合である。 本稿では,多視点整合性を実現するために,4段階の最適化フレームワークを提案する。 特に、第1段階は、MV一貫性拡散プロセスを用いて、予め定義された視点の集合から、過剰に完全な2次元テクスチャの集合を生成する。 第2段階は、基礎となる3Dモデルをカバーしながら相互に一貫性のあるビューのサブセットを選択する。 半確定プログラムを解くことで、この目標を達成する方法を示す。 第3ステージは、重複する領域にまたがって選択されたビューを調整するために、厳密でないアライメントを実行する。 第4ステージは、各メッシュ面と選択されたビューを関連付けるためにMRF問題を解決する。 特に第3段と第4段は反復され、第4段のカットは第3段の非剛性アライメントを奨励し、カットに近い領域にフォーカスする。 実験結果から,本手法は質的,定量的にベースラインアプローチを著しく上回ることがわかった。

A fundamental problem in the texturing of 3D meshes using pre-trained text-to-image models is to ensure multi-view consistency. State-of-the-art approaches typically use diffusion models to aggregate multi-view inputs, where common issues are the blurriness caused by the averaging operation in the aggregation step or inconsistencies in local features. This paper introduces an optimization framework that proceeds in four stages to achieve multi-view consistency. Specifically, the first stage generates an over-complete set of 2D textures from a predefined set of viewpoints using an MV-consistent diffusion process. The second stage selects a subset of views that are mutually consistent while covering the underlying 3D model. We show how to achieve this goal by solving semi-definite programs. The third stage performs non-rigid alignment to align the selected views across overlapping regions. The fourth stage solves an MRF problem to associate each mesh face with a selected view. In particular, the third and fourth stages are iterated, with the cuts obtained in the fourth stage encouraging non-rigid alignment in the third stage to focus on regions close to the cuts. Experimental results show that our approach significantly outperforms baseline approaches both qualitatively and quantitatively.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# A2DMN:乳房超音波シーマンティックセグメンテーションのための解剖学的適応型マルチスケールネットワーク

A2DMN: Anatomy-Aware Dilated Multiscale Network for Breast Ultrasound Semantic Segmentation ( http://arxiv.org/abs/2403.15560v1 )

ライセンス: Link先を確認
Kyle Lucke, Aleksandar Vakanski, Min Xian, (参考訳) 近年,乳房超音波(BUS)画像のセグメンテーションのための畳み込みニューラルネットワークは大きな成功を収めているが,大きな課題が2つ残っている。 1)現在のほとんどのアプローチでは組織解剖学の能力が欠如しており,画像領域の分類が誤っている。 2) ダウンサンプリングの繰り返しにより, 正確な境界の達成に苦慮する。 これらの課題に対処するために,細かな画像の詳細をキャプチャする新しい乳腺解剖ネットワークと,乳腺解剖を符号化する新しいスムーズな用語を提案する。 複数の空間スケールにわたるコンテキスト情報を組み込んで、より正確な意味境界を生成する。 BUSデータセットと325の画像を用いて,提案手法と8つの最先端手法の比較実験を行った。 以上の結果から, 提案法は筋, 乳腺, 腫瘍のセグメンテーションを著しく改善し, 組織境界のより正確な細部を創出できることが示唆された。

In recent years, convolutional neural networks for semantic segmentation of breast ultrasound (BUS) images have shown great success; however, two major challenges still exist. 1) Most current approaches inherently lack the ability to utilize tissue anatomy, resulting in misclassified image regions. 2) They struggle to produce accurate boundaries due to the repeated down-sampling operations. To address these issues, we propose a novel breast anatomy-aware network for capturing fine image details and a new smoothness term that encodes breast anatomy. It incorporates context information across multiple spatial scales to generate more accurate semantic boundaries. Extensive experiments are conducted to compare the proposed method and eight state-of-the-art approaches using a BUS dataset with 325 images. The results demonstrate the proposed method significantly improves the segmentation of the muscle, mammary, and tumor classes and produces more accurate fine details of tissue boundaries.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# 信頼するものを信じてはいけない - 半教師あり学習におけるミススキャリブレーション

Do not trust what you trust: Miscalibration in Semi-supervised Learning ( http://arxiv.org/abs/2403.15567v1 )

ライセンス: Link先を確認
Shambhavi Mishra, Balamurali Murugesan, Ismail Ben Ayed, Marco Pedersoli, Jose Dolz, (参考訳) 最先端の半教師付き学習(SSL)アプローチは、ラベルなしサンプルのトレーニングをガイドする擬似ラベルとして機能するために、信頼性の高い予測に依存している。 この戦略の固有の欠点は、予測の正確性に関わらず、疑似ラベルはその不確実性度に基づいてのみフィルタリングされるため、不確実性推定の品質に起因している。 したがって、ネットワーク予測の不確実性の評価と向上は、擬似ラベル処理において最重要となる。 本研究では,擬似ラベルに基づくSSL手法が著しく誤校正されていることを実証的に証明し,シャノンエントロピーの下限であるminエントロピーの最小化を誤校正の潜在的原因として正式に示す。 この問題を緩和するために,未ラベルサンプルの予測のロジット距離を低く抑える単純なペナルティ項を統合することで,ネットワーク予測が過信されるのを防ぐ。 さまざまなSSLイメージ分類ベンチマークに関する総合的な実験により、提案手法は関連するSSLモデルの校正性能を体系的に改善すると同時に、SSLタスクに取り組むための魅力的な追加機能である識別能力も向上することを示した。

State-of-the-art semi-supervised learning (SSL) approaches rely on highly confident predictions to serve as pseudo-labels that guide the training on unlabeled samples. An inherent drawback of this strategy stems from the quality of the uncertainty estimates, as pseudo-labels are filtered only based on their degree of uncertainty, regardless of the correctness of their predictions. Thus, assessing and enhancing the uncertainty of network predictions is of paramount importance in the pseudo-labeling process. In this work, we empirically demonstrate that SSL methods based on pseudo-labels are significantly miscalibrated, and formally demonstrate the minimization of the min-entropy, a lower bound of the Shannon entropy, as a potential cause for miscalibration. To alleviate this issue, we integrate a simple penalty term, which enforces the logit distances of the predictions on unlabeled samples to remain low, preventing the network predictions to become overconfident. Comprehensive experiments on a variety of SSL image classification benchmarks demonstrate that the proposed solution systematically improves the calibration performance of relevant SSL models, while also enhancing their discriminative power, being an appealing addition to tackle SSL tasks.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# シーケンスモデルを用いた言語翻訳としての音楽とダンス

Music to Dance as Language Translation using Sequence Models ( http://arxiv.org/abs/2403.15569v1 )

ライセンス: Link先を確認
André Correia, Luís A. Alexandre, (参考訳) 適切な振付を音楽から合成することは未解決の問題である。 MDLTは、振付生成問題を翻訳タスクとしてフレーム化する新しい手法である。 提案手法は,既存のデータセットを利用して,音声のシーケンスを対応するダンスポーズに変換することを学習する。 本稿では,トランスフォーマーアーキテクチャを利用したMDLTと,Mambaアーキテクチャを用いたMDLTの2つのバリエーションを提案する。 我々はAIST++とPhantomDanceのデータセットを使ってロボットアームにダンスを教えるが、本手法は完全なヒューマノイドロボットに適用できる。 Average Joint Error(英語版)やFrechet Inception Distance(英語版)などの評価指標は、音楽が与えられた場合、MDLTは現実的で高品質な振付を制作するのに優れていることを一貫して示している。 コードはgithub.com/meowatthemoon/MDLTで見ることができる。

Synthesising appropriate choreographies from music remains an open problem. We introduce MDLT, a novel approach that frames the choreography generation problem as a translation task. Our method leverages an existing data set to learn to translate sequences of audio into corresponding dance poses. We present two variants of MDLT: one utilising the Transformer architecture and the other employing the Mamba architecture. We train our method on AIST++ and PhantomDance data sets to teach a robotic arm to dance, but our method can be applied to a full humanoid robot. Evaluation metrics, including Average Joint Error and Frechet Inception Distance, consistently demonstrate that, when given a piece of music, MDLT excels at producing realistic and high-quality choreography. The code can be found at github.com/meowatthemoon/MDLT.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# 道路作業区域における拡張現実警告の強化--作業者の反応時間に及ぼすモダリティの影響の評価

Augmented Reality Warnings in Roadway Work Zones: Evaluating the Effect of Modality on Worker Reaction Times ( http://arxiv.org/abs/2403.15571v1 )

ライセンス: Link先を確認
Sepehr Sabeti, Fatemeh Banani Ardacani, Omidreza Shoghli, (参考訳) 老朽化した高速道路のインフラは、大規模な再建と強化を必要としており、労働ゾーンの増加に伴い、労働者を保護するための高度な安全システムの開発が急務である。 Augmented Reality(AR)は、労働者に警告を配信する大きな可能性を秘めているが、道路作業ゾーンへの統合は、まだ明らかになっていない。 本研究の目的は,マルチモーダルAR警告の組み合わせが作業者の反応時間にどのように影響するかを広範囲に分析することにより,道路作業区域内の安全対策を改善することである。 本稿では,実環境と仮想環境の両方において,道路作業ゾーンの特有な条件を再現することを目的とした一連の実験を通じて,このギャップを解消する。 提案手法は,高度なARシステムのプロトタイプ,ワークゾーン環境内のAR機能のVRシミュレーション,実験間でユーザエクスペリエンスを同期するWizard of Ozテクニックの3つの重要なコンポーネントから構成される。 反応時間を評価するために、実時間ポーズ推定を利用する単純な反応時間(SRT)技術と革新的な視覚ベースの計量の両方を利用する。 コントロールされた屋外ワークゾーンと屋内VR設定で5つの実験を行うことで、さまざまなマルチモーダルAR警告が労働者の反応時間に与える影響について貴重な情報を提供する。 さらに,本研究では,VRシミュレーションと実世界のシナリオ間の反応時間の差異を明らかにし,道路作業ゾーンのダイナミックスを反映するVR能力を拡張した。 さらに,本研究の結果は,視覚に基づく反応時間測定の可能性と信頼性を裏付けるものである。 これらの知見は、SRT技術を用いて導出されたものとよく一致し、実世界の有形な使用のためにこのアプローチが実現可能であることを暗示している。

Given the aging highway infrastructure requiring extensive rebuilding and enhancements, and the consequent rise in the number of work zones, there is an urgent need to develop advanced safety systems to protect workers. While Augmented Reality (AR) holds significant potential for delivering warnings to workers, its integration into roadway work zones remains relatively unexplored. The primary objective of this study is to improve safety measures within roadway work zones by conducting an extensive analysis of how different combinations of multimodal AR warnings influence the reaction times of workers. This paper addresses this gap through a series of experiments that aim to replicate the distinctive conditions of roadway work zones, both in real-world and virtual reality environments. Our approach comprises three key components: an advanced AR system prototype, a VR simulation of AR functionality within the work zone environment, and the Wizard of Oz technique to synchronize user experiences across experiments. To assess reaction times, we leverage both the simple reaction time (SRT) technique and an innovative vision-based metric that utilizes real-time pose estimation. By conducting five experiments in controlled outdoor work zones and indoor VR settings, our study provides valuable information on how various multimodal AR warnings impact workers reaction times. Furthermore, our findings reveal the disparities in reaction times between VR simulations and real-world scenarios, thereby gauging VR's capability to mirror the dynamics of roadway work zones. Furthermore, our results substantiate the potential and reliability of vision-based reaction time measurements. These insights resonate well with those derived using the SRT technique, underscoring the viability of this approach for tangible real-world uses.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# SensoryT5:T5にSensorimotor Normsを注入して感情を細かく分類する

SensoryT5: Infusing Sensorimotor Norms into T5 for Enhanced Fine-grained Emotion Classification ( http://arxiv.org/abs/2403.15574v1 )

ライセンス: Link先を確認
Yuhan Xia, Qingqing Zhao, Yunfei Long, Ge Xu, Jia Wang, (参考訳) 伝統的な研究アプローチでは、感覚知覚と感情の分類は伝統的に別々の領域と見なされてきた。 しかし、感覚経験が感情反応に与える影響は否定できない。 自然言語処理(NLP)コミュニティは、感覚知識と感情分類を融合する機会を欠いていることが多い。 このギャップに対処するために,感覚情報をT5(Text-to-Text Transfer Transformer)モデルに統合する神経認知アプローチであるSensoryT5を提案する。 この手法は感覚の手がかりをT5の注意機構に組み込み、文脈理解と感覚認識の調和のバランスを可能にする。 結果のモデルは感情表現の豊かさを増幅する。 さまざまな詳細な感情分類データセットを対象とした厳密なテストでは、SensoryT5は、基礎となるT5モデルと現在の最先端の作業の両方を超越して、パフォーマンスの向上を見せている。 特に、SensoryT5の成功は、NLPドメインにおける重要な変化を示し、機械学習モデルの感情感受性の精製における神経認知データの影響を浮き彫りにする。

In traditional research approaches, sensory perception and emotion classification have traditionally been considered separate domains. Yet, the significant influence of sensory experiences on emotional responses is undeniable. The natural language processing (NLP) community has often missed the opportunity to merge sensory knowledge with emotion classification. To address this gap, we propose SensoryT5, a neuro-cognitive approach that integrates sensory information into the T5 (Text-to-Text Transfer Transformer) model, designed specifically for fine-grained emotion classification. This methodology incorporates sensory cues into the T5's attention mechanism, enabling a harmonious balance between contextual understanding and sensory awareness. The resulting model amplifies the richness of emotional representations. In rigorous tests across various detailed emotion classification datasets, SensoryT5 showcases improved performance, surpassing both the foundational T5 model and current state-of-the-art works. Notably, SensoryT5's success signifies a pivotal change in the NLP domain, highlighting the potential influence of neuro-cognitive data in refining machine learning models' emotional sensitivity.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# カーネル化スタイン離散化によるデータ中心予測記述

Data-centric Prediction Explanation via Kernelized Stein Discrepancy ( http://arxiv.org/abs/2403.15576v1 )

ライセンス: Link先を確認
Mahtab Sarvmaili, Hassan Sajjad, Ga Wu, (参考訳) 既存の例ベースの予測説明手法は、しばしばモデルのパラメータや潜在表現を通してテストとトレーニングのデータポイントを橋渡しする。 これらの手法は、モデル予測の原因の手がかりを提供するが、大きな計算オーバーヘッドを発生させたり、粗いきめ細かな説明を発生させたりするなど、固有の欠点をしばしば示している。 本稿では,kernelized Stein Discrepancy(KSD)の特性を利用した簡易な予測法であるHD-Explain(Highly-precise and Data-centric Explanation)を提案する。 具体的には、KSDはモデル依存データ相関を符号化する訓練モデルのパラメータ化カーネル関数を独自に定義する。 カーネル関数を活用することで、テストポイントに最適な予測サポートを提供するトレーニングサンプルを効率的に特定することができる。 我々は、複数の分類領域にわたる徹底的な分析と実験を行い、HD-Explainは、様々な側面から既存の手法よりも優れていることを示す。 1)正確性(きめ細かい説明) 2)一貫性,及び 3)計算効率が向上し,驚くほどシンプルで,効果的で,堅牢な予測説明ソリューションが実現した。

Existing example-based prediction explanation methods often bridge test and training data points through the model's parameters or latent representations. While these methods offer clues to the causes of model predictions, they often exhibit innate shortcomings, such as incurring significant computational overhead or producing coarse-grained explanations. This paper presents a Highly-precise and Data-centric Explanation (HD-Explain), a straightforward prediction explanation method exploiting properties of Kernelized Stein Discrepancy (KSD). Specifically, the KSD uniquely defines a parameterized kernel function for a trained model that encodes model-dependent data correlation. By leveraging the kernel function, one can identify training samples that provide the best predictive support to a test point efficiently. We conducted thorough analyses and experiments across multiple classification domains, where we show that HD-Explain outperforms existing methods from various aspects, including 1) preciseness (fine-grained explanation), 2) consistency, and 3) computation efficiency, leading to a surprisingly simple, effective, and robust prediction explanation solution.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# 認識不確かさによる自律走行:ディープ・アンサンブルに基づく適応型クルーズ制御

Autonomous Driving With Perception Uncertainties: Deep-Ensemble Based Adaptive Cruise Control ( http://arxiv.org/abs/2403.15577v1 )

ライセンス: Link先を確認
Xiao Li, H. Eric Tseng, Anouck Girard, Ilya Kolmanovsky, (参考訳) 自律運転は、環境を理解し、下流の意思決定を知らせるために知覚システムに依存する。 ブラックボックスのDeep Neural Networks(DNN)を利用した高度な認識システムは、人間のような理解を実証するが、予測不可能な振る舞いと解釈可能性の欠如は、安全クリティカルなシナリオへの展開を妨げる可能性がある。 本稿では,予測不確かさの定量化を伴う予測を生成するDNN回帰器(Deep Ensemble)の開発を行う。 適応クルーズ制御(ACC)のシナリオでは、RGB画像から先頭車への距離を推定するためにDeep Ensembleを用いて、下流コントローラが推定の不確実性を考慮できるようにする。 我々は確率論的モデル予測制御(MPC)と確率制約を併用した適応型クルーズ制御装置を開発し,確率論的安全性を保証する。 我々は,高忠実度交通シミュレータと実世界の交通データセットを用いてACCアルゴリズムを評価し,安全距離の進路を維持しつつ,車追従の速度追従に対する提案手法の有効性を実証した。 アウト・オブ・ディストリビューションのシナリオについても検討する。

Autonomous driving depends on perception systems to understand the environment and to inform downstream decision-making. While advanced perception systems utilizing black-box Deep Neural Networks (DNNs) demonstrate human-like comprehension, their unpredictable behavior and lack of interpretability may hinder their deployment in safety critical scenarios. In this paper, we develop an Ensemble of DNN regressors (Deep Ensemble) that generates predictions with quantification of prediction uncertainties. In the scenario of Adaptive Cruise Control (ACC), we employ the Deep Ensemble to estimate distance headway to the lead vehicle from RGB images and enable the downstream controller to account for the estimation uncertainty. We develop an adaptive cruise controller that utilizes Stochastic Model Predictive Control (MPC) with chance constraints to provide a probabilistic safety guarantee. We evaluate our ACC algorithm using a high-fidelity traffic simulator and a real-world traffic dataset and demonstrate the ability of the proposed approach to effect speed tracking and car following while maintaining a safe distance headway. The out-of-distribution scenarios are also examined.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# U-ARE-ME:マンハッタン環境における不確実性を考慮した回転推定

U-ARE-ME: Uncertainty-Aware Rotation Estimation in Manhattan Environments ( http://arxiv.org/abs/2403.15583v1 )

ライセンス: Link先を確認
Aalok Patwardhan, Callum Rhodes, Gwangbin Bae, Andrew J. Davison, (参考訳) 単一の画像からのカメラ回転推定は難しい作業であり、しばしば深度データと/またはカメラ固有の情報を必要とする。 慣性測定ユニット(IMU)のような外部センサーは役に立つが、しばしばドリフトに悩まされ、慣性基準フレームには適用できない。 本稿では、未校正RGB画像からの不確実性とともに、カメラ回転を推定するアルゴリズムであるU-ARE-MEを提案する。 マンハッタン・ワールドの仮定を用いて, 単像面正規予測に符号化された画素ごとの幾何学的先行値を活用し, SO(3)多様体上で最適化を行う。 画像列が与えられた場合、フレーム単位の回転推定値とその不確実性を用いて、複数フレームの最適化を行い、堅牢性と時間的整合性を達成する。 実験の結果,U-ARE-MEはRGB-D法と互換性があり,特徴量ベースのSLAM法よりも頑健であることがわかった。 本手法の視覚的概要はhttps://callum-rhodes.github.io/U-ARE-MEで見ることを推奨する。

Camera rotation estimation from a single image is a challenging task, often requiring depth data and/or camera intrinsics, which are generally not available for in-the-wild videos. Although external sensors such as inertial measurement units (IMUs) can help, they often suffer from drift and are not applicable in non-inertial reference frames. We present U-ARE-ME, an algorithm that estimates camera rotation along with uncertainty from uncalibrated RGB images. Using a Manhattan World assumption, our method leverages the per-pixel geometric priors encoded in single-image surface normal predictions and performs optimisation over the SO(3) manifold. Given a sequence of images, we can use the per-frame rotation estimates and their uncertainty to perform multi-frame optimisation, achieving robustness and temporal consistency. Our experiments demonstrate that U-ARE-ME performs comparably to RGB-D methods and is more robust than sparse feature-based SLAM methods. We encourage the reader to view the accompanying video at https://callum-rhodes.github.io/U-ARE-ME for a visual overview of our method.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# トポロジカルフォトニックネットワークにおける多部絡み合い分布

Multipartite entanglement distribution in a topological photonic network ( http://arxiv.org/abs/2403.15584v1 )

ライセンス: Link先を確認
Juan Zurita, Andrés Agustí Casado, Charles E. Creffield, Gloria Platero, (参考訳) スケーラブルな量子コンピュータへの継続的な取り組みの中で、複数の技術が提案されている。 それらのいくつかは、トポロジカルな材料を利用して量子情報を処理する。 そこで本研究では, 交互ホッピングを有するフォトニックキャビティの格子を用いて, 多ドメインSSH鎖, すなわち, ダイマー鎖からなるトポロジカル絶縁体の配列を生成する。 その後、キュービットは各境界に結合される。 このシステムは、この1次元格子による光子のトポロジカル転送が、要求に応じて任意の量子ビットを絡み合わせることができ、スケーラブルな量子プラットフォームを提供するため、量子情報処理に適していることを示す。 この主張を検証し, 障害のある場合においても, 両部交絡と多部交絡が生じることを証明した。

In the ongoing effort towards a scalable quantum computer, multiple technologies have been proposed. Some of them exploit topological materials to process quantum information. In this work, we propose a lattice of photonic cavities with alternating hoppings to create a modified multidomain SSH chain, that is, a sequence of topological insulators made from chains of dimers. A qubit is then coupled to each boundary. We show this system is well suited for quantum information processing because topological transfer of photons through this one-dimensional lattice can entangle any set of qubits on demand, providing a scalable quantum platform. We verify this claim evaluating entanglement measures and witnesses proving that bipartite and multipartite entanglement is produced, even in the presence of some disorder.
翻訳日:2024-03-26 22:02:34 公開日:2024-03-22
# MedPromptX:胸部X線診断のための接地型マルチモーダルプロンプト

MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis ( http://arxiv.org/abs/2403.15585v1 )

ライセンス: Link先を確認
Mai A. Shaaban, Adnan Khan, Mohammad Yaqub, (参考訳) 胸部X線画像は、急性および慢性の心肺疾患の予測に一般的に用いられているが、構造化された臨床データと統合しようとする試みは、不完全な電子健康記録(EHR)による課題に直面している。 本稿では,マルチモーダル大言語モデル (MLLM) と少数ショットプロンプト (FP) と視覚的グラウンドディング (VG) を統合し,胸部X線診断のための画像とERHデータを組み合わせた最初のモデルである \textbf{MedPromptX} を紹介する。 事前トレーニングされたMLLMは、欠落したEHR情報を補完するために使用され、患者の医療史を包括的に理解する。 さらに、FPは幻覚の問題を効果的に解決しつつ、MLLMの広範な訓練の必要性を減らす。 それでも、最適数を決定するプロセスや高品質な候補を選択するプロセスは重荷になりがちであるが、モデルの性能に大きな影響を及ぼす。 そこで我々は,新しい患者シナリオをリアルタイムに調整するために,少数のショットデータを動的に洗練する手法を提案する。 さらに、VGは、X線画像に対する関心領域にモデルの注意を集中させ、異常の同定を強化する。 MedPromptX-VQAは、MIMIC-IVとMIMIC-CXRデータベースから得られたインターリーブ画像とEHRデータを含む、新しいコンテキスト内ビジュアル質問応答データセットである。 その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。 コードとデータは \url{https://github.com/BioMedIA-MBZUAI/MedPromptX} で公開されている。

Chest X-ray images are commonly used for predicting acute and chronic cardiopulmonary conditions, but efforts to integrate them with structured clinical data face challenges due to incomplete electronic health records (EHR). This paper introduces \textbf{MedPromptX}, the first model to integrate multimodal large language models (MLLMs), few-shot prompting (FP) and visual grounding (VG) to combine imagery with EHR data for chest X-ray diagnosis. A pre-trained MLLM is utilized to complement the missing EHR information, providing a comprehensive understanding of patients' medical history. Additionally, FP reduces the necessity for extensive training of MLLMs while effectively tackling the issue of hallucination. Nevertheless, the process of determining the optimal number of few-shot examples and selecting high-quality candidates can be burdensome, yet it profoundly influences model performance. Hence, we propose a new technique that dynamically refines few-shot data for real-time adjustment to new patient scenarios. Moreover, VG aids in focusing the model's attention on relevant regions of interest in X-ray images, enhancing the identification of abnormalities. We release MedPromptX-VQA, a new in-context visual question answering dataset encompassing interleaved image and EHR data derived from MIMIC-IV and MIMIC-CXR databases. Results demonstrate the SOTA performance of MedPromptX, achieving an 11% improvement in F1-score compared to the baselines. Code and data are available at \url{https://github.com/BioMedIA-MBZUAI/MedPromptX}.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# 教育におけるジェネレーティブAI : 教育者の意識・感覚・影響要因に関する研究

Generative AI in Education: A Study of Educators' Awareness, Sentiments, and Influencing Factors ( http://arxiv.org/abs/2403.15586v1 )

ライセンス: Link先を確認
Aashish Ghimire, James Prather, John Edwards, (参考訳) 人工知能(AI)の急速な進歩と大規模言語モデル(LLM)のさらなる統合は、彼らの教育への応用に関する議論に火をつけた。 この研究は、大学教員のAI言語モデルに対する経験と態度を掘り下げ、授業におけるAIの役割と教育と学習に対する潜在的影響に関する教育者の視点を分析し、文学のギャップを埋めるものである。 本研究の目的は、高等教育におけるLLMや生成型AIツールに対する意識のレベル、全体的感情の適応性、およびこれらの態度に影響を与える要因について検討することである。 データは、インストラクターの視点をより微妙に理解するために、フォローアップインタビューによって補完された、Likertスケールを用いた調査を通じて収集された。 収集したデータは,統計的および数学的解析手法を用いて処理した。 以上の結果から,教育者はこれらのツールに意識的であり,概して肯定的であることが明らかとなった。 学習スタイルと生成AIに対する態度の相関は見つからない。 最後に、CS教育者は、他の分野の教育者よりも、生成するAIツールに関する技術的理解と、それらに対する肯定性にはるかに自信を示しています。

The rapid advancement of artificial intelligence (AI) and the expanding integration of large language models (LLMs) have ignited a debate about their application in education. This study delves into university instructors' experiences and attitudes toward AI language models, filling a gap in the literature by analyzing educators' perspectives on AI's role in the classroom and its potential impacts on teaching and learning. The objective of this research is to investigate the level of awareness, overall sentiment towardsadoption, and the factors influencing these attitudes for LLMs and generative AI-based tools in higher education. Data was collected through a survey using a Likert scale, which was complemented by follow-up interviews to gain a more nuanced understanding of the instructors' viewpoints. The collected data was processed using statistical and thematic analysis techniques. Our findings reveal that educators are increasingly aware of and generally positive towards these tools. We find no correlation between teaching style and attitude toward generative AI. Finally, while CS educators show far more confidence in their technical understanding of generative AI tools and more positivity towards them than educators in other fields, they show no more confidence in their ability to detect AI-generated work.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# ChatGPTを用いた素早い設計戦略に基づく集団意思決定のための大規模言語モデル:モデル,分析,課題

Large language models for crowd decision making based on prompt design strategies using ChatGPT: models, analysis and challenges ( http://arxiv.org/abs/2403.15587v1 )

ライセンス: Link先を確認
Cristina Zuheros, David Herrera-Poyatos, Rosana Montes, Francisco Herrera, (参考訳) ソーシャルメディアとインターネットは、意思決定ソリューションを強化するための意見の源として活用される可能性がある。 クラウド・デシジョン・メイキング(英: Crowd Decision Making、CDM)は、ソーシャルメディアプラットフォームで公開されたレビューなど、平易なテキストから意見や判断を知覚分析によって推測できる方法論である。 現在、LLM(Large Language Models)の出現とポテンシャルは、自然言語処理としても知られる、書かれたテキストを自動的に理解する新たなシナリオを模索している。 本稿では、CDMプロセスにおける意見の抽出と意思決定を支援するための設計戦略に基づくChatGPTの使用について分析する。 我々は、CDMプロセスにChatGPTを統合し、テキストで表現された意見を推測し、意思決定モデルが迅速な設計戦略に基づく数値的または言語的評価を提供する。 カテゴリーオントロジーを基準とした複数基準決定シナリオを含む。 また、ChatGPTは、一般的な意見を提供し、代替案のスコアを得られるエンドツーエンドのCDMモデルであると考えている。 本稿では,TripR-2020LargeデータセットであるTripAdvisorから抽出した実データについて実験を行った。 結果から,ChatGPTを用いた品質決定モデルの開発に有望な分岐が得られた。 最後に、CDMプロセスにおけるLCMの使用に伴う一貫性、感度、説明可能性の課題について論じ、今後の研究に向けてオープンな疑問を提起する。

Social Media and Internet have the potential to be exploited as a source of opinion to enrich Decision Making solutions. Crowd Decision Making (CDM) is a methodology able to infer opinions and decisions from plain texts, such as reviews published in social media platforms, by means of Sentiment Analysis. Currently, the emergence and potential of Large Language Models (LLMs) lead us to explore new scenarios of automatically understand written texts, also known as natural language processing. This paper analyzes the use of ChatGPT based on prompt design strategies to assist in CDM processes to extract opinions and make decisions. We integrate ChatGPT in CDM processes as a flexible tool that infer the opinions expressed in texts, providing numerical or linguistic evaluations where the decision making models are based on the prompt design strategies. We include a multi-criteria decision making scenario with a category ontology for criteria. We also consider ChatGPT as an end-to-end CDM model able to provide a general opinion and score on the alternatives. We conduct empirical experiments on real data extracted from TripAdvisor, the TripR-2020Large dataset. The analysis of results show a promising branch for developing quality decision making models using ChatGPT. Finally, we discuss the challenges of consistency, sensitivity and explainability associated to the use of LLMs in CDM processes, raising open questions for future studies.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# FairerCLIP: RKHSの関数を用いたCLIPのゼロショット予測の回避

FairerCLIP: Debiasing CLIP's Zero-Shot Predictions using Functions in RKHSs ( http://arxiv.org/abs/2403.15593v1 )

ライセンス: Link先を確認
Sepehr Dehdashtian, Lan Wang, Vishnu Naresh Boddeti, (参考訳) CLIPのような大規模な事前学習された視覚言語モデルは、複数の下流のゼロショット予測タスクにおいて明らかに有効であるテキストと画像のコンパクトで汎用的な表現を提供する。 しかし、トレーニングプロセスの性質から、これらのモデルには潜在的な可能性がある。 1)トレーニングデータにおける社会的偏見の伝播又は増幅 2)突発的な機能に頼ることを学ぶ。 本稿では,CLIPのゼロショット予測をより公平かつ堅牢に行うための一般手法であるFairerCLIPを提案する。 私たちは、カーネルヒルベルト空間(RKHS)の再現において、CLIPのイメージとテキスト表現を両立させる問題を定式化します。 1) 柔軟性:既存のアプローチとは異なり、FairerCLIPは両方のシナリオで学習できる。 2) 最適化の容易さ: FairerCLIP は閉形式ソルバを含む反復的な最適化を実現し,既存の方法よりも高速なトレーニングを実現する。 3) サンプル効率: サンプル制限条件下では、FairerCLIPは、完全に失敗するとベースラインを著しく上回る。 そして 4) 性能: 実証的には,FairerCLIPは,ベンチマークの公正性と,各ベースラインに対するスプリアス相関データセットの精度向上を実現している。

Large pre-trained vision-language models such as CLIP provide compact and general-purpose representations of text and images that are demonstrably effective across multiple downstream zero-shot prediction tasks. However, owing to the nature of their training process, these models have the potential to 1) propagate or amplify societal biases in the training data and 2) learn to rely on spurious features. This paper proposes FairerCLIP, a general approach for making zero-shot predictions of CLIP more fair and robust to spurious correlations. We formulate the problem of jointly debiasing CLIP's image and text representations in reproducing kernel Hilbert spaces (RKHSs), which affords multiple benefits: 1) Flexibility: Unlike existing approaches, which are specialized to either learn with or without ground-truth labels, FairerCLIP is adaptable to learning in both scenarios. 2) Ease of Optimization: FairerCLIP lends itself to an iterative optimization involving closed-form solvers, which leads to $4\times$-$10\times$ faster training than the existing methods. 3) Sample Efficiency: Under sample-limited conditions, FairerCLIP significantly outperforms baselines when they fail entirely. And, 4) Performance: Empirically, FairerCLIP achieves appreciable accuracy gains on benchmark fairness and spurious correlation datasets over their respective baselines.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# 探索的データ分析と説明可能な機械学習による男性家庭内暴力の分析

Analyzing Male Domestic Violence through Exploratory Data Analysis and Explainable Machine Learning Insights ( http://arxiv.org/abs/2403.15594v1 )

ライセンス: Link先を確認
Md Abrar Jahin, Saleh Akram Naife, Fatema Tuj Johora Lima, M. F. Mridha, Jungpil Shin, (参考訳) 家庭内暴力は、女性被害者の男女差問題として認識されることが多いが、近年は注目を集めている。 この焦点にもかかわらず、家庭内虐待の男性の犠牲者は主に見落とされ、特にバングラデシュでは。 本研究は、バングラデシュにおける男性家庭内暴力(MDV)の未解明領域の先駆的な探索であり、その有病率、パターン、根本的要因について光を当てている。 現存する文献は、主に家庭内暴力のシナリオにおける女性の犠牲者を強調しており、男性の犠牲者に関する研究が欠如している。 バングラデシュの主要都市からのデータを収集し、基礎となるダイナミクスを理解するために探索データ分析を行った。 デフォルトと最適化されたハイパーパラメータ、2つのディープラーニング、4つのアンサンブルモデルを備えた11の従来の機械学習モデルを実装しました。 さまざまなアプローチにもかかわらず、CatBoostはカテゴリ的特徴のネイティブサポート、欠落した値の効率的な処理、堅牢な正規化技術によってトップパフォーマーとして浮上し、精度は76%に達した。 対照的に、他のモデルでは58-75%の範囲で精度が向上した。 eXplainable AI技術であるSHAPとLIMEを使用して、ブラックボックス機械学習モデルの意思決定に関する洞察を得た。 この話題に光を当て、家庭内虐待に関連する要因を特定することで、MDVに弱い人々のグループを特定し、意識を高め、MDVの削減を目的とした政策や介入を通知する。 本研究は、家庭内虐待が主に女性に影響を及ぼすという一般的な考え方に挑戦し、男性被害者に対する適切な介入や支援システムの必要性を強調した。 ML技術は、データの分析と理解を強化し、このプレッシャーの社会問題に対処するための効果的な戦略を開発するための貴重な洞察を提供する。

Domestic violence, which is often perceived as a gendered issue among female victims, has gained increasing attention in recent years. Despite this focus, male victims of domestic abuse remain primarily overlooked, particularly in Bangladesh. Our study represents a pioneering exploration of the underexplored realm of male domestic violence (MDV) within the Bangladeshi context, shedding light on its prevalence, patterns, and underlying factors. Existing literature predominantly emphasizes female victimization in domestic violence scenarios, leading to an absence of research on male victims. We collected data from the major cities of Bangladesh and conducted exploratory data analysis to understand the underlying dynamics. We implemented 11 traditional machine learning models with default and optimized hyperparameters, 2 deep learning, and 4 ensemble models. Despite various approaches, CatBoost has emerged as the top performer due to its native support for categorical features, efficient handling of missing values, and robust regularization techniques, achieving 76% accuracy. In contrast, other models achieved accuracy rates in the range of 58-75%. The eXplainable AI techniques, SHAP and LIME, were employed to gain insights into the decision-making of black-box machine learning models. By shedding light on this topic and identifying factors associated with domestic abuse, the study contributes to identifying groups of people vulnerable to MDV, raising awareness, and informing policies and interventions aimed at reducing MDV. Our findings challenge the prevailing notion that domestic abuse primarily affects women, thus emphasizing the need for tailored interventions and support systems for male victims. ML techniques enhance the analysis and understanding of the data, providing valuable insights for developing effective strategies to combat this pressing social issue.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# 還元電子密度行列を伝搬する線形時間遅延スキーム

A Linear Time-Delay Scheme to Propagate Reduced Electron Density Matrices ( http://arxiv.org/abs/2403.15596v1 )

ライセンス: Link先を確認
Harish S. Bhat, Hardeep Bassi, Karnamohit Ranka, Christine M. Isborn, (参考訳) 単体プロパゲータによって非帰納力学が支配される任意の線形系に対して、還元次元量に対する閉時間遅れ線形系を導出する。 本稿では,分子中の電子の相関ダイナミクスを解く手法である時間依存構成相互作用(TDCI)における1ドル電子密度行列のメモリ依存性を理解するために,本手法を適用した。 時間依存密度汎関数理論は、還元された1$電子密度がメモリ依存を持つことを証明しているが、このメモリ依存の正確な性質は理解されていない。 我々はTDCI電子密度行列を伝播させる自己完結型対称性・制約保存法を導出した。 2つのモデルシステム(H$_2$とHH$^+$)の数値実験では,十分な時間遅延(あるいはメモリ依存性)を伴って,TDCI密度行列を高精度に伝播させることが示されている。 結果の依存度を時間ステップとベースセットで調査する。 提案手法を導出するために,TDCI密度行列の縮小と完全化に関連する4ドルのインデックステンソルを計算した。 我々の計算は、基底集合、電子の数、波動関数におけるスレーター行列式の選択に関係なく、任意のTDCI系に適用できる。 この計算により、還元されたTDCI密度行列の痕跡が一定であり、電子の数と等しいことを示すことができる。

For any linear system where the unreduced dynamics are governed by unitary propagators, we derive a closed, time-delayed, linear system for a reduced-dimensional quantity of interest. We apply this method to understand the memory-dependence of reduced $1$-electron density matrices in time-dependent configuration interaction (TDCI), a scheme to solve for the correlated dynamics of electrons in molecules. Though time-dependent density functional theory has established that the reduced $1$-electron density possesses memory-dependence, the precise nature of this memory-dependence has not been understood. We derive a self-contained, symmetry/constraint-preserving method to propagate reduced TDCI electron density matrices. In numerical tests on two model systems (H$_2$ and HeH$^+$), we show that with sufficiently large time-delay (or memory-dependence), our method propagates reduced TDCI density matrices with high quantitative accuracy. We study the dependence of our results on time step and basis set. To derive our method, we calculate the $4$-index tensor that relates reduced and full TDCI density matrices. Our calculation applies to any TDCI system, regardless of basis set, number of electrons, or choice of Slater determinants in the wave function. This calculation enables a proof that the trace of the reduced TDCI density matrix is constant and equals the number of electrons.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# データ駆動型気象予報モデルのサブシーズン予測のためのアンサンブル

An ensemble of data-driven weather prediction models for operational sub-seasonal forecasting ( http://arxiv.org/abs/2403.15598v1 )

ライセンス: Link先を確認
Jonathan A. Weyn, Divya Kumar, Jeremy Berman, Najeeb Kazmi, Sylwester Klocek, Pete Luferenko, Kit Thambiratnam, (参考訳) 本研究では,欧州中距離気象予報センター(ECMWF)海洋モデルと組み合わさったハイブリッドデータ駆動型気象予報モデルを用いて,世界の天気を4週間のリードタイムで1度の解像度で予測する,運用対応型マルチモデル天気予報システムを提案する。 温度2mの予測では, リード時間に応じて, 平均的なECMWF延長域のアンサンブルを4-17%上回った。 しかし、統計バイアス補正を適用すると、ECMWFアンサンブルは4週間で約3%改善する。 その他の表面パラメータに関しても、我々のアンサンブルはECMWFのアンサンブルの数ポイント以内である。 データ駆動型天気予報モデルを用いたマルチモデルアンサンブル手法を用いて、最先端のサブシーズン・シーズン・シーズン予測を実現することが可能であることを実証した。

We present an operations-ready multi-model ensemble weather forecasting system which uses hybrid data-driven weather prediction models coupled with the European Centre for Medium-range Weather Forecasts (ECMWF) ocean model to predict global weather at 1-degree resolution for 4 weeks of lead time. For predictions of 2-meter temperature, our ensemble on average outperforms the raw ECMWF extended-range ensemble by 4-17%, depending on the lead time. However, after applying statistical bias corrections, the ECMWF ensemble is about 3% better at 4 weeks. For other surface parameters, our ensemble is also within a few percentage points of ECMWF's ensemble. We demonstrate that it is possible to achieve near-state-of-the-art subseasonal-to-seasonal forecasts using a multi-model ensembling approach with data-driven weather prediction models.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# もうひとつのコピー&ペースト? ChatGPT生成コードのセキュリティ脆弱性とStackOverflowの回答の比較

Just another copy and paste? Comparing the security vulnerabilities of ChatGPT generated code and StackOverflow answers ( http://arxiv.org/abs/2403.15600v1 )

ライセンス: Link先を確認
Sivana Hamer, Marcelo d'Amorim, Laurie Williams, (参考訳) Sonatypeの2023年のレポートによると、開発者とセキュリティリーダの97%が、生成人工知能(AI)、特にLarge Language Models(LLM)を開発プロセスに統合している。 この傾向のセキュリティへの影響に関する懸念が高まっている。 開発者は現在、StackOverflow(SO)など、他の信頼できる情報ソースに対してLLMのメリットとリスクを検討中で、選択を通知するために経験的なデータを必要としている。 本研究の目的は,ChatGPTとStackOverflowの脆弱性を実証的に比較することによって,コードスニペットを選択する際のセキュリティへの影響について,ソフトウェア開発者の意識を高めることです。 これを実現するために、セキュリティ関連の質問と回答でSOから既存のJavaデータセットを使用しました。 そして、私たちはChatGPTに同じSO質問をし、生成されたコードを集めて比較しました。 データセットをキュレートした後、CodeQLを使用して、各プラットフォームから108のスニペットのCommon Weakness Enumeration(CWE)脆弱性の数とタイプを分析しました。 ChatGPTの生成したコードは、SOスニペットにある302の脆弱性と比較して248の脆弱性を含んでおり、統計的に有意な差のある20%の脆弱性を生み出した。 さらに、ChatGPTは19種類のCWEを生成した。 当社の調査結果は,274のユニークな脆弱性と25種類のCWEを発見したことから,両プラットフォームからのセキュリティの低いコードの伝播について,開発者が教育を受けていないことを示唆している。 AIや人間によって作成されたコピー&ペーストされたコードは、リスクを減らすために優れたソフトウェアエンジニアリングプラクティスを必要とするため、盲目的に信頼できない。 今後の作業は、どんなプラットフォームからもセキュアでないコードの伝播を最小化するのに役立ちます。

Sonatype's 2023 report found that 97% of developers and security leads integrate generative Artificial Intelligence (AI), particularly Large Language Models (LLMs), into their development process. Concerns about the security implications of this trend have been raised. Developers are now weighing the benefits and risks of LLMs against other relied-upon information sources, such as StackOverflow (SO), requiring empirical data to inform their choice. In this work, our goal is to raise software developers awareness of the security implications when selecting code snippets by empirically comparing the vulnerabilities of ChatGPT and StackOverflow. To achieve this, we used an existing Java dataset from SO with security-related questions and answers. Then, we asked ChatGPT the same SO questions, gathering the generated code for comparison. After curating the dataset, we analyzed the number and types of Common Weakness Enumeration (CWE) vulnerabilities of 108 snippets from each platform using CodeQL. ChatGPT-generated code contained 248 vulnerabilities compared to the 302 vulnerabilities found in SO snippets, producing 20% fewer vulnerabilities with a statistically significant difference. Additionally, ChatGPT generated 19 types of CWE, fewer than the 22 found in SO. Our findings suggest developers are under-educated on insecure code propagation from both platforms, as we found 274 unique vulnerabilities and 25 types of CWE. Any code copied and pasted, created by AI or humans, cannot be trusted blindly, requiring good software engineering practices to reduce risk. Future work can help minimize insecure code propagation from any platform.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# ガイドラインからガバナンスへ:教育におけるAI政策の研究

From Guidelines to Governance: A Study of AI Policies in Education ( http://arxiv.org/abs/2403.15601v1 )

ライセンス: Link先を確認
Aashish Ghimire, John Edwards, (参考訳) ChatGPTなどのジェネレーティブAIツールのような新興技術は、教育現場でますます利用され、新しい課題を同時に生み出すと同時に、学習に対する革新的なアプローチを提供している。 本研究は、これらの技術に関する政策状況を調査する調査手法を用いて、102人の高校校長と高等教育推進者から洞察を得た。 機関の大半は、ChatGPTのようなAIツールの倫理的展開のための特別なガイドラインを欠いている。 さらに,高等学校は高等教育機関よりも政策にこだわる傾向が低かった。 このようなポリシーが存在する場合、学生のプライバシーやアルゴリズムの透明性など、重要な問題を見落としてしまうことが多い。 管理者はこれらの政策の必要性を圧倒的に認識し、主に学生の安全を守り、盗作のリスクを軽減する。 本研究は,教育現場におけるフレキシブルかつ反復的な政策枠組みの必要性を浮き彫りにするものである。

Emerging technologies like generative AI tools, including ChatGPT, are increasingly utilized in educational settings, offering innovative approaches to learning while simultaneously posing new challenges. This study employs a survey methodology to examine the policy landscape concerning these technologies, drawing insights from 102 high school principals and higher education provosts. Our results reveal a prominent policy gap: the majority of institutions lack specialized guide-lines for the ethical deployment of AI tools such as ChatGPT. Moreover,we observed that high schools are less inclined to work on policies than higher educational institutions. Where such policies do exist, they often overlook crucial issues, including student privacy and algorithmic transparency. Administrators overwhelmingly recognize the necessity of these policies, primarily to safeguard student safety and mitigate plagiarism risks. Our findings underscore the urgent need for flexible and iterative policy frameworks in educational contexts.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# グラディエントに基づくブラックボックス・サリエンシ・マップ生成のためのフォワード学習

Forward Learning for Gradient-based Black-box Saliency Map Generation ( http://arxiv.org/abs/2403.15603v1 )

ライセンス: Link先を確認
Zeliang Zhang, Mingqian Feng, Jinyang Jiang, Rongyi Zhu, Yijie Peng, Chenliang Xu, (参考訳) 勾配に基づくサリエンシマップは、ディープニューラルネットワークの決定を説明するために広く利用されている。 しかし、ChatGPTのようなクローズドソースAPIのようなモデルがより深く、よりブラックボックスになるにつれて、計算の勾配は難しくなり、従来の説明手法を妨げている。 本研究では,ブラックボックス設定の勾配を推定し,モデル決定を解釈するサリエンシマップを生成するための統一的なフレームワークを提案する。 本研究では,出力から入力までの勾配を推定し,その確率比法を用いてサリエンシマップ生成を行う。 さらに,推定精度を向上させるブロックワイズ計算手法を提案する。 ブラックボックス設定における広範囲な実験により,提案手法の有効性が検証され,精度の高い勾配推定と,生成した塩分濃度マップの説明可能性が確認された。 さらに,GPT-Visionを説明するためにGPT-Visionを適用することで,大規模,クローズドソース,ブラックボックスモデルの時代における勾配に基づく説明手法の継続的な妥当性を明らかにする。

Gradient-based saliency maps are widely used to explain deep neural network decisions. However, as models become deeper and more black-box, such as in closed-source APIs like ChatGPT, computing gradients become challenging, hindering conventional explanation methods. In this work, we introduce a novel unified framework for estimating gradients in black-box settings and generating saliency maps to interpret model decisions. We employ the likelihood ratio method to estimate output-to-input gradients and utilize them for saliency map generation. Additionally, we propose blockwise computation techniques to enhance estimation accuracy. Extensive experiments in black-box settings validate the effectiveness of our method, demonstrating accurate gradient estimation and explainability of generated saliency maps. Furthermore, we showcase the scalability of our approach by applying it to explain GPT-Vision, revealing the continued relevance of gradient-based explanation methods in the era of large, closed-source, and black-box models.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# 盲人・低視者のためのAIによるシーン記述アプリケーションの利用事例調査

Investigating Use Cases of AI-Powered Scene Description Applications for Blind and Low Vision People ( http://arxiv.org/abs/2403.15604v1 )

ライセンス: Link先を確認
Ricardo Gonzalez, Jazmin Collins, Shiri Azenkot, Cynthia Bennett, (参考訳) 写真中の視覚内容を記述する「シーン記述」アプリケーションは、視覚障害者(BLV)にとって有用な日常ツールである。 研究者は彼らの使用について研究してきたが、リモートで目撃されたアシスタントを利用するもののみを探索した。 そこで我々は16人のBLV参加者を対象に,AIを活用したシーン記述アプリケーションを用いた2週間の日誌調査を行った。 ダイアログのエントリとフォローアップインタビューを通じて、ユーザは、受け取った視覚的記述に関する情報目標と評価を共有した。 対象物体の視覚的特徴の同定や,危険な物体との接触を回避できるような驚きの事例について分析し,頻繁な使用例を見出した。 また,満足度は5点中2.76点(SD=1.49点),信頼度は4点中2.43点(SD=1.16点)と比較的低かった。 BLVユーザにとってより強力なアクセシビリティツールになるにつれて、AIの将来的な機会について論じる。

"Scene description" applications that describe visual content in a photo are useful daily tools for blind and low vision (BLV) people. Researchers have studied their use, but they have only explored those that leverage remote sighted assistants; little is known about applications that use AI to generate their descriptions. Thus, to investigate their use cases, we conducted a two-week diary study where 16 BLV participants used an AI-powered scene description application we designed. Through their diary entries and follow-up interviews, users shared their information goals and assessments of the visual descriptions they received. We analyzed the entries and found frequent use cases, such as identifying visual features of known objects, and surprising ones, such as avoiding contact with dangerous objects. We also found users scored the descriptions relatively low on average, 2.76 out of 5 (SD=1.49) for satisfaction and 2.43 out of 4 (SD=1.16) for trust, showing that descriptions still need significant improvements to deliver satisfying and trustworthy experiences. We discuss future opportunities for AI as it becomes a more powerful accessibility tool for BLV users.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# フェデレーション領域一般化のための効率的な集合正規化層と正規化

Efficiently Assemble Normalization Layers and Regularization for Federated Domain Generalization ( http://arxiv.org/abs/2403.15605v1 )

ライセンス: Link先を確認
Khiem Le, Long Ho, Cuong Do, Danh Le-Phuoc, Kok-Seng Wong, (参考訳) ドメインシフト(Domain shift)は、マシンラーニングにおいて、目に見えないドメインでテストした場合に、モデルのパフォーマンス低下に悩まされるという深刻な問題である。 Federated Domain Generalization(FedDG)は、協調的なクライアントを使ってグローバルモデルをプライバシ保護方法でトレーニングしようとする試みである。 しかし、ほとんどの既存のFedDGメソッドは、データ漏洩のさらなるプライバシーリスクを引き起こすか、クライアントの通信と計算にかなりのコストをもたらす。 これらの課題を回避するため,本論文では,誘導正規化器を用いた正規化方式に依存する,FedDGの新しいアーキテクチャ手法,すなわちgPerXANを紹介する。 特に、我々はパーソナライズされたeXplicitly Assembled Normalizationを慎重に設計し、これらの特徴の識別を維持しつつ、ローカルデータに偏ったドメイン固有の特徴を選択的にフィルタリングするクライアントモデルを強制する。 そこで我々は,グローバルモデルの分類器が活用できる領域不変表現を直接キャプチャする上で,これらのモデルを誘導するために,単純だが効果的な正規化器を組み込んだ。 PACSとOffice-Homeの2つのベンチマークデータセットと実世界の医療データセットCamelyon17の大規模な実験結果から,提案手法がこの問題に対処する既存の手法よりも優れていることが示唆された。

Domain shift is a formidable issue in Machine Learning that causes a model to suffer from performance degradation when tested on unseen domains. Federated Domain Generalization (FedDG) attempts to train a global model using collaborative clients in a privacy-preserving manner that can generalize well to unseen clients possibly with domain shift. However, most existing FedDG methods either cause additional privacy risks of data leakage or induce significant costs in client communication and computation, which are major concerns in the Federated Learning paradigm. To circumvent these challenges, here we introduce a novel architectural method for FedDG, namely gPerXAN, which relies on a normalization scheme working with a guiding regularizer. In particular, we carefully design Personalized eXplicitly Assembled Normalization to enforce client models selectively filtering domain-specific features that are biased towards local data while retaining discrimination of those features. Then, we incorporate a simple yet effective regularizer to guide these models in directly capturing domain-invariant representations that the global model's classifier can leverage. Extensive experimental results on two benchmark datasets, i.e., PACS and Office-Home, and a real-world medical dataset, Camelyon17, indicate that our proposed method outperforms other existing methods in addressing this particular problem.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# Webフィンガープリントのリスクを評価する

Assessing Web Fingerprinting Risk ( http://arxiv.org/abs/2403.15607v1 )

ライセンス: Link先を確認
Enrico Bacis, Igor Bilogrevic, Robert Busa-Fekete, Asanka Herath, Antonio Sartori, Umar Syed, (参考訳) 現代的なWeb APIは、Webサイト訪問者に広範囲にカスタマイズされたエクスペリエンスを提供することができるが、それらが提供するデバイス情報の豊かさは、クッキーが無効になってもユーザを隠蔽追跡できる、ブラウザの指紋、デバイス固有の識別子を構築するために悪用されるのに脆弱になる。 これまでの研究は、指紋認証のリスクを定量化するための鍵となる指標として、情報の尺度であるエントロピーを確立してきた。 しかし、初期の研究には2つの大きな限界があった。 第一に、彼らのエントロピーの推定は、単一のWebサイトまたは非常に小さなデバイスのサンプルに基づいていた。 第二に、彼らは異なるWeb API間の相関を十分に考慮しておらず、指紋認証のリスクを過大評価している可能性がある。 我々は,先行作業の限界に対処するブラウザのフィンガープリントについて,最初の研究を行った。 われわれの調査は、何千万もの実際のChromeブラウザから報告された実際の訪問ページとWeb APIに基づいている。 より現実的なエントロピー推定を得るためには,Web API間の依存関係と相関を考慮に入れた。 また,単一ユーザからの過剰な情報を観測することなく,エントロピーを正確かつ効率的に推定する新しい実験設計も開発した。 本研究では,異なるWebサイトカテゴリにおけるエントロピーの分布について理解し,フィンガープリントプロキシとしてのエントロピーの有用性を確認するとともに,フィンガープリントの軽減を目的としたブラウザ拡張の評価方法を提案する。

Modern Web APIs allow developers to provide extensively customized experiences for website visitors, but the richness of the device information they provide also make them vulnerable to being abused to construct browser fingerprints, device-specific identifiers that enable covert tracking of users even when cookies are disabled. Previous research has established entropy, a measure of information, as the key metric for quantifying fingerprinting risk. However, earlier studies had two major limitations. First, their entropy estimates were based on either a single website or a very small sample of devices. Second, they did not adequately consider correlations among different Web APIs, potentially grossly overestimating their fingerprinting risk. We provide the first study of browser fingerprinting which addresses the limitations of prior work. Our study is based on actual visited pages and Web APIs reported by tens of millions of real Chrome browsers in-the-wild. We accounted for the dependencies and correlations among Web APIs, which is crucial for obtaining more realistic entropy estimates. We also developed a novel experimental design that accurately and efficiently estimates entropy while never observing too much information from any single user. Our results provide an understanding of the distribution of entropy for different website categories, confirm the utility of entropy as a fingerprinting proxy, and offer a method for evaluating browser enhancements which are intended to mitigate fingerprinting.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# 腹部MRI自動臓器切開に向けて:CTラベルから生成された合成データを活用する

Towards Automatic Abdominal MRI Organ Segmentation: Leveraging Synthesized Data Generated From CT Labels ( http://arxiv.org/abs/2403.15609v1 )

ライセンス: Link先を確認
Cosmin Ciausu, Deepa Krishnaswamy, Benjamin Billot, Steve Pieper, Ron Kikinis, Andrey Fedorov, (参考訳) 深層学習は、例えば脳の磁気共鳴画像(MRI)スキャンで臓器に自動的にアノテートする能力を示す。 しかし, 現場の進歩にもかかわらず, 腹腔内臓器を正確に分断する能力はMRではまだ困難であり, 画像の外観の多様性や, 訓練用ラベルの入手が著しく制限されていることから説明できる。 CT(Computerd tomography)スキャンの本質的な性質により、アノテーションのアノテーションが容易になり、後者のエキスパートアノテーションがより多く利用できるようになる。 我々は、CTラベルマップを用いてトレーニング中に合成画像を生成するモダリティ非依存領域のランダム化アプローチを活用し、さらに腹部臓器のセグメンテーションのためのU-Netセグメンテーションネットワークを訓練する。 MRデータを用いた完全教師付きセグメンテーション法と比較した。 その結果, 左右の腎に対するDiceスコアは0.90 (0.08) と0.91 (0.08) であり, 前訓練したnnU-Netモデルでは0.87 (0.20) と0.91 (0.03) であった。 コードを公開します。

Deep learning has shown great promise in the ability to automatically annotate organs in magnetic resonance imaging (MRI) scans, for example, of the brain. However, despite advancements in the field, the ability to accurately segment abdominal organs remains difficult across MR. In part, this may be explained by the much greater variability in image appearance and severely limited availability of training labels. The inherent nature of computed tomography (CT) scans makes it easier to annotate, resulting in a larger availability of expert annotations for the latter. We leverage a modality-agnostic domain randomization approach, utilizing CT label maps to generate synthetic images on-the-fly during training, further used to train a U-Net segmentation network for abdominal organs segmentation. Our approach shows comparable results compared to fully-supervised segmentation methods trained on MR data. Our method results in Dice scores of 0.90 (0.08) and 0.91 (0.08) for the right and left kidney respectively, compared to a pretrained nnU-Net model yielding 0.87 (0.20) and 0.91 (0.03). We will make our code publicly available.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# インターフュージョン:3次元ヒューマンオブジェクトインタラクションのテキスト駆動生成

InterFusion: Text-Driven Generation of 3D Human-Object Interaction ( http://arxiv.org/abs/2403.15612v1 )

ライセンス: Link先を確認
Sisi Dai, Wenhao Li, Haowen Sun, Haibin Huang, Chongyang Ma, Hui Huang, Kai Xu, Ruizhen Hu, (参考訳) 本研究では,ゼロショットテキスト・ツー・3D方式でテキスト記述から3次元オブジェクト間インタラクション(HOI)を生成する複雑な課題に取り組む。 HOIにおける直接テキスト・ツー・3D手法の不満足な結果は主にペアのテキスト・インタラクションデータがないことによるものであり、複雑な空間的関係を持つ複数の概念を同時に生成する上で固有の困難さである。 これらの問題を効果的に解決するために,HOI生成用に設計された2段階のフレームワークであるInterFusionを提案する。 インターフュージョンは、テキストから派生した人間のポーズ推定を幾何学的先行として含み、テキストから3Dへの変換プロセスを単純化し、正確なオブジェクト生成のための追加の制約を導入する。 最初の段階では、InterFusionは、幅広いインタラクションを描写した合成画像データセットから3Dの人間のポーズを抽出し、その後、これらのポーズをインタラクション記述にマッピングする。 InterFusionの第2段階は、テキストから3D生成の最新の発展を活かし、現実的で高品質な3D HOIシーンを制作できる。 これは、人体とオブジェクトの生成を別々に最適化し、シーン全体のグローバルな最適化と共同で洗練し、シームレスでコンテキスト的に一貫性のある統合を保証する、ローカル・グローバルな最適化プロセスによって達成される。 実験の結果,InterFusionは3次元HOI生成において既存の最先端手法よりも優れていたことが確認された。

In this study, we tackle the complex task of generating 3D human-object interactions (HOI) from textual descriptions in a zero-shot text-to-3D manner. We identify and address two key challenges: the unsatisfactory outcomes of direct text-to-3D methods in HOI, largely due to the lack of paired text-interaction data, and the inherent difficulties in simultaneously generating multiple concepts with complex spatial relationships. To effectively address these issues, we present InterFusion, a two-stage framework specifically designed for HOI generation. InterFusion involves human pose estimations derived from text as geometric priors, which simplifies the text-to-3D conversion process and introduces additional constraints for accurate object generation. At the first stage, InterFusion extracts 3D human poses from a synthesized image dataset depicting a wide range of interactions, subsequently mapping these poses to interaction descriptions. The second stage of InterFusion capitalizes on the latest developments in text-to-3D generation, enabling the production of realistic and high-quality 3D HOI scenes. This is achieved through a local-global optimization process, where the generation of human body and object is optimized separately, and jointly refined with a global optimization of the entire scene, ensuring a seamless and contextually coherent integration. Our experimental results affirm that InterFusion significantly outperforms existing state-of-the-art methods in 3D HOI generation.
翻訳日:2024-03-26 21:51:43 公開日:2024-03-22
# NaturalTurn: テキストを自然な会話のターンに分割する手法

NaturalTurn: A Method to Segment Transcripts into Naturalistic Conversational Turns ( http://arxiv.org/abs/2403.15615v1 )

ライセンス: Link先を確認
Gus Cooney, Andrew Reece, (参考訳) 会話は、社会的、認知的、計算科学への関心の高まりの主題である。 しかし、会話データセットがサイズと複雑さを増し続けているため、研究者は音声からテキストへの書き起こしを会話のターンに分割するスケーラブルな手法を欠いている。 本研究では,自然主義的交換のダイナミクスを正確に捉えるために,ターンセグメンテーションアルゴリズムであるNaturalTurnを紹介する。 NaturalTurnは、リスナーの二次発話(バックチャンネル、短いインタージェクション、会話を特徴付ける他の形式のパラレルスピーチなど)と、話者の主会話のターンを区別することによって機能する。 本研究では,大規模な会話コーパスから得られたデータを用いて,NaturalTurn由来の転写文が,既存の手法による転写文と比較して,統計的・推論的な特徴を示すことを示す。 NaturalTurnアルゴリズムは、研究者がターンテイクのダイナミクスと、会話科学の中心的な目標である社会的相互作用から生じるより広範な結果とを関連付けることができるように、機械生成の転写処理手法の改善(ターンモデル)を表現している。

Conversation is the subject of increasing interest in the social, cognitive, and computational sciences. And yet, as conversational datasets continue to increase in size and complexity, researchers lack scalable methods to segment speech-to-text transcripts into conversational turns--the basic building blocks of social interaction. We introduce "NaturalTurn," a turn segmentation algorithm designed to accurately capture the dynamics of naturalistic exchange. NaturalTurn operates by distinguishing speakers' primary conversational turns from listeners' secondary utterances, such as backchannels, brief interjections, and other forms of parallel speech that characterize conversation. Using data from a large conversation corpus, we show how NaturalTurn-derived transcripts demonstrate favorable statistical and inferential characteristics compared to transcripts derived from existing methods. The NaturalTurn algorithm represents an improvement in machine-generated transcript processing methods, or "turn models" that will enable researchers to associate turn-taking dynamics with the broader outcomes that result from social interaction, a central goal of conversation science.
翻訳日:2024-03-26 21:41:55 公開日:2024-03-22
# セマンティックガウス:3次元ガウススプレイティングによるオープン語彙シーン理解

Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting ( http://arxiv.org/abs/2403.15624v1 )

ライセンス: Link先を確認
Jun Guo, Xiaojian Ma, Yue Fan, Huaping Liu, Qing Li, (参考訳) オープンボキャブラリ3Dシーン理解は、コンピュータビジョンにおいて、エンボディエージェントや拡張現実システムにおける幅広い応用において重要な課題である。 従来のアプローチでは、Neural Radiance Fields(NeRF)を使用して3Dシーンを解析していた。 本稿では,セマンティックガウシアン(SemanticGaussians)について紹介する。 我々のキーイデアは、事前訓練された2Dセマンティクスを3Dガウスに蒸留することである。 我々は,事前学習した画像エンコーダの様々な2次元特徴を,NeRFによる追加の訓練を必要とせず,新しい3次元ガウスのセマンティックな構成要素にマッピングする多目的投影手法を設計する。 さらに、高速な推論のために、生の3Dガウスから意味コンポーネントを直接予測する3Dセマンティックネットワークを構築します。 ScanNet-20におけるセマンティック・ガウスのセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティビティと4.2%mIoUと4.0%AccのAccは、従来のオープンボキャブラリーなシーン理解よりも向上し、オブジェクト部分セマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンのセマンティックなセマンティックなセマンティックなセマンの応用を探求を探求を探求に研究した。

Open-vocabulary 3D scene understanding presents a significant challenge in computer vision, withwide-ranging applications in embodied agents and augmented reality systems. Previous approaches haveadopted Neural Radiance Fields (NeRFs) to analyze 3D scenes. In this paper, we introduce SemanticGaussians, a novel open-vocabulary scene understanding approach based on 3D Gaussian Splatting. Our keyidea is distilling pre-trained 2D semantics into 3D Gaussians. We design a versatile projection approachthat maps various 2Dsemantic features from pre-trained image encoders into a novel semantic component of 3D Gaussians, withoutthe additional training required by NeRFs. We further build a 3D semantic network that directly predictsthe semantic component from raw 3D Gaussians for fast inference. We explore several applications ofSemantic Gaussians: semantic segmentation on ScanNet-20, where our approach attains a 4.2% mIoU and 4.0%mAcc improvement over prior open-vocabulary scene understanding counterparts; object part segmentation,sceneediting, and spatial-temporal segmentation with better qualitative results over 2D and 3D baselines,highlighting its versatility and effectiveness on supporting diverse downstream tasks.
翻訳日:2024-03-26 21:41:55 公開日:2024-03-22
# 病院最適容量管理のための対話型意思決定支援ダッシュボード

An Interactive Decision-Support Dashboard for Optimal Hospital Capacity Management ( http://arxiv.org/abs/2403.15634v1 )

ライセンス: Link先を確認
Felix Parker, Diego A. Martínez, James Scheulen, Kimia Ghobadi, (参考訳) データ駆動型最適化モデルは、特に需要急増時に、キャパシティの効果的な割り当てが最も重要かつ困難な場合に、病院のキャパシティ管理を大幅に改善する可能性がある。 しかし、価値を提供する方法で既存のプロセスにモデルを統合するには、病院管理者が最終的にキャパシティ管理の決定を行う責任があることを認識し、信頼に足る、アクセス可能なツールを慎重に構築する必要がある。 本研究では,サージ期間中に病院の容量管理決定を通知するためのインタラクティブでユーザフレンドリな電子ダッシュボードを開発する。 ダッシュボードには、リアルタイム病院データ、予測分析、最適化モデルが統合されている。 病院の管理者は対話的にパラメータをカスタマイズでき、さまざまなシナリオを探索できる。 ダッシュボードは参加型設計プロセスを通じて作成され、開発チームの病院管理者が実用的な実用性、信頼性、透明性、説明可能性、ユーザビリティを保証する。 新型コロナウイルスのパンデミックの最盛期には、ジョンズホプキンス健康システムにダッシュボードを配置しました。 日常的に使用され、その結果は定期的に病院の指導層に伝達された。 本研究は,病院システム能力管理のためのデータ駆動型対話型意思決定支援ツールの実用化を実証するものである。

Data-driven optimization models have the potential to significantly improve hospital capacity management, particularly during demand surges, when effective allocation of capacity is most critical and challenging. However, integrating models into existing processes in a way that provides value requires recognizing that hospital administrators are ultimately responsible for making capacity management decisions, and carefully building trustworthy and accessible tools for them. In this study, we develop an interactive, user-friendly, electronic dashboard for informing hospital capacity management decisions during surge periods. The dashboard integrates real-time hospital data, predictive analytics, and optimization models. It allows hospital administrators to interactively customize parameters, enabling them to explore a range of scenarios, and provides real-time updates on recommended optimal decisions. The dashboard was created through a participatory design process, involving hospital administrators in the development team to ensure practical utility, trustworthiness, transparency, explainability, and usability. We successfully deployed our dashboard within the Johns Hopkins Health System during the height of the COVID-19 pandemic, addressing the increased need for tools to inform hospital capacity management. It was used on a daily basis, with results regularly communicated to hospital leadership. This study demonstrates the practical application of a prospective, data-driven, interactive decision-support tool for hospital system capacity management.
翻訳日:2024-03-26 21:41:55 公開日:2024-03-22
# 大規模言語モデルの個人別次世代予測

Differentially Private Next-Token Prediction of Large Language Models ( http://arxiv.org/abs/2403.15638v1 )

ライセンス: Link先を確認
James Flemings, Meisam Razaviyayn, Murali Annavaram, (参考訳) LLM(Large Language Models)のプライバシの確保がますます重要になっている。 DP-SGDは、微分プライバシー(DP)を保証する方法でモデルを訓練する手法である。 しかし、DP-SGDはSGDよりも長いトレーニング時間と大きなメモリ要求を必要とするが、モデルにホワイトボックスアクセスする敵の能力を過大評価している。 より現実的なシナリオは、プライバシーに敏感なLSMへのブラックボックスアクセスのみを前提としている。 これらの観測から得られたPMixED:Private Mixing of Ensemble Distributions (PMixED): モデルの各出力分布を公的なLCMの出力分布の集合に投影し、予測された分布を平均化し、そこからサンプリングすることで、実用的な次世代予測を実現するプライベートな予測プロトコルを提案する。 我々のアプローチはDP-SGDよりも軽量であり、モデル非依存であり、トレーニング中ではなく予測時に差分プライバシーを提供する。 以上の結果から,PMixEDはサンプルレベルのプライバシよりも強力なプライバシ保証を実現し,プライバシに対してDP-SGDより優れていることがわかった。

Ensuring the privacy of Large Language Models (LLMs) is becoming increasingly important. The most widely adopted technique to accomplish this is DP-SGD, which trains a model in such a way that guarantees Differential Privacy (DP). However, DP-SGD requires longer training times and larger memory requirements than SGD, while overestimating an adversary's capabilities in having white box access to the model. A more realistic scenario assumes only black-box access to a privacy-sensitive LLM. Motivated by these observations, we present Private Mixing of Ensemble Distributions (PMixED): a private prediction protocol that achieves practical next-token prediction by projecting each of the model's output distribution from an ensemble of fine-tuned LLMs onto a set around a public LLM's output distribution, then averaging the projected distributions and sampling from it. Our approach is more lightweight than DP-SGD in that it is model agnostic, instead providing differential privacy at prediction rather than during training. Our results show that PMixED achieves a stronger privacy guarantee than sample-level privacy and outperforms DP-SGD for privacy $\epsilon = 8$ on large-scale datasets.
翻訳日:2024-03-26 21:41:55 公開日:2024-03-22
# レストレスマルチアーマッドバンドの要求応答決定への応用

Contextual Restless Multi-Armed Bandits with Application to Demand Response Decision-Making ( http://arxiv.org/abs/2403.15640v1 )

ライセンス: Link先を確認
Xin Chen, I-Hong Hou, (参考訳) 本稿では,複雑なオンライン意思決定のための新しいマルチアーム・バンディット・フレームワークである Contextual Restless Bandits (CRB) を紹介する。 このCRBフレームワークは、各アームの内部状態遷移と、外部のグローバル環境コンテキストの影響の両方をモデル化できるように、コンテキストブレイディットとレスレスブレイディットのコア特徴を取り入れている。 二重分解法を用いて,CRB問題を解くためのスケーラブルな指数ポリシアルゴリズムを開発し,このアルゴリズムの漸近的最適性を理論的に解析する。 アームモデルが未知の場合、さらにインデックスポリシーに基づくモデルベースオンライン学習アルゴリズムを提案し、アームモデルを学び、同時に決定する。 さらに,提案したCRBフレームワークとインデックスポリシアルゴリズムを,スマートグリッドにおける需要応答決定問題に適用する。 数値シミュレーションにより,提案手法の有効性と有効性を示す。

This paper introduces a novel multi-armed bandits framework, termed Contextual Restless Bandits (CRB), for complex online decision-making. This CRB framework incorporates the core features of contextual bandits and restless bandits, so that it can model both the internal state transitions of each arm and the influence of external global environmental contexts. Using the dual decomposition method, we develop a scalable index policy algorithm for solving the CRB problem, and theoretically analyze the asymptotical optimality of this algorithm. In the case when the arm models are unknown, we further propose a model-based online learning algorithm based on the index policy to learn the arm models and make decisions simultaneously. Furthermore, we apply the proposed CRB framework and the index policy algorithm specifically to the demand response decision-making problem in smart grids. The numerical simulations demonstrate the performance and efficiency of our proposed CRB approaches.
翻訳日:2024-03-26 21:41:55 公開日:2024-03-22
# NIST AIリスク管理フレームワークの監視技術への応用

Application of the NIST AI Risk Management Framework to Surveillance Technology ( http://arxiv.org/abs/2403.15646v1 )

ライセンス: Link先を確認
Nandhini Swaminathan, David Danks, (参考訳) 本研究は,国立標準技術研究所のAIリスク管理フレームワーク(NIST AI RMF)の,監視技術,特に顔認識技術分野における応用と意義を詳細に分析する。 本研究は, 顔認識システムのリスクが高く, 連続性が高いことから, 本分野におけるリスク管理への構造的アプローチの必要性を強調している。 本論文は、NIST AI RMFが、これらの技術に気付かない可能性のあるリスクを特定し緩和する上での有用性を示す詳細なケーススタディである。 私たちの主な目的は、責任あるAI利用の実践を実現可能でスケーラブルな方法で進める包括的なリスク管理戦略を開発することです。 我々は,より体系的で効果的なリスクマネジメントの実践を実現することを目的とした,監視技術の具体的な課題に合わせた6段階のプロセスを提案する。 このプロセスは、企業がAI関連のリスクをより堅牢に管理し、倫理的かつ責任あるAIシステムのデプロイを保証するために、継続的な評価と改善を強調する。 さらに、NIST AI RMFの現在のフレームワークにおける重要なギャップ、特に監視技術への応用について分析し、議論する。 これらの洞察は、AIガバナンスとリスク管理の進化に関する談話に寄与し、NIST AI RMFのようなフレームワークにおける将来の洗練と開発のための領域を強調している。

This study offers an in-depth analysis of the application and implications of the National Institute of Standards and Technology's AI Risk Management Framework (NIST AI RMF) within the domain of surveillance technologies, particularly facial recognition technology. Given the inherently high-risk and consequential nature of facial recognition systems, our research emphasizes the critical need for a structured approach to risk management in this sector. The paper presents a detailed case study demonstrating the utility of the NIST AI RMF in identifying and mitigating risks that might otherwise remain unnoticed in these technologies. Our primary objective is to develop a comprehensive risk management strategy that advances the practice of responsible AI utilization in feasible, scalable ways. We propose a six-step process tailored to the specific challenges of surveillance technology that aims to produce a more systematic and effective risk management practice. This process emphasizes continual assessment and improvement to facilitate companies in managing AI-related risks more robustly and ensuring ethical and responsible deployment of AI systems. Additionally, our analysis uncovers and discusses critical gaps in the current framework of the NIST AI RMF, particularly concerning its application to surveillance technologies. These insights contribute to the evolving discourse on AI governance and risk management, highlighting areas for future refinement and development in frameworks like the NIST AI RMF.
翻訳日:2024-03-26 21:41:55 公開日:2024-03-22
# RetiGen:マルチビューファウンダス画像を用いた一般網膜診断のためのフレームワーク

RetiGen: A Framework for Generalized Retinal Diagnosis Using Multi-View Fundus Images ( http://arxiv.org/abs/2403.15647v1 )

ライセンス: Link先を確認
Ze Chen, Gongyu Zhang, Jiayu Huo, Joan Nunez do Rio, Charalampos Komninos, Yang Liu, Rachel Sparks, Sebastien Ourselin, Christos Bergeles, Timothy Jackson, (参考訳) 本研究は,医用画像における領域の一般化を促進するための新しい枠組みについて紹介する。 単視点画像データと多様な臨床環境をまたがって一般化する課題に直面する従来のアプローチとは違って,本手法ではマルチビュー画像データのリッチな情報を活用して,モデルの堅牢性と精度を向上させる。 クラスバランス手法,テスト時間適応手法,マルチビュー最適化戦略を取り入れることで,実世界のアプリケーションにおける機械学習モデルの性能を損なうような領域シフトの重要な問題に対処する。 種々の最先端領域一般化法とテスト時間最適化法を比較した実験により,既存のベースラインや最先端手法と組み合わせた場合,我々の手法は一貫して性能が向上することが示された。 また,既存の手法を改良したオンライン手法についても紹介する。 我々のフレームワークは、ドメインの一般化機能の改善を実証し、新しい、目に見えないデータセットへのオンライン適応を容易にすることで、現実のデプロイメントに実用的なソリューションを提供する。 私たちのコードはhttps://github.com/zgy600/RetiGenで利用可能です。

This study introduces a novel framework for enhancing domain generalization in medical imaging, specifically focusing on utilizing unlabelled multi-view colour fundus photographs. Unlike traditional approaches that rely on single-view imaging data and face challenges in generalizing across diverse clinical settings, our method leverages the rich information in the unlabelled multi-view imaging data to improve model robustness and accuracy. By incorporating a class balancing method, a test-time adaptation technique and a multi-view optimization strategy, we address the critical issue of domain shift that often hampers the performance of machine learning models in real-world applications. Experiments comparing various state-of-the-art domain generalization and test-time optimization methodologies show that our approach consistently outperforms when combined with existing baseline and state-of-the-art methods. We also show our online method improves all existing techniques. Our framework demonstrates improvements in domain generalization capabilities and offers a practical solution for real-world deployment by facilitating online adaptation to new, unseen datasets. Our code is available at https://github.com/zgy600/RetiGen .
翻訳日:2024-03-26 21:41:55 公開日:2024-03-22
# SRLM:大規模言語モデルと深層強化学習による対話型社会ロボットナビゲーション

SRLM: Human-in-Loop Interactive Social Robot Navigation with Large Language Model and Deep Reinforcement Learning ( http://arxiv.org/abs/2403.15648v1 )

ライセンス: Link先を確認
Weizheng Wang, Le Mao, Ruiqi Wang, Byung-Cheol Min, (参考訳) 対話型ソーシャルロボットアシスタントは、複雑で混み合った空間でサービスを提供しながら、リアルタイムのヒューマン言語コマンドやフィードバックに基づいてその振る舞いを適応させなければならない。 本稿では,Large Language Models (LLM) とDeep Reinforcement Learning (DRL) を統合したソーシャル・ロボット・プランナー (SRLM) という新しいハイブリッド・アプローチを提案する。 SRLMは、リアルタイムでヒューマン・イン・ループ・コマンドからグローバル・プランニングを推測し、低レベル動作実行のためのLLMベースの大型ナビゲーション・モデル(LNM)に社会情報をエンコードする。 さらに、DRLベースのプランナは、LNMとLNMをブレンドして、現在のテキストとLLM駆動のLNMの不安定性に対処するベンチマーク性能を維持するように設計されている。 最後に、SRLMは広範な実験において優れた性能を示す。 この作業の詳細は、https://sites.google.com/view/navi-srlm.comで確認できる。

An interactive social robotic assistant must provide services in complex and crowded spaces while adapting its behavior based on real-time human language commands or feedback. In this paper, we propose a novel hybrid approach called Social Robot Planner (SRLM), which integrates Large Language Models (LLM) and Deep Reinforcement Learning (DRL) to navigate through human-filled public spaces and provide multiple social services. SRLM infers global planning from human-in-loop commands in real-time, and encodes social information into a LLM-based large navigation model (LNM) for low-level motion execution. Moreover, a DRL-based planner is designed to maintain benchmarking performance, which is blended with LNM by a large feedback model (LFM) to address the instability of current text and LLM-driven LNM. Finally, SRLM demonstrates outstanding performance in extensive experiments. More details about this work are available at: https://sites.google.com/view/navi-srlm
翻訳日:2024-03-26 21:41:55 公開日:2024-03-22
# GaNI: ニューラルネットワークの逆レンダリングを意識したグローバルおよび近接場照明

GaNI: Global and Near Field Illumination Aware Neural Inverse Rendering ( http://arxiv.org/abs/2403.15651v1 )

ライセンス: Link先を確認
Jiaye Wu, Saeed Hadadan, Geng Lin, Matthias Zwicker, David Jacobs, Roni Sengupta, (参考訳) 本稿では,Global and Near-field Illumination-aware Neural Inverse rendering technique(GANI)について述べる。 既存の逆レンダリング技術では、複数のオブジェクトを持つシーンにおいて、地球規模の照明と近接場照明をモデル化することなく、単一のオブジェクトのみに焦点を当てている。 我々はまずニュートラル・ボリューム・レンダリングによる幾何を再構成し,次に従来予測されていた幾何を用いてアルベドと粗さを推定する逆ニューラル・ラジオシティを導入する。 しかし、このような単純な組み合わせは失敗し、この2段階のアプローチを可能にする複数の技術貢献を提案する。 我々は,NeuSが現場の懐中電灯からの近接場照明や強い反射を処理できないことを観察した。 本研究では,近接場照明の効果を暗黙的にモデル化し,表面角損失関数を導入することを提案する。 同様に、invNeRadはキャプチャ全体を通して常に照明を仮定し、キャプチャ中に動くフラッシュライトを処理できないことを観察する。 本稿では,光位置認識型レーダランスキャッシュネットワークと,粗さに先立ってスムーズさを付加して反射率を再構成する手法を提案する。 合成および実データを用いた実験により,本手法は既存の光カメラを用いた逆レンダリング技術よりも優れていた。 提案手法は暗室を必要としない手法よりも反射率と幾何性が著しく向上する。

In this paper, we present GaNI, a Global and Near-field Illumination-aware neural inverse rendering technique that can reconstruct geometry, albedo, and roughness parameters from images of a scene captured with co-located light and camera. Existing inverse rendering techniques with co-located light-camera focus on single objects only, without modeling global illumination and near-field lighting more prominent in scenes with multiple objects. We introduce a system that solves this problem in two stages; we first reconstruct the geometry powered by neural volumetric rendering NeuS, followed by inverse neural radiosity that uses the previously predicted geometry to estimate albedo and roughness. However, such a naive combination fails and we propose multiple technical contributions that enable this two-stage approach. We observe that NeuS fails to handle near-field illumination and strong specular reflections from the flashlight in a scene. We propose to implicitly model the effects of near-field illumination and introduce a surface angle loss function to handle specular reflections. Similarly, we observe that invNeRad assumes constant illumination throughout the capture and cannot handle moving flashlights during capture. We propose a light position-aware radiance cache network and additional smoothness priors on roughness to reconstruct reflectance. Experimental evaluation on synthetic and real data shows that our method outperforms the existing co-located light-camera-based inverse rendering techniques. Our approach produces significantly better reflectance and slightly better geometry than capture strategies that do not require a dark room.
翻訳日:2024-03-26 21:41:55 公開日:2024-03-22
# ニューラル偏微分方程式解の注意と畳み込みによるパラメトリック符号化

Parametric Encoding with Attention and Convolution Mitigate Spectral Bias of Neural Partial Differential Equation Solvers ( http://arxiv.org/abs/2403.15652v1 )

ライセンス: Link先を確認
Mehdi Shishehbor, Shirin Hosseinmardi, Ramin Bostanabad, (参考訳) ディープニューラルネットワーク(DNN)は、様々なシステムや物理現象をモデル化しながら自然に発生する偏微分方程式(PDE)を解くために、ますます使われている。 しかし、これらのDNNの精度は、PDEの複雑さが増加するにつれて低下し、低周波溶液特性を学習する傾向にあるため、スペクトルバイアスに悩まされる。 これらの問題に対処するために、ドメイン内のラベル付きデータを活用することなくPDEシステムを解くことができるParametric Grid Convolutional Attention Networks (PGCANs)を導入する。 PGCANの主な考え方は、DNNデコーダを介して出力にパラメータが接続されたグリッドベースのエンコーダで入力空間をパラメータ化することである。 我々のエンコーダは局所的な学習能力を提供し、畳み込み層を用いて境界から領域の内部への情報の伝播速度を過度に調整し改善する。 我々は,幅広いPDEシステム上でPGCANの性能を検証し,スペクトルバイアスを効果的に処理し,競合する手法と比較してより正確な解を提供することを示す。

Deep neural networks (DNNs) are increasingly used to solve partial differential equations (PDEs) that naturally arise while modeling a wide range of systems and physical phenomena. However, the accuracy of such DNNs decreases as the PDE complexity increases and they also suffer from spectral bias as they tend to learn the low-frequency solution characteristics. To address these issues, we introduce Parametric Grid Convolutional Attention Networks (PGCANs) that can solve PDE systems without leveraging any labeled data in the domain. The main idea of PGCAN is to parameterize the input space with a grid-based encoder whose parameters are connected to the output via a DNN decoder that leverages attention to prioritize feature training. Our encoder provides a localized learning ability and uses convolution layers to avoid overfitting and improve information propagation rate from the boundaries to the interior of the domain. We test the performance of PGCAN on a wide range of PDE systems and show that it effectively addresses spectral bias and provides more accurate solutions compared to competing methods.
翻訳日:2024-03-26 21:41:55 公開日:2024-03-22
# EthioLLM:タスク評価を伴うエチオピア語用多言語大言語モデル

EthioLLM: Multilingual Large Language Models for Ethiopian Languages with Task Evaluation ( http://arxiv.org/abs/2403.13737v2 )

ライセンス: Link先を確認
Atnafu Lambebo Tonja, Israel Abebe Azime, Tadesse Destaw Belay, Mesay Gemeda Yigezu, Moges Ahmed Mehamed, Abinew Ali Ayele, Ebrahim Chekol Jibril, Michael Melese Woldeyohannis, Olga Kolesnikova, Philipp Slusallek, Dietrich Klakow, Shengwu Xiong, Seid Muhie Yimam, (参考訳) 大規模言語モデル(LLM)は、最近、様々な下流自然言語処理(NLP)タスクにおける優れたパフォーマンスのために人気を博している。 しかし、低リソース言語は、LLMを訓練するリソースが不足しているため、NLP分野における現在の最先端(SOTA)開発に遅れを取っている。 エチオピア語は言語学的多様性が顕著で、様々な文字が包含されており、宗教的・文化的意義が深い。 本稿では,エチオピア語5言語(Amharic, Ge'ez, Afan Oromo, Somali, Tigrinya)と英語の多言語大言語モデルであるEthioLLMと,下流NLPタスクのための新しいベンチマークデータセットであるEthiobenchmarkを紹介する。 我々は、これらのモデルの性能を5つの下流NLPタスクで評価する。 我々は、多言語言語モデル、様々な下流タスクのための新しいベンチマークデータセット、タスク固有の微調整言語モデルをオープンソース化し、モデルの性能について議論する。 私たちのデータセットとモデルはhttps://huggingface.co/EthioNLPリポジトリで公開されています。

Large language models (LLMs) have gained popularity recently due to their outstanding performance in various downstream Natural Language Processing (NLP) tasks. However, low-resource languages are still lagging behind current state-of-the-art (SOTA) developments in the field of NLP due to insufficient resources to train LLMs. Ethiopian languages exhibit remarkable linguistic diversity, encompassing a wide array of scripts, and are imbued with profound religious and cultural significance. This paper introduces EthioLLM -- multilingual large language models for five Ethiopian languages (Amharic, Ge'ez, Afan Oromo, Somali, and Tigrinya) and English, and Ethiobenchmark -- a new benchmark dataset for various downstream NLP tasks. We evaluate the performance of these models across five downstream NLP tasks. We open-source our multilingual language models, new benchmark datasets for various downstream tasks, and task-specific fine-tuned language models and discuss the performance of the models. Our dataset and models are available at the https://huggingface.co/EthioNLP repository.
翻訳日:2024-03-26 10:51:37 公開日:2024-03-22
# 一次サンプル空間における重要サンプルへの学習

Learning to Importance Sample in Primary Sample Space ( http://arxiv.org/abs/1808.07840v2 )

ライセンス: Link先を確認
Quan Zheng, Matthias Zwicker, (参考訳) 重要サンプリングはモンテカルロレンダリングにおいて最も広く用いられている分散還元戦略の1つである。 本稿では,ニューラルネットワークを用いて,サンプルの集合に代表される所望密度からサンプルを抽出する方法を学習する,新しい重要サンプリング手法を提案する。 提案手法では,既存のモンテカルロレンダリングアルゴリズムをブラックボックスとみなす。 シーンに依存したトレーニングフェーズにおいて、最大推定値を用いて、レンダリングアルゴリズムの一次サンプル空間に所望密度のサンプルを生成することを学習する。 我々は、高次元空間における実数値非体積保存(「リアルNVP」)変換を表現するように設計された最近のニューラルネットワークアーキテクチャを活用している。 我々は、Real NVP を用いて、一次サンプル空間を非線形にワープし、所望の密度を得る。 さらに、Real NVPはワープのヤコビ行列を効率的に計算し、ワープによって入力される積分変数の変化を実装するのに必要となる。 提案手法の主な利点は、光輸送効果を生かせず、ブラックボックスとして扱うことで、既存のレンダリング技術と組み合わせることができる点である。 提案手法は, 様々なシナリオにおいて, 効果的な分散低減につながることを示す。

Importance sampling is one of the most widely used variance reduction strategies in Monte Carlo rendering. In this paper, we propose a novel importance sampling technique that uses a neural network to learn how to sample from a desired density represented by a set of samples. Our approach considers an existing Monte Carlo rendering algorithm as a black box. During a scene-dependent training phase, we learn to generate samples with a desired density in the primary sample space of the rendering algorithm using maximum likelihood estimation. We leverage a recent neural network architecture that was designed to represent real-valued non-volume preserving ('Real NVP') transformations in high dimensional spaces. We use Real NVP to non-linearly warp primary sample space and obtain desired densities. In addition, Real NVP efficiently computes the determinant of the Jacobian of the warp, which is required to implement the change of integration variables implied by the warp. A main advantage of our approach is that it is agnostic of underlying light transport effects, and can be combined with many existing rendering techniques by treating them as a black box. We show that our approach leads to effective variance reduction in several practical scenarios.
翻訳日:2024-03-26 00:17:07 公開日:2024-03-22
# 開量子系における展開系-環境相関:マスター方程式の再検討とボルン近似

Unfolding system-environment correlation in open quantum systems: Revisiting master equations and the Born approximation ( http://arxiv.org/abs/2104.04248v3 )

ライセンス: Link先を確認
A. P. Babu, S. Alipour, A. T. Rezakhani, T. Ala-Nissila, (参考訳) オープン量子システムにおけるシステムバス相関を理解することは、様々な量子情報や技術応用に不可欠である。 開系の力学に対するほとんどのマスター方程式(ME)の導出は、系力学の相関性にマスク依存する近似を必要とする。 ここでは、最も一般的なMEには、明示的なシステム環境相関に関する隠れ情報が含まれていることを実証する。 我々はこれらの相関関係を、MEをシステムバス相関作用素が現れる普遍的な形式に再キャストすることによって展開する。 方程式にはリンドブラッド、レッドフィールド、二階時間畳み込みなし、二階中島-ズワンツィヒ、二階普遍リンドブラッドのようなケースがある。 さらに、この結果を例に示し、2階普遍リンドブラッド型方程式が他の標準手法よりも正確な相関を捉えることを示唆する。

Understanding system-bath correlations in open quantum systems is essential for various quantum information and technology applications. Derivations of most master equations (MEs) for the dynamics of open systems require approximations that mask dependence of the system dynamics on correlations, since the MEs focus on reduced system dynamics. Here we demonstrate that the most common MEs indeed contain hidden information about explicit system-environment correlation. We unfold these correlations by recasting the MEs into a universal form in which the system-bath correlation operator appears. The equations include the Lindblad, Redfield, second-order time-convolutionless, second-order Nakajima-Zwanzig, and second-order universal Lindblad-like cases. We further illustrate our results in an example, which implies that the second-order universal Lindblad-like equation captures correlation more accurately than other standard techniques.
翻訳日:2024-03-26 00:17:07 公開日:2024-03-22
# 類似性に基づくラベル推論による訓練と分割学習の推論

Similarity-based Label Inference Attack against Training and Inference of Split Learning ( http://arxiv.org/abs/2203.05222v2 )

ライセンス: Link先を確認
Junlin Liu, Xinchen Lyu, Qimei Cui, Xiaofeng Tao, (参考訳) 分割学習は、プライバシを保存する分散学習のための有望なパラダイムである。 学習モデルは、カット層における中間結果のみを交換することにより、複数の部分に分割して参加者に協調的に訓練することができる。 分割学習のセキュリティパフォーマンスを理解することは、多くのプライバシーに敏感なアプリケーションにとって重要である。 本稿では,スマッシュデータ(生データから抽出した特徴)やスプリットラーニングのトレーニングおよび推論における勾配を含む交換中間結果が,すでにプライベートラベルを明らかにすることができることを示す。 我々は,潜在的なラベルリークを数学的に解析し,勾配とスマッシュデータに対するコサインとユークリッドの類似度の測定法を提案する。 すると、2つの類似度の測定はユークリッド空間で統一されることが示される。 類似度測定値に基づいて,学習段階と推論段階の双方において,プライベートラベルを効率よく回収する3つのラベル推論攻撃を設計する。 実験により,提案手法がラベル攻撃の精度を100%近い精度で達成できることが確認された。 提案した攻撃は、DP-SGD、ラベルの差分プライバシー、勾配圧縮、マーベルなど、最先端の防御メカニズムに対して正確な予測を行うことができる。

Split learning is a promising paradigm for privacy-preserving distributed learning. The learning model can be cut into multiple portions to be collaboratively trained at the participants by exchanging only the intermediate results at the cut layer. Understanding the security performance of split learning is critical for many privacy-sensitive applications. This paper shows that the exchanged intermediate results, including the smashed data (i.e., extracted features from the raw data) and gradients during training and inference of split learning, can already reveal the private labels. We mathematically analyze the potential label leakages and propose the cosine and Euclidean similarity measurements for gradients and smashed data, respectively. Then, the two similarity measurements are shown to be unified in Euclidean space. Based on the similarity metric, we design three label inference attacks to efficiently recover the private labels during both the training and inference phases. Experimental results validate that the proposed approaches can achieve close to 100% accuracy of label attacks. The proposed attack can still achieve accurate predictions against various state-of-the-art defense mechanisms, including DP-SGD, label differential privacy, gradient compression, and Marvell.
翻訳日:2024-03-26 00:17:07 公開日:2024-03-22
# BBE-LSWCM:ロングウィンドウおよびショートウィンドウクリックストリームモデルのブートストラップアンサンブル

BBE-LSWCM: A Bootstrapped Ensemble of Long and Short Window Clickstream Models ( http://arxiv.org/abs/2203.16155v3 )

ライセンス: Link先を確認
Arnab Chakraborty, Vikas Raturi, Shrutendra Harsola, (参考訳) QBOのようなSaaS製品において、リアルタイムの顧客イベント予測問題に対するクリックストリームモデリングフレームワークを開発する際の問題点を考察する。 我々は、より長い歴史的ウィンドウ(例えば、ここ数週間)からの集約されたユーザ行動データと、最近のパスト(例えば、現在のセッション)の短いウィンドウ上のユーザ活動を組み合わせた、低レイテンシで費用効率で堅牢なアンサンブルアーキテクチャ(BBE-LSWCM)を開発します。 他のベースラインアプローチと比較して,QBO加入者に対するサブスクリプションキャンセルとタスク検出という2つの重要なリアルタイムイベント予測問題に対して,提案手法の優れた性能を示す。 最後に、QBOにおけるオンライン実験の結果とライブ配信の詳細について述べる。

We consider the problem of developing a clickstream modeling framework for real-time customer event prediction problems in SaaS products like QBO. We develop a low-latency, cost-effective, and robust ensemble architecture (BBE-LSWCM), which combines both aggregated user behavior data from a longer historical window (e.g., over the last few weeks) as well as user activities over a short window in recent-past (e.g., in the current session). As compared to other baseline approaches, we demonstrate the superior performance of the proposed method for two important real-time event prediction problems: subscription cancellation and intended task detection for QBO subscribers. Finally, we present details of the live deployment and results from online experiments in QBO.
翻訳日:2024-03-26 00:17:07 公開日:2024-03-22
# 希薄ボースガスの1次元における基底状態エネルギー

Ground state energy of dilute Bose gases in 1D ( http://arxiv.org/abs/2203.17183v2 )

ライセンス: Link先を確認
Johannes Agerskov, Robin Reuvers, Jan Philip Solovej, (参考訳) 密度$\rho$の1次元ボソンの気体の基底状態エネルギーを、散乱長$a$の一般的な2体ポテンシャルを介して相互作用し、希薄な極限$\rho |a|\ll1$で研究する。 熱力学エネルギー密度の膨張の最初の項は$\pi^2\rho^3/3(1+2\rho a)$であり、1次元自由フェルミ気体である。 この結果はリーブ・ライニガーモデルのトンクス・ジラルドー極限を特別な場合としてカバーするが、$a>0$である可能性を考えると、デルタ関数と大きく異なるポテンシャルにも適用される。 スピンレスフェルミオンと1D異方性対称性の拡張を含み、閉じ込められた3次元気体への応用について議論する。

We study the ground state energy of a gas of 1D bosons with density $\rho$, interacting through a general, repulsive 2-body potential with scattering length $a$, in the dilute limit $\rho |a|\ll1$. The first terms in the expansion of the thermodynamic energy density are $\pi^2\rho^3/3(1+2\rho a)$, where the leading order is the 1D free Fermi gas. This result covers the Tonks-Girardeau limit of the Lieb-Liniger model as a special case, but given the possibility that $a>0$, it also applies to potentials that differ significantly from a delta function. We include extensions to spinless fermions and 1D anyonic symmetries, and discuss an application to confined 3D gases.
翻訳日:2024-03-26 00:17:07 公開日:2024-03-22
# フル接続ニューラルネットワークのトレーニングは$\exists\mathbb{R}$-Complete

Training Fully Connected Neural Networks is $\exists\mathbb{R}$-Complete ( http://arxiv.org/abs/2204.01368v3 )

ライセンス: Link先を確認
Daniel Bertschinger, Christoph Hertrich, Paul Jungeblut, Tillmann Miltzow, Simon Weber, (参考訳) InpiricalRiskMinimization (EmpiricalRiskMinimization) として知られる,2層完全連結ニューラルネットワークの重みとバイアスを求める問題について考察する。 我々の主な結果は、関連する決定問題は$\exists\mathbb{R}$-complete、すなわち、整数係数を持つ多変量多項式が実根を持つかどうかを決定する多項式時間である。 さらに、任意のデータポイントが有理である場合でも、いくつかのインスタンスを最適に訓練できるウェイトとして、任意の大きな代数的数の代数的数が必要であることを証明している。 この結果は、ReLUニューロンの2つの入力、2つの出力と1つの隠れた層を持つ完全に接続されたインスタンスに適用できる。 これにより、Abrahamsen, Kleist and Miltzow [NeurIPS 2021]による結果が強化される。 その結果、Arora, Basu, Mianjy, Mukherjee (ICLR 2018) のような組合せ探索アルゴリズムは、$\mathsf{NP}=\exists\mathbb{R}$でない限り、複数の出力次元を持つネットワークでは不可能である。

We consider the problem of finding weights and biases for a two-layer fully connected neural network to fit a given set of data points as well as possible, also known as EmpiricalRiskMinimization. Our main result is that the associated decision problem is $\exists\mathbb{R}$-complete, that is, polynomial-time equivalent to determining whether a multivariate polynomial with integer coefficients has any real roots. Furthermore, we prove that algebraic numbers of arbitrarily large degree are required as weights to be able to train some instances to optimality, even if all data points are rational. Our result already applies to fully connected instances with two inputs, two outputs, and one hidden layer of ReLU neurons. Thereby, we strengthen a result by Abrahamsen, Kleist and Miltzow [NeurIPS 2021]. A consequence of this is that a combinatorial search algorithm like the one by Arora, Basu, Mianjy and Mukherjee [ICLR 2018] is impossible for networks with more than one output dimension, unless $\mathsf{NP}=\exists\mathbb{R}$.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-22
# Merlin-Arthur分類器による解釈可能性保証

Interpretability Guarantees with Merlin-Arthur Classifiers ( http://arxiv.org/abs/2206.00759v3 )

ライセンス: Link先を確認
Stephan Wäldchen, Kartikey Sharma, Berkant Turan, Max Zimmer, Sebastian Pokutta, (参考訳) 本稿では,ニューラルネットワークのような複雑なエージェントに対しても,証明可能な解釈可能性保証を提供する対話型マルチエージェント分類器を提案する。 これらの保証は、選択された特徴と分類決定の間の相互情報の下位境界から構成される。 この結果は、Interactive Proof SystemsのMerlin-Arthurプロトコルにインスパイアされ、音響性や完全性といった測定可能な指標でこれらの境界を表現する。 既存のインタラクティブな設定と比較して、最適なエージェントにも、特徴が独立して分散されているという仮定にも依存しません。 代わりに、エージェントの相対強度と非対称特徴相関という新しい概念を用いて、解釈可能性の保証を困難にする正確な種類の相関をキャプチャする。 我々は,高い相互情報を明確に検証できる2つの小規模データセットについて,その評価を行った。

We propose an interactive multi-agent classifier that provides provable interpretability guarantees even for complex agents such as neural networks. These guarantees consist of lower bounds on the mutual information between selected features and the classification decision. Our results are inspired by the Merlin-Arthur protocol from Interactive Proof Systems and express these bounds in terms of measurable metrics such as soundness and completeness. Compared to existing interactive setups, we rely neither on optimal agents nor on the assumption that features are distributed independently. Instead, we use the relative strength of the agents as well as the new concept of Asymmetric Feature Correlation which captures the precise kind of correlations that make interpretability guarantees difficult. We evaluate our results on two small-scale datasets where high mutual information can be verified explicitly.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-22
# 相互作用するボソンの有効光円錐とディジタル量子シミュレーション

Effective light cone and digital quantum simulation of interacting bosons ( http://arxiv.org/abs/2206.14736v3 )

ライセンス: Link先を確認
Tomotaka Kuwahara, Tan Van Vu, Keiji Saito, (参考訳) 情報伝播の速度制限は、非平衡物理学における最も基本的な特徴の1つである。 有限時間力学による情報伝達領域は、リーブ・ロビンソン境界によって定式化された有効光円錐の内部にほぼ制限されている。 これまで、多くの実験的な多体系において、有効光円錐の形状を特定するために広範な研究がなされてきた。 しかし、相互作用するボソン系(自然界で最もユビキタスな量子系の一つ)のリーブ・ロビンソンは、長い間、重要なオープン問題のままである。 本研究は,有効光円錐の形状が空間的寸法に依存するボソン間相互作用における情報伝搬を制限するために,強い有効光円錐を明らかにした。 これを実現するために, ボソンの連立速度が有限であることを証明し, 各地点におけるボソン数トランケーションの誤差を保証した。 さらに,本手法を適用し,相互作用するボソン系をシミュレーションする効率の良いアルゴリズムを提案する。 本研究の結果は, 難解な問題を解決し, 多体ボソンシステムの複雑さを解明するための基礎となるものである。

The speed limit of information propagation is one of the most fundamental features in non-equilibrium physics. The region of information propagation by finite-time dynamics is approximately restricted inside the effective light cone that is formulated by the Lieb-Robinson bound. To date, extensive studies have been conducted to identify the shape of effective light cones in most experimentally relevant many-body systems. However, the Lieb-Robinson bound in the interacting boson systems, one of the most ubiquitous quantum systems in nature, has remained a critical open problem for a long time. This study reveals a tight effective light cone to limit the information propagation in interacting bosons, where the shape of the effective light cone depends on the spatial dimension. To achieve it, we prove that the speed for bosons to clump together is finite, which in turn leads to the error guarantee of the boson number truncation at each site. Furthermore, we applied the method to provide a provably efficient algorithm for simulating the interacting boson systems. The results of this study settle the notoriously challenging problem and provide the foundation for elucidating the complexity of many-body boson systems.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-22
# EC-NAS:ニューラルネットワーク検索のためのタブラルベンチマークを意識したエネルギー消費

EC-NAS: Energy Consumption Aware Tabular Benchmarks for Neural Architecture Search ( http://arxiv.org/abs/2210.06015v4 )

ライセンス: Link先を確認
Pedram Bakhtiarifard, Christian Igel, Raghavendra Selvan, (参考訳) ディープラーニングモデルの選択、トレーニング、デプロイによるエネルギー消費は、最近大幅に増加しています。 本研究の目的は、計算資源の少ないエネルギー効率の深いディープラーニングモデルの設計を容易にし、エネルギー消費に着目して環境保全性を優先することである。 ニューラルネットワークサーチ(NAS)は、事前計算されたパフォーマンス統計によってNAS戦略を費用対効果で評価する表型ベンチマークの恩恵を受ける。 我々はNASのさらなる性能基準としてエネルギー効率を含めることを提唱する。 この目的のために,様々なアーキテクチャのエネルギー消費に関するデータを含む拡張表型ベンチマークを導入する。 EC-NASと命名されたこのベンチマークは、エネルギーを意識したNASの研究を進めるために、オープンソース形式で公開されている。 EC-NASは、サロゲートモデルを用いてエネルギー消費を予測し、データセット作成のエネルギー消費を減少させる。 本研究は,多目的最適化アルゴリズムを活用することでEC-NASの可能性を強調し,エネルギー使用量と精度のバランスを明らかにする。 このことは、パフォーマンスにほとんど、あるいは全く妥協のないエネルギリーンアーキテクチャを識別できる可能性を示唆している。

Energy consumption from the selection, training, and deployment of deep learning models has seen a significant uptick recently. This work aims to facilitate the design of energy-efficient deep learning models that require less computational resources and prioritize environmental sustainability by focusing on the energy consumption. Neural architecture search (NAS) benefits from tabular benchmarks, which evaluate NAS strategies cost-effectively through precomputed performance statistics. We advocate for including energy efficiency as an additional performance criterion in NAS. To this end, we introduce an enhanced tabular benchmark encompassing data on energy consumption for varied architectures. The benchmark, designated as EC-NAS, has been made available in an open-source format to advance research in energy-conscious NAS. EC-NAS incorporates a surrogate model to predict energy consumption, aiding in diminishing the energy expenditure of the dataset creation. Our findings emphasize the potential of EC-NAS by leveraging multi-objective optimization algorithms, revealing a balance between energy usage and accuracy. This suggests the feasibility of identifying energy-lean architectures with little or no compromise in performance.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-22
# 量子双局所シナリオのための2つの収束NPA様階層

Two convergent NPA-like hierarchies for the quantum bilocal scenario ( http://arxiv.org/abs/2210.09065v4 )

ライセンス: Link先を確認
Marc-Olivier Renou, Xiangling Xu, Laurens T. Ligthart, (参考訳) 結合量子系の単一部分の局所的な測定から生じる相関を特徴づけることは、量子情報理論の主要な問題の一つである。 The seminal work [M。 NPA階層として知られるNavascu\'es et al, NJP 10,7,073013 (2008)]は、この問題を非可換変数に対する多項式最適化問題として再定義し、必要条件の収束階層を提案した。 最近では、ネットワークに分散した複数の独立量子系を局所的に測定する場合に生じる量子ネットワーク相関を特徴づけるという問題に大きな関心が寄せられている。 Scalar拡張(Pozas-Kerstjens et al, Phys. Rev. 123, 140503 (2019))のようなNPA階層のいくつかの一般化が導入された。 本研究では,新しい階層を導入し,Scalar拡張の等価性を証明し,最も単純なネットワークやローカルシナリオの場合の収束性を特徴付けるとともに,既知の一般化との関係を探求する。

Characterising the correlations that arise from locally measuring a single part of a joint quantum system is one of the main problems of quantum information theory. The seminal work [M. Navascu\'es et al, NJP 10,7,073013 (2008)], known as the NPA hierarchy, reformulated this question as a polynomial optimisation problem over noncommutative variables and proposed a convergent hierarchy of necessary conditions, each testable using semidefinite programming. More recently, the problem of characterising the quantum network correlations, which arise when locally measuring several independent quantum systems distributed in a network, has received considerable interest. Several generalisations of the NPA hierarchy, such as the Scalar Extension [Pozas-Kerstjens et al, Phys. Rev. Lett. 123, 140503 (2019)], were introduced while their converging sets remain unknown. In this work, we introduce a new hierarchy, prove its equivalence to the Scalar Extension, and characterise its convergence in the case of the simplest network, the bilocal scenario, and explore its relations with the known generalisations.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-22
# 線形量子系のコヒーレント等化

Coherent Equalization of Linear Quantum Systems ( http://arxiv.org/abs/2211.06003v2 )

ライセンス: Link先を確認
V. Ugrinovskii, M. R. James, (参考訳) 本稿では、量子通信路の劣化効果を軽減するために、受動線形量子系の等化のためのコヒーレントフィルタの$H_\infty$-like手法を提案する。 広い範囲の線形量子光学デバイスや信号を含むそのようなシステムに対しては、受動的量子系であるほぼ最適な等化フィルタを求める。 この問題は、等化器が物理的に実現可能であるという要件によって規定される制約により、最適化問題を解くことにある。 これらの制約を周波数領域で定式化することにより、問題は凸$H_\infty$-likeの定式化を許容することを示す。 これにより、$J$-スペクトル分解を用いて準最適コヒーレント等化器の集合を導出できる。 ネバンリンナ・ピック補間と組み合わされた半有限緩和により、ほぼ最適コヒーレント等化器の設計のためのトラクタブルアルゴリズムが導かれる。

This paper introduces a $H_\infty$-like methodology of coherent filtering for equalization of passive linear quantum systems to help mitigate degrading effects of quantum communication channels. For such systems, which include a wide range of linear quantum optical devices and signals, we seek to find a near optimal equalizing filter which is itself a passive quantum system. The problem amounts to solving an optimization problem subject to constraints dictated by the requirement for the equalizer to be physically realizable. By formulating these constraints in the frequency domain, we show that the problem admits a convex $H_\infty$-like formulation. This allows us to derive a set of suboptimal coherent equalizers using $J$-spectral factorization. An additional semidefinite relaxation combined with the Nevanlinna-Pick interpolation is shown to lead to a tractable algorithm for the design of a near optimal coherent equalizer.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-22
# 投機応答モデルによる意思決定

Decision-making with Speculative Opponent Models ( http://arxiv.org/abs/2211.11940v3 )

ライセンス: Link先を確認
Jing Sun, Shuo Chen, Cong Zhang, Yining Ma, Jie Zhang, (参考訳) 対向的モデリングは、対立するエージェントのモデルを構築することにより、制御されたエージェントの意思決定を強化するのに有効であることが証明されている。 しかし、既存の手法は、しばしば相手の観察や行動へのアクセスに依存しており、そのような情報が観測不能であるか入手が困難である場合、その要件は実現不可能である。 この問題に対処するため,本研究では,ローカル情報のみに依存する最初の投機的相手モデリングアルゴリズムである分散型対戦型マルチエージェント・アクタ・クリティカル(DOMAC)を導入する。 具体的には、ローカル情報のみを用いて相手の行動を予測する調整された投機的相手モデルを用いて、相手に対する憶測的な信念を維持する。 さらに、DOMACは、アクターのポリシーの戻り分布を推定し、アクターの質をよりきめ細かく評価する分布批評家モデルを特徴としている。 これにより、アクターが依存する投機的相手モデルのトレーニングをより効果的に導くことができる。 さらに,提案モデルを用いた政策勾配定理を公式に導出する。 MPE, Pommerman, StarCraft Multiagent Challenge (SMAC) 内の8つの異なるマルチエージェントベンチマークタスクによる大規模な実験は、DOMACが敵の動作をモデル化し、より高速な収束速度で最先端の手法に対して優れたパフォーマンスを提供することを示す。

Opponent modelling has proven effective in enhancing the decision-making of the controlled agent by constructing models of opponent agents. However, existing methods often rely on access to the observations and actions of opponents, a requirement that is infeasible when such information is either unobservable or challenging to obtain. To address this issue, we introduce Distributional Opponent-aided Multi-agent Actor-Critic (DOMAC), the first speculative opponent modelling algorithm that relies solely on local information (i.e., the controlled agent's observations, actions, and rewards). Specifically, the actor maintains a speculated belief about the opponents using the tailored speculative opponent models that predict the opponents' actions using only local information. Moreover, DOMAC features distributional critic models that estimate the return distribution of the actor's policy, yielding a more fine-grained assessment of the actor's quality. This thus more effectively guides the training of the speculative opponent models that the actor depends upon. Furthermore, we formally derive a policy gradient theorem with the proposed opponent models. Extensive experiments under eight different challenging multi-agent benchmark tasks within the MPE, Pommerman and StarCraft Multiagent Challenge (SMAC) demonstrate that our DOMAC successfully models opponents' behaviours and delivers superior performance against state-of-the-art methods with a faster convergence speed.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-22
# CBNet: セグメンテーションに基づくシーンテキスト検出のためのプラグイン・アンド・プレイネットワーク

CBNet: A Plug-and-Play Network for Segmentation-Based Scene Text Detection ( http://arxiv.org/abs/2212.02340v4 )

ライセンス: Link先を確認
Xi Zhao, Wei Feng, Zheng Zhang, Jingjing Lv, Xin Zhu, Zhangang Lin, Jinghe Hu, Jingping Shao, (参考訳) 近年,シーンテキスト検出では,主にテキストカーネルのセグメンテーションと拡張の2段階を含むセグメンテーションベースの手法が広く普及している。 しかし、分割処理は各画素を独立に考慮し、拡張処理は良好な精度と速度のトレードオフを達成するのが困難である。 本稿では,これらの問題に対処するためのコンテキスト認識および境界誘導ネットワーク(CBN)を提案する。 CBNでは、最初のセグメンテーション結果を予測するために、まず基本的なテキスト検出器が使用される。 そこで本稿では,グローバルなコンテキストとローカルなコンテキストの両方を考慮し,テキストカーネルの特徴表現を強化するコンテキスト認識モジュールを提案する。 最後に,輪郭上の画素のみに適応的に拡張されたテキストカーネルを拡張可能な境界誘導モジュールを導入し,テキスト境界を正確に取得するだけでなく,特に高解像度の出力マップ上で高速に保持する。 特に、軽量なバックボーンを用いて、提案したCBNを用いた基本検出器は、いくつかの一般的なベンチマークで最先端の結果を得ることができ、提案したCBNは、いくつかのセグメンテーションベースの方法にプラグインすることができる。 コードはhttps://github.com/XiiZhao/cbn.pytorch.comで入手できる。

Recently, segmentation-based methods are quite popular in scene text detection, which mainly contain two steps: text kernel segmentation and expansion. However, the segmentation process only considers each pixel independently, and the expansion process is difficult to achieve a favorable accuracy-speed trade-off. In this paper, we propose a Context-aware and Boundary-guided Network (CBN) to tackle these problems. In CBN, a basic text detector is firstly used to predict initial segmentation results. Then, we propose a context-aware module to enhance text kernel feature representations, which considers both global and local contexts. Finally, we introduce a boundary-guided module to expand enhanced text kernels adaptively with only the pixels on the contours, which not only obtains accurate text boundaries but also keeps high speed, especially on high-resolution output maps. In particular, with a lightweight backbone, the basic detector equipped with our proposed CBN achieves state-of-the-art results on several popular benchmarks, and our proposed CBN can be plugged into several segmentation-based methods. Code is available at https://github.com/XiiZhao/cbn.pytorch.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-22
# プライベート、匿名、コラテラライズ可能なコミット対MEV

Private, Anonymous, Collateralizable Commitments vs. MEV ( http://arxiv.org/abs/2301.12818v2 )

ライセンス: Link先を確認
Conor McMenamin, Vanesa Daza, Xavier Salleras, (参考訳) 本稿では,PACC(private, anonymous, collateralizable commitments)フレームワークを紹介する。 PACCは、任意のスマートコントラクトウォレット所有者が、クレーム、要求、あるいはコミットメントを、プライベートで匿名の方法で担保することを可能にする。 PACCは、ウォレットがコミットメントを生成すること、および/またはコミットされているトランザクションについて、任意に、あるいはほとんど証明できない。 本研究では,現在発生しているDeFiの最大抽出可能値(MEV)を効果的に除去するためにPACCを適用し,検閲に代えてMEVを移行できることを実証する。 プロトコルの詳細を説明した後、Ethereumブロックチェーンを使用した実装を提供し、そのベンチマークによってPACCが完全に実現可能であることを証明します。

In this work, we introduce the private, anonymous, collateralizable commitments (PACCs) framework. PACCs allow any smart contract wallet holder to collateralize a claim, request, or commitment in general, in a private and anonymous manner. PACCs can prove arbitrarily much or little about the wallet generating the commitment, and/or the transaction which is being committed. We demonstrate that PACCs can be applied to effectively eliminate maximal-extractable value (MEV) in DeFi where it currently occurs, shifting MEV instead to censorship. After describing our protocol with detail, we provide an implementation using the Ethereum blockchain, and whose benchmarks prove how PACCs are completely feasible.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-22
# トップダウンフィードバックを用いたフォワード学習:実証的・解析的評価

Forward Learning with Top-Down Feedback: Empirical and Analytical Characterization ( http://arxiv.org/abs/2302.05440v2 )

ライセンス: Link先を確認
Ravi Srinivasan, Francesca Mignacco, Martino Sorbaro, Maria Refinetti, Avi Cooper, Gabriel Kreiman, Giorgia Dellaferrera, (参考訳) 後進パスを避けながらニューラルネットワークを訓練する「前方専用」アルゴリズムは、最近、生物学的に非現実的なバックプロパゲーションの問題を解決する方法として注目されている。 ここでは、バックプロパゲーションによるパフォーマンスギャップを減らし、それらのダイナミクスを解析的に理解するなど、"フォワードオンリー"なルールに関連する魅力的な課題に対処する。 この結果から,トップダウンフィードバックを用いたフォワードオンリーアルゴリズムは「適応フィードバックアライメント」アルゴリズムによってよく近似され,プロトタイプ高次元環境下での学習時の性能を解析的に追跡することを示した。 次に、フォワード・フォワードおよびPEPITAフレームワークに着目して、フォワード専用アルゴリズムの異なるバージョンを比較し、それらが同じ学習原理を共有することを示す。 全体として、我々の研究は、前向きのみのアルゴリズム(フォワードフォワードとPEPITA)と、フィードバックアライメント(フィードバックアライメント)の近似という3つの重要な学習ルールの関連を明らかにする。

"Forward-only" algorithms, which train neural networks while avoiding a backward pass, have recently gained attention as a way of solving the biologically unrealistic aspects of backpropagation. Here, we first address compelling challenges related to the "forward-only" rules, which include reducing the performance gap with backpropagation and providing an analytical understanding of their dynamics. To this end, we show that the forward-only algorithm with top-down feedback is well-approximated by an "adaptive-feedback-alignment" algorithm, and we analytically track its performance during learning in a prototype high-dimensional setting. Then, we compare different versions of forward-only algorithms, focusing on the Forward-Forward and PEPITA frameworks, and we show that they share the same learning principles. Overall, our work unveils the connections between three key neuro-inspired learning rules, providing a link between "forward-only" algorithms, i.e., Forward-Forward and PEPITA, and an approximation of backpropagation, i.e., Feedback Alignment.
翻訳日:2024-03-26 00:08:10 公開日:2024-03-22
# 強化学習のためのプロトタイプを用いたクロスドメインランダム事前学習

Cross-domain Random Pre-training with Prototypes for Reinforcement Learning ( http://arxiv.org/abs/2302.05614v3 )

ライセンス: Link先を確認
Xin Liu, Yaran Chen, Haoran Li, Boyu Li, Dongbin Zhao, (参考訳) この研究はIEEEに提出された。 著作権は無通知で転送され、その後、このバージョンはアクセスできなくなる。 教師なしのクロスドメイン強化学習(RL)事前学習は、継続的な視覚的制御に挑戦する大きな可能性を示すが、大きな課題となる。 本稿では,新しい,効率的かつ効果的な自己管理型クロスドメインRL事前学習フレームワークである \textbf{C}ross- domain \textbf{R}andom \textbf{P}re-\textbf{T}raining with \textbf{pro}totypes (CRPTpro)を提案する。 CRPTproは、エンコーダ事前トレーニングからデータサンプリングを分離し、分離したランダムコレクションを提案して、適格なクロスドメイン事前トレーニングデータセットを容易かつ迅速に生成する。 さらに、異なる領域にまたがる汎用的な効果的なビジュアルエンコーダを事前学習するために、新しいプロトタイプ自己教師アルゴリズムを提案する。 微調整なしでは、クロスドメインエンコーダは異なるドメインで定義されたダウンストリームタスクに挑戦するために実装できる。 近年の先進的な手法と比較して、CRPTproはデータ収集のための探索エージェントに余分な訓練を加えることなく、下流政策学習の性能を向上し、事前学習の負担を大幅に軽減する。 我々は、バランス制御、ロボットの移動、操作を含む8つの挑戦的な視覚制御領域にわたる広範な実験を行う。 CRPTproは、11/12のクロスドメインタスクにおいて、54\%のウォールタイム事前トレーニング時間で、次の最高のProto-RL(C)を著しく上回り、最先端の事前トレーニング性能を示し、事前トレーニング効率を大幅に改善した。 完全なコードはhttps://github.com/liuxin0824/CRPTproで入手できる。

This work has been submitted to the IEEE for possible publication. Copyright may be transferred without notice, after which this version may no longer be accessible. Unsupervised cross-domain Reinforcement Learning (RL) pre-training shows great potential for challenging continuous visual control but poses a big challenge. In this paper, we propose \textbf{C}ross-domain \textbf{R}andom \textbf{P}re-\textbf{T}raining with \textbf{pro}totypes (CRPTpro), a novel, efficient, and effective self-supervised cross-domain RL pre-training framework. CRPTpro decouples data sampling from encoder pre-training, proposing decoupled random collection to easily and quickly generate a qualified cross-domain pre-training dataset. Moreover, a novel prototypical self-supervised algorithm is proposed to pre-train an effective visual encoder that is generic across different domains. Without finetuning, the cross-domain encoder can be implemented for challenging downstream tasks defined in different domains, either seen or unseen. Compared with recent advanced methods, CRPTpro achieves better performance on downstream policy learning without extra training on exploration agents for data collection, greatly reducing the burden of pre-training. We conduct extensive experiments across eight challenging continuous visual-control domains, including balance control, robot locomotion, and manipulation. CRPTpro significantly outperforms the next best Proto-RL(C) on 11/12 cross-domain downstream tasks with only 54\% wall-clock pre-training time, exhibiting state-of-the-art pre-training performance with greatly improved pre-training efficiency. The complete code is available at https://github.com/liuxin0824/CRPTpro.
翻訳日:2024-03-25 23:58:25 公開日:2024-03-22
# 光子凝縮, ファン・ヴレック常磁性, キラル空洞

Photon condensation, Van Vleck paramagnetism, and chiral cavities ( http://arxiv.org/abs/2302.09964v3 )

ライセンス: Link先を確認
Alberto Mercurio, Gian Marcello Andolina, Francesco M. D. Pellegrino, Omar Di Stefano, Pablo Jarillo-Herrero, Claudia Felser, Frank H. L. Koppens, Salvatore Savasta, Marco Polini, (参考訳) 本稿では,空間的に変化する空間共振器電磁ベクトルポテンシャルA(r)に結合した平面二乗分子のゲージ不変モデルを提案する。 具体的には、一様磁場Bを包含する時間的キラルキャビティを選択する。これは、横方向空間変化A(r)がプレーする最も単純な例である。 分子がVan Vleck常磁性状態にある場合、光子凝縮状態への平衡量子相転移が起こる。

We introduce a gauge-invariant model of planar, square molecules coupled to a quantized spatially-varying cavity electromagnetic vector potential A(r). Specifically, we choose a temporally chiral cavity hosting a uniform magnetic field B, as this is the simplest instance in which a transverse spatially-varying A(r) is at play. We show that when the molecules are in the Van Vleck paramagnetic regime, an equilibrium quantum phase transition to a photon condensate state occurs.
翻訳日:2024-03-25 23:58:25 公開日:2024-03-22
# 正しいXAI手法の発見 -気候科学における説明可能なAI手法の評価とランク付けのためのガイド-

Finding the right XAI method -- A Guide for the Evaluation and Ranking of Explainable AI Methods in Climate Science ( http://arxiv.org/abs/2303.00652v2 )

ライセンス: Link先を確認
Philine Bommer, Marlene Kretschmer, Anna Hedström, Dilyara Bareeva, Marina M. -C. Höhne, (参考訳) 説明可能な人工知能(XAI)手法は、機械学習アルゴリズムの予測に光を当てる。 いくつかの異なるアプローチがあり、すでに気候科学に応用されている。 しかし、一般的には、その評価と比較を複雑にし、XAI法の選択を妨げている。 そこで本研究では,XAI評価を気候の文脈で導入し,ロバスト性,忠実性,ランダム化,複雑性,局所性といった,さまざまな望ましい説明特性について論じる。 そこで我々は,年平均気温マップの10年を予測したケーススタディとして,過去の研究を選択した。 多層パーセプトロン(MLP)と畳み込みニューラルネットワーク(CNN)の両方を訓練した後、複数のXAI法を適用し、ランダムな一様説明に関するスキルスコアを各特性について算出する。 ネットワークとは無関係に,XAI手法は階層関係の伝播,入力時間勾配が乱数化性能を犠牲にしつつ,頑健性,忠実性,複雑度を示すことがわかった。 グラデーション、SmoothGrad、NossGrad、FusionGradといった感度手法は頑丈さのスキルにマッチするが、ランダム化スキルに対する忠実さと複雑さを犠牲にする。 我々は,XAI手法のロバスト性,複雑性,ローカライズスキルに関するアーキテクチャに依存した性能差を見出し,課題固有の評価の必要性を強調した。 本研究は、気候科学の文脈における異なる評価特性について概説し、異なる説明法を比較してベンチマークする方法を示し、その強度と弱点に基づいて、目前にある特定の研究課題に対する適合性を評価する。 そこで我々は,適切なXAI手法の選択において,気候研究者を支援することを目的とする。

Explainable artificial intelligence (XAI) methods shed light on the predictions of machine learning algorithms. Several different approaches exist and have already been applied in climate science. However, usually missing ground truth explanations complicate their evaluation and comparison, subsequently impeding the choice of the XAI method. Therefore, in this work, we introduce XAI evaluation in the climate context and discuss different desired explanation properties, namely robustness, faithfulness, randomization, complexity, and localization. To this end, we chose previous work as a case study where the decade of annual-mean temperature maps is predicted. After training both a multi-layer perceptron (MLP) and a convolutional neural network (CNN), multiple XAI methods are applied and their skill scores in reference to a random uniform explanation are calculated for each property. Independent of the network, we find that XAI methods Integrated Gradients, layer-wise relevance propagation, and input times gradients exhibit considerable robustness, faithfulness, and complexity while sacrificing randomization performance. Sensitivity methods -- gradient, SmoothGrad, NoiseGrad, and FusionGrad, match the robustness skill but sacrifice faithfulness and complexity for randomization skill. We find architecture-dependent performance differences regarding robustness, complexity and localization skills of different XAI methods, highlighting the necessity for research task-specific evaluation. Overall, our work offers an overview of different evaluation properties in the climate science context and shows how to compare and benchmark different explanation methods, assessing their suitability based on strengths and weaknesses, for the specific research problem at hand. By that, we aim to support climate researchers in the selection of a suitable XAI method.
翻訳日:2024-03-25 23:58:25 公開日:2024-03-22
# KGLiDS: データサイエンスのセマンティック抽象化、リンク、自動化のためのプラットフォーム

KGLiDS: A Platform for Semantic Abstraction, Linking, and Automation of Data Science ( http://arxiv.org/abs/2303.02204v3 )

ライセンス: Link先を確認
Mossad Helali, Niki Monjazeb, Shubham Vashisth, Philippe Carrier, Ahmed Helal, Antonio Cavalcante, Khaled Ammar, Katja Hose, Essam Mansour, (参考訳) 近年,大量のデータ分析にデータサイエンス技術を適用することへの学界や業界からの関心が高まっているのを目の当たりにしている。 このプロセスでは、無数のアーティファクト(データセット、パイプラインスクリプトなど)が生成される。 しかし、これらのアーティファクトに暗黙的に含まれているすべての知識や経験を体系的に収集・活用する試みは行われていない。 代わりに、データサイエンティストは同僚の情報や専門知識を回復するか、試行錯誤を通じて学習する。 そこで本稿では、機械学習と知識グラフ技術を用いて、データサイエンスアーティファクトのセマンティクスとその関連性を抽象化し、キャプチャするスケーラブルなプラットフォームKGLiDSを提案する。 この情報に基づいて、KGLiDSはデータディスカバリやパイプライン自動化など、さまざまなダウンストリームアプリケーションを可能にする。 包括的な評価では、データディスカバリ、データのクリーニング、変換、AutoMLのユースケースについて取り上げています。 KGLiDSは、最先端のシステムよりもメモリフットプリントが低く、同等またはより良い精度を実現していることを示す。

In recent years, we have witnessed the growing interest from academia and industry in applying data science technologies to analyze large amounts of data. In this process, a myriad of artifacts (datasets, pipeline scripts, etc.) are created. However, there has been no systematic attempt to holistically collect and exploit all the knowledge and experiences that are implicitly contained in those artifacts. Instead, data scientists recover information and expertise from colleagues or learn via trial and error. Hence, this paper presents a scalable platform, KGLiDS, that employs machine learning and knowledge graph technologies to abstract and capture the semantics of data science artifacts and their connections. Based on this information, KGLiDS enables various downstream applications, such as data discovery and pipeline automation. Our comprehensive evaluation covers use cases in data discovery, data cleaning, transformation, and AutoML. It shows that KGLiDS is significantly faster with a lower memory footprint than the state-of-the-art systems while achieving comparable or better accuracy.
翻訳日:2024-03-25 23:58:25 公開日:2024-03-22
# 浮遊型ナノメカニカル発振器の超高品質化

Ultra-high quality factor of a levitated nanomechanical oscillator ( http://arxiv.org/abs/2304.02408v2 )

ライセンス: Link先を確認
Lorenzo Dania, Dmitry S. Bykov, Florian Goschin, Markus Teller, Abderrahmane Kassid, Tracy E. Northup, (参考訳) 超高真空(UHV)下での浮遊ナノメカニカル発振器はその環境から高度に分離される。 この分離は、非常に低い機械的散逸率をもたらすと予測されている。 しかし、予測と実験データの間にはギャップが持続する。 ここでは, 線形ポールトラップ内のシリカナノ粒子を, 室温で, 圧力7\times10^{-11}$ mbarで浮遊させる。 我々は,従来示されていたよりも2桁以上高い10〜10ドルを超える品質係数に対応する2.pi\times69(22)$nHzの散逸率を測定した。 粒子の減衰と加熱速度の圧力依存性の研究は、関連する散逸機構に関する洞察を与える。

A levitated nanomechanical oscillator under ultra-high vacuum (UHV) is highly isolated from its environment. It has been predicted that this isolation leads to very low mechanical dissipation rates. However, a gap persists between predictions and experimental data. Here, we levitate a silica nanoparticle in a linear Paul trap at room temperature, at pressures as low as $7\times10^{-11}$ mbar. We measure a dissipation rate of $2\pi\times69(22)$ nHz, corresponding to a quality factor exceeding $10^{10}$, more than two orders of magnitude higher than previously shown. A study of the pressure dependence of the particle's damping and heating rates provides insight into the relevant dissipation mechanisms.
翻訳日:2024-03-25 23:58:25 公開日:2024-03-22
# マルチモーダルな3次元物体追跡を実現するには2つの検出器が必要だ

You Only Need Two Detectors to Achieve Multi-Modal 3D Multi-Object Tracking ( http://arxiv.org/abs/2304.08709v2 )

ライセンス: Link先を確認
Xiyang Wang, Chunyun Fu, Jiawei He, Mingguang Huang, Ting Meng, Siyu Zhang, Hangning Zhou, Ziyao Xu, Chi Zhang, (参考訳) 古典的トラッキング・バイ・検出(TBD)パラダイムでは、検出と追跡を別々に順次行い、データアソシエーションを適切に行い、良好な追跡性能を達成する必要がある。 本稿では,オブジェクト検出とマルチオブジェクト追跡を1つのモデルに統合した,新しいエンドツーエンドマルチオブジェクト追跡フレームワークを提案する。 提案するトラッキングフレームワークは,従来のTBDパラダイムの複雑なデータアソシエーションプロセスを排除し,追加のトレーニングを必要としない。 次に、過去の軌跡の回帰信頼度を調査し、現在のフレームにおける軌跡(弱い物体または強い物体)の可能な状態を予測する。 次に、信頼融合モジュールは、トラジェクトリと検出の非最大抑制を誘導し、秩序的でロバストな追跡を実現するように設計されている。 第三に、歴史的軌道特徴を統合することにより、検出器の回帰性能が向上し、現実世界の物体の閉塞や消失パターンをよりよく反映する。 最後に、一般的に使われているKITTIとWaymoのデータセットについて広範な実験を行う。 提案手法は,2次元検出器と3次元検出器のみを用いることでロバストなトラッキングが可能であり,最先端のTBDベースのマルチモーダルトラッキング手法よりも精度が高いことを示す。 提案手法のソースコードはhttps://github.com/wangxiyang2022/YONTD-MOTで公開されている。

In the classical tracking-by-detection (TBD) paradigm, detection and tracking are separately and sequentially conducted, and data association must be properly performed to achieve satisfactory tracking performance. In this paper, a new end-to-end multi-object tracking framework is proposed, which integrates object detection and multi-object tracking into a single model. The proposed tracking framework eliminates the complex data association process in the classical TBD paradigm, and requires no additional training. Secondly, the regression confidence of historical trajectories is investigated, and the possible states of a trajectory (weak object or strong object) in the current frame are predicted. Then, a confidence fusion module is designed to guide non-maximum suppression for trajectories and detections to achieve ordered and robust tracking. Thirdly, by integrating historical trajectory features, the regression performance of the detector is enhanced, which better reflects the occlusion and disappearance patterns of objects in real world. Lastly, extensive experiments are conducted on the commonly used KITTI and Waymo datasets. The results show that the proposed framework can achieve robust tracking by using only a 2D detector and a 3D detector, and it is proven more accurate than many of the state-of-the-art TBD-based multi-modal tracking methods. The source codes of the proposed method are available at https://github.com/wangxiyang2022/YONTD-MOT.
翻訳日:2024-03-25 23:58:25 公開日:2024-03-22
# イベントベースの同時ローカライゼーションとマッピング:包括的調査

Event-based Simultaneous Localization and Mapping: A Comprehensive Survey ( http://arxiv.org/abs/2304.09793v2 )

ライセンス: Link先を確認
Kunping Huang, Sen Zhang, Jing Zhang, Dacheng Tao, (参考訳) 近年,視覚的同時ローカライゼーションとマッピング (vSLAM) が学術と産業の両方において大きな関心を集めている。 カメラの動きを推定し、移動ロボットの視覚センサーを用いて環境を同時に再構築する。 しかし、従来のカメラは動きのぼやけや低ダイナミックレンジを含むハードウェアによって制限されており、高速モーションや高ダイナミックレンジ照明といった難易度シナリオでは性能に悪影響を及ぼす可能性がある。 近年の研究では、バイオインスパイアされた新しいタイプの視覚センサーであるイベントカメラが、高時間分解能、ダイナミックレンジ、低消費電力、低レイテンシといった利点を提供していることが示されている。 本稿では、非同期および不規則なイベントストリームによるローカライズおよびマッピングタスクの利点を利用するイベントベースvSLAMアルゴリズムの、タイムリーかつ包括的なレビューを行う。 このレビューでは、イベントカメラの動作原理と、イベントデータを前処理するための様々なイベント表現について紹介する。 また、イベントベースのvSLAMメソッドを、機能ベース、ダイレクト、モーション補償、ディープラーニングの4つのカテゴリに分類し、それぞれのアプローチに関する詳細な議論と実践的なガイダンスを提供する。 さらに,本研究領域における現状の課題と今後の可能性を明らかにするため,様々なベンチマークにおける最先端手法の評価を行った。 パブリックリポジトリは、この分野の急速な発展を追跡するために、.url{https://github.com/kun150kun/ESLAM-survey}}で維持される。

In recent decades, visual simultaneous localization and mapping (vSLAM) has gained significant interest in both academia and industry. It estimates camera motion and reconstructs the environment concurrently using visual sensors on a moving robot. However, conventional cameras are limited by hardware, including motion blur and low dynamic range, which can negatively impact performance in challenging scenarios like high-speed motion and high dynamic range illumination. Recent studies have demonstrated that event cameras, a new type of bio-inspired visual sensor, offer advantages such as high temporal resolution, dynamic range, low power consumption, and low latency. This paper presents a timely and comprehensive review of event-based vSLAM algorithms that exploit the benefits of asynchronous and irregular event streams for localization and mapping tasks. The review covers the working principle of event cameras and various event representations for preprocessing event data. It also categorizes event-based vSLAM methods into four main categories: feature-based, direct, motion-compensation, and deep learning methods, with detailed discussions and practical guidance for each approach. Furthermore, the paper evaluates the state-of-the-art methods on various benchmarks, highlighting current challenges and future opportunities in this emerging research area. A public repository will be maintained to keep track of the rapid developments in this field at {\url{https://github.com/kun150kun/ESLAM-survey}}.
翻訳日:2024-03-25 23:58:25 公開日:2024-03-22
# mPLUG-Owl:マルチモーダリティを持つ大規模言語モデルを実現するモジュール化

mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality ( http://arxiv.org/abs/2304.14178v2 )

ライセンス: Link先を確認
Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, Chenliang Li, Yuanhong Xu, Hehong Chen, Junfeng Tian, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou, (参考訳) 大規模言語モデル(LLM)は、様々なオープンエンドタスクにおいて印象的なゼロショット能力を示し、最近の研究では、マルチモーダル生成にLLMを使うことも検討されている。 本研究では,基礎LLMのモジュール化学習,視覚知識モジュール,視覚抽象モジュールなどを通じて,LLMにマルチモーダル能力を持たせる新しいトレーニングパラダイムであるmPLUG-Owlを紹介する。 このアプローチは、複数のモダリティをサポートし、モダリティの協調を通じて、多様なモダリティとマルチモーダルの能力を促進する。 mPLUG-Owlのトレーニングパラダイムには、画像とテキストの整列のための2段階の手法が含まれており、LLMの生成能力を維持し、改善しながら、LLMの助けを借りて視覚知識を学ぶ。 第1段階では、視覚知識モジュールと抽象モジュールが凍結LDMモジュールで訓練され、画像とテキストが整列される。 第2段階では、言語のみおよびマルチモーダル教師付きデータセットを使用して、視覚的知識モジュールを凍結することにより、LLMと抽象モジュールの低ランク適応(LoRA)モジュールを協調的に微調整する。 我々は、視覚関連命令評価セットOwlEvalを慎重に構築する。 実験の結果,本モデルは既存のマルチモーダルモデルよりも優れており,mPLUG-Owlの印象的な指導と視覚的理解能力,マルチターン会話能力,知識推論能力などが示された。 さらに,複数画像の相関やシーンテキストの理解など,予期せぬ,エキサイティングな能力が観察され,視覚のみの文書理解など,より複雑なシナリオに活用できるようになった。 我々のコード、事前訓練されたモデル、命令調整されたモデル、評価セットはhttps://github.com/X-PLUG/mPLUG-Owl.comで入手できる。 オンラインデモはhttps://www.modelscope.cn/studios/damo/mPLUG-Owl.comで公開されている。

Large language models (LLMs) have demonstrated impressive zero-shot abilities on a variety of open-ended tasks, while recent research has also explored the use of LLMs for multi-modal generation. In this study, we introduce mPLUG-Owl, a novel training paradigm that equips LLMs with multi-modal abilities through modularized learning of foundation LLM, a visual knowledge module, and a visual abstractor module. This approach can support multiple modalities and facilitate diverse unimodal and multimodal abilities through modality collaboration. The training paradigm of mPLUG-Owl involves a two-stage method for aligning image and text, which learns visual knowledge with the assistance of LLM while maintaining and even improving the generation abilities of LLM. In the first stage, the visual knowledge module and abstractor module are trained with a frozen LLM module to align the image and text. In the second stage, language-only and multi-modal supervised datasets are used to jointly fine-tune a low-rank adaption (LoRA) module on LLM and the abstractor module by freezing the visual knowledge module. We carefully build a visually-related instruction evaluation set OwlEval. Experimental results show that our model outperforms existing multi-modal models, demonstrating mPLUG-Owl's impressive instruction and visual understanding ability, multi-turn conversation ability, and knowledge reasoning ability. Besides, we observe some unexpected and exciting abilities such as multi-image correlation and scene text understanding, which makes it possible to leverage it for harder real scenarios, such as vision-only document comprehension. Our code, pre-trained model, instruction-tuned models, and evaluation set are available at https://github.com/X-PLUG/mPLUG-Owl. The online demo is available at https://www.modelscope.cn/studios/damo/mPLUG-Owl.
翻訳日:2024-03-25 23:58:25 公開日:2024-03-22
# 傾斜異方性ディラック材料の精密解析解のアルゴリズム

An algorithm for exact analytical solutions for tilted anisotropic Dirac materials ( http://arxiv.org/abs/2305.00913v2 )

ライセンス: Link先を確認
Julio A. Mojica-Zárate, Daniel O-Campa, Erik Díaz-Bautista, (参考訳) 本稿では, 傾斜異方性ディラック材料の束縛状態の正確な解を求める。 これらの材料の有効ハミルトニアンから生じる固有値方程式を解くために、スピノル成分に対して得られる微分方程式を分離するアルゴリズムを記述する。

In this article, we obtain the exact solutions for bound states of tilted anisotropic Dirac materials under the action of external electric and magnetic fields with translational symmetry. In order to solve the eigenvalue equation that arises from the effective Hamiltonian of these materials, we describe an algorithm that allow us to decouple the differential equations that are obtained for the spinor components.
翻訳日:2024-03-25 23:58:25 公開日:2024-03-22
# 未来を聴く:オーディオ・ビジュアル・エゴセントリック・ゲイズ予測

Listen to Look into the Future: Audio-Visual Egocentric Gaze Anticipation ( http://arxiv.org/abs/2305.03907v3 )

ライセンス: Link先を確認
Bolin Lai, Fiona Ryan, Wenqi Jia, Miao Liu, James M. Rehg, (参考訳) エゴセントリックな視線予測は、拡張現実(Augmented Reality)の出現する能力の鍵となるビルディングブロックとして機能する。 特に、視線行動は日々の活動中に視覚的手がかりと音声信号の両方によって駆動される。 この観察に感化され,エゴセントリックな視線予測にビデオとオーディオの両方のモダリティを利用する最初のモデルを導入する。 具体的には、空間的・時間的空間的相関を別々に捉えるために2つのモジュールを併用したContrastive Spatial-Temporal Separable (CSTS) fusionアプローチを提案する。 Ego4DとAriaという2つのエゴセントリックなビデオデータセットを用いて、広範囲にわたるアブレーション研究と徹底的な分析を行い、モデル設計を検証する。 オーディオは2つのデータセットで+2.5%と+2.4%の性能向上を示す。 また,従来の最先端手法を少なくとも +1.9% と +1.6% で上回っている。 さらに,視線予測結果の可視化や,音声・視覚的表現学習に関する洞察も提供する。 コードとデータの分割は、私たちのWebサイトで利用可能です(https://bolinlai.github.io/CSTS-EgoGazeAnticipation/)。

Egocentric gaze anticipation serves as a key building block for the emerging capability of Augmented Reality. Notably, gaze behavior is driven by both visual cues and audio signals during daily activities. Motivated by this observation, we introduce the first model that leverages both the video and audio modalities for egocentric gaze anticipation. Specifically, we propose a Contrastive Spatial-Temporal Separable (CSTS) fusion approach that adopts two modules to separately capture audio-visual correlations in spatial and temporal dimensions, and applies a contrastive loss on the re-weighted audio-visual features from fusion modules for representation learning. We conduct extensive ablation studies and thorough analysis using two egocentric video datasets: Ego4D and Aria, to validate our model design. We demonstrate the audio improves the performance by +2.5% and +2.4% on the two datasets. Our model also outperforms the prior state-of-the-art methods by at least +1.9% and +1.6%. Moreover, we provide visualizations to show the gaze anticipation results and provide additional insights into audio-visual representation learning. The code and data split are available on our website (https://bolinlai.github.io/CSTS-EgoGazeAnticipation/).
翻訳日:2024-03-25 23:58:25 公開日:2024-03-22
# 機械学習におけるスケーラブルな最適輸送手法--現代調査

Scalable Optimal Transport Methods in Machine Learning: A Contemporary Survey ( http://arxiv.org/abs/2305.05080v2 )

ライセンス: Link先を確認
Abdelwahed Khamis, Russell Tsuchida, Mohamed Tarek, Vivien Rolland, Lars Petersson, (参考訳) 最適輸送(OT)は18世紀に初めて登場した数学の枠組みであり、多くの理論的および応用された問題に答える方法の多さにつながっている。 この10年は、この古典的な最適化問題の、機械学習への顕著な貢献の証人だった。 本稿では、スケーラブルな最適輸送の問題に焦点をあて、機械学習における最適輸送の使い方について述べる。 トピックとコンテキストの性質によって許容される、アクセス可能なプレゼンテーションを確保しつつ、最適なトランスポートに関する総合的な調査を行う。 まず、最適な輸送背景を説明し、異なるフレーバー(数学的定式化)、特性、特筆すべき応用を紹介する。 次に、大規模・高次元データの現在の要求に対応するために最適な輸送をスケールする方法に関する根本的な問題に対処する。 本研究は, OTのスケーリングにおける文献的手法の体系的解析を行い, 統一分類学にその知見を提示する。 オープンな課題を提示し、今後の研究の方向性について議論する。 関連するOT研究論文のライブリポジトリはhttps://github.com/abdelwahed/OT_for_big_data.gitで維持されている。

Optimal Transport (OT) is a mathematical framework that first emerged in the eighteenth century and has led to a plethora of methods for answering many theoretical and applied questions. The last decade has been a witness to the remarkable contributions of this classical optimization problem to machine learning. This paper is about where and how optimal transport is used in machine learning with a focus on the question of scalable optimal transport. We provide a comprehensive survey of optimal transport while ensuring an accessible presentation as permitted by the nature of the topic and the context. First, we explain the optimal transport background and introduce different flavors (i.e., mathematical formulations), properties, and notable applications. We then address the fundamental question of how to scale optimal transport to cope with the current demands of big and high dimensional data. We conduct a systematic analysis of the methods used in the literature for scaling OT and present the findings in a unified taxonomy. We conclude with presenting some open challenges and discussing potential future research directions. A live repository of related OT research papers is maintained in https://github.com/abdelwahed/OT_for_big_data.git
翻訳日:2024-03-25 23:48:38 公開日:2024-03-22
# NL2TL:大規模言語モデルを用いた自然言語から時間論理への変換

NL2TL: Transforming Natural Languages to Temporal Logics using Large Language Models ( http://arxiv.org/abs/2305.07766v2 )

ライセンス: Link先を確認
Yongchao Chen, Rujul Gandhi, Yang Zhang, Chuchu Fan, (参考訳) TL(Temporal Logic)は、多くのエンジニアリングアプリケーションにおいて、複雑な高レベル仕様を厳格に指定するために用いられる。 自然言語(NL)とTLの翻訳は、異なるアプリケーションドメインにまたがるデータセットや一般化可能なモデルが欠如していることから、まだ探索されていない。 本稿では,NLからTLへの英語命令の正確かつ一般化可能な変換フレームワークを提案し,複数の段階におけるLarge Language Models (LLM)の使用について検討する。 私たちの貢献は2倍です。 まず,LLMと人間のアノテーションを組み合わせたNL-TLペアのデータセットを作成するフレームワークを開発する。 28K NL-TLペアのデータセットを公開します。 次に、NLおよびTLの持ち上げバージョン(すなわち、特定の原子配置(AP)が隠されている)上でT5モデルを微調整する。 一般化性の向上は2つの側面から生じる。 1) 昇降NL-TLの使用は, 特定の領域の制約を伴わずに, 共通論理構造を特徴付ける。 2) LLMのデータセット作成への応用は, コーパスの豊かさを大幅に向上させる。 5つの異なる領域で訓練されたモデルの一般化をテストする。 完全NL-TL変換を実現するために、持ち上げモデルとAP認識タスクを組み合わせるか、特定のドメインに対してさらなる微調整を行う。 さらに微調整の際, ベースライン列からシークエンス (Seq2Seq) モデルと比較して, トレーニングデータの10%しか使用せず, 精度が95%に向上した。

Temporal Logic (TL) can be used to rigorously specify complex high-level specification for systems in many engineering applications. The translation between natural language (NL) and TL has been under-explored due to the lack of dataset and generalizable model across different application domains. In this paper, we propose an accurate and generalizable transformation framework of English instructions from NL to TL, exploring the use of Large Language Models (LLMs) at multiple stages. Our contributions are twofold. First, we develop a framework to create a dataset of NL-TL pairs combining LLMs and human annotation. We publish a dataset with 28K NL-TL pairs. Then, we finetune T5 models on the lifted versions (i.e., the specific Atomic Propositions (AP) are hidden) of the NL and TL. The enhanced generalizability originates from two aspects: 1) Usage of lifted NL-TL characterizes common logical structures, without constraints of specific domains. 2) Application of LLMs in dataset creation largely enhances corpus richness. We test the generalization of trained models on five varied domains. To achieve full NL-TL transformation, we either combine the lifted model with AP recognition task or do the further finetuning on each specific domain. During the further finetuning, our model achieves higher accuracy (>95%) using only <10% training data, compared with the baseline sequence to sequence (Seq2Seq) model.
翻訳日:2024-03-25 23:48:38 公開日:2024-03-22
# 重要サンプル演算子影による量子状態の推定

Estimating properties of a quantum state by importance-sampled operator shadows ( http://arxiv.org/abs/2305.09374v2 )

ライセンス: Link先を確認
Naixu Guo, Feng Pan, Patrick Rebentrost, (参考訳) 量子系の特性を測定することは、量子力学の基本的な問題である。 観測変数の期待値を未知の量子状態で推定する簡単な方法を提案する。 この考え方は、データ構造を用いて、その重要性に比例してパウリ分解に基づく可観測物の項をサンプリングすることである。 我々はこのテクニックを,演算子のスケッチを作成して特性を推定する手法の略として,演算子シャドウと呼ぶ。 複数の局所観測値に対して観測値の数が小さい場合に限り、この手法のサンプルの複雑さは古典的なシャドウ法よりも優れている。 しかし、局所観測可能量の線型結合の期待値を推定したい場合、例えば、局所ハミルトニアンのエネルギーのように、サンプルの複雑さは全てのパラメータでより良くなる。 データ構造を構築するための時間的複雑さは、古典的なシャドウの処理後時間と同様、$k$-local observablesに対して$2^{O(k)}$である。

Measuring properties of quantum systems is a fundamental problem in quantum mechanics. We provide a simple method for estimating the expectation value of observables with an unknown quantum state. The idea is to use a data structure to sample the terms of observables based on the Pauli decomposition proportionally to their importance. We call this technique operator shadow as a shorthand for the procedure of preparing a sketch of an operator to estimate properties. Only when the numbers of observables are small for multiple local observables, the sample complexity of this method is better than the classical shadow technique. However, if we want to estimate the expectation value of a linear combination of local observables, for example the energy of a local Hamiltonian, the sample complexity is better on all parameters. The time complexity to construct the data structure is $2^{O(k)}$ for $k$-local observables, similar to the post-processing time of classical shadows.
翻訳日:2024-03-25 23:48:38 公開日:2024-03-22
# 知識カード:LLMの知識ギャップをプラグイン特化言語モデルで埋める

Knowledge Card: Filling LLMs' Knowledge Gaps with Plug-in Specialized Language Models ( http://arxiv.org/abs/2305.09955v3 )

ライセンス: Link先を確認
Shangbin Feng, Weijia Shi, Yuyang Bai, Vidhisha Balachandran, Tianxing He, Yulia Tsvetkov, (参考訳) 設計上、大きな言語モデル(LLM)は静的汎用モデルであり、頻繁に再トレーニングや更新を行うのに高価である。 知識集約的なタスクに採用される傾向にあるため、これらの設計選択が、事実、関連性、最新の知識を生み出すのに失敗することにつながることが明らかになっている。 この目的のために我々は,新たな事実と関連する知識を汎用LLMにプラグインするモジュール型フレームワークであるKnowledge Cardを提案する。 まず、特定のドメインやソースからコーパスで訓練された特殊な言語モデルであるナレッジカードを紹介します。 知識カードは、ベースLSMの背景知識を生成するために、推論時に選択されるパラメトリックリポジトリとして機能する。 次に,知識カードが生成した文書の情報を動的に選択・保持する3つのコンテンツセレクタを提案する。 最後に,2つの補完的な統合手法を提案する。 広範な実験を通じて,6つのベンチマークデータセット上で,知識カードが最先端のパフォーマンスを達成することを示す。 最終的に、Knowledge Cardフレームワークは多様なドメインからの知識の動的合成と更新を可能にする。 そのモジュール性は、研究コミュニティの集合的努力を通じて、関連する知識を継続的に更新することを保証する。

By design, large language models (LLMs) are static general-purpose models, expensive to retrain or update frequently. As they are increasingly adopted for knowledge-intensive tasks, it becomes evident that these design choices lead to failures to generate factual, relevant, and up-to-date knowledge. To this end, we propose Knowledge Card, a modular framework to plug in new factual and relevant knowledge into general-purpose LLMs. We first introduce knowledge cards -- specialized language models trained on corpora from specific domains and sources. Knowledge cards serve as parametric repositories that are selected at inference time to generate background knowledge for the base LLM. We then propose three content selectors to dynamically select and retain information in documents generated by knowledge cards, specifically controlling for relevance, brevity, and factuality of outputs. Finally, we propose two complementary integration approaches to augment the base LLM with the (relevant, factual) knowledge curated from the specialized LMs. Through extensive experiments, we demonstrate that Knowledge Card achieves state-of-the-art performance on six benchmark datasets. Ultimately, Knowledge Card framework enables dynamic synthesis and updates of knowledge from diverse domains. Its modularity will ensure that relevant knowledge can be continuously updated through the collective efforts of the research community.
翻訳日:2024-03-25 23:48:38 公開日:2024-03-22
# オブジェクト指向物体検出における境界不連続問題の再考

Rethinking Boundary Discontinuity Problem for Oriented Object Detection ( http://arxiv.org/abs/2305.10061v2 )

ライセンス: Link先を確認
Hang Xu, Xinyuan Liu, Haonan Xu, Yike Ma, Zunjie Zhu, Chenggang Yan, Feng Dai, (参考訳) 過去数年間でオブジェクト指向物体検出が急速に発展し、回転するボックスを予測するためには回転同値が不可欠である。 この予測は, 物体が回転するときに対応する回転を維持することができるが, 物体が境界角付近で回転する際には, 角度予測における重度の変異が観察されることがある。 この問題は、長い間、角境界における急激な損失増加に起因すると考えられており、広く使われている共同最適化IoUのような手法は、損失平滑化によってこの問題に対処している。 しかし、現在最先端のIoUライクな手法でさえ、実際にその問題を解決できないことが実験的に判明した。 さらなる解析では、解の鍵は、共同最適化や独立最適化ではなく、平滑化関数の符号化モードにあることが分かる。 既存のIoUライクな手法では, 箱と物体の角関係に適合し, 角境界のブレークポイントが予測を極めて不安定にし, この問題に対処するために, アングルの双対最適化パラダイムを提案する。 我々は、可逆性と結合最適化を単一の滑らか化関数から2つの異なるエンティティに分離し、角境界の補正と他のパラメータとのブレンディング角度の両方の目的を初めて達成する。 さらに、典型的なIoUライクなメソッドは、明らかなパフォーマンスギャップを伴わずに、同じレベルに改善される。 コードはhttps://github.com/hangxu-cv/cvpr24acm.comで公開されている。

Oriented object detection has been developed rapidly in the past few years, where rotation equivariance is crucial for detectors to predict rotated boxes. It is expected that the prediction can maintain the corresponding rotation when objects rotate, but severe mutation in angular prediction is sometimes observed when objects rotate near the boundary angle, which is well-known boundary discontinuity problem. The problem has been long believed to be caused by the sharp loss increase at the angular boundary, and widely used joint-optim IoU-like methods deal with this problem by loss-smoothing. However, we experimentally find that even state-of-the-art IoU-like methods actually fail to solve the problem. On further analysis, we find that the key to solution lies in encoding mode of the smoothing function rather than in joint or independent optimization. In existing IoU-like methods, the model essentially attempts to fit the angular relationship between box and object, where the break point at angular boundary makes the predictions highly unstable.To deal with this issue, we propose a dual-optimization paradigm for angles. We decouple reversibility and joint-optim from single smoothing function into two distinct entities, which for the first time achieves the objectives of both correcting angular boundary and blending angle with other parameters.Extensive experiments on multiple datasets show that boundary discontinuity problem is well-addressed. Moreover, typical IoU-like methods are improved to the same level without obvious performance gap. The code is available at https://github.com/hangxu-cv/cvpr24acm.
翻訳日:2024-03-25 23:48:38 公開日:2024-03-22
# デュアル競合ヘッドを用いたオンラインオープンセット半教師対象検出

Online Open-set Semi-supervised Object Detection with Dual Competing Head ( http://arxiv.org/abs/2305.13802v3 )

ライセンス: Link先を確認
Zerun Wang, Ling Xiao, Liuyu Xiang, Zhaotian Weng, Toshihiko Yamasaki, (参考訳) オープンセット半教師付きオブジェクト検出(OSSOD)タスクは、半教師付きオブジェクト検出(SSOD)を実行するために、ID(In-distribution)とOOD(Out-of-distriion)インスタンスの両方を構成する実用的なオープンセット未ラベルデータセットを活用する。 OSSODの主な課題は、OODがパフォーマンスに影響を及ぼすため、擬似ラベル付け中にOODインスタンス(すなわち、外れ値)を区別してフィルタリングすることである。 OSSODの唯一の作業は、この問題を解決するためにラベル付きデータのみでトレーニングされたオフラインのOOD検出ネットワークを使用することだ。 しかし、ラベル付きデータは改善の可能性を制限している。 一方、オフライン戦略は効率を低下させる。 これらの問題を緩和するために、パフォーマンスと効率を改善するエンドツーエンドのOSSODフレームワークを提案する。 1)ラベル付きデータとラベルなしデータの両方を用いてOODインスタンスをより効果的にフィルタリングする半教師付き外乱フィルタ手法を提案する。 2) 半教師付き外乱フィルタにおける誤差蓄積を抑制し, 性能を向上するしきい値のないデュアル競合OODヘッドを提案する。 3)提案手法は,オンラインのエンドツーエンドトレーニング可能なOSSODフレームワークである。 実験の結果,提案手法は既存の手法と比較してOSSODベンチマークの最先端性能を実現していることがわかった。 さらに,本手法はより効率的で,様々なSSODフレームワークに容易に適用でき,性能を向上させることができることを示す実験も加わった。

Open-set semi-supervised object detection (OSSOD) task leverages practical open-set unlabeled datasets that comprise both in-distribution (ID) and out-of-distribution (OOD) instances for conducting semi-supervised object detection (SSOD). The main challenge in OSSOD is distinguishing and filtering the OOD instances (i.e., outliers) during pseudo-labeling since OODs will affect the performance. The only OSSOD work employs an additional offline OOD detection network trained solely with labeled data to solve this problem. However, the limited labeled data restricts the potential for improvement. Meanwhile, the offline strategy results in low efficiency. To alleviate these issues, this paper proposes an end-to-end online OSSOD framework that improves performance and efficiency: 1) We propose a semi-supervised outlier filtering method that more effectively filters the OOD instances using both labeled and unlabeled data. 2) We propose a threshold-free Dual Competing OOD head that further improves the performance by suppressing the error accumulation during semi-supervised outlier filtering. 3) Our proposed method is an online end-to-end trainable OSSOD framework. Experimental results show that our method achieves state-of-the-art performance on several OSSOD benchmarks compared to existing methods. Moreover, additional experiments show that our method is more efficient and can be easily applied to different SSOD frameworks to boost their performance.
翻訳日:2024-03-25 23:48:38 公開日:2024-03-22
# ソースとターゲットの埋め込みの混合による配電シフトへのわずかな適応

Few-shot Adaption to Distribution Shifts By Mixing Source and Target Embeddings ( http://arxiv.org/abs/2305.14521v2 )

ライセンス: Link先を確認
Yihao Xue, Ali Payani, Yu Yang, Baharan Mirzasoleiman, (参考訳) トレーニング済みの機械学習モデルは、新しいターゲット環境にデプロイされた場合、分散シフトに適応する必要がある。 対象分布からラベル付きデータを取得する場合、ターゲット分布からのサンプルを少数含む少数ショット適応が必須となる。 そこで本研究では,MixProを提案する。 MixProはまず、トレーニング済みの大規模なデータと、ターゲットとする少数のデータとを混合(直線的に組み合わせ)することによって、比較的大きなデータセットを生成する。 このプロセスは、小さなターゲットデータ中の特定のノイズを緩和しながら、ソースとターゲットの両方の重要な特徴を保存します。 そして、混合埋め込み上に線形分類器を訓練し、小さなターゲットデータを過度に適合させることなく、モデルを目標分布に効果的に適応させる。 理論的には、従来の方法よりもMixProの利点を実証する。 実験の結果,MixPro がベースラインを最大 7 % 上回る性能を示し,対象とする例は 2-4 例 に留まった。

Pretrained machine learning models need to be adapted to distribution shifts when deployed in new target environments. When obtaining labeled data from the target distribution is expensive, few-shot adaptation with only a few examples from the target distribution becomes essential. In this work, we propose MixPro, a lightweight and highly data-efficient approach for few-shot adaptation. MixPro first generates a relatively large dataset by mixing (linearly combining) pre-trained embeddings of large source data with those of the few target examples. This process preserves important features of both source and target distributions, while mitigating the specific noise in the small target data. Then, it trains a linear classifier on the mixed embeddings to effectively adapts the model to the target distribution without overfitting the small target data. Theoretically, we demonstrate the advantages of MixPro over previous methods. Our experiments, conducted across various model architectures on 8 datasets featuring different types of distribution shifts, reveal that MixPro can outperform baselines by up to 7\%, with only 2-4 target examples.
翻訳日:2024-03-25 23:48:38 公開日:2024-03-22
# コラボレーション型モバイルクラウドソーシングにおける作業者のリクルートの促進:グラフニューラルネットワーク信頼評価アプローチ

Enhancing Worker Recruitment in Collaborative Mobile Crowdsourcing: A Graph Neural Network Trust Evaluation Approach ( http://arxiv.org/abs/2306.04366v4 )

ライセンス: Link先を確認
Zhongwei Zhan, Yingjie Wang, Peiyong Duan, Akshita Maradapu Vera Venkata Sai, Zhaowei Liu, Chaocan Xiang, Xiangrong Tong, Weilong Wang, Zhipeng Cai, (参考訳) CMCS(Collaborative Mobile Crowdsourcing)は、複雑なセンシングタスクを協調的に実行するワーカーチームを募集するプラットフォームである。 このようなコラボレーションの効率性は、労働者間の信頼関係に影響される可能性がある。 本稿では,ネットワーク内の全作業者の非対称信頼度を求めるために,グラフ畳み込みニューラルネットワーク(GCN)に基づく信頼強化評価フレームワーク(TREF)を提案する。 本論文では,作業者の能力給付,距離給付,信頼給付を考慮し,タスク完了効果を総合的に算出する。 労働者採用問題は、特定のタブサーチリクルート(TSR)アルゴリズムソリューションが提案される Undirected Complete Recruitment Graph (UCRG) としてモデル化される。 最適な実行チームは、TSRアルゴリズムにより各タスクに対して採用され、そのタスクのためのコラボレーションチームは、プライバシロスの制約の下で獲得される。 大規模かつ広い範囲での求人アルゴリズムの効率を高めるため、ミニバッチK平均クラスタリングアルゴリズムとエッジコンピューティング技術を導入し、分散労働者採用を可能にした。 最後に、本論文で提案した採用アルゴリズムが他のベースラインよりも優れていることを示す5つの実データセットに対して行われた広範な実験を行った。 さらに、TREFは、文献における最先端の信頼評価手法の性能を超越している。

Collaborative Mobile Crowdsourcing (CMCS) allows platforms to recruit worker teams to collaboratively execute complex sensing tasks. The efficiency of such collaborations could be influenced by trust relationships among workers. To obtain the asymmetric trust values among all workers in the social network, the Trust Reinforcement Evaluation Framework (TREF) based on Graph Convolutional Neural Networks (GCNs) is proposed in this paper. The task completion effect is comprehensively calculated by considering the workers' ability benefits, distance benefits, and trust benefits in this paper. The worker recruitment problem is modeled as an Undirected Complete Recruitment Graph (UCRG), for which a specific Tabu Search Recruitment (TSR) algorithm solution is proposed. An optimal execution team is recruited for each task by the TSR algorithm, and the collaboration team for the task is obtained under the constraint of privacy loss. To enhance the efficiency of the recruitment algorithm on a large scale and scope, the Mini-Batch K-Means clustering algorithm and edge computing technology are introduced, enabling distributed worker recruitment. Lastly, extensive experiments conducted on five real datasets validate that the recruitment algorithm proposed in this paper outperforms other baselines. Additionally, TREF proposed herein surpasses the performance of state-of-the-art trust evaluation methods in the literature.
翻訳日:2024-03-25 23:48:38 公開日:2024-03-22
# AutoTAMP: LLMによる自動回帰タスクとモーションプランニング

AutoTAMP: Autoregressive Task and Motion Planning with LLMs as Translators and Checkers ( http://arxiv.org/abs/2306.06531v3 )

ライセンス: Link先を確認
Yongchao Chen, Jacob Arkin, Charles Dawson, Yang Zhang, Nicholas Roy, Chuchu Fan, (参考訳) 人間とロボットの効果的なインタラクションには、自然言語で記述された複雑な長期タスクを理解し、計画し、実行する必要がある。 大規模言語モデル(LLM)の最近の進歩は、複雑なタスクのために自然言語をロボットアクションシーケンスに変換することを約束している。 しかし、既存のアプローチでは、自然言語を直接ロボットの軌跡に変換するか、言語をタスクサブゴールに分解し、各サブゴールを実行するためにモーションプランナーに依存することによって推論プロセスを決定するかのいずれかである。 複雑な環境と時間的制約が伴う場合、従来のタスク・アンド・モーション・プランニング(TAMP)アルゴリズムを用いた動作計画と協調して、計画上のタスクの推測を行わなければならない。 LLMを使ってタスクサブゴールを直接計画するのではなく、自然言語のタスク記述から中間タスク表現への数ショットの変換を行い、TAMPアルゴリズムによってタスクと動作プランを共同で解決する。 翻訳を改善するために,自動回帰的再プロンプトによる構文的誤りと意味的誤りの両方を自動的に検出し,訂正し,タスク完了を著しく改善した。 本研究では,複雑なタスク領域において,LLMをプランナとして用いる手法よりも優れていることを示す。 プロジェクトのWebサイト https://yongchao98.github.io/MIT-REALM-AutoTAMP/を参照してください。

For effective human-robot interaction, robots need to understand, plan, and execute complex, long-horizon tasks described by natural language. Recent advances in large language models (LLMs) have shown promise for translating natural language into robot action sequences for complex tasks. However, existing approaches either translate the natural language directly into robot trajectories or factor the inference process by decomposing language into task sub-goals and relying on a motion planner to execute each sub-goal. When complex environmental and temporal constraints are involved, inference over planning tasks must be performed jointly with motion plans using traditional task-and-motion planning (TAMP) algorithms, making factorization into subgoals untenable. Rather than using LLMs to directly plan task sub-goals, we instead perform few-shot translation from natural language task descriptions to an intermediate task representation that can then be consumed by a TAMP algorithm to jointly solve the task and motion plan. To improve translation, we automatically detect and correct both syntactic and semantic errors via autoregressive re-prompting, resulting in significant improvements in task completion. We show that our approach outperforms several methods using LLMs as planners in complex task domains. See our project website https://yongchao98.github.io/MIT-REALM-AutoTAMP/ for prompts, videos, and code.
翻訳日:2024-03-25 23:48:38 公開日:2024-03-22
# iSLAM: インペラティブSLAM

iSLAM: Imperative SLAM ( http://arxiv.org/abs/2306.07894v5 )

ライセンス: Link先を確認
Taimeng Fu, Shaoshu Su, Yiren Lu, Chen Wang, (参考訳) 同時局在マッピング(SLAM)は、ロボットナビゲーションにおける重要な課題の1つである。 SLAMシステムは、しばしば、動き推定のためのフロントエンドコンポーネントと、推定ドリフトを除去するバックエンドシステムから構成される。 近年の進歩は、データ駆動手法がフロントエンドのタスクに極めて効果的であることを示しているが、幾何に基づく手法は、バックエンドプロセスにおいて不可欠である。 しかし、データ駆動型のフロントエンドと幾何学ベースのバックエンドの分離パラダイムは、最適化性能を低下させ、システムの性能と一般化の可能性を減らすことができる。 この問題を解決するために,我々はImerative SLAM (Imerative SLAM) と呼ばれる新しい自己指導型命令学習フレームワークを提案する。 具体的には、SLAM問題を双方向最適化として定式化し、フロントエンドとバックエンドが双方向接続されるようにする。 その結果、フロントエンドモデルは、バックエンドコンポーネントからの残差をバックプロパゲートすることで、ポーズグラフ最適化によって得られるグローバルな幾何学的知識を学習することができる。 ステレオ慣性SLAMの適用により,本フレームワークの有効性を示す。 実験の結果,iSLAMトレーニング戦略はベースラインモデルよりも平均22%の精度向上を実現していることがわかった。 我々の知る限り、iSLAMは、フロントエンドコンポーネントとバックエンドコンポーネントが相互に相互に教師付きで補正可能であることを示す最初のSLAMシステムです。

Simultaneous Localization and Mapping (SLAM) stands as one of the critical challenges in robot navigation. A SLAM system often consists of a front-end component for motion estimation and a back-end system for eliminating estimation drifts. Recent advancements suggest that data-driven methods are highly effective for front-end tasks, while geometry-based methods continue to be essential in the back-end processes. However, such a decoupled paradigm between the data-driven front-end and geometry-based back-end can lead to sub-optimal performance, consequently reducing the system's capabilities and generalization potential. To solve this problem, we proposed a novel self-supervised imperative learning framework, named imperative SLAM (iSLAM), which fosters reciprocal correction between the front-end and back-end, thus enhancing performance without necessitating any external supervision. Specifically, we formulate the SLAM problem as a bilevel optimization so that the front-end and back-end are bidirectionally connected. As a result, the front-end model can learn global geometric knowledge obtained through pose graph optimization by back-propagating the residuals from the back-end component. We showcase the effectiveness of this new framework through an application of stereo-inertial SLAM. The experiments show that the iSLAM training strategy achieves an accuracy improvement of 22% on average over a baseline model. To the best of our knowledge, iSLAM is the first SLAM system showing that the front-end and back-end components can mutually correct each other in a self-supervised manner.
翻訳日:2024-03-25 23:48:38 公開日:2024-03-22
# カーネルリッジ回帰におけるオーバーフィッティングコストの非依存的考察

An Agnostic View on the Cost of Overfitting in (Kernel) Ridge Regression ( http://arxiv.org/abs/2306.13185v2 )

ライセンス: Link先を確認
Lijia Zhou, James B. Simon, Gal Vardi, Nathan Srebro, (参考訳) 我々は、補間リッジレスモデルの試験誤差と最適に調整されたモデルの試験誤差との比として定義する、ノイズの多いカーネルリッジ回帰(KRR)におけるオーバーフィッティングのコストについて検討する。 サンプルサイズが整合性に十分でない場合や、RKHSの外部にある場合であっても、コストを任意の対象関数に対するサンプルサイズの関数とみなす。 我々は最近導出された(非厳密な)リスク推定をタスク固有構造の観点から分析し、ガウス普遍性アンサッツの下で過適合のコストを分析する。 我々の分析は、良性、誘惑的、破滅的なオーバーフィッティング(cf. Mallinar et al 2022)のより洗練された特徴を提供する。

We study the cost of overfitting in noisy kernel ridge regression (KRR), which we define as the ratio between the test error of the interpolating ridgeless model and the test error of the optimally-tuned model. We take an "agnostic" view in the following sense: we consider the cost as a function of sample size for any target function, even if the sample size is not large enough for consistency or the target is outside the RKHS. We analyze the cost of overfitting under a Gaussian universality ansatz using recently derived (non-rigorous) risk estimates in terms of the task eigenstructure. Our analysis provides a more refined characterization of benign, tempered and catastrophic overfitting (cf. Mallinar et al. 2022).
翻訳日:2024-03-25 23:38:50 公開日:2024-03-22
# FunQA: 意外なビデオの理解を目指して

FunQA: Towards Surprising Video Comprehension ( http://arxiv.org/abs/2306.14899v2 )

ライセンス: Link先を確認
Binzhu Xie, Sicheng Zhang, Zitang Zhou, Bo Li, Yuanhan Zhang, Jack Hessel, Jingkang Yang, Ziwei Liu, (参考訳) 面白いクリップ、クリエイティブなパフォーマンス、視覚的な錯覚といった驚くべきビデオは、大きな注目を集めている。 これらのビデオの喜びは、単に視覚刺激に対する反応ではなく、これらのビデオで描かれた常識違反を理解し(そして評価)するための人間の能力に依存している。 本稿では,直感的かつ楽しいビデオに基づくビデオ推論の深度評価と深度向上を目的とした,挑戦的なビデオ質問応答(QA)データセットFunQAを紹介する。 多くのビデオQAベンチマークでは、例えば料理や指導ビデオなど、意外性のないコンテキストに重点を置いているが、FunQAでは、これまで探索されていなかった3種類の驚くべきビデオについて取り上げている。 1)HummorQA, 2)CreativeQA,及び 3)マジックQA。 各サブセットに対して、反直感的タイムスタンプの局所化、詳細なビデオ記述、反直感性に関する推論におけるモデルの能力を評価するために設計された厳密なQAタスクを確立する。 私たちはまた、ビデオに適した鮮やかなタイトルをもたらし、ビデオのクリエイティビティを評価するといった、より高いレベルのタスクも行います。 FunQAベンチマークは4.3Kのビデオクリップから派生した312Kの無料テキストQAペアで構成され、合計24時間に及ぶ。 さらに,視覚言語モデル(VLM)のためのエージェントであるFunMentorを提案する。 既存のVLMによる大規模な実験は、FunMentorの有効性を示し、空間的時間的推論、視覚中心推論、自由テキスト生成にまたがるFunQAビデオのパフォーマンスギャップを明らかにしている。

Surprising videos, such as funny clips, creative performances, or visual illusions, attract significant attention. Enjoyment of these videos is not simply a response to visual stimuli; rather, it hinges on the human capacity to understand (and appreciate) commonsense violations depicted in these videos. We introduce FunQA, a challenging video question-answering (QA) dataset specifically designed to evaluate and enhance the depth of video reasoning based on counter-intuitive and fun videos. Unlike most video QA benchmarks which focus on less surprising contexts, e.g., cooking or instructional videos, FunQA covers three previously unexplored types of surprising videos: 1) HumorQA, 2) CreativeQA, and 3) MagicQA. For each subset, we establish rigorous QA tasks designed to assess the model's capability in counter-intuitive timestamp localization, detailed video description, and reasoning around counter-intuitiveness. We also pose higher-level tasks, such as attributing a fitting and vivid title to the video and scoring the video creativity. In total, the FunQA benchmark consists of 312K free-text QA pairs derived from 4.3K video clips, spanning a total of 24 video hours. Moreover, we propose FunMentor, an agent designed for Vision-Language Models (VLMs) that uses multi-turn dialogues to enhance models' understanding of counter-intuitiveness. Extensive experiments with existing VLMs demonstrate the effectiveness of FunMentor and reveal significant performance gaps for the FunQA videos across spatial-temporal reasoning, visual-centered reasoning, and free-text generation.
翻訳日:2024-03-25 23:38:50 公開日:2024-03-22
# 高周波フロッケ駆動による固有状態の予熱安定性

Prethermal stability of eigenstates under high frequency Floquet driving ( http://arxiv.org/abs/2306.16716v2 )

ライセンス: Link先を確認
Nicholas O'Dea, Fiona Burnell, Anushya Chandran, Vedika Khemani, (参考訳) 高周波駆動条件下でのフロケ予熱(Floquet prethermalization)、すなわち、駆動周波数で大きくなる時間スケールで指数関数的に熱する($\tau_{\rm h} \sim \exp(\omega)$)。 それでも、局所的な可観測物は、初期状態の忠実さで急速に崩壊すると予想されるエネルギー保存過程によって、はるかに早く崩壊する可能性がある。 ここでは、平均的なハミルトン状態の固有状態である$H_0$は、一般的な初期状態が急速に崩壊しても、幅広い周波数で指数関数的に長い寿命を示すことを示す。 H_0$ が量子不足、あるいは低い絡み合いの強い励起固有状態を持つとき、これは特定の初期状態における局所可観測物の長時間の非熱的挙動をもたらす。 ここでは、フィデリティ崩壊時間 $\tau_{\rm f}$: ゾーン間チャネルは、エネルギー吸収によるフィデリティ崩壊を引き起こす、すなわち、フロケゾーンをまたいだカップリング、および、遅い加熱時間スケールに$\tau_{\rm f}$を関連づける。 本研究は,Floquet 工学を用いた多体ハミルトンの創出のための実験的アプローチの堅牢性について報告する。

Systems subject to high-frequency driving exhibit Floquet prethermalization, that is, they heat exponentially slowly on a time scale that is large in the drive frequency, $\tau_{\rm h} \sim \exp(\omega)$. Nonetheless, local observables can decay much faster via energy conserving processes, which are expected to cause a rapid decay in the fidelity of an initial state. Here we show instead that the fidelities of eigenstates of the time-averaged Hamiltonian, $H_0$, display an exponentially long lifetime over a wide range of frequencies -- even as generic initial states decay rapidly. When $H_0$ has quantum scars, or highly excited-eigenstates of low entanglement, this leads to long-lived non-thermal behavior of local observables in certain initial states. We present a two-channel theory describing the fidelity decay time $\tau_{\rm f}$: the interzone channel causes fidelity decay through energy absorption i.e. coupling across Floquet zones, and ties $\tau_{\rm f}$ to the slow heating time scale, while the intrazone channel causes hybridization between states in the same Floquet zone. Our work informs the robustness of experimental approaches for using Floquet engineering to generate interesting many-body Hamiltonians, with and without scars.
翻訳日:2024-03-25 23:38:50 公開日:2024-03-22
# 時間的一貫した人間のアニメーションのための双方向時間拡散モデル

Bidirectional Temporal Diffusion Model for Temporally Consistent Human Animation ( http://arxiv.org/abs/2307.00574v5 )

ライセンス: Link先を確認
Tserendorj Adiya, Jae Shin Yoon, Jungeun Lee, Sanghun Kim, Hwasup Lim, (参考訳) 本研究では,1つの画像,ビデオ,ランダムノイズから時間的コヒーレントな人間のアニメーションを生成する手法を提案する。 この問題は、過去のフレームを復号化して将来のフレームを復号する自動回帰生成のモデリングとして定式化されている。 しかし、このような一方向生成は時間の経過とともに動きが漂う傾向が高く、外見の歪みのような重要なアーチファクトを持つ非現実的な人間のアニメーションを生成する。 両方向の時間的モデリングは、人間の外見の運動のあいまいさを大幅に抑制することにより、生成ネットワーク上の時間的コヒーレンスを強制すると主張している。 ニューラルネットワークは,中間結果を連続フレーム間で双方向に条件付けした時相ガウス雑音を復調することにより,人の画像を生成することを学習する。 実験では,現実的な時間的コヒーレンスを持つ一方向アプローチと比較して高い性能を示す。

We introduce a method to generate temporally coherent human animation from a single image, a video, or a random noise. This problem has been formulated as modeling of an auto-regressive generation, i.e., to regress past frames to decode future frames. However, such unidirectional generation is highly prone to motion drifting over time, generating unrealistic human animation with significant artifacts such as appearance distortion. We claim that bidirectional temporal modeling enforces temporal coherence on a generative network by largely suppressing the motion ambiguity of human appearance. To prove our claim, we design a novel human animation framework using a denoising diffusion model: a neural network learns to generate the image of a person by denoising temporal Gaussian noises whose intermediate results are cross-conditioned bidirectionally between consecutive frames. In the experiments, our method demonstrates strong performance compared to existing unidirectional approaches with realistic temporal coherence.
翻訳日:2024-03-25 23:38:50 公開日:2024-03-22
# 猫量子ビットのビットフリップ時間を0.3秒まで延ばす自己パラメトリック共鳴

Autoparametric resonance extending the bit-flip time of a cat qubit up to 0.3 s ( http://arxiv.org/abs/2307.06761v2 )

ライセンス: Link先を確認
Antoine Marquet, Antoine Essig, Joachim Cohen, Nathanaël Cottet, Anil Murani, Emanuele Abertinale, Simon Dupouy, Audrey Bienfait, Théau Peronnin, Sébastien Jezouin, Raphaël Lescanne, Benjamin Huard, (参考訳) 理論的な $|0\rangle$ と $|1\rangle$ がコヒーレントな状態 $|\pm\alpha\rangle$ である猫量子ビットは、量子誤差補正への有望な経路を提供する。 調和モードの光子対を環境の単一光子と交換するために、我々の優位性への消散を利用して、論理状態を安定させ、光子番号 $|\alpha|^2$ で猫量子ビットのビットフリップ時間を指数関数的に増加させることができる。 大規模な2光子散逸率$\kappa_2$は、速い量子ビット操作と短い誤り訂正サイクルを保証する。 ここでは、猫量子ビットを含むモードを猫モードの2倍の周波数に設定した損失モードに結合する自己パラメトリック超伝導回路を導入・運用する。 このパッシブカップリングはパラメトリックポンプを必要としないので、$\kappa_2/2\pi\approx 2~\mathrm{MHz}$に達する。 このような強い2光子散逸により、位相フリップ誤差に緩やかな影響しか与えない特性時間において、オートパラメトリックキャットキュービットのビットフリップ誤差を最大0.3〜sまで防止する。 さらに、$|\alpha\rangle$ と $|-\alpha\rangle$ の間の量子重ね合わせの位相は、工学的な散逸を活発に保ちながらハーモニックモードを駆動することによって任意に変化させることができる。

Cat qubits, for which logical $|0\rangle$ and $|1\rangle$ are coherent states $|\pm\alpha\rangle$ of a harmonic mode, offer a promising route towards quantum error correction. Using dissipation to our advantage so that photon pairs of the harmonic mode are exchanged with single photons of its environment, it is possible to stabilize the logical states and exponentially increase the bit-flip time of the cat qubit with the photon number $|\alpha|^2$. Large two-photon dissipation rate $\kappa_2$ ensures fast qubit manipulation and short error correction cycles, which are instrumental to correct the remaining phase-flip errors in a repetition code of cat qubits. Here we introduce and operate an autoparametric superconducting circuit that couples a mode containing the cat qubit to a lossy mode whose frequency is set at twice that of the cat mode. This passive coupling does not require a parametric pump and reaches a rate $\kappa_2/2\pi\approx 2~\mathrm{MHz}$. With such a strong two-photon dissipation, bit-flip errors of the autoparametric cat qubit are prevented for a characteristic time up to 0.3~s with only a mild impact on phase-flip errors. Besides, we illustrate how the phase of a quantum superposition between $|\alpha\rangle$ and $|-\alpha\rangle$ can be arbitrarily changed by driving the harmonic mode while keeping the engineered dissipation active.
翻訳日:2024-03-25 23:38:50 公開日:2024-03-22
# LogPrécis: 自動悪意ログ分析のための言語モデル公開

LogPrécis: Unleashing Language Models for Automated Malicious Log Analysis ( http://arxiv.org/abs/2307.08309v3 )

ライセンス: Link先を確認
Matteo Boffa, Rodolfo Vieira Valentim, Luca Vassio, Danilo Giordano, Idilio Drago, Marco Mellia, Zied Ben Houidi, (参考訳) セキュリティ関連のログの収集は、攻撃行動を理解し、脆弱性を診断する鍵を持っている。 それでも、彼らの分析はいまだに困難な課題だ。 近年,自然言語やプログラミング言語の理解において,言語モデル (LM) が未適合の可能性を実証している。 この問題は、LMが本質的に混同され難解な情報を含んでいるため、セキュリティの専門家にとってどのように役立つのかという問題である。 本稿では,テキストのようなUnixシェル攻撃ログを自動的に解析するために,LMの最先端技術によるメリットを体系的に研究する。 われわれはLogPr\'ecisに繋がる徹底した設計方法論を提示する。 入力された生のシェルセッションとして受信し、攻撃者の戦術を自動的に識別し、セッションの各部分に割り当てる。 約40,000のUnixシェル攻撃を含む2つの大きなデータセットの分析をサポートするLogPr\'ecis機能を示す。 LogPr\'ecisはそれらを約3,000の指紋に減らし、それぞれが同じ戦術でセッションをグループ化する。 この抽象化によって、アナリストは攻撃をよりよく理解し、指紋を識別し、新奇性を検知し、類似の攻撃をリンクし、家族や突然変異を追跡することができる。 全体として、LogPr\'ecisはオープンソースとしてリリースされ、サイバー攻撃に対するより良い、よりレスポンシブな防御の道を開いた。

The collection of security-related logs holds the key to understanding attack behaviors and diagnosing vulnerabilities. Still, their analysis remains a daunting challenge. Recently, Language Models (LMs) have demonstrated unmatched potential in understanding natural and programming languages. The question arises whether and how LMs could be also useful for security experts since their logs contain intrinsically confused and obfuscated information. In this paper, we systematically study how to benefit from the state-of-the-art in LM to automatically analyze text-like Unix shell attack logs. We present a thorough design methodology that leads to LogPr\'ecis. It receives as input raw shell sessions and automatically identifies and assigns the attacker tactic to each portion of the session, i.e., unveiling the sequence of the attacker's goals. We demonstrate LogPr\'ecis capability to support the analysis of two large datasets containing about 400,000 unique Unix shell attacks. LogPr\'ecis reduces them into about 3,000 fingerprints, each grouping sessions with the same sequence of tactics. The abstraction it provides lets the analyst better understand attacks, identify fingerprints, detect novelty, link similar attacks, and track families and mutations. Overall, LogPr\'ecis, released as open source, paves the way for better and more responsive defense against cyberattacks.
翻訳日:2024-03-25 23:38:50 公開日:2024-03-22
# 近似グラフカラー化のための分散量子優位性

No distributed quantum advantage for approximate graph coloring ( http://arxiv.org/abs/2307.09444v3 )

ライセンス: Link先を確認
Xavier Coiteux-Roy, Francesco d'Amore, Rishikesh Gajjala, Fabian Kuhn, François Le Gall, Henrik Lievonen, Augusto Modanese, Marc-Olivier Renou, Gustav Schmid, Jukka Suomela, (参考訳) 分散アルゴリズムを用いた$c$-coloring $\chi$-chromatic graphsの難易度を、分散コンピューティングの幅広いモデルに対してほぼ完全に評価する。 特に、これらの問題は分散量子の優位性を認めないことを示す。 それを行うには: 1) $\tilde{\mathcal{O}}(n^{\frac{1}{\alpha}})$ rounds, with $\alpha = \bigl\lfloor\frac{c-1}{\chi - 1}\bigr\rfloor$。 2) この問題の分散アルゴリズムには$\Omega(n^{\frac{1}{\alpha}})$ roundsが必要であることを証明している。 上界は古典的決定論的LOCALモデル、下界は非シグナリングモデルである。 2014年にArfaouiとFraigniaudによって導入されたこのモデルは、物理的因果性に従う分散グラフアルゴリズムのすべてのモデルをキャプチャする。 また、同様の議論は、例えば3次元格子の3色化や$c$カラー化木は、符号なしモデルにおいても難しい問題であり、特に量子的優位性は認めないことを示すためにも用いられる。 我々の下界の議論は純粋にグラフ理論であり、証明を確立するには量子情報理論の背景は必要ない。

We give an almost complete characterization of the hardness of $c$-coloring $\chi$-chromatic graphs with distributed algorithms, for a wide range of models of distributed computing. In particular, we show that these problems do not admit any distributed quantum advantage. To do that: 1) We give a new distributed algorithm that finds a $c$-coloring in $\chi$-chromatic graphs in $\tilde{\mathcal{O}}(n^{\frac{1}{\alpha}})$ rounds, with $\alpha = \bigl\lfloor\frac{c-1}{\chi - 1}\bigr\rfloor$. 2) We prove that any distributed algorithm for this problem requires $\Omega(n^{\frac{1}{\alpha}})$ rounds. Our upper bound holds in the classical, deterministic LOCAL model, while the near-matching lower bound holds in the non-signaling model. This model, introduced by Arfaoui and Fraigniaud in 2014, captures all models of distributed graph algorithms that obey physical causality; this includes not only classical deterministic LOCAL and randomized LOCAL but also quantum-LOCAL, even with a pre-shared quantum state. We also show that similar arguments can be used to prove that, e.g., 3-coloring 2-dimensional grids or $c$-coloring trees remain hard problems even for the non-signaling model, and in particular do not admit any quantum advantage. Our lower-bound arguments are purely graph-theoretic at heart; no background on quantum information theory is needed to establish the proofs.
翻訳日:2024-03-25 23:38:50 公開日:2024-03-22
# 一定深さにおけるロバストスパースIQPサンプリング

Robust sparse IQP sampling in constant depth ( http://arxiv.org/abs/2307.10729v2 )

ライセンス: Link先を確認
Louis Paletta, Anthony Leverrier, Alain Sarlette, Mazyar Mirrahimi, Christophe Vuillot, (参考訳) NISQ(ノイズの多い中間スケール量子)アプローチと完全フォールトトレラント量子計算の証明のないアプローチの間には、最小の誤差補正条件でノイズに頑健な証明可能な超多項式量子優位性(いくつかの広く受け入れられている複雑性予想の下で)を実現するためのスキームを提案する。 我々は、スパースIQP(Instantaneous Quantum Polynomial-time)回路と呼ばれる通勤ゲートのサンプリング問題の種類を選択し、テトラヘリックス符号を導入することにより、その耐故障性を確保する。 この新符号は、複数の四面体符号(3Dカラーコード)をマージして取得され、各スパースIQPゲートがトランスバーサル実装を認め、論理回路の深さをその幅で交換できるという特性を持つ。 これらを組み合わせることで、符号化状態の準備まで、任意のスパースIQP回路のディープ-1実装が得られる。 これは、元の回路の幅で多対数しか持たない空間オーバーヘッドのコストが伴う。 さらに、従来の計算からフィードフォワードの単一ステップで、状態準備を一定の深さで行うこともできることを示す。 そこで本研究では,1ラウンドの計測とフィードフォワードで一定深度回路上に実装したサンプリング問題に対して,ロバストなスーパーポリノミカル量子優位性を示す。

Between NISQ (noisy intermediate scale quantum) approaches without any proof of robust quantum advantage and fully fault-tolerant quantum computation, we propose a scheme to achieve a provable superpolynomial quantum advantage (under some widely accepted complexity conjectures) that is robust to noise with minimal error correction requirements. We choose a class of sampling problems with commuting gates known as sparse IQP (Instantaneous Quantum Polynomial-time) circuits and we ensure its fault-tolerant implementation by introducing the tetrahelix code. This new code is obtained by merging several tetrahedral codes (3D color codes) and has the following properties: each sparse IQP gate admits a transversal implementation, and the depth of the logical circuit can be traded for its width. Combining those, we obtain a depth-1 implementation of any sparse IQP circuit up to the preparation of encoded states. This comes at the cost of a space overhead which is only polylogarithmic in the width of the original circuit. We furthermore show that the state preparation can also be performed in constant depth with a single step of feed-forward from classical computation. Our construction thus exhibits a robust superpolynomial quantum advantage for a sampling problem implemented on a constant depth circuit with a single round of measurement and feed-forward.
翻訳日:2024-03-25 23:38:50 公開日:2024-03-22
# 深部ニューラルネットワークの公理化PDEモデル

An axiomatized PDE model of deep neural networks ( http://arxiv.org/abs/2307.12333v2 )

ライセンス: Link先を確認
Tangjun Wang, Wenqi Tao, Chenglong Bao, Zuoqiang Shi, (参考訳) ディープニューラルネットワーク (DNN) と偏微分方程式 (PDE) の関係に着想を得て, ディープニューラルネットワークのPDEモデルの一般形について検討する。 この目的を達成するために、単純なベースモデルからDNNを進化演算子として定式化する。 いくつかの合理的な仮定に基づいて、進化作用素が実際に対流拡散方程式によって決定されることを示す。 この対流拡散方程式モデルは、いくつかの有効なネットワークに関する数学的説明を与える。 さらに,対流拡散モデルによりロバスト性が向上し,Rademacherの複雑性が低下することを示す。 対流拡散方程式に基づいて,ResNetsの新しいトレーニング手法を設計する。 提案手法の性能評価実験を行った。

Inspired by the relation between deep neural network (DNN) and partial differential equations (PDEs), we study the general form of the PDE models of deep neural networks. To achieve this goal, we formulate DNN as an evolution operator from a simple base model. Based on several reasonable assumptions, we prove that the evolution operator is actually determined by convection-diffusion equation. This convection-diffusion equation model gives mathematical explanation for several effective networks. Moreover, we show that the convection-diffusion model improves the robustness and reduces the Rademacher complexity. Based on the convection-diffusion equation, we design a new training method for ResNets. Experiments validate the performance of the proposed method.
翻訳日:2024-03-25 23:38:50 公開日:2024-03-22
# 機械学習雑音緩和を用いた非平面グラフの大規模量子近似最適化

Large-scale quantum approximate optimization on non-planar graphs with machine learning noise mitigation ( http://arxiv.org/abs/2307.14427v2 )

ライセンス: Link先を確認
Stefan H. Sack, Daniel J. Egger, (参考訳) 量子コンピュータのサイズと品質は増加しているが、それでも非常に騒々しい。 誤差軽減は、ノイズの多いデバイスが有意義に実行できる量子回路のサイズを拡大する。 しかし、最先端の誤差軽減手法は実装が困難であり、超伝導量子ビットデバイスにおける限定的な量子ビット接続は、ハードウェアのネイティブトポロジーにほとんどのアプリケーションを制限する。 ここでは,最大40ノードの非平面乱数正規グラフに対して,機械学習に基づく誤差軽減により量子近似最適化アルゴリズム(QAOA)を提案する。 我々は、最大40キュービットの深さ2QAOAの最適化を実証するために、慎重に決定可能な量子ビットマッピングとフィードフォワードニューラルネットワークを備えたスワップネットワークを使用する。 我々は,958個の2量子ビットゲートを持つ量子回路の動作を必要とする最大グラフに対する有意義なパラメータ最適化を観察する。 我々の研究は、量子近似最適化において、期待値だけでなく、サンプルの緩和の必要性を強調している。 これらの結果は、古典的にシミュレートできないスケールで量子近似最適化を実行するためのステップである。 このようなシステムサイズを取得することは、QAOAのようなヒューリスティックアルゴリズムの真のポテンシャルを適切に理解するための鍵となる。

Quantum computers are increasing in size and quality, but are still very noisy. Error mitigation extends the size of the quantum circuits that noisy devices can meaningfully execute. However, state-of-the-art error mitigation methods are hard to implement and the limited qubit connectivity in superconducting qubit devices restricts most applications to the hardware's native topology. Here we show a quantum approximate optimization algorithm (QAOA) on non-planar random regular graphs with up to 40 nodes enabled by a machine learning-based error mitigation. We use a swap network with careful decision-variable-to-qubit mapping and a feed-forward neural network to demonstrate optimization of a depth-two QAOA on up to 40 qubits. We observe a meaningful parameter optimization for the largest graph which requires running quantum circuits with 958 two-qubit gates. Our work emphasizes the need to mitigate samples, and not only expectation values, in quantum approximate optimization. These results are a step towards executing quantum approximate optimization at a scale that is not classically simulable. Reaching such system sizes is key to properly understanding the true potential of heuristic algorithms like QAOA.
翻訳日:2024-03-25 23:29:06 公開日:2024-03-22
# 経済非線形モデル予測制御のためのクープマンモデルのエンドツーエンド強化学習

End-to-End Reinforcement Learning of Koopman Models for Economic Nonlinear Model Predictive Control ( http://arxiv.org/abs/2308.01674v3 )

ライセンス: Link先を確認
Daniel Mayfrank, Alexander Mitsos, Manuel Dahmen, (参考訳) (経済)非線形モデル予測制御((e)NMPC)は、十分に正確で計算的に計算可能な動的モデルを必要とする。 メカニスティックモデルのためのデータ駆動サロゲートモデルは、(e)NMPCの計算負担を軽減することができるが、そのようなモデルは典型的には、シミュレーションサンプル上で最大予測精度のシステム識別によって訓練され、(e)NMPCで亜最適に実行される。 In this method for end-to-end reinforcement learning of Koopman surrogate model for optimal performance as (e)NMPC。 提案手法を, 確立された非線形連続拌槽型反応器モデルから導出した2つの応用に適用する。 制御性能は,システム識別を用いて訓練されたモデルを用いた(e)NMPCと,強化学習を用いて訓練されたモデルフリーニューラルネットワークコントローラとを比較した。 我々は,(e)NMPCにおけるシステム識別を用いて訓練したモデルよりもエンドツーエンドのトレーニングモデルの方が優れており,(e)NMPCコントローラは,(e)NMPCコントローラとは対照的に,リトレーニングなしで制御設定の変化に反応できることを示した。

(Economic) nonlinear model predictive control ((e)NMPC) requires dynamic models that are sufficiently accurate and computationally tractable. Data-driven surrogate models for mechanistic models can reduce the computational burden of (e)NMPC; however, such models are typically trained by system identification for maximum prediction accuracy on simulation samples and perform suboptimally in (e)NMPC. We present a method for end-to-end reinforcement learning of Koopman surrogate models for optimal performance as part of (e)NMPC. We apply our method to two applications derived from an established nonlinear continuous stirred-tank reactor model. The controller performance is compared to that of (e)NMPCs utilizing models trained using system identification, and model-free neural network controllers trained using reinforcement learning. We show that the end-to-end trained models outperform those trained using system identification in (e)NMPC, and that, in contrast to the neural network controllers, the (e)NMPC controllers can react to changes in the control setting without retraining.
翻訳日:2024-03-25 23:29:06 公開日:2024-03-22
# MSAC:信頼度の高い音声感情認識のための複数音声属性制御法

MSAC: Multiple Speech Attribute Control Method for Reliable Speech Emotion Recognition ( http://arxiv.org/abs/2308.04025v3 )

ライセンス: Link先を確認
Yu Pan, Yuguang Yang, Yuheng Huang, Jixun Yao, Jingjing Yin, Yanni Hu, Heng Lu, Lei Ma, Jianjun Zhao, (参考訳) 顕著な進歩にもかかわらず、音声感情認識(SER)は、特に野生世界では、複雑な、曖昧な音声感情の性質のため、依然として困難である。 本研究は,音声認識と一般化能力に主眼を置いているが,意味的データシフトの存在下でのSER手法の信頼性を調査し,音声信号に固有の諸属性のきめ細かい制御を行い,音声感情モデリングを強化する方法について検討する。 本稿では, シングルコーパスとクロスコーパスSERを同時に処理できる新しい統合SERフレームワークであるMSAC-SERNetについて紹介する。 具体的には、音声感情属性のみに焦点を絞った新しいCNNベースのSERモデルを示し、付加的辺縁ソフトマックス損失によって導かれる識別的感情表現を抽出する。 様々な音声属性間の情報重なりを考慮し,異なる音声属性の相関関係に基づく新しい学習パラダイムであるMultiple Speech Attribute Control (MSAC)を提案する。 さらに,アウト・オブ・ディストリビューション検出手法を用いてMSAC-SERNetフレームワークの信頼性について検討する。 単体SERシナリオとクロスコーパスSERシナリオの両方の実験では、MSAC-SERNetは全ての面においてベースラインを一貫して上回るだけでなく、最先端SERアプローチよりも優れたパフォーマンスを達成している。

Despite notable progress, speech emotion recognition (SER) remains challenging due to the intricate and ambiguous nature of speech emotion, particularly in wild world. While current studies primarily focus on recognition and generalization abilities, our research pioneers an investigation into the reliability of SER methods in the presence of semantic data shifts and explores how to exert fine-grained control over various attributes inherent in speech signals to enhance speech emotion modeling. In this paper, we first introduce MSAC-SERNet, a novel unified SER framework capable of simultaneously handling both single-corpus and cross-corpus SER. Specifically, concentrating exclusively on the speech emotion attribute, a novel CNN-based SER model is presented to extract discriminative emotional representations, guided by additive margin softmax loss. Considering information overlap between various speech attributes, we propose a novel learning paradigm based on correlations of different speech attributes, termed Multiple Speech Attribute Control (MSAC), which empowers the proposed SER model to simultaneously capture fine-grained emotion-related features while mitigating the negative impact of emotion-agnostic representations. Furthermore, we make a first attempt to examine the reliability of the MSAC-SERNet framework using out-of-distribution detection methods. Experiments on both single-corpus and cross-corpus SER scenarios indicate that MSAC-SERNet not only consistently outperforms the baseline in all aspects, but achieves superior performance compared to state-of-the-art SER approaches.
翻訳日:2024-03-25 23:29:06 公開日:2024-03-22
# ガイド付き量子ウォーク

Guided quantum walk ( http://arxiv.org/abs/2308.05418v3 )

ライセンス: Link先を確認
Sebastian Schulz, Dennis Willsch, Kristel Michielsen, (参考訳) 局所振幅伝達(LAT)の理論を利用して、断熱定理を超える量子ウォーク(QW)と量子アニール(QA)の洞察を得る。 問題ハミルトニアンの固有空間をハイパーキューブグラフとして表現することにより、確率振幅が一連の局所ラビ振動を通して探索空間を横切ることを示す。 振幅運動は、問題のエネルギースペクトルのみに基づく時間依存ホッピング率を用いて、基底状態へ体系的に誘導することができると論じる。 これらの知見に基づいて、誘導量子ウォーク(GQW)をQWライクな手順とQAライクな手順のブリッジとして導入することにより、多段階QWの概念を拡張した。 正確なカバー,旅行セールスパーソン,庭園最適化問題に対するGQWの性能を9から30キュービットで評価した。 以上の結果から,断熱時間進化の要件を超えた最適な焼鈍スケジュールの存在の証拠が得られた。 これらのスケジュールは、問題サイズで線形にスケールする進化時間内で、大規模な組合せ最適化問題を解くことができるかもしれない。

We utilize the theory of local amplitude transfers (LAT) to gain insights into quantum walks (QWs) and quantum annealing (QA) beyond the adiabatic theorem. By representing the eigenspace of the problem Hamiltonian as a hypercube graph, we demonstrate that probability amplitude traverses the search space through a series of local Rabi oscillations. We argue that the amplitude movement can be systematically guided towards the ground state using a time-dependent hopping rate based solely on the problem's energy spectrum. Building upon these insights, we extend the concept of multi-stage QW by introducing the guided quantum walk (GQW) as a bridge between QW-like and QA-like procedures. We assess the performance of the GQW on exact cover, traveling salesperson and garden optimization problems with 9 to 30 qubits. Our results provide evidence for the existence of optimal annealing schedules, beyond the requirement of adiabatic time evolutions. These schedules might be capable of solving large-scale combinatorial optimization problems within evolution times that scale linearly in the problem size.
翻訳日:2024-03-25 23:29:06 公開日:2024-03-22
# MV-ROPE:ロバストカテゴリーレベルのオブジェクトマップとサイズ推定のためのマルチビュー制約

MV-ROPE: Multi-view Constraints for Robust Category-level Object Pose and Size Estimation ( http://arxiv.org/abs/2308.08856v3 )

ライセンス: Link先を確認
Jiaqi Yang, Yucong Chen, Xiangting Meng, Chenxin Yan, Min Li, Ran Cheng, Lige Liu, Tao Sun, Laurent Kneip, (参考訳) 近年,カテゴリレベルのオブジェクトのポーズやサイズ推定への関心が高まっており,一般的な手法は単一ビューのRGB-D画像に依存している。 しかし、そのような手法の欠点の一つは、消費者グレードのセンサーでは生成できない正確な深度マップが必要であることである。 さらに、実世界の現実的な状況の多くは、その環境を継続的に観察する移動カメラを伴い、入力されたビデオストリームの時間情報は、単に単一ビュー方式で見落とされてしまう。 本稿では,RGBビデオストリームを利用した新しいソリューションを提案する。 我々のフレームワークは3つのモジュールで構成されている。スケール対応単分子高密度SLAMソリューション、軽量オブジェクトポーズ予測器、オブジェクトレベルのポーズグラフ最適化器である。 SLAMモジュールはビデオストリームと、カメラのポーズとメートル法深度を推定するために、追加のスケールに敏感な読み込みを利用する。 オブジェクトポーズ予測器はRGB画像から標準オブジェクト表現を生成する。 対象ポーズは、推定対象深度点を持つこれらの標準対象表現の幾何学的登録により推定される。 ビューごとの見積もりはすべて、最後にポーズグラフ内で最適化され、ロバストで正確な標準オブジェクトのポーズの出力が決定される。 提案手法は,高精細度情報を用いた公開データセットを用いた場合,最先端のRGB-D手法に匹敵する性能を示す。 また,異なる品質の深度マップを含む新しいデータセットを収集,評価し,提案手法を従来のRGB-D法と併用して定量的に評価する。 奥行き入力が存在しない場合や、奥行き検出の質が限られている場合において、大きな利点を示す。

Recently there has been a growing interest in category-level object pose and size estimation, and prevailing methods commonly rely on single view RGB-D images. However, one disadvantage of such methods is that they require accurate depth maps which cannot be produced by consumer-grade sensors. Furthermore, many practical real-world situations involve a moving camera that continuously observes its surroundings, and the temporal information of the input video streams is simply overlooked by single-view methods. We propose a novel solution that makes use of RGB video streams. Our framework consists of three modules: a scale-aware monocular dense SLAM solution, a lightweight object pose predictor, and an object-level pose graph optimizer. The SLAM module utilizes a video stream and additional scale-sensitive readings to estimate camera poses and metric depth. The object pose predictor then generates canonical object representations from RGB images. The object pose is estimated through geometric registration of these canonical object representations with estimated object depth points. All per-view estimates finally undergo optimization within a pose graph, culminating in the output of robust and accurate canonical object poses. Our experimental results demonstrate that when utilizing public dataset sequences with high-quality depth information, the proposed method exhibits comparable performance to state-of-the-art RGB-D methods. We also collect and evaluate on new datasets containing depth maps of varying quality to further quantitatively benchmark the proposed method alongside previous RGB-D based methods. We demonstrate a significant advantage in scenarios where depth input is absent or the quality of depth sensing is limited.
翻訳日:2024-03-25 23:29:06 公開日:2024-03-22
# 校正に関するベンチマーク研究

A Benchmark Study on Calibration ( http://arxiv.org/abs/2308.11838v6 )

ライセンス: Link先を確認
Linwei Tao, Younan Zhu, Haolan Guo, Minjing Dong, Chang Xu, (参考訳) ディープニューラルネットワークは、さまざまな機械学習タスクでますます活用されている。 しかしながら、これらのモデルは複雑さが増すにつれて、予測精度が向上しているにもかかわらず、キャリブレーションの問題に直面することが多い。 多くの研究は、特定の損失関数、データ前処理、トレーニングフレームワークを使用することでキャリブレーション性能を向上させるために努力してきた。 しかし、校正特性の調査は幾分見過ごされている。 本研究では,ニューラルアーキテクチャ探索(NAS)探索空間を活用し,徹底的なキャリブレーション特性探索のための網羅的なモデルアーキテクチャ空間を提供する。 具体的には、モデルキャリブレーションデータセットを作成します。 このデータセットは、広く使われているNATS-Bench検索空間内の117,702のユニークなニューラルネットワークに対して、90のビンベースと12のキャリブレーション測定値を評価する。 我々の分析は,提案したデータセットを用いて,この分野における長年の疑問に答えることを目的としている。 i) モデルキャリブレーションは、異なるデータセットにまたがって一般化できるか? 二 キャリブレーション測定として堅牢性を利用することができるか。 三)キャリブレーション指標はどの程度信頼できるか。 四 ポストホックキャリブレーション法が全モデルに均一に影響を及ぼすか。 (v)キャリブレーションは精度とどのように相互作用するか。 (vi)キャリブレーション測定におけるビンサイズの影響 (vii)どの建築設計が校正に有用か。 さらに本研究では,NAS内のキャリブレーションを探索することで,既存のギャップを埋める。 このデータセットを提供することで、NAS校正のさらなる研究が可能になる。 私たちが知る限り、我々の研究は校正特性に関する最初の大規模調査であり、NASにおける校正問題に関する主要な研究である。 プロジェクトのページはhttps://www.taolinwei.com/calibration-studyにある。

Deep neural networks are increasingly utilized in various machine learning tasks. However, as these models grow in complexity, they often face calibration issues, despite enhanced prediction accuracy. Many studies have endeavored to improve calibration performance through the use of specific loss functions, data preprocessing and training frameworks. Yet, investigations into calibration properties have been somewhat overlooked. Our study leverages the Neural Architecture Search (NAS) search space, offering an exhaustive model architecture space for thorough calibration properties exploration. We specifically create a model calibration dataset. This dataset evaluates 90 bin-based and 12 additional calibration measurements across 117,702 unique neural networks within the widely employed NATS-Bench search space. Our analysis aims to answer several longstanding questions in the field, using our proposed dataset: (i) Can model calibration be generalized across different datasets? (ii) Can robustness be used as a calibration measurement? (iii) How reliable are calibration metrics? (iv) Does a post-hoc calibration method affect all models uniformly? (v) How does calibration interact with accuracy? (vi) What is the impact of bin size on calibration measurement? (vii) Which architectural designs are beneficial for calibration? Additionally, our study bridges an existing gap by exploring calibration within NAS. By providing this dataset, we enable further research into NAS calibration. As far as we are aware, our research represents the first large-scale investigation into calibration properties and the premier study of calibration issues within NAS. The project page can be found at https://www.taolinwei.com/calibration-study
翻訳日:2024-03-25 23:29:06 公開日:2024-03-22
# 大規模多言語モデルによる言語間のゼロショット型マルチモーダル学習

Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages ( http://arxiv.org/abs/2308.12038v3 )

ライセンス: Link先を確認
Jinyi Hu, Yuan Yao, Chongyi Wang, Shan Wang, Yinxu Pan, Qianyu Chen, Tianyu Yu, Hanghao Wu, Yue Zhao, Haoye Zhang, Xu Han, Yankai Lin, Jiao Xue, Dahai Li, Zhiyuan Liu, Maosong Sun, (参考訳) 近年,画像・テキスト・画像生成とテキスト・画像生成の両面で,マルチモーダル学習が飛躍的に増加している。 しかし、この成功は英語に限られており、他の言語はほとんど残っていない。 他の言語で競合する言語を構築することは、非英語のマルチモーダルデータの低リソース性(すなわち、大規模で高品質な画像テキストデータの欠如)のために非常に困難である。 本研究では,非英語言語における大規模マルチモーダルモデルの学習に有効な訓練パラダイムであるMPMを提案する。 MPMは、多言語言語モデルが言語間でのマルチモーダル学習をPivotゼロにすることができることを実証している。 具体的には、強い多言語大言語モデルに基づいて、英語のみの画像テキストデータで事前訓練されたマルチモーダルモデルは、(準)ゼロショットで他の言語にうまく一般化することができ、ネイティブ言語の画像テキストデータで訓練されたモデルを超えている。 MPMの実践として中国語を取り入れ,画像からテキストへ,テキストから画像へ生成する大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。 将来の研究を促進するため、私たちはhttps://github.com/OpenBMB/VisCPM.git.comでコードとモデルの重みをオープンソース化しました。

Recently there has been a significant surge in multimodal learning in terms of both image-to-text and text-to-image generation. However, the success is typically limited to English, leaving other languages largely behind. Building a competitive counterpart in other languages is highly challenging due to the low-resource nature of non-English multimodal data (i.e., lack of large-scale, high-quality image-text data). In this work, we propose MPM, an effective training paradigm for training large multimodal models in non-English languages. MPM demonstrates that Multilingual language models can Pivot zero-shot Multimodal learning across languages. Specifically, based on a strong multilingual large language model, multimodal models pretrained on English-only image-text data can well generalize to other languages in a (quasi)-zero-shot manner, even surpassing models trained on image-text data in native languages. Taking Chinese as a practice of MPM, we build large multimodal models VisCPM in image-to-text and text-to-image generation, which achieve state-of-the-art (open-source) performance in Chinese. To facilitate future research, we open-source codes and model weights at https://github.com/OpenBMB/VisCPM.git.
翻訳日:2024-03-25 23:29:06 公開日:2024-03-22
# 残留消音拡散モデル

Residual Denoising Diffusion Models ( http://arxiv.org/abs/2308.13712v3 )

ライセンス: Link先を確認
Jiawei Liu, Qiang Wang, Huijie Fan, Yinong Wang, Yandong Tang, Liangqiong Qu, (参考訳) 本研究では,従来の単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型単発型 この二重拡散フレームワークは、当初画像復元には解釈不可能なデノイングに基づく拡散モデルを拡張し、残差を導入して画像生成と復元の両方のための統一的で解釈可能なモデルへと拡張する。 具体的には、残差拡散はターゲット画像から劣化した入力画像への方向拡散を表し、画像復元のための逆生成過程を明示的に導く一方、ノイズ拡散は拡散過程におけるランダムな摂動を表す。 残差は確実性を優先し、ノイズは多様性を強調し、RDDMは画像生成や復元のような様々な確実性や多様性の要求でタスクを効果的に統一することができる。 本プロセスは係数変換によるDDPMとDDIMと整合性を示し,逆過程をよりよく理解するための部分経路独立生成プロセスを提案する。 特にRDDMでは,L1損失とバッチサイズ1でトレーニングされた汎用UNetを,最先端の画像復元手法と競合させることが可能である。 我々は、革新的なフレームワーク(https://github.com/nachifur/RDDM)のさらなる探索、応用、開発を促進するために、コードと事前訓練されたモデルを提供します。

We propose residual denoising diffusion models (RDDM), a novel dual diffusion process that decouples the traditional single denoising diffusion process into residual diffusion and noise diffusion. This dual diffusion framework expands the denoising-based diffusion models, initially uninterpretable for image restoration, into a unified and interpretable model for both image generation and restoration by introducing residuals. Specifically, our residual diffusion represents directional diffusion from the target image to the degraded input image and explicitly guides the reverse generation process for image restoration, while noise diffusion represents random perturbations in the diffusion process. The residual prioritizes certainty, while the noise emphasizes diversity, enabling RDDM to effectively unify tasks with varying certainty or diversity requirements, such as image generation and restoration. We demonstrate that our sampling process is consistent with that of DDPM and DDIM through coefficient transformation, and propose a partially path-independent generation process to better understand the reverse process. Notably, our RDDM enables a generic UNet, trained with only an L1 loss and a batch size of 1, to compete with state-of-the-art image restoration methods. We provide code and pre-trained models to encourage further exploration, application, and development of our innovative framework (https://github.com/nachifur/RDDM).
翻訳日:2024-03-25 23:29:06 公開日:2024-03-22
# 動的離散視覚化を用いたLLMにおける統一言語ビジョン事前学習

Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization ( http://arxiv.org/abs/2309.04669v3 )

ライセンス: Link先を確認
Yang Jin, Kun Xu, Kun Xu, Liwei Chen, Chao Liao, Jianchao Tan, Quzhe Huang, Bin Chen, Chenyi Lei, An Liu, Chengru Song, Xiaoqiang Lei, Di Zhang, Wenwu Ou, Kun Gai, Yadong Mu, (参考訳) 近年、LLM(Large Language Model)の顕著な進歩により、研究者は、その異常な推論能力を視覚データと言語データの両方に転送するインスピレーションを与えている。 しかし,主に視覚入力をプロンプトとみなし,凍結LDMによる視覚内容に応じたテキスト生成プロセスの最適化にのみ焦点をあてるアプローチが主流である。 このような視覚と言語に対する不平等な扱いは、モデルの可能性を大幅に制限する。 本稿では,視覚と言語の両方を統一形式で表現することで,この限界を突破する。 具体的には、LLMが読み取ることができる外国語のような、非言語的なイメージを離散トークンのシーケンスに変換するために、よく設計されたビジュアルトークン化器を導入する。 結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。 このトークン化と組み合わせて、LaVITと呼ばれる提示された基盤モデルは、同じ生成学習パラダイムの下で、画像とテキストの両方を無差別に扱うことができる。 この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。 大規模な実験では、膨大な視覚言語タスクにおいて、既存のモデルよりも優れた性能を示す。 私たちのコードとモデルはhttps://github.com/jy0205/LaVIT.comで公開されています。

Recently, the remarkable advance of the Large Language Model (LLM) has inspired researchers to transfer its extraordinary reasoning capability to both vision and language data. However, the prevailing approaches primarily regard the visual input as a prompt and focus exclusively on optimizing the text generation process conditioned upon vision content by a frozen LLM. Such an inequitable treatment of vision and language heavily constrains the model's potential. In this paper, we break through this limitation by representing both vision and language in a unified form. Specifically, we introduce a well-designed visual tokenizer to translate the non-linguistic image into a sequence of discrete tokens like a foreign language that LLM can read. The resulting visual tokens encompass high-level semantics worthy of a word and also support dynamic sequence length varying from the image. Coped with this tokenizer, the presented foundation model called LaVIT can handle both image and text indiscriminately under the same generative learning paradigm. This unification empowers LaVIT to serve as an impressive generalist interface to understand and generate multi-modal content simultaneously. Extensive experiments further showcase that it outperforms the existing models by a large margin on massive vision-language tasks. Our code and models are available at https://github.com/jy0205/LaVIT.
翻訳日:2024-03-25 22:59:44 公開日:2024-03-22
# CARE: 合成データの高精度行列推定

CARE: Large Precision Matrix Estimation for Compositional Data ( http://arxiv.org/abs/2309.06985v2 )

ライセンス: Link先を確認
Shucong Zhang, Huiyuan Wang, Wei Lin, (参考訳) 高次元合成データは、多くのアプリケーションで広く使われている。 単純な制約は、大きな精度行列によって符号化された構成を構成する成分間の条件依存関係を推測する固有の課題を生じさせる。 本稿では, 合成精度行列の正確な仕様を導入し, 適切な空間性仮定の下で, 漸近的に同定可能であることを示す。 この接続を利用して、スパース基底精度行列を推定する合成適応正規化推定法(CARE)を提案する。 我々は,推定器の収束率を導出し,データ駆動型パラメータチューニングとサポート回復に関する理論的保証を提供する。 筆者らの理論は, 同定と推定の間の興味深いトレードオフを明らかにし, 構成データ解析における次元性の祝福を強調する。 特に、十分な高次元において、CARE推定器は極小極小の最適性を達成し、基礎が観測された場合と同様に機能する。 さらに、ゼロをサンプリングするなど、ゼロを含むデータを扱うために我々のフレームワークをどのように拡張できるかについても論じる。 従来の方法に対するCAREの利点はシミュレーション研究とヒト腸内の微生物生態ネットワーク推定への応用によって説明される。

High-dimensional compositional data are prevalent in many applications. The simplex constraint poses intrinsic challenges to inferring the conditional dependence relationships among the components forming a composition, as encoded by a large precision matrix. We introduce a precise specification of the compositional precision matrix and relate it to its basis counterpart, which is shown to be asymptotically identifiable under suitable sparsity assumptions. By exploiting this connection, we propose a composition adaptive regularized estimation (CARE) method for estimating the sparse basis precision matrix. We derive rates of convergence for the estimator and provide theoretical guarantees on support recovery and data-driven parameter tuning. Our theory reveals an intriguing trade-off between identification and estimation, thereby highlighting the blessing of dimensionality in compositional data analysis. In particular, in sufficiently high dimensions, the CARE estimator achieves minimax optimality and performs as well as if the basis were observed. We further discuss how our framework can be extended to handle data containing zeros, including sampling zeros and structural zeros. The advantages of CARE over existing methods are illustrated by simulation studies and an application to inferring microbial ecological networks in the human gut.
翻訳日:2024-03-25 22:49:52 公開日:2024-03-22
# MC-NeRF:マルチカメラ画像取得システムのためのマルチカメラニューラル放射場

MC-NeRF: Multi-Camera Neural Radiance Fields for Multi-Camera Image Acquisition Systems ( http://arxiv.org/abs/2309.07846v3 )

ライセンス: Link先を確認
Yu Gao, Lutong Su, Hao Liang, Yufeng Yue, Yi Yang, Mengyin Fu, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は3次元シーン表現にマルチビュー・イメージを使用し、顕著な性能を示す。 マルチビュー画像の主要なソースの1つとして、マルチカメラシステムは固有のパラメータの変化や頻繁なポーズ変更といった課題に直面している。 以前のNeRFベースの手法のほとんどは、ユニークなカメラを前提としており、マルチカメラのシナリオをめったに考慮していない。 さらに、内在パラメータと外在パラメータを最適化できるいくつかのNeRF法は、これらのパラメータが初期化されていない場合、依然として準最適解の影響を受けやすいままである。 本稿では, MC-NeRFを提案する。これは, 内在パラメータと外在パラメータを NeRF と同時最適化する手法である。 また、独立カメラパラメータに対応する各画像もサポートする。 まず,内因性パラメータと外因性パラメータの結合最適化から生じる結合問題と退化問題に取り組む。 次に,提案手法に基づいて,キャリブレーションオブジェクトの設計を含むマルチカメラシステムのための効率的なキャリブレーション画像取得手法を提案する。 最後に、レンダリングネットワークとともに、固有パラメータと外部パラメータを推定できるトレーニングシーケンスを備えたエンドツーエンドネットワークを提案する。 さらに、既存のほとんどのデータセットがユニークなカメラ用に設計されていることを認識し、実際のマルチカメラ画像取得システムを構築し、シミュレートされたデータと実世界のキャプチャ画像の両方を含む対応する新しいデータセットを作成する。 実験により,各画像が異なるカメラパラメータに対応する場合に,本手法の有効性を確認した。 具体的には、実世界のシステムにおいて、異なる内在パラメータと外在パラメータを持つマルチカメラを用いて、初期ポーズを伴わずに3Dシーン表現を実現する。

Neural Radiance Fields (NeRF) use multi-view images for 3D scene representation, demonstrating remarkable performance. As one of the primary sources of multi-view images, multi-camera systems encounter challenges such as varying intrinsic parameters and frequent pose changes. Most previous NeRF-based methods assume a unique camera and rarely consider multi-camera scenarios. Besides, some NeRF methods that can optimize intrinsic and extrinsic parameters still remain susceptible to suboptimal solutions when these parameters are poor initialized. In this paper, we propose MC-NeRF, a method that enables joint optimization of both intrinsic and extrinsic parameters alongside NeRF. The method also supports each image corresponding to independent camera parameters. First, we tackle coupling issue and the degenerate case that arise from the joint optimization between intrinsic and extrinsic parameters. Second, based on the proposed solutions, we introduce an efficient calibration image acquisition scheme for multi-camera systems, including the design of calibration object. Finally, we present an end-to-end network with training sequence that enables the estimation of intrinsic and extrinsic parameters, along with the rendering network. Furthermore, recognizing that most existing datasets are designed for a unique camera, we construct a real multi-camera image acquisition system and create a corresponding new dataset, which includes both simulated data and real-world captured images. Experiments confirm the effectiveness of our method when each image corresponds to different camera parameters. Specifically, we use multi-cameras, each with different intrinsic and extrinsic parameters in real-world system, to achieve 3D scene representation without providing initial poses.
翻訳日:2024-03-25 22:49:52 公開日:2024-03-22
# Dynamic-SUPERB:音声の動的・協調的・包括的指導調整ベンチマークを目指して

Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech ( http://arxiv.org/abs/2309.09510v2 )

ライセンス: Link先を確認
Chien-yu Huang, Ke-Han Lu, Shih-Heng Wang, Chi-Yuan Hsiao, Chun-Yi Kuan, Haibin Wu, Siddhant Arora, Kai-Wei Chang, Jiatong Shi, Yifan Peng, Roshan Sharma, Shinji Watanabe, Bhiksha Ramakrishnan, Shady Shehata, Hung-yi Lee, (参考訳) テキスト言語モデルは、よく整形された命令が与えられたときに、目に見えないタスクに一般化する際、顕著なゼロショット能力を示している。 しかし、音声処理における既存の研究は、主に限定的あるいは特定のタスクに焦点を当てている。 さらに、標準化されたベンチマークの欠如は、異なるアプローチ間の公正な比較を妨げる。 そこで本稿では,複数タスクをゼロショットで実行するための命令チューニングを活用可能なユニバーサル音声モデルを構築するためのベンチマークであるDynamic-SUPERBを提案する。 多様な音声タスクを網羅的にカバーし,指導指導の活用を図るため,我々はコミュニティに協力とコントリビューションを呼びかけ,ベンチマークの動的成長を促進する。 Dynamic-SUPERBは、33のタスクと22のデータセットを組み合わせることで55の評価インスタンスを特徴とする。 これは幅広い範囲にまたがり、評価のための総合的なプラットフォームを提供する。 さらに,ベンチマークベースラインを確立するためのいくつかのアプローチを提案する。 これには、音声モデル、テキスト言語モデル、マルチモーダルエンコーダの利用が含まれる。 評価結果は、これらのベースラインが目に見えるタスクで合理的に機能する一方で、目に見えないタスクで苦労していることを示している。 我々はすべての資料を公開し、研究者を歓迎し、このプロジェクトで協力し、この分野のテクノロジーを共に発展させます。

Text language models have shown remarkable zero-shot capability in generalizing to unseen tasks when provided with well-formulated instructions. However, existing studies in speech processing primarily focus on limited or specific tasks. Moreover, the lack of standardized benchmarks hinders a fair comparison across different approaches. Thus, we present Dynamic-SUPERB, a benchmark designed for building universal speech models capable of leveraging instruction tuning to perform multiple tasks in a zero-shot fashion. To achieve comprehensive coverage of diverse speech tasks and harness instruction tuning, we invite the community to collaborate and contribute, facilitating the dynamic growth of the benchmark. To initiate, Dynamic-SUPERB features 55 evaluation instances by combining 33 tasks and 22 datasets. This spans a broad spectrum of dimensions, providing a comprehensive platform for evaluation. Additionally, we propose several approaches to establish benchmark baselines. These include the utilization of speech models, text language models, and the multimodal encoder. Evaluation results indicate that while these baselines perform reasonably on seen tasks, they struggle with unseen ones. We release all materials to the public and welcome researchers to collaborate on the project, advancing technologies in the field together.
翻訳日:2024-03-25 22:49:51 公開日:2024-03-22
# コンテンツ強化レコメンデーションのための言語モデリング

Language Modeling for Content-enriched Recommendation ( http://arxiv.org/abs/2309.10435v3 )

ライセンス: Link先を確認
Junzhe Jiang, Shang Qu, Mingyue Cheng, Qi Liu, Zhiding Liu, Hao Zhang, Rujiao Zhang, Kai Zhang, Rui Li, Jiatong Li, Min Gao, (参考訳) オンラインアプリケーションの領域ではレコメンダシステムは不可欠であり、ユーザ関心の動的シフトをカプセル化できるため、シーケンシャルなレコメンデーションは極めて有益である。 しかし、従来の逐次モデリング手法には、文脈情報の取得に制限がある。 主な理由は、言語モデルによるドメイン固有知識と項目関連テキストの内容の理解の欠如である。 幸いなことに、強力な言語モデルの出現は、幅広い世界の知識をレコメンデーションアルゴリズムに組み込む可能性を解き放った。 そこで本稿では、事前学習した言語モデルの意味理解機能を活用してパーソナライズされたレコメンデーションを生成するLANCERを提案する。 我々のアプローチは、言語モデルとレコメンデーションシステムの間のギャップを埋め、より人間的なレコメンデーションを生み出します。 複数のベンチマークデータセットで実施した一連の実験を通じて,提案手法の有効性を実証し,有望な結果を示し,逐次的なレコメンデーションタスクに対するモデルの影響について貴重な洞察を提供する。 さらに,実験コードも公開されている。

Recommender systems are indispensable in the realm of online applications, and sequential recommendation has enjoyed considerable prevalence due to its capacity to encapsulate the dynamic shifts in user interests. However, previous sequential modeling methods still have limitations in capturing contextual information. The primary reason is the lack of understanding of domain-specific knowledge and item-related textual content by language models. Fortunately, the emergence of powerful language models has unlocked the potential to incorporate extensive world knowledge into recommendation algorithms, enabling them to go beyond simple item attributes and truly understand the world surrounding user preferences. To achieve this, we propose LANCER, which leverages the semantic understanding capabilities of pre-trained language models to generate personalized recommendations. Our approach bridges the gap between language models and recommender systems, resulting in more human-like recommendations. We demonstrate the effectiveness of our approach through a series of experiments conducted on multiple benchmark datasets, showing promising results and providing valuable insights into the influence of our model on sequential recommendation tasks. Furthermore, our experimental codes are publicly available.
翻訳日:2024-03-25 22:49:51 公開日:2024-03-22
# LLMR:大規模言語モデルを用いた対話型世界のリアルタイムプロンプト

LLMR: Real-time Prompting of Interactive Worlds using Large Language Models ( http://arxiv.org/abs/2309.12276v3 )

ライセンス: Link先を確認
Fernanda De La Torre, Cathy Mengying Fang, Han Huang, Andrzej Banburski-Fahey, Judith Amores Fernandez, Jaron Lanier, (参考訳) LLMを用いた対話型混合現実体験のリアルタイム作成と修正のためのフレームワークであるLarge Language Model for Mixed Reality (LLMR)を提案する。 LLMRは、理想的なトレーニングデータが不足している、あるいは設計目標が内部ダイナミクス、直感的な分析、高度な相互作用の合成を必要とする、困難なケースに対処するために、新しい戦略を活用する。 私たちのフレームワークはテキストインタラクションとUnityゲームエンジンに依存しています。 シーン理解、タスク計画、自己デバッグ、メモリ管理の技術を取り入れることで、LLMRは標準のGPT-4を平均エラー率で4倍に向上させる。 LLMRといくつかの例の世界とのクロスプラットフォームの相互運用性を実証し、さまざまな生成タスクと修正タスクで評価し、さまざまなオブジェクト、ツール、シーンを生成および編集できることを示します。 最後に,ユーザビリティスタディ (N=11) を行い, 参加者がシステムに対して肯定的な経験をしており, 再び使用することを明らかにした。

We present Large Language Model for Mixed Reality (LLMR), a framework for the real-time creation and modification of interactive Mixed Reality experiences using LLMs. LLMR leverages novel strategies to tackle difficult cases where ideal training data is scarce, or where the design goal requires the synthesis of internal dynamics, intuitive analysis, or advanced interactivity. Our framework relies on text interaction and the Unity game engine. By incorporating techniques for scene understanding, task planning, self-debugging, and memory management, LLMR outperforms the standard GPT-4 by 4x in average error rate. We demonstrate LLMR's cross-platform interoperability with several example worlds, and evaluate it on a variety of creation and modification tasks to show that it can produce and edit diverse objects, tools, and scenes. Finally, we conducted a usability study (N=11) with a diverse set that revealed participants had positive experiences with the system and would use it again.
翻訳日:2024-03-25 22:49:51 公開日:2024-03-22
# 局所的および大域的ベイズ指数平滑化モデル

Local and Global Trend Bayesian Exponential Smoothing Models ( http://arxiv.org/abs/2309.13950v3 )

ライセンス: Link先を確認
Slawek Smyl, Christoph Bergmeir, Alexander Dokumentov, Xueying Long, Erwin Wibowo, Daniel Schmidt, (参考訳) 本稿では,加法的および乗法的指数的平滑化モデルの一般化と見なせる季節的・非季節的時系列モデルのファミリーを,指数関数よりも高速に成長するモデル系列に記述する。 彼らの開発は、急速に成長し、揮発性の時系列によって動機付けられている。 特に、我々のモデルは、加法から乗法へのスムーズな変化が可能な大域的な傾向を持ち、線形局所的傾向と組み合わせられる。 我々のモデルでは、使用時の季節性は乗法的であり、エラーは常に加法的であるが、ヘテロスセダティックであり、パラメータシグマによって成長することができる。 我々は、標準的な指数的滑らか化モデルよりも複雑で柔軟なこれらのモデルを正確に適合させるために、最先端のベイズフィッティング技術を活用している。 M3コンペティションデータセットに適用した場合、我々のモデルは競争における最高のアルゴリズムと他のベンチマークよりも優れており、この文献におけるこのデータセット上で、シリーズごとの単変量メソッドの最良の結果が、私たちの知識の最高の結果となる。 本手法のオープンソースソフトウェアパッケージが利用可能である。

This paper describes a family of seasonal and non-seasonal time series models that can be viewed as generalisations of additive and multiplicative exponential smoothing models, to model series that grow faster than linear but slower than exponential. Their development is motivated by fast-growing, volatile time series. In particular, our models have a global trend that can smoothly change from additive to multiplicative, and is combined with a linear local trend. Seasonality when used is multiplicative in our models, and the error is always additive but is heteroscedastic and can grow through a parameter sigma. We leverage state-of-the-art Bayesian fitting techniques to accurately fit these models that are more complex and flexible than standard exponential smoothing models. When applied to the M3 competition data set, our models outperform the best algorithms in the competition as well as other benchmarks, thus achieving to the best of our knowledge the best results of per-series univariate methods on this dataset in the literature. An open-source software package of our method is available.
翻訳日:2024-03-25 22:49:51 公開日:2024-03-22
# ランダム言語モデルのロバスト性

Robustness of the Random Language Model ( http://arxiv.org/abs/2309.14913v2 )

ライセンス: Link先を確認
Fatemeh Lalegani, Eric De Giuli, (参考訳) Random Language Model (De Giuli 2019) は確率的文脈自由文法のアンサンブルであり、人間とコンピュータ言語の文法を定量化している。 このモデルは、潜在的言語の広大な空間におけるアニーリングの一種として、最初の言語学習の簡単な図を示唆している。 最も単純な定式化では、潜在的な単語とカテゴリ間の対称性が自発的に壊れる文法構文への単一の連続的な遷移を意味する。 ここでは、原モデルの拡張に対する堅牢性を考慮して、本図を精査し、原案とは異なるパラメータ空間を軌跡とする。 以下に示す。 (i)実世界における学習の必然的な構成要素である明示的な対称性の破れに対して、シナリオは堅牢である。 (ii) 表層(観測可能な)特性を変化させながら深い(隠された)構造を固定することで文法構文への遷移に遭遇する。 また、遷移は理想化された極限における鋭い熱力学的遷移になるとも主張されている。 さらに、構文ネットワークのクラスタリング係数に関する人的データと比較すると、観察された遷移は24ヶ月の子供に通常経験されるものと同等であることが示唆された。 これらの結果は、言語学における第一言語習得の理論や、近年の機械学習の成功を踏まえて論じられている。

The Random Language Model (De Giuli 2019) is an ensemble of stochastic context-free grammars, quantifying the syntax of human and computer languages. The model suggests a simple picture of first language learning as a type of annealing in the vast space of potential languages. In its simplest formulation, it implies a single continuous transition to grammatical syntax, at which the symmetry among potential words and categories is spontaneously broken. Here this picture is scrutinized by considering its robustness against extensions of the original model, and trajectories through parameter space different from those originally considered. It is shown here that (i) the scenario is robust to explicit symmetry breaking, an inevitable component of learning in the real world; and (ii) the transition to grammatical syntax can be encountered by fixing the deep (hidden) structure while varying the surface (observable) properties. It is also argued that the transition becomes a sharp thermodynamic transition in an idealized limit. Moreover, comparison with human data on the clustering coefficient of syntax networks suggests that the observed transition is equivalent to that normally experienced by children at age 24 months. The results are discussed in light of theory of first-language acquisition in linguistics, and recent successes in machine learning.
翻訳日:2024-03-25 22:49:51 公開日:2024-03-22
# 複雑度から明瞭度:クリフォードの幾何学的代数と凸性によるディープニューラルネットワーク重みの解析的表現

From Complexity to Clarity: Analytical Expressions of Deep Neural Network Weights via Clifford's Geometric Algebra and Convexity ( http://arxiv.org/abs/2309.16512v4 )

ライセンス: Link先を確認
Mert Pilanci, (参考訳) 本稿では,幾何(クリフォード)代数と凸最適化に基づくニューラルネットワークの新しい解析手法を提案する。 我々は,標準正規化損失のトレーニングにおいて,深部ReLUニューラルネットワークの最適重みがトレーニングサンプルのウェッジ積によって与えられることを示した。 さらに、トレーニング問題は、トレーニングデータセットの幾何学的構造を符号化するウェッジ製品特徴よりも凸最適化に還元される。 この構造は、データベクトルによって生成される三角形と平行同位体の符号付き体積で与えられる。 凸問題は、関連するウェッジ製品の特徴のみを発見するために$\ell_1$正規化によってサンプルの小さな部分集合を見つける。 私たちの分析は、ディープニューラルネットワークの内部動作に関する新しい視点を提供し、隠れた層の役割に光を当てます。

In this paper, we introduce a novel analysis of neural networks based on geometric (Clifford) algebra and convex optimization. We show that optimal weights of deep ReLU neural networks are given by the wedge product of training samples when trained with standard regularized loss. Furthermore, the training problem reduces to convex optimization over wedge product features, which encode the geometric structure of the training dataset. This structure is given in terms of signed volumes of triangles and parallelotopes generated by data vectors. The convex problem finds a small subset of samples via $\ell_1$ regularization to discover only relevant wedge product features. Our analysis provides a novel perspective on the inner workings of deep neural networks and sheds light on the role of the hidden layers.
翻訳日:2024-03-25 22:49:51 公開日:2024-03-22
# NAYER: 効率的かつ効果的な知識蒸留のためのノイズ層データ生成

NAYER: Noisy Layer Data Generation for Efficient and Effective Data-free Knowledge Distillation ( http://arxiv.org/abs/2310.00258v2 )

ライセンス: Link先を確認
Minh-Tuan Tran, Trung Le, Xuan-May Le, Mehrtash Harandi, Quan Hung Tran, Dinh Phung, (参考訳) Data-Free Knowledge Distillation (DFKD)は、教師のニューラルネットワークから学生のニューラルネットワークに、元のデータにアクセスせずに知識を移すことによって、近年大きな進歩を遂げている。 それにもかかわらず、既存のアプローチは、本質的に意味のある情報を欠くランダムノイズ入力からサンプルを生成する際に、重大な課題に直面している。 結果として、これらのモデルは、このノイズを地中真実のサンプル分布に効果的にマッピングするのに苦労し、訓練時間と低品質の出力を長くする結果となった。 本稿では,入力からノイズ層へランダムなソースを移動させる新しいノイズ層生成法(NAYER)を提案する。 LTEは一度言語モデルを使用して生成され、その後、すべてのトレーニングプロセスにメモリに格納される。 LTEの重要性は、重要なクラス間情報を含む能力にあるため、少数のトレーニングステップだけで高品質なサンプルを生成することができる。 同時に、モデルが制約ラベル情報を過度に強調することを防止することにより、サンプル生成における多様性の問題に対処する上で、ノイズ層が重要な役割を果たす。 各イテレーションでノイズ層を再起動することにより、LTEによる学習の容易さにより、メソッドの効率を保ちながら、多様なサンプルの生成を容易にすることを目指している。 複数のデータセットで行った実験によると、NAYERは最先端の手法より優れているだけでなく、従来の手法よりも5倍から15倍高速な速度を実現している。 コードはhttps://github.com/tmtuan1307/nayer.comで公開されている。

Data-Free Knowledge Distillation (DFKD) has made significant recent strides by transferring knowledge from a teacher neural network to a student neural network without accessing the original data. Nonetheless, existing approaches encounter a significant challenge when attempting to generate samples from random noise inputs, which inherently lack meaningful information. Consequently, these models struggle to effectively map this noise to the ground-truth sample distribution, resulting in prolonging training times and low-quality outputs. In this paper, we propose a novel Noisy Layer Generation method (NAYER) which relocates the random source from the input to a noisy layer and utilizes the meaningful constant label-text embedding (LTE) as the input. LTE is generated by using the language model once, and then it is stored in memory for all subsequent training processes. The significance of LTE lies in its ability to contain substantial meaningful inter-class information, enabling the generation of high-quality samples with only a few training steps. Simultaneously, the noisy layer plays a key role in addressing the issue of diversity in sample generation by preventing the model from overemphasizing the constrained label information. By reinitializing the noisy layer in each iteration, we aim to facilitate the generation of diverse samples while still retaining the method's efficiency, thanks to the ease of learning provided by LTE. Experiments carried out on multiple datasets demonstrate that our NAYER not only outperforms the state-of-the-art methods but also achieves speeds 5 to 15 times faster than previous approaches. The code is available at https://github.com/tmtuan1307/nayer.
翻訳日:2024-03-25 22:49:51 公開日:2024-03-22
# AI-Dentify: 噛みつくX線による近位線検出のための深層学習 -- HUNT4経口健康研究

AI-Dentify: Deep learning for proximal caries detection on bitewing x-ray -- HUNT4 Oral Health Study ( http://arxiv.org/abs/2310.00354v3 )

ライセンス: Link先を確認
Javier Pérez de Frutos, Ragnhild Holden Helland, Shreya Desai, Line Cathrine Nymoen, Thomas Langø, Theodor Remman, Abhijit Sen, (参考訳) 背景: 歯列診断には, 患者の咬合像を手動で検査する必要がある。 しかし、人工知能の使用、特にディープラーニングは、噛み付く画像の迅速かつ情報的な分析を提供することで、診断を助ける可能性がある。 方法: HUNT4 Oral Health Studyの13,887個の噛み付きデータセットを6つの専門家によって個別に注釈付けし、RetinaNet(ResNet50)、YOLOv5(Mサイズ)、EfficientDet(D0とD1サイズ)という3つの異なるオブジェクト検出ディープラーニングアーキテクチャをトレーニングした。 同じ6人の歯科医が共同で注釈を付けた197枚の画像のコンセンサスデータセットを用いて評価を行った。 AIモデルの性能を評価するために、5倍のクロスバリデーションスキームが用いられた。 結果: トレーニングモデルでは, 平均精度とF1スコアが増加し, 偽陰性率の低下がみられた。 歯科医と比較すると、YOLOv5モデルが最も改善しており、平均精度0.647、F1スコア0.548、偽陰性率0.149が報告されている。 これらはそれぞれ0.299, 0.495, 0.164であった。 結論: 深層学習モデルは, ケーリーの診断において歯科専門医を支援する可能性を示唆している。 しかし、その課題は、噛み付く画像に自然に生じる人工物のため、依然として挑戦的だ。

Background: Dental caries diagnosis requires the manual inspection of diagnostic bitewing images of the patient, followed by a visual inspection and probing of the identified dental pieces with potential lesions. Yet the use of artificial intelligence, and in particular deep-learning, has the potential to aid in the diagnosis by providing a quick and informative analysis of the bitewing images. Methods: A dataset of 13,887 bitewings from the HUNT4 Oral Health Study were annotated individually by six different experts, and used to train three different object detection deep-learning architectures: RetinaNet (ResNet50), YOLOv5 (M size), and EfficientDet (D0 and D1 sizes). A consensus dataset of 197 images, annotated jointly by the same six dentist, was used for evaluation. A five-fold cross validation scheme was used to evaluate the performance of the AI models. Results: he trained models show an increase in average precision and F1-score, and decrease of false negative rate, with respect to the dental clinicians. When compared against the dental clinicians, the YOLOv5 model shows the largest improvement, reporting 0.647 mean average precision, 0.548 mean F1-score, and 0.149 mean false negative rate. Whereas the best annotators on each of these metrics reported 0.299, 0.495, and 0.164 respectively. Conclusion: Deep-learning models have shown the potential to assist dental professionals in the diagnosis of caries. Yet, the task remains challenging due to the artifacts natural to the bitewing images.
翻訳日:2024-03-25 22:49:51 公開日:2024-03-22
# SLAMのための高レベル意味関係概念の学習

Learning High-level Semantic-Relational Concepts for SLAM ( http://arxiv.org/abs/2310.00401v2 )

ライセンス: Link先を確認
Jose Andres Millan-Romera, Hriday Bavle, Muhammad Shaheer, Martin R. Oswald, Holger Voos, Jose Luis Sanchez-Lopez, (参考訳) SLAMに関する最近の研究は、それら間の関係を利用したRoomsのような高レベルのセマンティックな概念によるポーズグラフを拡張し、状況/環境のより豊かな表現を提供するだけでなく、その推定精度を向上させる。 具体的には、因子最適化プロセスにおいて意味的関係を共同で活用する先駆者であり、数学的に定義されているPlanesやRoomsのような意味的実体に依存している。 それでも、異なる性質の高レベル概念に対応する低レベル因子グラフに隠されたすべてのパターンを見つけるためのユニークなアプローチは存在しない。 現在、グラフ表現性を制限するアドホックアルゴリズムに取り組んでいます。 この制限を克服するため、我々は低レベル因子グラフから推論可能な高レベル意味関係概念を学習するためのグラフニューラルネットワークに基づくアルゴリズムを提案する。 マップされた平面のセットが与えられた場合、我々のアルゴリズムは、平面に関連するRoomエンティティを推測することができる。 さらに,提案手法の汎用性を示すために,壁やその平面との関係といった意味関係の概念を推論することができる。 提案手法をシミュレーションと実データの両方で検証し, 2つのベースラインアプローチによる性能向上を実証した。 さらに,本手法をS-Graphs+アルゴリズムに統合し,ポーズとマップの精度を向上させるとともに,シーン表現をさらに強化する。

Recent works on SLAM extend their pose graphs with higher-level semantic concepts like Rooms exploiting relationships between them, to provide, not only a richer representation of the situation/environment but also to improve the accuracy of its estimation. Concretely, our previous work, Situational Graphs (S-Graphs+), a pioneer in jointly leveraging semantic relationships in the factor optimization process, relies on semantic entities such as Planes and Rooms, whose relationship is mathematically defined. Nevertheless, there is no unique approach to finding all the hidden patterns in lower-level factor-graphs that correspond to high-level concepts of different natures. It is currently tackled with ad-hoc algorithms, which limits its graph expressiveness. To overcome this limitation, in this work, we propose an algorithm based on Graph Neural Networks for learning high-level semantic-relational concepts that can be inferred from the low-level factor graph. Given a set of mapped Planes our algorithm is capable of inferring Room entities relating to the Planes. Additionally, to demonstrate the versatility of our method, our algorithm can infer an additional semantic-relational concept, i.e. Wall, and its relationship with its Planes. We validate our method in both simulated and real datasets demonstrating improved performance over two baseline approaches. Furthermore, we integrate our method into the S-Graphs+ algorithm providing improved pose and map accuracy compared to the baseline while further enhancing the scene representation.
翻訳日:2024-03-25 22:49:51 公開日:2024-03-22
# Win-Win: 2つのWindowsから高解像度ビジョン変換器をトレーニング

Win-Win: Training High-Resolution Vision Transformers from Two Windows ( http://arxiv.org/abs/2310.00632v2 )

ライセンス: Link先を確認
Vincent Leroy, Jerome Revaud, Thomas Lucas, Philippe Weinzaepfel, (参考訳) トランスフォーマーは最先端のビジョンアーキテクチャの標準となり、画像レベルと高密度のピクセルワイドタスクの両方で優れたパフォーマンスを実現している。 しかし,高分解能画素ワイドタスクのためのトレーニング用視覚変換器は,コストを抑えることができる。 典型的なソリューションは階層的なアーキテクチャ、高速で近似的な注意、低解像度の作物の訓練に沸騰する。 この後者のソリューションはアーキテクチャ上の選択を制約しないが、トレーニングで使用されるものよりもはるかに高い解像度でテストすると、明らかにパフォーマンスが低下し、アドホックで遅い後処理のスキームが必要になる。 本稿では,高解像度ビジョントランスの効率的なトレーニングと推論のための新しい手法を提案する。 鍵となる原則は、トレーニング中の高解像度入力の大部分をマスクし、N個のランダムウィンドウだけを保持することである。 これにより、各ウィンドウ内のトークン間のローカルインタラクションと、異なるウィンドウからのトークン間のグローバルインタラクションを学習することができる。 その結果、モデルは特別なトリックを伴わずに、テスト時に高解像度入力を直接処理できる。 回転埋め込みなどの相対的な位置埋め込みを利用する場合,この戦略が有効であることを示す。 フルレゾリューションネットワークよりもトレーニングが4倍速く、既存のアプローチと比べてテスト時に簡単に使用できます。 この戦略を高解像度データを用いた3つの密集予測タスクに適用する。 まず、セマンティックセグメンテーションのタスクにおいて、2つのウィンドウを持つ単純な設定が最適であることを示す。 次に, 単分子深度予測の課題について, この結果を確認した。 第3に、光学的フローの双眼鏡タスクにさらに拡張し、最高の競合相手よりもはるかに高速な推測でフルHD画像を含むSpringベンチマークで最先端のパフォーマンスに達する。

Transformers have become the standard in state-of-the-art vision architectures, achieving impressive performance on both image-level and dense pixelwise tasks. However, training vision transformers for high-resolution pixelwise tasks has a prohibitive cost. Typical solutions boil down to hierarchical architectures, fast and approximate attention, or training on low-resolution crops. This latter solution does not constrain architectural choices, but it leads to a clear performance drop when testing at resolutions significantly higher than that used for training, thus requiring ad-hoc and slow post-processing schemes. In this paper, we propose a novel strategy for efficient training and inference of high-resolution vision transformers. The key principle is to mask out most of the high-resolution inputs during training, keeping only N random windows. This allows the model to learn local interactions between tokens inside each window, and global interactions between tokens from different windows. As a result, the model can directly process the high-resolution input at test time without any special trick. We show that this strategy is effective when using relative positional embedding such as rotary embeddings. It is 4 times faster to train than a full-resolution network, and it is straightforward to use at test time compared to existing approaches. We apply this strategy to three dense prediction tasks with high-resolution data. First, we show on the task of semantic segmentation that a simple setting with 2 windows performs best, hence the name of our method: Win-Win. Second, we confirm this result on the task of monocular depth prediction. Third, we further extend it to the binocular task of optical flow, reaching state-of-the-art performance on the Spring benchmark that contains Full-HD images with an order of magnitude faster inference than the best competitor.
翻訳日:2024-03-25 22:49:51 公開日:2024-03-22
# LILAC: 適応型パーシングキャッシュを用いたLLMを用いたログパーシング

LILAC: Log Parsing using LLMs with Adaptive Parsing Cache ( http://arxiv.org/abs/2310.01796v3 )

ライセンス: Link先を確認
Zhihan Jiang, Jinyang Liu, Zhuangbin Chen, Yichen Li, Junjie Huang, Yintong Huo, Pinjia He, Jiazhen Gu, Michael R. Lyu, (参考訳) ログ解析はログメッセージを構造化フォーマットに変換し、さまざまなログ解析タスクの必須ステップとして機能する。 様々なログ解析手法が提案されているが、人為的なルールや限られたトレーニングデータを用いた学習モデルを用いることで、複雑なログデータのパフォーマンスが損なわれている。 最近の強力な大規模言語モデル(LLM)の出現は、コードとロギングに関する膨大な事前訓練された知識を示し、ログ解析にLLMを適用することを約束している。 しかし、ログ解析能力の欠如は、現在解析の正確さを妨げている。 さらに、固有の一貫性のない回答とかなりのオーバーヘッドは、LLMベースのログ解析の実践的採用を妨げる。 これらの課題に対処するため,適応型パーシングキャッシュを用いた LLM を用いた最初の実用的なログ解析フレームワーク LILAC を提案する。 高精度でロバストなログ解析を容易にするため、LILACは階層的候補サンプリングアルゴリズムを実行し、高品質なデモを選択することで、LLMのコンテキスト内学習(ICL)能力を活用する。 さらに、LILACは、LCMによって生成されたテンプレートを保存および洗練するために、新しいコンポーネントである適応解析キャッシュを組み込んでいる。 これは、以前処理されたログテンプレートの迅速な検索を可能にすることで、LLMの不効率問題を緩和するのに役立つ。 このプロセスでは、LILACは解析された結果の一貫性を確保するために、解析キャッシュ内のテンプレートを適応的に更新する。 パブリックな大規模データセットに対する広範な評価は、LILACがテンプレートの精度のF1スコアの平均で最先端の手法を69.5%上回っていることを示している。 加えて、LILACはクエリ時間を数桁のLLMに短縮し、最速のベースラインに匹敵する効率を達成する。

Log parsing transforms log messages into structured formats, serving as the prerequisite step for various log analysis tasks. Although a variety of log parsing approaches have been proposed, their performance on complicated log data remains compromised due to the use of human-crafted rules or learning-based models with limited training data. The recent emergence of powerful large language models (LLMs) demonstrates their vast pre-trained knowledge related to code and logging, making it promising to apply LLMs for log parsing. However, their lack of specialized log parsing capabilities currently hinders their accuracy in parsing. Moreover, the inherent inconsistent answers, as well as the substantial overhead, prevent the practical adoption of LLM-based log parsing. To address these challenges, we propose LILAC, the first practical log parsing framework using LLMs with adaptive parsing cache. To facilitate accurate and robust log parsing, LILAC leverages the in-context learning (ICL) capability of the LLM by performing a hierarchical candidate sampling algorithm and selecting high-quality demonstrations. Furthermore, LILAC incorporates a novel component, an adaptive parsing cache, to store and refine the templates generated by the LLM. It helps mitigate LLM's inefficiency issue by enabling rapid retrieval of previously processed log templates. In this process, LILAC adaptively updates the templates within the parsing cache to ensure the consistency of parsed results. The extensive evaluation on public large-scale datasets shows that LILAC outperforms state-of-the-art methods by 69.5% in terms of the average F1 score of template accuracy. In addition, LILAC reduces the query times to LLMs by several orders of magnitude, achieving a comparable efficiency to the fastest baseline.
翻訳日:2024-03-25 22:49:51 公開日:2024-03-22
# 構造振動予測の学習

Learning to Predict Structural Vibrations ( http://arxiv.org/abs/2310.05469v3 )

ライセンス: Link先を確認
Jan van Delden, Julius Schultz, Christopher Blech, Sabine C. Langer, Timo Lüddecke, (参考訳) 飛行機、車、家屋などの機械構造では、騒音が発生し振動によって伝達される。 このノイズを低減させるためには、高価な数値計算で振動をシミュレートする必要がある。 サーロゲート深層学習モデルは、古典的な数値シミュレーションに代わる有望な代替手段を提供する。 このようなトレードオフを体系的に定量化し,手法の開発を促進するために,調和的に励起されたプレートの振動を予測する作業に関するベンチマークを提示する。 ベンチマークでは、ビーディング、材料、大きさの異なる12,000のプレートのジオメトリーと関連する数値解が特徴である。 そこで本研究では,プレート測地を特定の励起周波数の振動パターンにマッピングするように訓練した,周波数クエリ演算子という新しいネットワークアーキテクチャを提案する。 演算子学習と暗黙モデルによる形状符号化の原理を応用し、動的システムで発生する高可変周波数応答関数の予測を効果的に適用する。 予測品質を定量化するために,評価指標のセットを導入し,振動板ベンチマーク上で評価を行う。 提案手法は,DeepONets,Fourier Neural Operatorsおよび従来型ニューラルネットワークアーキテクチャよりも優れている。 コード、データセット、視覚化:https://eckerlab.org/code/delden2023_plate

In mechanical structures like airplanes, cars and houses, noise is generated and transmitted through vibrations. To take measures to reduce this noise, vibrations need to be simulated with expensive numerical computations. Surrogate deep learning models present a promising alternative to classical numerical simulations as they can be evaluated magnitudes faster, while trading-off accuracy. To quantify such trade-offs systematically and foster the development of methods, we present a benchmark on the task of predicting the vibration of harmonically excited plates. The benchmark features a total of 12000 plate geometries with varying forms of beadings, material and sizes with associated numerical solutions. To address the benchmark task, we propose a new network architecture, named Frequency-Query Operator, which is trained to map plate geometries to their vibration pattern given a specific excitation frequency. Applying principles from operator learning and implicit models for shape encoding, our approach effectively addresses the prediction of highly variable frequency response functions occurring in dynamic systems. To quantify the prediction quality, we introduce a set of evaluation metrics and evaluate the method on our vibrating-plates benchmark. Our method outperforms DeepONets, Fourier Neural Operators and more traditional neural network architectures. Code, dataset and visualizations: https://eckerlab.org/code/delden2023_plate
翻訳日:2024-03-25 22:49:51 公開日:2024-03-22
# 世界モデルを用いた強化学習における新規性検出

Novelty Detection in Reinforcement Learning with World Models ( http://arxiv.org/abs/2310.08731v2 )

ライセンス: Link先を確認
Geigh Zollicoffer, Kenneth Eaton, Jonathan Balloch, Julia Kim, Mark O. Riedl, Robert Wright, (参考訳) 世界モデルを用いた強化学習(RL)は近年大きな成功を収めている。 しかし、突然世界力学や性質が変化した場合、エージェントの性能と信頼性は劇的に低下する。 視覚特性や状態遷移の急激な変化を、新しいものとして言及する。 生成されたワールドモデルフレームワーク内での新規性検出の実装は、デプロイ時にエージェントを保護するための重要なタスクである。 本稿では,世界模型の幻覚状態と真の観測状態の誤配を異常スコアとして利用することにより,新規性検出を世界モデルRLエージェントに組み込むための単純なバウンダリング手法を提案する。 エージェントが世界モデルで学習した遷移の分布における新規性の検出に有効なアプローチを提案する。 最後に、従来の機械学習ノベルティ検出法や、現在受け入れられているRLに着目したノベルティ検出アルゴリズムと比較して、新しい環境における我々の研究の利点を示す。

Reinforcement learning (RL) using world models has found significant recent successes. However, when a sudden change to world mechanics or properties occurs then agent performance and reliability can dramatically decline. We refer to the sudden change in visual properties or state transitions as novelties. Implementing novelty detection within generated world model frameworks is a crucial task for protecting the agent when deployed. In this paper, we propose straightforward bounding approaches to incorporate novelty detection into world model RL agents, by utilizing the misalignment of the world model's hallucinated states and the true observed states as an anomaly score. We provide effective approaches to detecting novelties in a distribution of transitions learned by an agent in a world model. Finally, we show the advantage of our work in a novel environment compared to traditional machine learning novelty detection methods as well as currently accepted RL focused novelty detection algorithms.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-22
# BRC-20をEthereumにブリッジする

Bridging BRC-20 to Ethereum ( http://arxiv.org/abs/2310.10065v2 )

ライセンス: Link先を確認
Qin Wang, Guangsheng Yu, Shiping Chen, (参考訳) 本稿では,これまで不均一に非接触であったBitcoinとEthereumネットワークを接続するための軽量ブリッジ(ミドルウェアの一種)の設計,実装,および(一部)評価を行う。 最近発表されたBitcoin Request Comment (BRC-20)標準にインスパイアされた私たちは、それぞれのサトシに編集可能な操作を埋め込んで、プログラマブルなEthereumスマートコントラクトにマッピングすることで、Bitcoinの碑文の柔軟性を活用しています。 ユーザは、Bitcoinネットワークからのリクエストを初期化して、Ethereumネットワーク上で対応するアクションをトリガーすることができる。 我々は,2つの異種生態系間のセキュアでシームレスな相互作用を促進するための,ソリューションの軽量な性質と能力を検証する。

In this paper, we design, implement, and (partially-) evaluate a lightweight bridge (as a type of middleware) to connect the Bitcoin and Ethereum networks that were heterogeneously uncontactable before. Inspired by the recently introduced Bitcoin Request Comment (BRC-20) standard, we leverage the flexibility of Bitcoin inscriptions by embedding editable operations within each satoshi and mapping them to programmable Ethereum smart contracts. A user can initialize his/her requests from the Bitcoin network, subsequently triggering corresponding actions on the Ethereum network. We validate the lightweight nature of our solution and its ability to facilitate secure and seamless interactions between two heterogeneous ecosystems.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-22
# ダイナミックネットワークによる画像超解像

Image super-resolution via dynamic network ( http://arxiv.org/abs/2310.10413v2 )

ライセンス: Link先を確認
Chunwei Tian, Xuanyu Zhang, Qi Zhang, Mingming Yang, Zhaojie Ju, (参考訳) 畳み込みニューラルネットワーク(CNN)は、画像超解像のための正確な情報を抽出するために、ディープネットワークアーキテクチャに依存する。 しかし、これらのCNNの取得した情報は、複雑なシーンの予測された高品質な画像を完全に表現することはできない。 本稿では,画像超解像(DSRNet)のための動的ネットワークについて述べる。 残余拡張ブロックは、画像超解像の階層的特徴を促進するために、残余拡張アーキテクチャで構成されている。 複雑なシーンに対して得られた超解像モデルの堅牢性を高めるため、拡張ブロックは動的アーキテクチャを実現し、より堅牢な情報を学び、様々なシーンに対して得られた超解像モデルの適用性を高める。 広い拡張ブロックにおける部品の干渉を防止するため、改良ブロックは積み重ねられたアーキテクチャを用いて得られた特徴を正確に学習する。 また、リファインメントブロックに残差学習操作を埋め込んで、長期依存問題を防止する。 最後に、構築ブロックが高品質な画像の再構成に責任を負う。 設計された異種アーキテクチャは、よりリッチな構造情報を容易にするだけでなく、モバイルデジタルデバイスに適した軽量化も可能である。 実験結果から,本手法は画像の超解像時間と複雑性の回復時間において,より競争力が高いことがわかった。 DSRNetのコードはhttps://github.com/hellloxiaotian/DSRNetで入手できる。

Convolutional neural networks (CNNs) depend on deep network architectures to extract accurate information for image super-resolution. However, obtained information of these CNNs cannot completely express predicted high-quality images for complex scenes. In this paper, we present a dynamic network for image super-resolution (DSRNet), which contains a residual enhancement block, wide enhancement block, feature refinement block and construction block. The residual enhancement block is composed of a residual enhanced architecture to facilitate hierarchical features for image super-resolution. To enhance robustness of obtained super-resolution model for complex scenes, a wide enhancement block achieves a dynamic architecture to learn more robust information to enhance applicability of an obtained super-resolution model for varying scenes. To prevent interference of components in a wide enhancement block, a refinement block utilizes a stacked architecture to accurately learn obtained features. Also, a residual learning operation is embedded in the refinement block to prevent long-term dependency problem. Finally, a construction block is responsible for reconstructing high-quality images. Designed heterogeneous architecture can not only facilitate richer structural information, but also be lightweight, which is suitable for mobile digital devices. Experimental results shows that our method is more competitive in terms of performance and recovering time of image super-resolution and complexity. The code of DSRNet can be obtained at https://github.com/hellloxiaotian/DSRNet.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-22
# 二重Jaynes-Cummings模型の絡み合いダイナミクスにおける熱および硬化光子の役割

The role of thermal and squeezed photons in the entanglement dynamics of the double Jaynes-Cummings model ( http://arxiv.org/abs/2310.13918v2 )

ライセンス: Link先を確認
Koushik Mandal, Chandrashekar Radhakrishnan, M. V. Satyanarayana, (参考訳) 二重Jaynes-Cummingsモデルにおいて, 原子, 原子場, フィールドサブシステムの絡み合いに及ぼす励起光子および熱光子の影響について検討した。 この目的のために、圧縮コヒーレント状態とグラウバー・ラック状態がフィールド状態として選択される。 原子状態については、ベル状態の1つを純粋な状態とし、ヴェルナー型状態を混合状態とする。 ワーナー型状態は、絡み合いに対する混合性の影響を理解するために用いられる。 2つの原子間の絡み合いを測定するためにウーターの共起を用いるが、原子場と磁場のサブシステムでは負性を選択する。 圧縮された光子と熱光子は様々なサブシステム内で絡み合いを生じ、破壊し、伝達する。 また、切断された光子と熱光子が加わったことで、原子-原子、原子-磁場、磁場-磁場-絡み合いのダイナミクスに相補的な方法で関連する絡み合い突然死(ESD)の期間が延長または短縮される。 エンタングルメントダイナミクスに対するIsing型相互作用,デチューニング,Kerr-非線形性の影響について検討した。 これらの相互作用は、様々なサブシステムに関連するESDを除去する。 この2つの原子間のイジング型相互作用を導入することにより、この原子場系に新たな絡み合いが生じることを示す。 イジング型相互作用、デチューニング、カー・非線形性に対応するパラメータの適切な選択により、絡み合いは様々なサブシステム間で伝達される。

The effects of squeezed photons and thermal photons on the entanglement dynamics of atom-atom, atom-field and field-field subsystems are studied for the double Jaynes-Cummings model. For this purpose, squeezed coherent states and Glauber-Lachs states of radiation are chosen as field states. For the atomic states, we choose one of the Bell state as pure state and a Werner-type state as mixed state. Werner-type state is used to understand the effects of mixedness on entanglement. To measure the entanglement between the two atoms, Wootters' concurrence is used; whereas for the atom-field and field-field subsystems, negativity is chosen. The squeezed photons and thermal photons create, destroy and transfer entanglement within various subsystems. Also, the addition of squeezed photons and thermal photons either lengthens or shortens the duration of entanglement sudden deaths (ESD) associated with atom-atom, atom-field and field-field entanglement dynamics in a complementary way. The effects of Ising-type interaction, detuning and Kerr-nonlinearity on the entanglement dynamics are studied. Each of these interactions removes the ESDs associated with various subsystems. We show that new entanglements are created in this atom-field system by introducing Ising-type interaction between the two atoms. With proper choice of the parameters corresponding to Ising-type interaction, detuning and Kerr-nonliearity, entanglement can be transferred among various subsystems.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-22
# セルフガード: LLMに自身を守る力を与える

Self-Guard: Empower the LLM to Safeguard Itself ( http://arxiv.org/abs/2310.15851v2 )

ライセンス: Link先を確認
Zezhong Wang, Fangkai Yang, Lu Wang, Pu Zhao, Hongru Wang, Liang Chen, Qingwei Lin, Kam-Fai Wong, (参考訳) ジェイルブレイク攻撃は、Large Language Model(LLM)の安全性対策を回避し、有害なコンテンツを生成する。 このLSMの誤用は、社会的にネガティブな結果をもたらした。 現在、ジェイルブレイク攻撃に対処するための主要なアプローチは2つある。 安全訓練は、安全性を高めるためにLLMをさらに訓練することに焦点を当てている。 一方、セーフガードには、有害な出力を防ぐための外部モデルやフィルタの実装が含まれる。 しかし、安全性トレーニングは新しい攻撃タイプに適応する能力に制約があり、しばしばモデルパフォーマンスの低下につながる。 セーフガードは限られた助けとなることが証明されている。 これらの課題に対処するため,両手法の強みを組み合わせたセルフガード方式を提案する。 セルフガードには2つのステージがある。 第1段階では有害なコンテンツを評価する能力を高め、第2段階では有害なコンテンツ検出を継続的に行うよう指示する。 この実験は、セルフガードがジェイルブレイク攻撃に対して堅牢であることを示した。 悪いケース分析では、LLMは時に有害なクエリに対する無害な応答を提供する。 さらに,安全訓練前後におけるLLMの汎用能力を評価し,自己ガードがLLMの性能劣化を招かないことを示す。 感度テストでは、Self-GuardはLSMの過敏性を引き起こすことを避けるだけでなく、この問題を軽減することもできる。

The jailbreak attack can bypass the safety measures of a Large Language Model (LLM), generating harmful content. This misuse of LLM has led to negative societal consequences. Currently, there are two main approaches to address jailbreak attacks: safety training and safeguards. Safety training focuses on further training LLM to enhance its safety. On the other hand, safeguards involve implementing external models or filters to prevent harmful outputs. However, safety training has constraints in its ability to adapt to new attack types and often leads to a drop in model performance. Safeguards have proven to be of limited help. To tackle these issues, we propose a novel approach called Self-Guard, which combines the strengths of both safety methods. Self-Guard includes two stages. In the first stage, we enhance the model's ability to assess harmful content, and in the second stage, we instruct the model to consistently perform harmful content detection on its own responses. The experiment has demonstrated that Self-Guard is robust against jailbreak attacks. In the bad case analysis, we find that LLM occasionally provides harmless responses to harmful queries. Additionally, we evaluated the general capabilities of the LLM before and after safety training, providing evidence that Self-Guard does not result in the LLM's performance degradation. In sensitivity tests, Self-Guard not only avoids inducing over-sensitivity in LLM but also can even mitigate this issue.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-22
# E-Sparse:エントロピーベースのN:Mスパリティによる大規模言語モデル推論の強化

E-Sparse: Boosting the Large Language Model Inference through Entropy-based N:M Sparsity ( http://arxiv.org/abs/2310.15929v2 )

ライセンス: Link先を確認
Yun Li, Lin Niu, Xipeng Zhang, Kai Liu, Jianchen Zhu, Zhanhui Kang, (参考訳) 従来のプルーニング手法は、予測不可能なトレーニングプロセスと大規模な計算要求のため、ジェネレーティブAIのためのLarge Language Models(LLM)で作業することが難しいことが知られている。 LLMにおけるN:M間隔の精度を向上させるため,隠れ状態特徴の情報エントロピーをプルーニング計量設計(E-Sparse)に導入した。 E-Sparseは、チャネルの重要性を活用するために情報豊かさを採用し、(1)パラメータウェイトと入力特徴ノルムの重要度を高めるために情報エントロピーを導入し、残りのウェイトを変更することなくN:Mスパシティを実行する。 2) グローバルなナイーブシャッフルとローカルブロックシャッフルを設計し,情報配信を迅速に最適化し,N:M空間がLLMの精度に与える影響を適切に対処する。 E-SparseはFasterTransformer上のSparse-GEMMとして実装され、NVIDIA Ampere GPU上で動作する。 LLaMAファミリーとOPTモデルの大規模な実験により、E-Sparseは高密度モデル(最大1.53X)よりもモデル推論を著しく高速化し、大きなメモリ節約(最大43.52%)を得ることができ、精度の低下を許容できることが示された。

Traditional pruning methods are known to be challenging to work in Large Language Models (LLMs) for Generative AI because of their unaffordable training process and large computational demands. For the first time, we introduce the information entropy of hidden state features into a pruning metric design, namely E-Sparse, to improve the accuracy of N:M sparsity on LLM. E-Sparse employs the information richness to leverage the channel importance, and further incorporates several novel techniques to put it into effect: (1) it introduces information entropy to enhance the significance of parameter weights and input feature norms as a novel pruning metric, and performs N:M sparsity without modifying the remaining weights. (2) it designs global naive shuffle and local block shuffle to quickly optimize the information distribution and adequately cope with the impact of N:M sparsity on LLMs' accuracy. E-Sparse is implemented as a Sparse-GEMM on FasterTransformer and runs on NVIDIA Ampere GPUs. Extensive experiments on the LLaMA family and OPT models show that E-Sparse can significantly speed up the model inference over the dense model (up to 1.53X) and obtain significant memory saving (up to 43.52%), with acceptable accuracy loss.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-22
# 固有ベクトル継続と投影型エミュレータ

Eigenvector Continuation and Projection-Based Emulators ( http://arxiv.org/abs/2310.19419v2 )

ライセンス: Link先を確認
Thomas Duguet, Andreas Ekström, Richard J. Furnstahl, Sebastian König, Dean Lee, (参考訳) 固有ベクトル継続(英: Eigenvector continuation)は、パラメータ集合の固有ベクトルスナップショットから派生した部分空間射影を用いたパラメトリック固有値問題の計算方法である。 還元基底法(reduce-basis method)と呼ばれる、より広範な部分空間射影技法のクラスの一部である。 本稿では固有ベクトル継続と射影型エミュレータの開発、理論、応用について述べる。 本稿では,基本概念を紹介し,基礎となる理論と収束特性について論じるとともに,近年の量子システムへの応用と今後の展望について述べる。

Eigenvector continuation is a computational method for parametric eigenvalue problems that uses subspace projection with a basis derived from eigenvector snapshots from different parameter sets. It is part of a broader class of subspace-projection techniques called reduced-basis methods. In this colloquium article, we present the development, theory, and applications of eigenvector continuation and projection-based emulators. We introduce the basic concepts, discuss the underlying theory and convergence properties, and present recent applications for quantum systems and future prospects.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-22
# PhoGPT: ベトナムのためのジェネレーティブプレトレーニング

PhoGPT: Generative Pre-training for Vietnamese ( http://arxiv.org/abs/2311.02945v3 )

ライセンス: Link先を確認
Dat Quoc Nguyen, Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen, Dinh Phung, Hung Bui, (参考訳) 我々はベトナム語のための最先端の4Bパラメータ生成モデルシリーズをオープンソースとして公開し、基礎となる訓練済み単言語モデルPhoGPT-4Bとそのチャット変種であるPhoGPT-4B-Chatを含む。 ベースモデルであるPhoGPT-4Bは、正確に3.7Bパラメータを持つが、ベトナムの102Bトークンのコーパスのスクラッチから事前訓練されており、文脈長は8192で、20480トークンの語彙を使用している。 チャットの変種であるPhoGPT-4B-Chatは、70Kの命令プロンプトとその応答のデータセット上でPhoGPT-4Bを微調整し、290Kの会話を追加することによって得られるモデリング出力である。 また,従来のオープンソースモデルと比較して優れた性能を示す。 私たちのPhoGPTモデルは、https://github.com/VinAIResearch/PhoGPTで利用可能です。

We open-source a state-of-the-art 4B-parameter generative model series for Vietnamese, which includes the base pre-trained monolingual model PhoGPT-4B and its chat variant, PhoGPT-4B-Chat. The base model, PhoGPT-4B, with exactly 3.7B parameters, is pre-trained from scratch on a Vietnamese corpus of 102B tokens, with an 8192 context length, employing a vocabulary of 20480 token types. The chat variant, PhoGPT-4B-Chat, is the modeling output obtained by fine-tuning PhoGPT-4B on a dataset of 70K instructional prompts and their responses, along with an additional 290K conversations. In addition, we also demonstrate its superior performance compared to previous open-source models. Our PhoGPT models are available at: https://github.com/VinAIResearch/PhoGPT
翻訳日:2024-03-25 22:40:07 公開日:2024-03-22
# 長期予測のための多分解能時系列変換器

Multi-resolution Time-Series Transformer for Long-term Forecasting ( http://arxiv.org/abs/2311.04147v2 )

ライセンス: Link先を確認
Yitian Zhang, Liheng Ma, Soumyasundar Pal, Yingxue Zhang, Mark Coates, (参考訳) 時系列予測のための変圧器の性能は大幅に向上した。 最近のアーキテクチャでは、時系列をパッチに分割し、パッチをトークンとして使用することで、複雑な時間パターンを学習している。 パッチサイズは、トランスフォーマーが異なる周波数で時間パターンを学習する能力を制御する。 この観測から着想を得た新しいフレームワークMTST(Multi- resolution Time-Series Transformer)を提案する。 多くの既存の時系列変換器とは対照的に、異なるスケールで周期成分を抽出するのに適する相対的な位置符号化を用いる。 いくつかの実世界のデータセットに対する大規模な実験は、最先端の予測技術と比較してMTSTの有効性を実証している。

The performance of transformers for time-series forecasting has improved significantly. Recent architectures learn complex temporal patterns by segmenting a time-series into patches and using the patches as tokens. The patch size controls the ability of transformers to learn the temporal patterns at different frequencies: shorter patches are effective for learning localized, high-frequency patterns, whereas mining long-term seasonalities and trends requires longer patches. Inspired by this observation, we propose a novel framework, Multi-resolution Time-Series Transformer (MTST), which consists of a multi-branch architecture for simultaneous modeling of diverse temporal patterns at different resolutions. In contrast to many existing time-series transformers, we employ relative positional encoding, which is better suited for extracting periodic components at different scales. Extensive experiments on several real-world datasets demonstrate the effectiveness of MTST in comparison to state-of-the-art forecasting techniques.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-22
# グラスホッパーモデルにおける対称性の破れの起源

Origin of Symmetry Breaking in the Grasshopper Model ( http://arxiv.org/abs/2311.05023v2 )

ライセンス: Link先を確認
David Llamas, Jaron Kent-Dobias, Kun Chen, Adrian Kent, Olga Goulko, (参考訳) Goulko & Kent 2017 Proc. R. Soc. A 473, 20170494は、基底状態が回転対称性を破る長距離等方性相互作用を持つモデルの顕著な例である。 本研究では, この対称性の破断の性質を, 次元の重要性に着目して解析し, 説明する。 興味深いことに、回転対称性は小さなジャンプのために3次元で回復される。 N次元における原システムの対称性特性を再現する単純化されたモデルについて議論する。 2次元のフルグラスホッパーモデルに対して、ディスクの最適摂動の定量的予測を得る。 解析結果は数値シミュレーションによって確認される。

The planar grasshopper problem, originally introduced in (Goulko & Kent 2017 Proc. R. Soc. A 473, 20170494), is a striking example of a model with long-range isotropic interactions whose ground states break rotational symmetry. In this work we analyze and explain the nature of this symmetry breaking with emphasis on the importance of dimensionality. Interestingly, rotational symmetry is recovered in three dimensions for small jumps, which correspond to the non-isotropic cogwheel regime of the two-dimensional problem. We discuss simplified models that reproduce the symmetry properties of the original system in N dimensions. For the full grasshopper model in two dimensions we obtain quantitative predictions for optimal perturbations of the disk. Our analytical results are confirmed by numerical simulations.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-22
# 量子時空間相関における時間矢印の推定

Inferring the arrow of time in quantum spatiotemporal correlations ( http://arxiv.org/abs/2311.07086v2 )

ライセンス: Link先を確認
Xiangjing Liu, Qian Chen, Oscar Dahlsten, (参考訳) 量子実験から得られた測定データに付随する時間順序を2回および任意の数量子ビットで示す方法について検討する。 時間推定問題の矢印を定義する。 我々は、時間反転の下で対称あるいは非対称な初期状態と最終状態の条件を考える。 擬似密度行列時空間状態を用いて時空間計測データを表現した。 CPTPであるフォワードプロセスと、逆ユニタリディレーションに基づく新しいリカバリマップによって得られるリバースプロセスとがある。 非対称な条件に対して、このプロトコルは、データがユニタリディレーション回復マップと一致しているか、CPTPマップと一致しているかを決定する。 対称条件の場合、リカバリマップは有効なCPTPマップを生成し、実験はどちらの方向にも行われたかもしれない。 また、Leifer-Spekkens あるいは ProcessMatrix の時空状態へのアプローチの適応についても論じる。

We consider how to tell the time-ordering associated with measurement data from quantum experiments at two times and any number of qubits. We define an arrow of time inference problem. We consider conditions on the initial and final states that are symmetric or asymmetric under time reversal. We represent the spatiotemporal measurement data via the pseudo density matrix space-time state. There is a forward process which is CPTP and a reverse process which is obtained via a novel recovery map based on inverting unitary dilations. For asymmetric conditions, the protocol determines whether the data is consistent with the unitary dilation recovery map or the CPTP map. For symmetric conditions, the recovery map yields a valid CPTP map and the experiment may have taken place in either direction. We also discuss adapting the approach to the Leifer-Spekkens or Process matrix space-time states.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-22
# Toulouse Hyperspectral Data Set: 半教師付きスペクトル表現学習と画素ワイズ分類技術を評価するベンチマークデータセット

Toulouse Hyperspectral Data Set: a benchmark data set to assess semi-supervised spectral representation learning and pixel-wise classification techniques ( http://arxiv.org/abs/2311.08863v2 )

ライセンス: Link先を確認
Romain Thoreau, Laurent Risser, Véronique Achard, Béatrice Berthelot, Xavier Briottet, (参考訳) 大気中のハイパースペクトル画像は、広いスペクトル領域の非常に高い空間分解能とスペクトル分解能のおかげで、大都市部における土地被覆のマッピングに利用することができる。 超スペクトル画像のスペクトル次元は、陸面の化学組成に非常に有益であるが、最先端の機械学習アルゴリズムを用いてランドカバーをマッピングすることは、トレーニングデータの利用により劇的に制限されている。 アノテーションの不足に対処するため、半監督的かつ自己監督的手法は近年、コミュニティに多くの関心を寄せている。 しかし、機械学習モデルのベンチマークに一般的に使用されるハイパースペクトルデータセットは、地理的範囲(大都市圏のスペクトルの多様性を反映しない)の制限、少数の土地被覆クラス、セミ教師付きおよび自己教師型学習のための適切な標準列車/テストスプリットの欠如など、その一般化性能を評価するのに完全には適していない。 そこで,本論文では,スペクトル表現学習における重要な課題に対処するため,上述の点において他のデータセットから際立つToulouse Hyperspectral Data Setを公開し,画素数が少ない大規模ハイパースペクトル画像に対して,スペクトル表現学習と分類を行う。 さらに,Masked Autoencoderを含むスペクトル表現学習のための自己教師技術について検討し,全体の85%の精度と77%のF1スコアを達成できる画素単位の分類基準を確立する。 Toulouse Hyperspectral Data Setと私たちのコードは、https://www.toulouse-hyperspectral-data-set.comとhttps://www.github.com/Romain3Ch216/tlse-experimentsで公開されています。

Airborne hyperspectral images can be used to map the land cover in large urban areas, thanks to their very high spatial and spectral resolutions on a wide spectral domain. While the spectral dimension of hyperspectral images is highly informative of the chemical composition of the land surface, the use of state-of-the-art machine learning algorithms to map the land cover has been dramatically limited by the availability of training data. To cope with the scarcity of annotations, semi-supervised and self-supervised techniques have lately raised a lot of interest in the community. Yet, the publicly available hyperspectral data sets commonly used to benchmark machine learning models are not totally suited to evaluate their generalization performances due to one or several of the following properties: a limited geographical coverage (which does not reflect the spectral diversity in metropolitan areas), a small number of land cover classes and a lack of appropriate standard train / test splits for semi-supervised and self-supervised learning. Therefore, we release in this paper the Toulouse Hyperspectral Data Set that stands out from other data sets in the above-mentioned respects in order to meet key issues in spectral representation learning and classification over large-scale hyperspectral images with very few labeled pixels. Besides, we discuss and experiment self-supervised techniques for spectral representation learning, including the Masked Autoencoder, and establish a baseline for pixel-wise classification achieving 85% overall accuracy and 77% F1 score. The Toulouse Hyperspectral Data Set and our code are publicly available at https://www.toulouse-hyperspectral-data-set.com and https://www.github.com/Romain3Ch216/tlse-experiments, respectively.
翻訳日:2024-03-25 22:40:07 公開日:2024-03-22
# データ解析のためのマルチスケールホッジ散乱ネットワーク

Multiscale Hodge Scattering Networks for Data Analysis ( http://arxiv.org/abs/2311.10270v2 )

ライセンス: Link先を確認
Naoki Saito, Stefan C. Schonsheck, Eugene Shvarts, (参考訳) 単体錯体上で測定された信号に対する新しい散乱ネットワークを提案し,これを「MHSNs(Multiscale Hodge Scattering Networks)」と呼ぶ。 我々の構成は、ノードベース一般化Haar-Walsh変換 (GHWT) と階層グラフラプラシアン固有変換 (HGLET) を一般化することにより、与えられた単純複体における次元$\kappa \in \mathbb{N}$ の単純化のために最近開発した $\kappa$-GHWT と $\kappa$-HGLET の多スケール基底辞書に基づいている。 $\kappa$-GHWT と $\kappa$-HGLET は共に、多重スケール基底ベクトルの冗長集合(辞書)と、与えられた信号の対応する拡張係数を形成する。 我々のMHSNは、畳み込みニューラルネットワーク(CNN)に類似した階層構造を用いて、辞書係数の係数の係数のモーメントをカスケードする。 結果として得られる特徴は、単純化(すなわち、基礎となるグラフのノード置換)の並べ替えに不変である。 重要な点として,MHSN におけるマルチスケールベース辞書の使用は,CNN における局所プールと同様の自然なプール操作を認めており,ローカルあるいはスケール毎に実施することができる。 これらのプーリング操作は、モーレットウェーブレットに基づく従来の散乱ネットワークと拡散ウェーブレットに基づく幾何散乱ネットワークの両方で定義するのが困難である。 その結果、非常に単純な機械学習手法(ロジスティック回帰やサポートベクターマシンなど)とともに使用可能な、豊富な記述的かつ堅牢な特徴を抽出して、最新のグラフニューラルネットワークよりもトレーニングするパラメータがはるかに少ない高精度な分類システムを実現することができる。 最後に、信号分類、領域分類(グラフ/複合)、分子動力学予測の3つの異なる種類の問題において、MHSNの有用性を実証する。

We propose new scattering networks for signals measured on simplicial complexes, which we call \emph{Multiscale Hodge Scattering Networks} (MHSNs). Our construction is based on multiscale basis dictionaries on simplicial complexes, i.e., the $\kappa$-GHWT and $\kappa$-HGLET, which we recently developed for simplices of dimension $\kappa \in \mathbb{N}$ in a given simplicial complex by generalizing the node-based Generalized Haar-Walsh Transform (GHWT) and Hierarchical Graph Laplacian Eigen Transform (HGLET). The $\kappa$-GHWT and the $\kappa$-HGLET both form redundant sets (i.e., dictionaries) of multiscale basis vectors and the corresponding expansion coefficients of a given signal. Our MHSNs use a layered structure analogous to a convolutional neural network (CNN) to cascade the moments of the modulus of the dictionary coefficients. The resulting features are invariant to reordering of the simplices (i.e., node permutation of the underlying graphs). Importantly, the use of multiscale basis dictionaries in our MHSNs admits a natural pooling operation that is akin to local pooling in CNNs, and which may be performed either locally or per-scale. These pooling operations are harder to define in both traditional scattering networks based on Morlet wavelets, and geometric scattering networks based on Diffusion Wavelets. As a result, we are able to extract a rich set of descriptive yet robust features that can be used along with very simple machine learning methods (i.e., logistic regression or support vector machines) to achieve high-accuracy classification systems with far fewer parameters to train than most modern graph neural networks. Finally, we demonstrate the usefulness of our MHSNs in three distinct types of problems: signal classification, domain (i.e., graph/simplex) classification, and molecular dynamics prediction.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# 光表面インプリントのための物理強化多忠実学習

Physics-Enhanced Multi-fidelity Learning for Optical Surface Imprint ( http://arxiv.org/abs/2311.10278v2 )

ライセンス: Link先を確認
Yongchao Chen, (参考訳) 人間の指紋は、警官が身元を認識できる、個々人それぞれに独特で強力な特徴の1つとして機能する。 人間と同様、多くの自然体や固有の機械的特性も表面特性から一意に識別できる。 1つの材料の弾塑性特性を測定するために、1つの正式に鋭いインデンターを一定の力で測定体に押し込み、取り外し、数マイクロメートルからナノメートルまでの微小サイズの特異な残像を残す。 しかし、大きな課題の1つは、この残留インプリントの光学像を、真の望まれる機械的特性である、引張力曲線(英語版)にどうマッピングするかである。 本稿では,この逆問題を解決するためにMFNN(Multi-fidelity Neural Network)を用いた新しい手法を提案する。 まず、純粋なシミュレーションデータを用いてNNモデルを構築し、次にトランスファー学習を介してsim-to-realギャップをブリッジする。 実実験データを収集することの難しさを踏まえ,NNを用いて未知の物理を掘り起こし,既知の物理を伝達学習フレームワークに埋め込むことにより,モデルの安定性を向上し,データ要求の低減を図る。 最終的なモデルでは実物の3ショットキャリブレーションしか必要としない。 我々は20個の実材料で最終モデルを検証し,精度を達成した。 この研究は、特にデータ制限と忠実度分散の制約の下で、科学研究に機械学習を適用する優れた例である。

Human fingerprints serve as one unique and powerful characteristic for each person, from which policemen can recognize the identity. Similar to humans, many natural bodies and intrinsic mechanical qualities can also be uniquely identified from surface characteristics. To measure the elasto-plastic properties of one material, one formally sharp indenter is pushed into the measured body under constant force and retracted, leaving a unique residual imprint of the minute size from several micrometers to nanometers. However, one great challenge is how to map the optical image of this residual imprint into the real wanted mechanical properties, \ie, the tensile force curve. In this paper, we propose a novel method to use multi-fidelity neural networks (MFNN) to solve this inverse problem. We first build up the NN model via pure simulation data, and then bridge the sim-to-real gap via transfer learning. Considering the difficulty of collecting real experimental data, we use NN to dig out the unknown physics and also implant the known physics into the transfer learning framework, thus highly improving the model stability and decreasing the data requirement. The final constructed model only needs three-shot calibration of real materials. We tested the final model across 20 real materials and achieved satisfying accuracy. This work serves as one great example of applying machine learning into scientific research, especially under the constraints of data limitation and fidelity variance.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# SecondPose: SE(3)-Consistent Dual-Stream Feature Fusion for Category-Level Pose Estimation

SecondPose: SE(3)-Consistent Dual-Stream Feature Fusion for Category-Level Pose Estimation ( http://arxiv.org/abs/2311.11125v3 )

ライセンス: Link先を確認
Yamei Chen, Yan Di, Guangyao Zhai, Fabian Manhardt, Chenyangguang Zhang, Ruida Zhang, Federico Tombari, Nassir Navab, Benjamin Busam, (参考訳) カテゴリーレベルのオブジェクトのポーズ推定は、既知のカテゴリから6次元のポーズと3次元の大きさを予測することを目的としている。 既存の作品では、平均的な形状を利用しており、この変化をとらえるには不十分であることが多い。 この問題に対処するために、DINOv2のセマンティックなカテゴリにオブジェクト固有の幾何学的特徴を統合する新しいアプローチであるSecondPoseを提案する。 DINOv2の利点を生かして、SE(3)-一貫性のある意味的特徴を提供することにより、2種類のSE(3)-不変な幾何学的特徴を階層的に抽出し、局所-言語的オブジェクト固有情報をカプセル化する。 これらの幾何学的特徴は、DINOv2特徴と整合して、SE(3)変換の下で一貫したオブジェクト表現を確立し、カメラ空間から予め定義された標準空間へのマッピングを容易にし、ポーズ推定をさらに強化する。 NOCS-REAL275の大規模な実験により、SecondPoseは最先端技術に対して12.4%の飛躍を達成した。 さらに、フォトメトリックに挑戦するオブジェクトを提供するより複雑なデータセットHouseCat6Dでは、SecondPoseは依然として他の競合より大きなマージンで勝っている。

Category-level object pose estimation, aiming to predict the 6D pose and 3D size of objects from known categories, typically struggles with large intra-class shape variation. Existing works utilizing mean shapes often fall short of capturing this variation. To address this issue, we present SecondPose, a novel approach integrating object-specific geometric features with semantic category priors from DINOv2. Leveraging the advantage of DINOv2 in providing SE(3)-consistent semantic features, we hierarchically extract two types of SE(3)-invariant geometric features to further encapsulate local-to-global object-specific information. These geometric features are then point-aligned with DINOv2 features to establish a consistent object representation under SE(3) transformations, facilitating the mapping from camera space to the pre-defined canonical space, thus further enhancing pose estimation. Extensive experiments on NOCS-REAL275 demonstrate that SecondPose achieves a 12.4% leap forward over the state-of-the-art. Moreover, on a more complex dataset HouseCat6D which provides photometrically challenging objects, SecondPose still surpasses other competitors by a large margin.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# 移動エージェントを用いたグラフ上でのRendezvousの量子戦略と支配課題

Quantum Strategies for Rendezvous and Domination Tasks on Graphs with Mobile Agents ( http://arxiv.org/abs/2311.11817v2 )

ライセンス: Link先を確認
Giuseppe Viola, Piotr Mironowicz, (参考訳) 本稿では,量子非局所性(量子非局所性)の応用について検討する。 新たなアプリケーションに焦点をあてて,コミュニケーションなしで特定の分散タスクに従事しているモバイルエージェントに対して,その量子的優位性を実証する。 本研究は、グラフ上のランデブーの重大な課題に対処し、グラフ支配問題に根ざしたモバイルエージェントのための新しい分散タスクを導入する。 様々なグラフシナリオの調査を通じて、量子的優位性を示す。 さらに、決定論的戦略を精査し、量子戦略と比較して相対的に低い効率性を強調した。 この論文は数値分析で結論を出し、我々の研究結果についてさらなる知見を提供する。

This paper explores the application of quantum non-locality, a renowned and unique phenomenon acknowledged as a valuable resource. Focusing on a novel application, we demonstrate its quantum advantage for mobile agents engaged in specific distributed tasks without communication. The research addresses the significant challenge of rendezvous on graphs and introduces a new distributed task for mobile agents grounded in the graph domination problem. Through an investigation across various graph scenarios, we showcase the quantum advantage. Additionally, we scrutinize deterministic strategies, highlighting their comparatively lower efficiency compared to quantum strategies. The paper concludes with a numerical analysis, providing further insights into our findings.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# コンテンツ対応レイアウト生成のための検索拡張レイアウト変換器

Retrieval-Augmented Layout Transformer for Content-Aware Layout Generation ( http://arxiv.org/abs/2311.13602v3 )

ライセンス: Link先を確認
Daichi Horita, Naoto Inoue, Kotaro Kikuchi, Kota Yamaguchi, Kiyoharu Aizawa, (参考訳) コンテンツ対応グラフィックレイアウト生成は、Eコマース製品イメージなどの所定のコンテンツとともに、視覚要素を自動的に配置することを目的としている。 本稿では,現在のレイアウト生成手法が,高次元レイアウト構造に対する限られたトレーニングデータに悩まされていることを論じる。 単純な検索拡張により生成品質が大幅に向上することを示す。 Retrieval-Augmented Layout Transformer (RALF) と呼ばれる我々のモデルは、入力画像に基づいて近接したレイアウト例を検索し、これらの結果を自己回帰生成器に供給する。 本モデルでは, 各種制御可能な生成タスクに検索拡張を適用し, 統一アーキテクチャ内での高品質なレイアウトを実現する。 我々の広範囲な実験により、RALFは制約と制約のない設定の両方でコンテンツ認識レイアウトをうまく生成し、ベースラインを大幅に上回ることを示した。

Content-aware graphic layout generation aims to automatically arrange visual elements along with a given content, such as an e-commerce product image. In this paper, we argue that the current layout generation approaches suffer from the limited training data for the high-dimensional layout structure. We show that a simple retrieval augmentation can significantly improve the generation quality. Our model, which is named Retrieval-Augmented Layout Transformer (RALF), retrieves nearest neighbor layout examples based on an input image and feeds these results into an autoregressive generator. Our model can apply retrieval augmentation to various controllable generation tasks and yield high-quality layouts within a unified architecture. Our extensive experiments show that RALF successfully generates content-aware layouts in both constrained and unconstrained settings and significantly outperforms the baselines.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# 正規化フローを用いた日頭電力価格の多変量シナリオ生成

Multivariate Scenario Generation of Day-Ahead Electricity Prices using Normalizing Flows ( http://arxiv.org/abs/2311.14033v2 )

ライセンス: Link先を確認
Hannes Hilger, Dirk Witthaut, Manuel Dahmen, Leonardo Rydin Gorjao, Julius Trebbien, Eike Cramer, (参考訳) 日頭電気市場の取引には、電力価格の実現と予測に付随する不確実性に関する正確な情報が必要である。 正確な予測モデルの導出は、2021年のエネルギー危機による変化による市場条件の変化など、日頭価格の非定常性による困難な課題である。 本研究では, 正規化フローと呼ばれる完全データ駆動型深部発電モデルを用いて, 日頭電力価格の確率的予測手法を提案する。 本手法は,残負荷予測などの条件付き特徴に基づいて,日頭電力価格のフルデイシナリオを生成する。 さらに, 先行実現のための拡張的特徴セットと, 正規化フローを現代電力市場の変動条件に適応させる定期的再訓練方式を提案する。 その結果,正規化フローは真の価格分布を再現し,正確な予測を行う高品質なシナリオを生成することがわかった。 さらに、我々の分析は、変革体制の適応に対する我々の改善によって、正常化フローが市場の状況の変化に適応し、高品質な日頭価格シナリオの継続的なサンプリングを可能にする方法を強調している。

Trading on the day-ahead electricity markets requires accurate information about the realization of electricity prices and the uncertainty attached to the predictions. Deriving accurate forecasting models presents a difficult task due to the day-ahead price's non-stationarity resulting from changing market conditions, e.g., due to changes resulting from the energy crisis in 2021. We present a probabilistic forecasting approach for day-ahead electricity prices using the fully data-driven deep generative model called normalizing flow. Our modeling approach generates full-day scenarios of day-ahead electricity prices based on conditional features such as residual load forecasts. Furthermore, we propose extended feature sets of prior realizations and a periodic retraining scheme that allows the normalizing flow to adapt to the changing conditions of modern electricity markets. Our results highlight that the normalizing flow generates high-quality scenarios that reproduce the true price distribution and yield accurate forecasts. Additionally, our analysis highlights how our improvements towards adaptations in changing regimes allow the normalizing flow to adapt to changing market conditions and enable continued sampling of high-quality day-ahead price scenarios.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# D-SCo:単分子ハンドヘルド物体再構成のためのデュアルストリーム条件拡散

D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction ( http://arxiv.org/abs/2311.14189v3 )

ライセンス: Link先を確認
Bowen Fu, Gu Wang, Chenyangguang Zhang, Yan Di, Ziqin Huang, Zhiying Leng, Fabian Manhardt, Xiangyang Ji, Federico Tombari, (参考訳) 単一のRGB画像からハンドヘルドオブジェクトを再構築することは、コンピュータビジョンにおいて難しい課題である。 決定論的モデリングのパラダイムを利用する先行研究とは対照的に、この問題の確率論的性質を考慮に入れた点雲デノナイズ拡散モデルを用いる。 中核部では,単眼ハンドヘルドオブジェクト再構成(D-SCo)のための遠心固定型二重ストリーム条件拡散を導入し,二つの課題に対処した。 まず,物体の遠方偏差を回避するため,手拘束型遠方偏差固定パラダイムを用い,拡散・逆過程の安定性と特徴投影の精度を向上させる。 第2に,新しい手オブジェクトセマンティック埋め込みによる手オブジェクトのセマンティックな相互作用を意味的かつ幾何学的にモデル化し,手対象領域の再構築性能を向上させるために,デュアルストリームデノイザを導入する。 ObManデータセットと、HO3D、MOW、DexYCBの3つの実世界のデータセットの実験は、我々のアプローチが他の最先端の手法を全て超えることを示した。 コードはリリースされる。

Reconstructing hand-held objects from a single RGB image is a challenging task in computer vision. In contrast to prior works that utilize deterministic modeling paradigms, we employ a point cloud denoising diffusion model to account for the probabilistic nature of this problem. In the core, we introduce centroid-fixed dual-stream conditional diffusion for monocular hand-held object reconstruction (D-SCo), tackling two predominant challenges. First, to avoid the object centroid from deviating, we utilize a novel hand-constrained centroid fixing paradigm, enhancing the stability of diffusion and reverse processes and the precision of feature projection. Second, we introduce a dual-stream denoiser to semantically and geometrically model hand-object interactions with a novel unified hand-object semantic embedding, enhancing the reconstruction performance of the hand-occluded region of the object. Experiments on the synthetic ObMan dataset and three real-world datasets HO3D, MOW and DexYCB demonstrate that our approach can surpass all other state-of-the-art methods. Codes will be released.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# スパイクニューラルネットワークを用いたRFI検出

RFI Detection with Spiking Neural Networks ( http://arxiv.org/abs/2311.14303v2 )

ライセンス: Link先を確認
Nicholas J. Pritchard, Andreas Wicenec, Mohammed Bennamoun, Richard Dodson, (参考訳) RFI(Radio Frequency Interference)の検出と緩和は、電波望遠鏡の科学的出力を最大化するために重要である。 機械学習の手法の出現は、電波天文学やRFI検出への応用につながっている。 生体システムにインスパイアされたスパイキングニューラルネットワーク(SNN)は、時空間データの処理に適している。 本研究では、SNNの天文学的データ処理タスク、特にRFI検出への最初の探索的応用について紹介する。 我々は,従来の著者が提案したNLNアルゴリズムとオートエンコーダアーキテクチャを,ANN2SNN変換によるSNN実行に適用し,内部スパイキングニューロンから自然に変化する潜伏空間をサンプリングすることにより,下流RFI検出を簡略化する。 その後の評価は,将来のRFI検出方式でSNNが有効かどうかを判断することを目的としている。 本報告では, HERA 望遠鏡とハンドラベリングしたLOFAR観測データを用いて, 検出性能の評価を行った。 さらに,機械学習RFI検出手法の技術的課題である,MeerKATにインスパイアされた新しいシミュレーションデータセットによる検出性能の評価を行った。 このデータセットは、ますます重要なRFIのクラスである衛星ベースのRFIに焦点を当てており、追加の貢献である。 我々のアプローチは、HERAデータセットのAUROC、AUPRC、F1の既存の手法と競合するが、LOFAR、Tabascalデータセットでは困難である。 提案手法は,NLNで発見された計算およびメモリインテリジェントサンプリングステップを完全に除去しながら,この精度を維持している。 本研究は,SNNの電波望遠鏡における機械学習に基づくRFI検出のための有望な道として,従来の衛星ベースのRFIソース上での最小性能基準を確立することにより,SNNの生存可能性を示すものである。

Detecting and mitigating Radio Frequency Interference (RFI) is critical for enabling and maximising the scientific output of radio telescopes. The emergence of machine learning methods has led to their application in radio astronomy, and in RFI detection. Spiking Neural Networks (SNNs), inspired by biological systems, are well-suited for processing spatio-temporal data. This study introduces the first exploratory application of SNNs to an astronomical data-processing task, specifically RFI detection. We adapt the nearest-latent-neighbours (NLN) algorithm and auto-encoder architecture proposed by previous authors to SNN execution by direct ANN2SNN conversion, enabling simplified downstream RFI detection by sampling the naturally varying latent space from the internal spiking neurons. Our subsequent evaluation aims to determine whether SNNs are viable for future RFI detection schemes. We evaluate detection performance with the simulated HERA telescope and hand-labelled LOFAR observation dataset the original authors provided. We additionally evaluate detection performance with a new MeerKAT-inspired simulation dataset that provides a technical challenge for machine-learnt RFI detection methods. This dataset focuses on satellite-based RFI, an increasingly important class of RFI and is an additional contribution. Our approach remains competitive with existing methods in AUROC, AUPRC and F1 scores for the HERA dataset but exhibits difficulty in the LOFAR and Tabascal datasets. Our method maintains this accuracy while completely removing the compute and memory-intense latent sampling step found in NLN. This work demonstrates the viability of SNNs as a promising avenue for machine-learning-based RFI detection in radio telescopes by establishing a minimal performance baseline on traditional and nascent satellite-based RFI sources and is the first work to our knowledge to apply SNNs in astronomy.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# 散逸検出のためのIDライクなプロンプト学習

ID-like Prompt Learning for Few-Shot Out-of-Distribution Detection ( http://arxiv.org/abs/2311.15243v3 )

ライセンス: Link先を確認
Yichen Bai, Zongbo Han, Changqing Zhang, Bing Cao, Xiaoheng Jiang, Qinghua Hu, (参考訳) アウト・オブ・ディストリビューション(OOD)検出法は、OODサンプルを識別するモデルをトレーニングするために補助的なアウトレイアを利用することが多く、特に補助的なアウトレイアデータセットからの挑戦的なアウトレイアを発見し、OOD検出を改善する。 しかし、これらのサンプルは、ID(In-distriion)データによく似ている最も難しいOODサンプル、すなわち、IDライクなサンプルを効果的に区別する際の制限に直面している可能性がある。 そこで本研究では,CLIP \cite{DBLP:conf/icml/RadfordKHRGASAM21} を用いた新しい OOD 検出フレームワークを提案する。 次に、識別された \idlike アウトリーチを利用して、OOD検出のための CLIP の機能をさらに活用するプロンプトラーニングフレームワークを提案する。 強力なCLIPから恩恵を受けるため、補助的な外れ値データセットを公開せずにモデルのプロンプトを学習するためには、少数のIDサンプルしか必要としない。 この手法は,最も難易度の高い \idlike OOD サンプルに着目し,CLIP の機能をエレガントに活用することにより,様々な実世界の画像データセット上でのより優れた少ショット学習性能を実現する(例:ImageNet-1k データセットでの4ショット OOD 検出では,平均 FPR95 を12.16 % 削減し,平均 AUROC を2.76 % 改善する)。 コードはhttps://github.com/ycfate/ID-likeで入手できる。

Out-of-distribution (OOD) detection methods often exploit auxiliary outliers to train model identifying OOD samples, especially discovering challenging outliers from auxiliary outliers dataset to improve OOD detection. However, they may still face limitations in effectively distinguishing between the most challenging OOD samples that are much like in-distribution (ID) data, i.e., \idlike samples. To this end, we propose a novel OOD detection framework that discovers \idlike outliers using CLIP \cite{DBLP:conf/icml/RadfordKHRGASAM21} from the vicinity space of the ID samples, thus helping to identify these most challenging OOD samples. Then a prompt learning framework is proposed that utilizes the identified \idlike outliers to further leverage the capabilities of CLIP for OOD detection. Benefiting from the powerful CLIP, we only need a small number of ID samples to learn the prompts of the model without exposing other auxiliary outlier datasets. By focusing on the most challenging \idlike OOD samples and elegantly exploiting the capabilities of CLIP, our method achieves superior few-shot learning performance on various real-world image datasets (e.g., in 4-shot OOD detection on the ImageNet-1k dataset, our method reduces the average FPR95 by 12.16\% and improves the average AUROC by 2.76\%, compared to state-of-the-art methods). Code is available at https://github.com/ycfate/ID-like.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# 最適化のための量子ランゲヴィンダイナミクス

Quantum Langevin Dynamics for Optimization ( http://arxiv.org/abs/2311.15587v2 )

ライセンス: Link先を確認
Zherui Chen, Yuchen Lu, Hao Wang, Yizhou Liu, Tongyang Li, (参考訳) 我々は、量子ランゲヴィンダイナミクス(QLD)を用いて最適化問題の解法、特に従来の勾配降下アルゴリズムにかなりの障害を与える非凸目的関数の研究を開始する。 具体的には、無限熱浴と結合した系の力学について検討する。 この相互作用は、ランダムな量子ノイズと決定論的減衰効果の両方をシステムに誘導し、その系は、大域的な目的関数の最小値付近にホバリングする定常状態へと誘導する。 理論的には凸地形におけるQLDの収束を証明し、系の平均エネルギーが進化時間と相関する指数減衰速度で低温限界でゼロに近づくことを示した。 まず,QLDの発端を自然放出に遡ることにより,QLDのエネルギー散逸能力を示す。 さらに,各パラメータの影響について詳細に検討する。 最後に,QLDと古典的フォッカー・プランク・スモルホフスキー方程式を比較する際に,温度と時間依存パラメータを$\hbar$にすることで時間依存型QLDを提案する。

We initiate the study of utilizing Quantum Langevin Dynamics (QLD) to solve optimization problems, particularly those non-convex objective functions that present substantial obstacles for traditional gradient descent algorithms. Specifically, we examine the dynamics of a system coupled with an infinite heat bath. This interaction induces both random quantum noise and a deterministic damping effect to the system, which nudge the system towards a steady state that hovers near the global minimum of objective functions. We theoretically prove the convergence of QLD in convex landscapes, demonstrating that the average energy of the system can approach zero in the low temperature limit with an exponential decay rate correlated with the evolution time. Numerically, we first show the energy dissipation capability of QLD by retracing its origins to spontaneous emission. Furthermore, we conduct detailed discussion of the impact of each parameter. Finally, based on the observations when comparing QLD with classical Fokker-Plank-Smoluchowski equation, we propose a time-dependent QLD by making temperature and $\hbar$ time-dependent parameters, which can be theoretically proven to converge better than the time-independent case and also outperforms a series of state-of-the-art quantum and classical optimization algorithms in many non-convex landscapes.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# BadCLIP:CLIPのバックドアアタックのためのトリガー対応プロンプト学習

BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP ( http://arxiv.org/abs/2311.16194v2 )

ライセンス: Link先を確認
Jiawang Bai, Kuofeng Gao, Shaobo Min, Shu-Tao Xia, Zhifeng Li, Wei Liu, (参考訳) CLIPとして知られるコントラストビジョンランゲージ事前トレーニングは、下流の画像認識タスクに対処する上で有望な効果を示している。 しかし、最近の研究により、CLIPモデルは下流指向のバックドアで埋め込むことができることが明らかになった。 下流のタスクでは、1つの犠牲者モデルはクリーンなサンプルでうまく機能するが、特定のトリガーが存在するたびに特定のターゲットクラスを予測する。 バックドアを注入するには、既存の攻撃は、トレーニング済みのCLIPモデル全体を悪質に微調整するために、大量のデータに依存するため、データ制限のシナリオには適用できない。 本研究は、近年の学習可能なプロンプトの成功に動機付けられ、迅速な学習段階においてCLIPモデルにバックドアを注入することでこの問題に対処する。 BadCLIP という手法は,CLIP に対するバックドア攻撃,すなわち 画像エンコーダとテキストエンコーダの両方にトリガーを作用させる,新規で効果的な機構に基づいて構築されている。 画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更でき、これにより強力で一般化可能な攻撃をもたらす。 11のデータセットで実施された大規模な実験により、BadCLIPのクリーンな精度は高度な急進的な学習手法と似ており、ほとんどの場合、攻撃成功率は99%以上であることが示された。 BadCLIPはまた、目に見えないクラスにも一般化可能で、クロスデータセットとクロスドメイン設定の下で強力な一般化機能を示している。

Contrastive Vision-Language Pre-training, known as CLIP, has shown promising effectiveness in addressing downstream image recognition tasks. However, recent works revealed that the CLIP model can be implanted with a downstream-oriented backdoor. On downstream tasks, one victim model performs well on clean samples but predicts a specific target class whenever a specific trigger is present. For injecting a backdoor, existing attacks depend on a large amount of additional data to maliciously fine-tune the entire pre-trained CLIP model, which makes them inapplicable to data-limited scenarios. In this work, motivated by the recent success of learnable prompts, we address this problem by injecting a backdoor into the CLIP model in the prompt learning stage. Our method named BadCLIP is built on a novel and effective mechanism in backdoor attacks on CLIP, i.e., influencing both the image and text encoders with the trigger. It consists of a learnable trigger applied to images and a trigger-aware context generator, such that the trigger can change text features via trigger-aware prompts, resulting in a powerful and generalizable attack. Extensive experiments conducted on 11 datasets verify that the clean accuracy of BadCLIP is similar to those of advanced prompt learning methods and the attack success rate is higher than 99% in most cases. BadCLIP is also generalizable to unseen classes, and shows a strong generalization capability under cross-dataset and cross-domain settings.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# ニューラルネットワーク最適化のための汎用エージェント

Generalisable Agents for Neural Network Optimisation ( http://arxiv.org/abs/2311.18598v2 )

ライセンス: Link先を確認
Kale-ab Tessera, Callum Rhys Tilbury, Sasha Abramowitz, Ruan de Kock, Omayma Mahjoub, Benjamin Rosman, Sara Hooker, Arnu Pretorius, (参考訳) 深層ニューラルネットワークの最適化は、複雑なトレーニングダイナミクス、高い計算要求、長いトレーニング時間のために難しい作業である。 この課題に対処するために、トレーニング中にハイパーパラメータを動的かつ応答的にスケジューリングすることで、ニューラルネットワークの最適化を改善することを学ぶマルチエージェント強化学習(MARL)アプローチである、GANNO(Generalisable Agents for Neural Network Optimisation)のフレームワークを提案する。 GANNOは、局部的なネットワークダイナミクスを観察するエージェントをレイヤごとに利用し、それに従ってこれらのダイナミクスを階層レベルで調整し、グローバルパフォーマンスを総括的に改善する。 本稿では,GANNOを用いて階層的な学習率を制御し,手作りのヒューリスティックスと競合する有用な応答性のあるスケジュールが得られることを示す。 さらに、GANNOは様々な未知の初期条件に対して頑健に動作し、訓練されたよりも難しい問題への一般化に成功している。 私たちの研究は、このパラダイムがニューラルネットワークのトレーニングにもたらす機会と、克服すべき重要な課題の概要を示します。

Optimising deep neural networks is a challenging task due to complex training dynamics, high computational requirements, and long training times. To address this difficulty, we propose the framework of Generalisable Agents for Neural Network Optimisation (GANNO) -- a multi-agent reinforcement learning (MARL) approach that learns to improve neural network optimisation by dynamically and responsively scheduling hyperparameters during training. GANNO utilises an agent per layer that observes localised network dynamics and accordingly takes actions to adjust these dynamics at a layerwise level to collectively improve global performance. In this paper, we use GANNO to control the layerwise learning rate and show that the framework can yield useful and responsive schedules that are competitive with handcrafted heuristics. Furthermore, GANNO is shown to perform robustly across a wide variety of unseen initial conditions, and can successfully generalise to harder problems than it was trained on. Our work presents an overview of the opportunities that this paradigm offers for training neural networks, along with key challenges that remain to be overcome.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# Spacewalk-18: マルチモーダルおよびロングフォームプロシージャビデオ理解のためのベンチマーク

Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding ( http://arxiv.org/abs/2311.18773v2 )

ライセンス: Link先を確認
Rohan Myer Krishnan, Zitian Tang, Zhiqiu Yu, Chen Sun, (参考訳) ビデオから学ぶことは、ロボットがプロシージャビデオのような人間のデモからスキルを習得することを可能にする、新たな研究分野である。 これを実現するために、ビデオ言語モデルは、デモの時間的セグメンテーションをアクションやスキルのシーケンスに分割し、新しいドメインへの理解を一般化するといった構造化された理解を得る必要がある。 この目的を追求するために,(1)ステップ認識と(2)国際宇宙ステーションの宇宙遊泳記録における時間分割およびラベル付きタスクのデータセット上のビデオ内検索の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。 タンデムでは、(1)ドメイン外の視覚情報、(2)高時間的コンテキストウィンドウ、(3)マルチモーダル(例えば視覚と音声)ドメインを利用するモデルの能力の定量化を行う。 これは、通常、短いコンテキストの長さを扱い、単一のモダリティで解決できる手続き的ビデオ理解のための既存のベンチマークから外れている。 Spacewalk-18は、本質的にマルチモーダルで長期の複雑さを持つため、タスク認識とセグメンテーションの難しさが顕在化している。 現状の手法は我々のベンチマークでは性能が良くないことがわかったが、異なるモダリティにまたがるより長い時間的文脈からの情報を組み込むことで改善が得られる。 我々の実験は、これらのタスクに対する新しいアプローチの必要性を浮き彫りにした。 データ、モデル、コードはhttps://brown-palm.github.io/Spacewalk-18/でリリースされる。

Learning from videos is an emerging research area that enables robots to acquire skills from human demonstrations, such as procedural videos. To do this, video-language models must be able to obtain structured understandings, such as the temporal segmentation of a demonstration into sequences of actions and skills, and to generalize the understandings to novel domains. In pursuit of this goal, we introduce Spacewalk-18, a benchmark containing two tasks: (1) step recognition and (2) intra-video retrieval over a dataset of temporally segmented and labeled tasks in International Space Station spacewalk recordings. In tandem, the two tasks quantify a model's ability to make use of: (1) out-of-domain visual information; (2) a high temporal context window; and (3) multimodal (e.g. visual and speech) domains. This departs from existing benchmarks for procedural video understanding, which typically deal with short context lengths and can be solved with a single modality. Spacewalk-18, with its inherent multimodal and long-form complexity, exposes the high difficulty of task recognition and segmentation. We find that state-of-the-art methods perform poorly on our benchmark, but improvements can be obtained by incorporating information from longer-range temporal context across different modalities. Our experiments underscore the need to develop new approaches to these tasks. Data, model, and code will be released at https://brown-palm.github.io/Spacewalk-18/.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# 約5ステップでの拡散モデルの高速ODEサンプリング

Fast ODE-based Sampling for Diffusion Models in Around 5 Steps ( http://arxiv.org/abs/2312.00094v2 )

ライセンス: Link先を確認
Zhenyu Zhou, Defang Chen, Can Wang, Chun Chen, (参考訳) 拡散モデルからのサンプリングは、可能な限り少数の関数評価(NFE)で正確な解を得る目的で、対応する常微分方程式(ODE)を解くものとして扱うことができる。 近年,高次ODEソルバを用いた高速サンプリング器が登場し,初期1次よりも優れた性能を実現している。 しかし,これらの数値解法は特定の近似誤差を生じさせ,非常に小さいNFE(例:5)で試料品質を著しく低下させる。 対照的に,各サンプリング軌道はほぼ周囲空間に埋め込まれた2次元部分空間にあるという幾何学的観測に基づいて,高速拡散サンプリングのための平均方向を直接学習することにより,乱れ誤差を解消する近似平均方向ソルバー(AMED-Solver)を提案する。 さらに,本手法は,既存のODEベースのサンプルを改良するためのプラグインとして容易に利用できる。 解像度32~512の画像合成実験により,本手法の有効性が示された。 5 NFEでCIFAR-10で6.61 FID、ImageNet 64$\times$64で10.74 FID、LSUN Bedroomで13.20 FIDを得る。 私たちのコードはhttps://github.com/zju-pi/diff-sampler.comから入手可能です。

Sampling from diffusion models can be treated as solving the corresponding ordinary differential equations (ODEs), with the aim of obtaining an accurate solution with as few number of function evaluations (NFE) as possible. Recently, various fast samplers utilizing higher-order ODE solvers have emerged and achieved better performance than the initial first-order one. However, these numerical methods inherently result in certain approximation errors, which significantly degrades sample quality with extremely small NFE (e.g., around 5). In contrast, based on the geometric observation that each sampling trajectory almost lies in a two-dimensional subspace embedded in the ambient space, we propose Approximate MEan-Direction Solver (AMED-Solver) that eliminates truncation errors by directly learning the mean direction for fast diffusion sampling. Besides, our method can be easily used as a plugin to further improve existing ODE-based samplers. Extensive experiments on image synthesis with the resolution ranging from 32 to 512 demonstrate the effectiveness of our method. With only 5 NFE, we achieve 6.61 FID on CIFAR-10, 10.74 FID on ImageNet 64$\times$64, and 13.20 FID on LSUN Bedroom. Our code is available at https://github.com/zju-pi/diff-sampler.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# 大規模言語モデルによる自律運転の強化:安全の観点から

Empowering Autonomous Driving with Large Language Models: A Safety Perspective ( http://arxiv.org/abs/2312.00812v4 )

ライセンス: Link先を確認
Yixuan Wang, Ruochen Jiao, Sinong Simon Zhan, Chengtian Lang, Chao Huang, Zhaoran Wang, Zhuoran Yang, Qi Zhu, (参考訳) 自律運転(AD)は、特にアウト・オブ・ディストリビューションと不確実なデータにおいて、ADシステム内のディープニューラルネットワークの非解釈性と不適切な一般化に起因する、長いテールの予期せぬ運転シナリオにおいて重大な安全性上のハードルに直面する。 そこで本稿では,Large Language Models (LLM) のADシステムへの統合について検討する。 提案手法では,LLMを行動計画におけるインテリジェントな意思決定者として採用し,環境安全学習のための安全検証シールドを付加し,運転性能と安全性を向上させる。 適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。 我々のアプローチは、最先端のアプローチと比較して優れた性能と安全性の指標を示すものであり、自動運転車にLLMを使うことの有望な可能性を示している。

Autonomous Driving (AD) encounters significant safety hurdles in long-tail unforeseen driving scenarios, largely stemming from the non-interpretability and poor generalization of the deep neural networks within the AD system, particularly in out-of-distribution and uncertain data. To this end, this paper explores the integration of Large Language Models (LLMs) into AD systems, leveraging their robust common-sense knowledge and reasoning abilities. The proposed methodologies employ LLMs as intelligent decision-makers in behavioral planning, augmented with a safety verifier shield for contextual safety learning, for enhancing driving performance and safety. We present two key studies in a simulated environment: an adaptive LLM-conditioned Model Predictive Control (MPC) and an LLM-enabled interactive behavior planning scheme with a state machine. Demonstrating superior performance and safety metrics compared to state-of-the-art approaches, our approach shows the promising potential for using LLMs for autonomous vehicles.
翻訳日:2024-03-25 22:30:18 公開日:2024-03-22
# ハルク:人間中心タスクのための普遍的知識翻訳装置

Hulk: A Universal Knowledge Translator for Human-Centric Tasks ( http://arxiv.org/abs/2312.01697v4 )

ライセンス: Link先を確認
Yizhou Wang, Yixuan Wu, Shixiang Tang, Weizhen He, Xun Guo, Feng Zhu, Lei Bai, Rui Zhao, Jian Wu, Tong He, Wanli Ouyang, (参考訳) 例えば、歩行者検出、骨格に基づく行動認識、ポーズ推定といった人間中心の知覚タスクは、メタバースやスポーツ分析といった幅広い産業的応用を持つ。 近年、人間中心の知覚タスクの幅広い分野に利益をもたらすような、人間中心の基盤モデルの開発が急増している。 多くの人間中心の基礎モデルは成功したが、人間中心で要求されるタスク固有の微調整のための3Dおよび視覚言語タスクを探索しなかった。 これらの制限により、アプリケーションはより下流のタスクや状況に制限される。 これらの課題に対処するために,タスク固有の微調整を伴わずに2次元視覚,3次元視覚,骨格ベース,視覚言語タスクに対処可能な,最初のマルチモーダルな人間中心ジェネリストモデルであるHulkを提案する。 これを達成するための鍵は、様々なタスク固有のヘッドを2つの一般的なヘッドに凝縮することであり、1つは離散表現、eg、言語、もう1つは連続表現、eg、位置座標である。 2つのヘッドの出力はさらに4つの異なる入力と出力のモダリティに積み重ねることができる。 この一様表現により、ハルクは多種多様な人間中心のタスクをモダリティの翻訳として扱うことができ、幅広いタスクに知識を統合することができる。 ヒト中心タスクを8つ含む12のベンチマークにおけるハルクの総合評価は、提案手法の優位性を実証し、11のベンチマークで最先端のパフォーマンスを達成する。 コードはhttps://github.com/OpenGVLab/Hulk.comで公開されている。

Human-centric perception tasks, e.g., pedestrian detection, skeleton-based action recognition, and pose estimation, have wide industrial applications, such as metaverse and sports analysis. There is a recent surge to develop human-centric foundation models that can benefit a broad range of human-centric perception tasks. While many human-centric foundation models have achieved success, they did not explore 3D and vision-language tasks for human-centric and required task-specific finetuning. These limitations restrict their application to more downstream tasks and situations. To tackle these problems, we present Hulk, the first multimodal human-centric generalist model, capable of addressing 2D vision, 3D vision, skeleton-based, and vision-language tasks without task-specific finetuning. The key to achieving this is condensing various task-specific heads into two general heads, one for discrete representations, e.g., languages, and the other for continuous representations, e.g., location coordinates. The outputs of two heads can be further stacked into four distinct input and output modalities. This uniform representation enables Hulk to treat diverse human-centric tasks as modality translation, integrating knowledge across a wide range of tasks. Comprehensive evaluations of Hulk on 12 benchmarks covering 8 human-centric tasks demonstrate the superiority of our proposed method, achieving state-of-the-art performance in 11 benchmarks. The code is available on https://github.com/OpenGVLab/Hulk.
翻訳日:2024-03-25 22:20:34 公開日:2024-03-22
# 自動運転におけるオープンソースデータエコシステムの現状と展望

Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future ( http://arxiv.org/abs/2312.03408v4 )

ライセンス: Link先を確認
Hongyang Li, Yang Li, Huijie Wang, Jia Zeng, Huilin Xu, Pinlong Cai, Li Chen, Junchi Yan, Feng Xu, Lu Xiong, Jingdong Wang, Futang Zhu, Chunjing Xu, Tiancai Wang, Fei Xia, Beipeng Mu, Zhihui Peng, Dahua Lin, Yu Qiao, (参考訳) 自動運転技術の継続的な成熟と応用により、オープンソースの自動運転データセットの体系的な検証は、業界エコシステムの堅牢な進化を促進するのに役立ちます。 現在の自律走行データセットは、大きく2世代に分類される。 第1世代の自律走行データセットは、比較的単純なセンサーモード、より小さなデータスケールで特徴付けられ、知覚レベルのタスクに限定されている。 2012年に導入されたKITTIは、この最初の波の顕著な代表として機能している。 対照的に、第2世代のデータセットは、センサーのモダリティの増大、データスケールと多様性の増大、および予測と制御を包含する知覚からタスクの拡張を示す。 第2世代の代表的な例として、2019年頃に導入されたnuScenesとWaymoがある。 この総合的なレビューは、学術と産業の両方から評価された同僚と共同で行われ、国内外の情報源から70以上のオープンソースの自動運転データセットを体系的に評価している。 高品質なデータセットの作成の基礎となる原則、データエンジンシステムの重要な役割、スケーラブルなデータ生成を容易にするための生成基盤モデルの利用など、さまざまな側面に関する洞察を提供する。 さらに、このレビューでは、将来の第3世代自動運転データセットが持つべき特性とデータスケールについて、徹底的な分析と談話を行っている。 また、解決を保障する科学的、技術的課題も検討している。 これらの取り組みは、自律的な革新を推進し、重要な領域における技術強化を促進する上で重要なものである。 詳細はhttps://github.com/OpenDriveLab/DriveAGIを参照してください。

With the continuous maturation and application of autonomous driving technology, a systematic examination of open-source autonomous driving datasets becomes instrumental in fostering the robust evolution of the industry ecosystem. Current autonomous driving datasets can broadly be categorized into two generations. The first-generation autonomous driving datasets are characterized by relatively simpler sensor modalities, smaller data scale, and is limited to perception-level tasks. KITTI, introduced in 2012, serves as a prominent representative of this initial wave. In contrast, the second-generation datasets exhibit heightened complexity in sensor modalities, greater data scale and diversity, and an expansion of tasks from perception to encompass prediction and control. Leading examples of the second generation include nuScenes and Waymo, introduced around 2019. This comprehensive review, conducted in collaboration with esteemed colleagues from both academia and industry, systematically assesses over seventy open-source autonomous driving datasets from domestic and international sources. It offers insights into various aspects, such as the principles underlying the creation of high-quality datasets, the pivotal role of data engine systems, and the utilization of generative foundation models to facilitate scalable data generation. Furthermore, this review undertakes an exhaustive analysis and discourse regarding the characteristics and data scales that future third-generation autonomous driving datasets should possess. It also delves into the scientific and technical challenges that warrant resolution. These endeavors are pivotal in advancing autonomous innovation and fostering technological enhancement in critical domains. For further details, please refer to https://github.com/OpenDriveLab/DriveAGI.
翻訳日:2024-03-25 22:20:33 公開日:2024-03-22
# LEGO:ビジュアルインストラクションチューニングによるEGO中心のアクションフレーム生成

LEGO: Learning EGOcentric Action Frame Generation via Visual Instruction Tuning ( http://arxiv.org/abs/2312.03849v2 )

ライセンス: Link先を確認
Bolin Lai, Xiaoliang Dai, Lawrence Chen, Guan Pang, James M. Rehg, Miao Liu, (参考訳) エゴセントリックな視点から人間の日常行動の指導的イメージを生成することは、効率的な技術移転に向けた重要なステップである。 本稿では,エゴセントリックなアクションフレーム生成という新たな問題を紹介する。 ユーザプロンプトと入力エゴセントリック画像に条件付けすることで、ユーザのコンテキスト(例えばアクションフレーム)におけるアクションを描写した画像を合成する。 注目すべきなのは、既存のエゴセントリックなアクションデータセットには、アクションの実行を記述する詳細なアノテーションがないことだ。 さらに、既存の拡散に基づく画像操作モデルは、領域ギャップのため、エゴセントリックな画像画素空間におけるアクションの状態遷移を制御するのに最適である。 そこで本稿では,視覚的インストラクションチューニングによるEGO中心(LEGO)アクションフレーム生成の学習を提案する。 まず,視覚的インストラクションのチューニングにより,視覚的大言語モデル(VLLM)からリッチなアクション記述を生成するプロンプト拡張方式を提案する。 次に,VLLMからの画像とテキストの埋め込みを付加条件として活用し,拡散モデルの性能を向上させる手法を提案する。 Ego4DとEpic-Kitchensという,エゴセントリックな2つのデータセットでモデルを検証しています。 本実験は, 定量的および定性的評価において, 先行画像操作モデルよりも大幅に改善したことを示す。 また,本手法の知見を得るために,詳細なアブレーション研究と分析を行った。 データセットとコードの詳細はWebサイトで公開されている(https://bolinlai.github.io/Lego_EgoActGen/)。

Generating instructional images of human daily actions from an egocentric viewpoint serves as a key step towards efficient skill transfer. In this paper, we introduce a novel problem -- egocentric action frame generation. The goal is to synthesize an image depicting an action in the user's context (i.e., action frame) by conditioning on a user prompt and an input egocentric image. Notably, existing egocentric action datasets lack the detailed annotations that describe the execution of actions. Additionally, existing diffusion-based image manipulation models are sub-optimal in controlling the state transition of an action in egocentric image pixel space because of the domain gap. To this end, we propose to Learn EGOcentric (LEGO) action frame generation via visual instruction tuning. First, we introduce a prompt enhancement scheme to generate enriched action descriptions from a visual large language model (VLLM) by visual instruction tuning. Then we propose a novel method to leverage image and text embeddings from the VLLM as additional conditioning to improve the performance of a diffusion model. We validate our model on two egocentric datasets -- Ego4D and Epic-Kitchens. Our experiments show substantial improvement over prior image manipulation models in both quantitative and qualitative evaluation. We also conduct detailed ablation studies and analysis to provide insights in our method. More details of the dataset and code are available on the website (https://bolinlai.github.io/Lego_EgoActGen/).
翻訳日:2024-03-25 22:20:33 公開日:2024-03-22
# ZePT:クエリディペンタングとセルフプロンピングによるゼロショットパンモームセグメンテーション

ZePT: Zero-Shot Pan-Tumor Segmentation via Query-Disentangling and Self-Prompting ( http://arxiv.org/abs/2312.04964v2 )

ライセンス: Link先を確認
Yankai Jiang, Zhongzhen Huang, Rongzhao Zhang, Xiaofan Zhang, Shaoting Zhang, (参考訳) 医用画像解析における長期分布問題は, 一般的な疾患の頻度が高く, 稀な疾患の頻度が低いことを反映している。 本稿では,問合せと自己プロンプトに基づくゼロショットパン腫瘍セグメンテーションフレームワーク(ZePT)を提案する。 ZePTはオブジェクトクエリを2つのサブセットに切り離し、2つのステージでトレーニングする。 最初は、オルガンレベルの視覚的特徴を収集するオブジェクト認識機能グループ化戦略を通じて、オルガンセグメンテーションのための基本的なクエリセットを学習する。 その後、未確認の腫瘍セグメンテーションのための自動生成視覚プロンプトに焦点を当てた、他の高度なクエリセットを洗練する。 さらに、各クエリの識別表現と一般化可能性を高めるために、特徴レベルでクエリ-知識アライメントを導入する。 種々の腫瘍セグメンテーションタスクに関する広範囲な実験は、ZePTの性能上の優位性を示し、実際の環境でゼロショット腫瘍セグメンテーションの有望な能力を証明している。

The long-tailed distribution problem in medical image analysis reflects a high prevalence of common conditions and a low prevalence of rare ones, which poses a significant challenge in developing a unified model capable of identifying rare or novel tumor categories not encountered during training. In this paper, we propose a new zero-shot pan-tumor segmentation framework (ZePT) based on query-disentangling and self-prompting to segment unseen tumor categories beyond the training set. ZePT disentangles the object queries into two subsets and trains them in two stages. Initially, it learns a set of fundamental queries for organ segmentation through an object-aware feature grouping strategy, which gathers organ-level visual features. Subsequently, it refines the other set of advanced queries that focus on the auto-generated visual prompts for unseen tumor segmentation. Moreover, we introduce query-knowledge alignment at the feature level to enhance each query's discriminative representation and generalizability. Extensive experiments on various tumor segmentation tasks demonstrate the performance superiority of ZePT, which surpasses the previous counterparts and evidence the promising ability for zero-shot tumor segmentation in real-world settings.
翻訳日:2024-03-25 22:20:33 公開日:2024-03-22
# SwiftBrush: 変量スコア蒸留を用いたワンステップテキスト・画像拡散モデル

SwiftBrush: One-Step Text-to-Image Diffusion Model with Variational Score Distillation ( http://arxiv.org/abs/2312.05239v2 )

ライセンス: Link先を確認
Thuan Hoang Nguyen, Anh Tran, (参考訳) テキストプロンプトから高解像度で多様な画像を生成する能力があるにもかかわらず、テキストから画像への拡散モデルは、しばしば遅い反復サンプリングプロセスに悩まされる。 モデル蒸留はこれらのモデルを加速する最も効果的な方法の1つである。 しかし, 従来の蒸留法では, 実際のデータから, あるいは教師モデルで合成的に生成した画像にかなりの量の画像を必要とするため, 生成品質を保たない。 この制限に対応するために、$\textbf{SwiftBrush}$という新しい画像のない蒸留スキームを示す。 入力プロンプトと整合する3次元ニューラルラディアンス場を,任意の3次元データ基底構造を使わずに,事前に2次元のテキスト・ツー・イメージ拡散から得ることができるテキスト・トゥ・3D合成からインスピレーションを得て,本手法では,事前学習した複数ステップのテキスト・ツー・イメージモデルを,単一の推論ステップで高忠実度画像を生成することができる学生ネットワークに抽出するのと同じ損失を生かした。 その単純さにもかかわらず、我々のモデルは、トレーニング画像データに頼らずに安定拡散に匹敵する画質の画像を生成できる最初のワンステップのテキスト・ツー・イメージ・ジェネレータの1つである。 注目すべきは、SwiftBrushがFIDスコアの$\textbf{16.67}$とCLIPスコアの$\textbf{0.29}$をCOCO-30Kベンチマークで達成し、競争的な結果を達成するか、あるいは既存の最先端蒸留技術よりもはるかに上回っていることだ。

Despite their ability to generate high-resolution and diverse images from text prompts, text-to-image diffusion models often suffer from slow iterative sampling processes. Model distillation is one of the most effective directions to accelerate these models. However, previous distillation methods fail to retain the generation quality while requiring a significant amount of images for training, either from real data or synthetically generated by the teacher model. In response to this limitation, we present a novel image-free distillation scheme named $\textbf{SwiftBrush}$. Drawing inspiration from text-to-3D synthesis, in which a 3D neural radiance field that aligns with the input prompt can be obtained from a 2D text-to-image diffusion prior via a specialized loss without the use of any 3D data ground-truth, our approach re-purposes that same loss for distilling a pretrained multi-step text-to-image model to a student network that can generate high-fidelity images with just a single inference step. In spite of its simplicity, our model stands as one of the first one-step text-to-image generators that can produce images of comparable quality to Stable Diffusion without reliance on any training image data. Remarkably, SwiftBrush achieves an FID score of $\textbf{16.67}$ and a CLIP score of $\textbf{0.29}$ on the COCO-30K benchmark, achieving competitive results or even substantially surpassing existing state-of-the-art distillation techniques.
翻訳日:2024-03-25 22:20:33 公開日:2024-03-22
# グラフェンナノリボンのキラル対称性の破れとトポロジカル電荷

Chiral symmetry breaking and topological charge of graphene nanoribbons ( http://arxiv.org/abs/2312.05487v3 )

ライセンス: Link先を確認
Hyun Cheol Lee, S. -R. Eric Yang, (参考訳) 2つのジグザグ縁と2つのアームチェア縁を有する長方形グラフェンナノリボンのエッジ特性について検討した。 自己整合Hartree-Fock場はキラル対称性を破るが、グラフェンナノリボンは短距離交絡対称性保護型トポロジカル絶縁体としての地位を維持していることを示す。 関連する対称性は、ミラーと時間反転操作を組み合わせたものである。 エッジ強磁性を示す未ドープリボンでは、バンドギャップエッジはジグザグエッジにトポロジカルチャージ形式を持つ。 異常連続性方程式の解析により、このトポロジカル電荷はギャップ項によって誘導される。 基底状態がエッジスピン密度波を示す低ドープジグザグリボンでは、このトポロジカル電荷はほぼゼロエネルギーエッジモードとして現れる。 我々のシステムは、トポロジカル絶縁体の従来の石灰化の外側にある。

We explore the edge properties of rectangular graphene nanoribbons featuring two zigzag edges and two armchair edges. Although the self-consistent Hartree-Fock fields break chiral symmetry, our work demonstrates that graphene nanoribbons maintain their status as short-range entangled symmetry-protected topological insulators. The relevant symmetry involves combined mirror and time-reversal operations. In undoped ribbons displaying edge ferromagnetism, the band gap edge states with a topological charge form on the zigzag edges. An analysis of the anomalous continuity equation elucidates that this topological charge is induced by the gap term. In low-doped zigzag ribbons, where the ground state exhibits edge spin density waves, this topological charge appears as a nearly zero-energy edge mode. Our system is outside the conventional calssification for topological insulators.
翻訳日:2024-03-25 22:20:33 公開日:2024-03-22
# 対称性の破れと同変ニューラルネット

Symmetry Breaking and Equivariant Neural Networks ( http://arxiv.org/abs/2312.09016v2 )

ライセンス: Link先を確認
Sékou-Oumar Kaba, Siamak Ravanbakhsh, (参考訳) ディープラーニングにおける帰納バイアスとして対称性を用いることは、サンプル効率の良いモデル設計の原則的なアプローチであることが証明されている。 しかし、ニューラルネットワークにおける対称性と等価性の命令の関係は必ずしも明確ではない。 ここでは、同変関数で生じる重要な制限、すなわち、個々のデータサンプルのレベルで対称性を破ることができないことを解析する。 これに対し、この制限を回避できる「緩和同値」という新しい概念を導入する。 さらに、この緩和を同変多層パーセプトロン(E-MLP)に組み込む方法を示し、ノイズ注入法に代わる方法を提案する。 対称性の破れの関連性は、物理学、グラフ表現学習、組合せ最適化、等変復号といった様々な応用領域で議論される。

Using symmetry as an inductive bias in deep learning has been proven to be a principled approach for sample-efficient model design. However, the relationship between symmetry and the imperative for equivariance in neural networks is not always obvious. Here, we analyze a key limitation that arises in equivariant functions: their incapacity to break symmetry at the level of individual data samples. In response, we introduce a novel notion of 'relaxed equivariance' that circumvents this limitation. We further demonstrate how to incorporate this relaxation into equivariant multilayer perceptrons (E-MLPs), offering an alternative to the noise-injection method. The relevance of symmetry breaking is then discussed in various application domains: physics, graph representation learning, combinatorial optimization and equivariant decoding.
翻訳日:2024-03-25 22:20:33 公開日:2024-03-22
# Gaussian-SLAM:Gaussian Splattingを用いたフォトリアリスティックDense SLAM

Gaussian-SLAM: Photo-realistic Dense SLAM with Gaussian Splatting ( http://arxiv.org/abs/2312.10070v2 )

ライセンス: Link先を確認
Vladimir Yugay, Yue Li, Theo Gevers, Martin R. Oswald, (参考訳) 本稿では3次元ガウスアンをシーン表現として用いたSLAM法を提案する。 本手法は,実世界のシングルカメラRGBDビデオから,インタラクティブなリアルタイム再構成と写真リアルレンダリングを実現する。 そこで本研究では,新たに探索された領域に新しいガウシアンを植え付けるための新しい効果的な手法を提案する。 これは、シーンを独立して最適化され、メモリに保持する必要のないサブマップに整理することで実現される。 さらに、入力フレームと描画フレームの間の光度と幾何学的損失を最小限に抑え、フレーム・ツー・モデルカメラのトラッキングを実現する。 ガウス表現は、現実世界のシーンの高品質な写真リアリスティックリアルタイムレンダリングを可能にする。 合成および実世界のデータセットの評価は、既存の高密度SLAM法と比較して、マッピング、追跡、レンダリングの競争力または優れた性能を示す。

We present a dense simultaneous localization and mapping (SLAM) method that uses 3D Gaussians as a scene representation. Our approach enables interactive-time reconstruction and photo-realistic rendering from real-world single-camera RGBD videos. To this end, we propose a novel effective strategy for seeding new Gaussians for newly explored areas and their effective online optimization that is independent of the scene size and thus scalable to larger scenes. This is achieved by organizing the scene into sub-maps which are independently optimized and do not need to be kept in memory. We further accomplish frame-to-model camera tracking by minimizing photometric and geometric losses between the input and rendered frames. The Gaussian representation allows for high-quality photo-realistic real-time rendering of real-world scenes. Evaluation on synthetic and real-world datasets demonstrates competitive or superior performance in mapping, tracking, and rendering compared to existing neural dense SLAM methods.
翻訳日:2024-03-25 22:20:33 公開日:2024-03-22
# SkySense:地球観測画像のユニバーサル解釈に向けたマルチモードリモートセンシング基礎モデル

SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery ( http://arxiv.org/abs/2312.10115v2 )

ライセンス: Link先を確認
Xin Guo, Jiangwei Lao, Bo Dang, Yingying Zhang, Lei Yu, Lixiang Ru, Liheng Zhong, Ziyuan Huang, Kang Wu, Dingxiang Hu, Huimei He, Jian Wang, Jingdong Chen, Ming Yang, Yongjun Zhang, Yansheng Li, (参考訳) リモートセンシング基礎モデル(RSFM)の先行研究は、地球観測のための一般的なモデルへの大きな可能性を明らかにした。 しかしながら、これらの研究は主に時間的・地理的コンテキストモデリングを使わずに単一のモダリティに焦点を合わせ、様々なタスクの能力を妨げている。 本研究では,2150万の時間的シーケンスを持つマルチモーダルリモートセンシング画像(RSI)データセットを事前トレーニングした総称10億スケールのSkySenseを提案する。 SkySenseは、光学および合成開口レーダ(SAR)データの時間シーケンスを入力として、分解されたマルチモーダル時空間エンコーダを組み込んでいる。 このエンコーダは,モーダルと空間の異なる粒度の表現を学習するために提案したマルチグラニュラリティコントラスト学習によって事前訓練されている。 ジオコンテキスト・プロトタイプ・ラーニング(Geo-Context Prototype Learning)を導入し,RSIのマルチモーダル時空間特徴に基づく地域認識型プロトタイプを学習する。 我々の知る限り、SkySenseは今までで最大のマルチモーダルRSFMであり、モジュールを柔軟に組み合わせたり、個別に使用して様々なタスクに適合させることができる。 シングルモーダルからマルチモーダル、静的からテンポラル、分類からローカライゼーションまで、7つのタスクにまたがる16のデータセットを包含する徹底的な評価において、顕著な一般化能力を示す。 SkySenseは、すべてのテストシナリオで18のRSFMを超えている。 特に、GFM、SatLas、Scale-MAEといった最新のモデルでは、それぞれ2.76%、3.67%、そして3.61%という大きなマージンを上回ります。 我々は、将来の研究と地球観測の応用を促進するために、事前訓練された重量を公表する。

Prior studies on Remote Sensing Foundation Model (RSFM) reveal immense potential towards a generic model for Earth Observation. Nevertheless, these works primarily focus on a single modality without temporal and geo-context modeling, hampering their capabilities for diverse tasks. In this study, we present SkySense, a generic billion-scale model, pre-trained on a curated multi-modal Remote Sensing Imagery (RSI) dataset with 21.5 million temporal sequences. SkySense incorporates a factorized multi-modal spatiotemporal encoder taking temporal sequences of optical and Synthetic Aperture Radar (SAR) data as input. This encoder is pre-trained by our proposed Multi-Granularity Contrastive Learning to learn representations across different modal and spatial granularities. To further enhance the RSI representations by the geo-context clue, we introduce Geo-Context Prototype Learning to learn region-aware prototypes upon RSI's multi-modal spatiotemporal features. To our best knowledge, SkySense is the largest Multi-Modal RSFM to date, whose modules can be flexibly combined or used individually to accommodate various tasks. It demonstrates remarkable generalization capabilities on a thorough evaluation encompassing 16 datasets over 7 tasks, from single- to multi-modal, static to temporal, and classification to localization. SkySense surpasses 18 recent RSFMs in all test scenarios. Specifically, it outperforms the latest models such as GFM, SatLas and Scale-MAE by a large margin, i.e., 2.76%, 3.67% and 3.61% on average respectively. We will release the pre-trained weights to facilitate future research and Earth Observation applications.
翻訳日:2024-03-25 22:20:33 公開日:2024-03-22
# UniChest:マルチソース胸部X線分類のためのコンカレント・ディバイド事前トレーニング

UniChest: Conquer-and-Divide Pre-training for Multi-Source Chest X-Ray Classification ( http://arxiv.org/abs/2312.11038v2 )

ライセンス: Link先を確認
Tianjie Dai, Ruipeng Zhang, Feng Hong, Jiangchao Yao, Ya Zhang, Yanfeng Wang, (参考訳) マルチモーダル情報を利用したVLP(Vision-Language Pre-Training)は,自然領域の視覚認識に成功し,胸部X線(CXR)の医用画像診断において有望であることを示す。 しかし、現在の研究は主にCXRsの単一データセットの探索に注意を払っており、これはマルチソースのCXRsデータセットのより大きなハイブリッド上で、この強力なパラダイムの可能性を秘めている。 多様なソースからのサンプルをブレンドすることは、モデル一般化を改善する利点を提供するが、ソース間の既存の不均一性のため、各ソースのタスクに対して一貫した優位性を維持することは依然として困難である。 このジレンマに対処するために、UniChestと呼ばれるコンカー・アンド・ディヴィッド事前学習フレームワークを設計し、CXRの複数ソースの協調利益をフル活用することを目的として、ソースの不均一性の負の影響を低減した。 特に、UniChestの ``Conquer' ステージは、モデルに十分なマルチソース共通パターンのキャプチャを奨励し、 ‘`Divide' ステージは、パーソナライズされたパターンを異なる小さな専門家(クエリネットワーク)に絞り込むのに役立つ。 私たちは、ChestX-ray14、CheXpert、Vindr-CXR、Shenzhen、Open-I、SIIM-ACR Pneumothoraxといった多くのベンチマークで徹底的な実験を行い、UniChestの有効性をさまざまなベースラインで検証し、https://github.com/Elfenreigen/UniChestでコードと事前学習モデルをリリースしました。

Vision-Language Pre-training (VLP) that utilizes the multi-modal information to promote the training efficiency and effectiveness, has achieved great success in vision recognition of natural domains and shown promise in medical imaging diagnosis for the Chest X-Rays (CXRs). However, current works mainly pay attention to the exploration on single dataset of CXRs, which locks the potential of this powerful paradigm on larger hybrid of multi-source CXRs datasets. We identify that although blending samples from the diverse sources offers the advantages to improve the model generalization, it is still challenging to maintain the consistent superiority for the task of each source due to the existing heterogeneity among sources. To handle this dilemma, we design a Conquer-and-Divide pre-training framework, termed as UniChest, aiming to make full use of the collaboration benefit of multiple sources of CXRs while reducing the negative influence of the source heterogeneity. Specially, the ``Conquer" stage in UniChest encourages the model to sufficiently capture multi-source common patterns, and the ``Divide" stage helps squeeze personalized patterns into different small experts (query networks). We conduct thorough experiments on many benchmarks, e.g., ChestX-ray14, CheXpert, Vindr-CXR, Shenzhen, Open-I and SIIM-ACR Pneumothorax, verifying the effectiveness of UniChest over a range of baselines, and release our codes and pre-training models at https://github.com/Elfenreigen/UniChest.
翻訳日:2024-03-25 22:20:33 公開日:2024-03-22
# 正規化アテンションスコアを用いたより強いグラフ変換器

Stronger Graph Transformer with Regularized Attention Scores ( http://arxiv.org/abs/2312.11730v4 )

ライセンス: Link先を確認
Eugene Ku, (参考訳) Graph Neural Networksは、そのメモリ消費で有名だ。 最近、Graph Transformerと呼ばれるTransformerベースのGNNでは、長距離依存が存在する場合、優れたパフォーマンスが得られることが示されている。 しかし、グラフデータとTransformerアーキテクチャを組み合わせることで、メモリの問題が相まって悪化した。 本稿では、位置エンコーディングの必要性を軽減し、最終的にGTのメモリ外問題を軽減する「エッジ正規化技術」の新たなバージョンを提案する。 位置エンコーディング上のエッジ正規化が有用かどうかは不明である。 しかし, エッジ正規化技術を用いることで, 位置エンコーディングのないGTと比較してGTの性能が安定的に向上することが明らかである。

Graph Neural Networks are notorious for its memory consumption. A recent Transformer-based GNN called Graph Transformer is shown to obtain superior performances when long range dependencies exist. However, combining graph data and Transformer architecture led to a combinationally worse memory issue. We propose a novel version of "edge regularization technique" that alleviates the need for Positional Encoding and ultimately alleviate GT's out of memory issue. We observe that it is not clear whether having an edge regularization on top of positional encoding is helpful. However, it seems evident that applying our edge regularization technique indeed stably improves GT's performance compared to GT without Positional Encoding.
翻訳日:2024-03-25 22:20:33 公開日:2024-03-22
# 視覚言語学習のためのクラスタ条件付きLORAエキスパートの混合

Mixture of Cluster-conditional LoRA Experts for Vision-language Instruction Tuning ( http://arxiv.org/abs/2312.12379v4 )

ライセンス: Link先を確認
Yunhao Gou, Zhili Liu, Kai Chen, Lanqing Hong, Hang Xu, Aoxue Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang, (参考訳) LVLM(Large Vision-Language Models)のインストラクションチューニングは、幅広い下流視覚言語タスクにおいてゼロショットの一般化を伴う多目的モデルの開発に革命をもたらした。 しかし、異なるソースとフォーマットのトレーニングタスクの多様性は、同じモデルのパラメータのセットに対して異なるタスクが競合する、必然的なタスク競合を引き起こす。 そこで本研究では,命令クラスタをベースとしたタスクカスタマイズモデルパラメータの活性化を目的とした,新しいMixture of Experts (MoE)アーキテクチャであるMixture of Cluster Conditional LoRA Experts (MoCLE)を提案する。 新たな命令に対するMoCLEの一般化能力を改善するために、別個のユニバーサルエキスパートが組み込まれている。 11のゼロショットタスクに関する大規模な実験は、MoCLEの有効性を示している。

Instruction tuning of Large Vision-language Models (LVLMs) has revolutionized the development of versatile models with zero-shot generalization across a wide range of downstream vision-language tasks. However, the diversity of training tasks of different sources and formats would lead to inevitable task conflicts, where different tasks conflict for the same set of model parameters, resulting in sub-optimal instructionfollowing abilities. To address that, we propose the Mixture of Clusterconditional LoRA Experts (MoCLE), a novel Mixture of Experts (MoE) architecture designed to activate the task-customized model parameters based on the instruction clusters. A separate universal expert is further incorporated to improve generalization capabilities of MoCLE for novel instructions. Extensive experiments on 11 zero-shot tasks demonstrate the effectiveness of MoCLE.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# 大規模局所待ち行列システムにおけるスパース平均場負荷分散

Sparse Mean Field Load Balancing in Large Localized Queueing Systems ( http://arxiv.org/abs/2312.12973v2 )

ライセンス: Link先を確認
Anam Tahir, Kai Cui, Heinz Koeppl, (参考訳) スケーラブルなロードバランシングアルゴリズムは、クラウドネットワークやデータセンタに大きな関心を持ち、パフォーマンス向上のために最適なロードバランシングポリシを計算するために、トラクタブルなテクニックを使用する必要がある。 しかし、ほとんどの既存のスケーラブルな手法、特に平均場理論に基づく漸近的なスケーリング手法は、強い局所性を持つ大規模な待ち行列ネットワークをモデル化できなかった。 一方、一般的なマルチエージェント強化学習技術はスケールが難しく、理論的な基礎が欠如している。 本研究では、疎結合な待ち行列ネットワークにおいて、近年の疎平均場理論の進歩を活用して、疎結合な待ち行列ネットワークにおける準最適負荷分散ポリシーを学習する。 重要なことは、広い範囲の有界無線トポロジに対する一般的な負荷分散フレームワークを得ることである。 グラフのコンテキストにおける新しい平均場制御問題を有界次数で定式化することにより、他の難解なマルチエージェント問題を単一エージェント問題に還元する。 理論的には、アプローチは近似保証によって正当化される。 提案手法は,複数の実測的かつスケーラブルな無線ネットワークトポロジに対して,多くのよく知られた負荷分散ヒューリスティックや,既存のスケーラブルなマルチエージェント強化学習手法と比較して,よく機能する。

Scalable load balancing algorithms are of great interest in cloud networks and data centers, necessitating the use of tractable techniques to compute optimal load balancing policies for good performance. However, most existing scalable techniques, especially asymptotically scaling methods based on mean field theory, have not been able to model large queueing networks with strong locality. Meanwhile, general multi-agent reinforcement learning techniques can be hard to scale and usually lack a theoretical foundation. In this work, we address this challenge by leveraging recent advances in sparse mean field theory to learn a near-optimal load balancing policy in sparsely connected queueing networks in a tractable manner, which may be preferable to global approaches in terms of wireless communication overhead. Importantly, we obtain a general load balancing framework for a large class of sparse bounded-degree wireless topologies. By formulating a novel mean field control problem in the context of graphs with bounded degree, we reduce the otherwise difficult multi-agent problem to a single-agent problem. Theoretically, the approach is justified by approximation guarantees. Empirically, the proposed methodology performs well on several realistic and scalable wireless network topologies as compared to a number of well-known load balancing heuristics and existing scalable multi-agent reinforcement learning methods.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# PIA: テキスト・ツー・イメージモデルにおけるプラグイン・アンド・プレイモジュールによるパーソナライズされた画像アニメーション

PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models ( http://arxiv.org/abs/2312.13964v2 )

ライセンス: Link先を確認
Yiming Zhang, Zhening Xing, Yanhong Zeng, Youqing Fang, Kai Chen, (参考訳) パーソナライズされたテキスト・ツー・イメージ(T2I)モデルの最近の進歩は、コンテンツ作成に革命をもたらした。 有望な一方で、これらのパーソナライズされたイメージにテキストでリアルなモーションを加えることは、異なるスタイルの保存、高忠実さの詳細、テキストによるモーションコントロール性の実現において大きな課題となる。 本稿では,Personalized Image Animator,Personalized Image Animatorについて述べる。 これらの目標を達成するため、PIAは、よく訓練された時間的アライメント層を持つベースT2Iモデルを構築し、パーソナライズされたT2Iモデルをイメージアニメーションモデルにシームレスに変換することができる。 PIAのキーコンポーネントは、条件フレームとフレーム間の親和性を入力として利用する条件モジュールの導入であり、潜時空間における個々のフレーム合成のための親和性ヒントによって案内される外見情報を転送する。 このデザインは、外観関連画像アライメントの課題を軽減し、動き関連ガイダンスとの整合性により強く焦点を合わせることができる。

Recent advancements in personalized text-to-image (T2I) models have revolutionized content creation, empowering non-experts to generate stunning images with unique styles. While promising, adding realistic motions into these personalized images by text poses significant challenges in preserving distinct styles, high-fidelity details, and achieving motion controllability by text. In this paper, we present PIA, a Personalized Image Animator that excels in aligning with condition images, achieving motion controllability by text, and the compatibility with various personalized T2I models without specific tuning. To achieve these goals, PIA builds upon a base T2I model with well-trained temporal alignment layers, allowing for the seamless transformation of any personalized T2I model into an image animation model. A key component of PIA is the introduction of the condition module, which utilizes the condition frame and inter-frame affinity as input to transfer appearance information guided by the affinity hint for individual frame synthesis in the latent space. This design mitigates the challenges of appearance-related image alignment within and allows for a stronger focus on aligning with motion-related guidance.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# VideoPoet: ゼロショットビデオ生成のための大規模言語モデル

VideoPoet: A Large Language Model for Zero-Shot Video Generation ( http://arxiv.org/abs/2312.14125v3 )

ライセンス: Link先を確認
Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang, (参考訳) 本稿では,多種多様な条件信号から高品質な映像と音声を合成可能な言語モデルであるVideoPoetを提案する。 VideoPoetは、画像、ビデオ、テキスト、オーディオを含むマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。 トレーニングプロトコルはLarge Language Models (LLM)の後継で、事前訓練とタスク固有の適応という2つの段階で構成されている。 事前トレーニング中、VideoPoetは自動回帰トランスフォーマーフレームワークにマルチモーダル生成目的の混合を組み込んでいる。 事前訓練されたLLMは、様々なビデオ生成タスクに適応できる基盤として機能する。 ゼロショットビデオ生成におけるモデルの現状を示す実証実験の結果,特に高忠実度モーションを生成する VideoPoet の能力を強調した。 プロジェクトページ: http://sites.research.google/videopoet/

We present VideoPoet, a language model capable of synthesizing high-quality video, with matching audio, from a large variety of conditioning signals. VideoPoet employs a decoder-only transformer architecture that processes multimodal inputs -- including images, videos, text, and audio. The training protocol follows that of Large Language Models (LLMs), consisting of two stages: pretraining and task-specific adaptation. During pretraining, VideoPoet incorporates a mixture of multimodal generative objectives within an autoregressive Transformer framework. The pretrained LLM serves as a foundation that can be adapted for a range of video generation tasks. We present empirical results demonstrating the model's state-of-the-art capabilities in zero-shot video generation, specifically highlighting VideoPoet's ability to generate high-fidelity motions. Project page: http://sites.research.google/videopoet/
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# 時系列のソフトコントラスト学習

Soft Contrastive Learning for Time Series ( http://arxiv.org/abs/2312.16424v3 )

ライセンス: Link先を確認
Seunghan Lee, Taeyoung Park, Kibok Lee, (参考訳) コントラスト学習は時系列から自己指導的な方法で表現を学習するのに有効であることが示されている。 しかし、類似の時系列インスタンスや時系列内の隣接するタイムスタンプからの値と対照的に、それらの固有の相関は無視され、結果として学習された表現の品質が低下する。 この問題に対処するために,時系列の簡易かつ効果的なソフトコントラスト学習戦略であるSoftCLTを提案する。 これは、0から1までのソフトな割り当てで、インスタンスワイズと時間的コントラスト損失を導入することで達成される。 具体的にはソフトな割り当てを定義します 1)データ空間上の時系列間の距離によるケースワイドコントラスト損失と 2) タイムスタンプの違いによる時間的コントラスト損失 SoftCLTは時系列のコントラスト学習のためのプラグアンドプレイ方式であり、ベルやホイッスルを使わずに学習表現の品質を向上させる。 実験では、SoftCLTは、分類、半教師付き学習、移動学習、異常検出など、様々な下流タスクのパフォーマンスを一貫して改善し、最先端のパフォーマンスを示すことを示した。 コードは、このリポジトリで入手できる。

Contrastive learning has shown to be effective to learn representations from time series in a self-supervised way. However, contrasting similar time series instances or values from adjacent timestamps within a time series leads to ignore their inherent correlations, which results in deteriorating the quality of learned representations. To address this issue, we propose SoftCLT, a simple yet effective soft contrastive learning strategy for time series. This is achieved by introducing instance-wise and temporal contrastive loss with soft assignments ranging from zero to one. Specifically, we define soft assignments for 1) instance-wise contrastive loss by the distance between time series on the data space, and 2) temporal contrastive loss by the difference of timestamps. SoftCLT is a plug-and-play method for time series contrastive learning that improves the quality of learned representations without bells and whistles. In experiments, we demonstrate that SoftCLT consistently improves the performance in various downstream tasks including classification, semi-supervised learning, transfer learning, and anomaly detection, showing state-of-the-art performance. Code is available at this repository: https://github.com/seunghan96/softclt.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# 時系列を個別に埋め込む学習

Learning to Embed Time Series Patches Independently ( http://arxiv.org/abs/2312.16427v3 )

ライセンス: Link先を確認
Seunghan Lee, Taeyoung Park, Kibok Lee, (参考訳) 近年,時系列モデリングは時系列の自己教師型表現学習戦略として注目されている。 コンピュータビジョンにおけるマスク付きイメージモデリングにインスパイアされた最近の研究は、まず最初にパッチをパッチ化し、部分的に時系列をマスクアウトし、次にトランスフォーマーをトレーニングして、マスク付きパッチを未マスクのパッチから予測することでパッチ間の依存関係をキャプチャする。 しかし、このようなパッチ依存関係をキャプチャすることは、時系列表現学習の最適戦略ではなく、個別にパッチを埋め込む学習は、より良い時系列表現をもたらす。 具体的には 1)他のパッチを見ることなく各パッチを自動エンコードする簡単なパッチ再構築タスク。 2) パッチを個別に埋め込むシンプルなパッチワイドMLP。 さらに,隣接時系列情報の階層的取得を効率的に行うために,補完的コントラスト学習を導入する。 提案手法は,現状のトランスフォーマーモデルと比較して時系列予測と分類性能を向上し,パラメータ数やトレーニング/推論時間の観点からより効率的である。 コードは、このリポジトリで入手できる。

Masked time series modeling has recently gained much attention as a self-supervised representation learning strategy for time series. Inspired by masked image modeling in computer vision, recent works first patchify and partially mask out time series, and then train Transformers to capture the dependencies between patches by predicting masked patches from unmasked patches. However, we argue that capturing such patch dependencies might not be an optimal strategy for time series representation learning; rather, learning to embed patches independently results in better time series representations. Specifically, we propose to use 1) the simple patch reconstruction task, which autoencode each patch without looking at other patches, and 2) the simple patch-wise MLP that embeds each patch independently. In addition, we introduce complementary contrastive learning to hierarchically capture adjacent time series information efficiently. Our proposed method improves time series forecasting and classification performance compared to state-of-the-art Transformer-based models, while it is more efficient in terms of the number of parameters and training/inference time. Code is available at this repository: https://github.com/seunghan96/pits.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# 自然言語推論を用いた効率的なユニバーサル分類器の構築

Building Efficient Universal Classifiers with Natural Language Inference ( http://arxiv.org/abs/2312.17543v2 )

ライセンス: Link先を確認
Moritz Laurer, Wouter van Atteveldt, Andreu Casas, Kasper Welbers, (参考訳) 生成型大規模言語モデル(LLM)は、テキスト生成の普遍性により、ほとんどショットやゼロショットの学習において主要な選択肢となっている。 しかし、多くのユーザーは、分類タスクを自動化したい場合にのみ、生成LDMの幅広い機能を必要としない。 より小さなBERTのようなモデルでも普遍的なタスクを学習できるため、微調整(ゼロショット分類)やいくつかの例(ファウショット)で新しいタスクを学習することなく、任意のテキスト分類タスクを実行できる。 本稿は, 自然言語推論(NLI)が, 生成LDMの命令微調整と同様の原理に従う普遍的分類タスクとしてどのように使用できるかを説明するとともに, 汎用分類器を構築するために, 再利用可能なJupyterノートを用いたステップバイステップガイドを提供するとともに, 389の多様なクラスを持つ33のデータセットでトレーニングされた普遍的分類器を共有する。 私たちが共有しているコードの一部は、2023年12月のHugging Face Hubを通じて5500万回以上ダウンロードされた古いゼロショット分類器のトレーニングに使われています。 我々の新しい分類器はゼロショット性能を9.4%向上させる。

Generative Large Language Models (LLMs) have become the mainstream choice for fewshot and zeroshot learning thanks to the universality of text generation. Many users, however, do not need the broad capabilities of generative LLMs when they only want to automate a classification task. Smaller BERT-like models can also learn universal tasks, which allow them to do any text classification task without requiring fine-tuning (zeroshot classification) or to learn new tasks with only a few examples (fewshot), while being significantly more efficient than generative LLMs. This paper (1) explains how Natural Language Inference (NLI) can be used as a universal classification task that follows similar principles as instruction fine-tuning of generative LLMs, (2) provides a step-by-step guide with reusable Jupyter notebooks for building a universal classifier, and (3) shares the resulting universal classifier that is trained on 33 datasets with 389 diverse classes. Parts of the code we share has been used to train our older zeroshot classifiers that have been downloaded more than 55 million times via the Hugging Face Hub as of December 2023. Our new classifier improves zeroshot performance by 9.4%.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# 6D-Diff:6次元オブジェクトポス推定のためのキーポイント拡散フレームワーク

6D-Diff: A Keypoint Diffusion Framework for 6D Object Pose Estimation ( http://arxiv.org/abs/2401.00029v3 )

ライセンス: Link先を確認
Li Xu, Haoxuan Qu, Yujun Cai, Jun Liu, (参考訳) 単一のRGB画像から6Dオブジェクトのポーズを推定するには、オクルージョンや乱雑な背景といった課題のためにノイズや不確定性が伴うことが多い。 一方,拡散モデルでは,ステップ・バイ・ステップ・バイ・ステップ・デノイングによる不確定性の高いランダムノイズから高品質な画像を生成する上で,魅力的な性能を示している。 そこで本研究では,オブジェクトのポーズ推定におけるノイズや不確定性を扱うための拡散型フレームワーク(6D-Diff)を提案する。 本稿では, 正確な2D-3D対応を確立するために, 逆拡散(デノナイジング)プロセスとして2Dキーポイント検出を定式化する。 このようなデノナイズプロセスを容易にするために、Mixture-of-Cauchyに基づく前方拡散プロセスの設計と、対象特徴に対する逆過程の条件付けを行う。 LM-OおよびYCB-Vデータセットの大規模な実験により,本フレームワークの有効性が示された。

Estimating the 6D object pose from a single RGB image often involves noise and indeterminacy due to challenges such as occlusions and cluttered backgrounds. Meanwhile, diffusion models have shown appealing performance in generating high-quality images from random noise with high indeterminacy through step-by-step denoising. Inspired by their denoising capability, we propose a novel diffusion-based framework (6D-Diff) to handle the noise and indeterminacy in object pose estimation for better performance. In our framework, to establish accurate 2D-3D correspondence, we formulate 2D keypoints detection as a reverse diffusion (denoising) process. To facilitate such a denoising process, we design a Mixture-of-Cauchy-based forward diffusion process and condition the reverse process on the object features. Extensive experiments on the LM-O and YCB-V datasets demonstrate the effectiveness of our framework.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# 高精度ディコトコス画像セグメント化に向けたセグメンテーションモデルの提案

Promoting Segment Anything Model towards Highly Accurate Dichotomous Image Segmentation ( http://arxiv.org/abs/2401.00248v2 )

ライセンス: Link先を確認
Xianjie Liu, Keren Fu, Qijun Zhao, (参考訳) Segment Anything Model (SAM)は、コンピュータビジョンの基礎モデルにおける重要なブレークスルーであり、大規模なイメージセグメンテーションモデルを提供する。 しかし、SAMのゼロショット性能にもかかわらず、そのセグメンテーションマスクは細部の詳細を欠いている。 我々は、SAMが基礎モデルとして、DIS(dichotomous image segmentation)と呼ばれる高い精度のオブジェクトセグメンテーションに改善できるかどうかを期待している。 この問題に対処するために, SAM を DIS へ拡張する DIS-SAM を提案する。 DIS-SAMは、SAMの迅速な設計を維持しながら、高度に正確なセグメンテーションに適したフレームワークである。 DIS-SAM は2段階のアプローチを採用し、SAM と DIS 専用の IS-Net を統合している。 DIS-SAM は SAM や HQ-SAM に比べて精度が大幅に向上している。

The Segment Anything Model (SAM) represents a significant breakthrough into foundation models for computer vision, providing a large-scale image segmentation model. However, despite SAM's zero-shot performance, its segmentation masks lack fine-grained details, particularly in accurately delineating object boundaries. We have high expectations regarding whether SAM, as a foundation model, can be improved towards highly accurate object segmentation, which is known as dichotomous image segmentation (DIS). To address this issue, we propose DIS-SAM, which advances SAM towards DIS with extremely accurate details. DIS-SAM is a framework specifically tailored for highly accurate segmentation, maintaining SAM's promptable design. DIS-SAM employs a two-stage approach, integrating SAM with a modified IS-Net dedicated to DIS. Despite its simplicity, DIS-SAM demonstrates significantly enhanced segmentation accuracy compared to SAM and HQ-SAM.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# 貯水池コンピュータによるトラクターリコンストラクション:貯水池の条件付きリアプノフ指数が忠実なトラクターリコンストラクションに及ぼす影響

Attractor reconstruction with reservoir computers: The effect of the reservoir's conditional Lyapunov exponents on faithful attractor reconstruction ( http://arxiv.org/abs/2401.00885v2 )

ライセンス: Link先を確認
Joseph D. Hart, (参考訳) 貯留層計算(Reservoir computing)は、学習された力学系のフラクタル次元やリャプノフスペクトル全体を含むカオス的なアトラクションを再現できる機械学習フレームワークである。 本研究では,訓練段階における駆動型貯水池の一般同期ダイナミクスと,アトラクタ再構築作業における訓練型貯水池コンピュータの性能を定量的に関連づける。 その結果, 誘導型貯水池のリアプノフ指数は, ターゲット系の最も負のリャプノフ指数よりも有意に負であることが示唆された。 また, 貯水池の最大条件リャプノフ指数は, 貯水池隣接行列のスペクトル半径に強く依存していることが判明した。 我々の議論は、よく知られたカオスシステムにおける数値的な例によって裏付けられている。

Reservoir computing is a machine learning framework that has been shown to be able to replicate the chaotic attractor, including the fractal dimension and the entire Lyapunov spectrum, of the dynamical system on which it is trained. We quantitatively relate the generalized synchronization dynamics of a driven reservoir during the training stage to the performance of the trained reservoir computer at the attractor reconstruction task. We show that, in order to obtain successful attractor reconstruction and Lyapunov spectrum estimation, the largest conditional Lyapunov exponent of the driven reservoir must be significantly more negative than the most negative Lyapunov exponent of the target system. We also find that the maximal conditional Lyapunov exponent of the reservoir depends strongly on the spectral radius of the reservoir adjacency matrix, and therefore, for attractor reconstruction and Lyapunov spectrum estimation, small spectral radius reservoir computers perform better in general. Our arguments are supported by numerical examples on well-known chaotic systems.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# 隠れた変数: フォン・ノイマンの分析のリハビリとパウリの不可解なチェック

Hidden Variables: Rehabilitation of von Neumann's Analysis, and Pauli's Uncashable Check ( http://arxiv.org/abs/2401.04002v2 )

ライセンス: Link先を確認
Robert Golub, Steve K. Lamoreaux, (参考訳) 1932年に出版された著書 \textit{The Mathematical Foundations of Quantum Mechanics} では、J. von Neumann が量子力学に隠れたパラメータ(隠れ変数)を導入する結果の分析を行った。 彼は、隠れた変数を大きな修正なしに既存の量子力学理論に組み込むことはできないことを示し、もしそれが存在すれば、その理論がうまく適用された状況で既に失敗したであろうと結論づけた。 フォン・ノイマンは、理論が完備ではない可能性を明らかにし、内部整合性の解析は自己参照論理系(G\"odel's theorem")のためにできる最良の方法である。この分析は隠れ変数の存在に対して「不正確な証明」として扱われていた。 フォン・ノイマンのいわゆる証明は、そのような証明が存在しないので誤りではない。 隠れ変数理論の最も初期の試みの1つは、D. Bohm によるものであり、実験的な結果がなかったため、W. Pauli は '`uncashable check' と呼んだ。 「我々の知識では、量子力学の実証可能な結果を伴う隠れ変数拡張がまだ実現されていないので、フォン・ノイマンの分析は回復に値するものであり、簡単な方法で提供しようと試みている。」

In his book \textit{The Mathematical Foundations of Quantum Mechanics}, published in 1932, J. von Neumann performed an analysis of the consequences of introducing hidden parameters (hidden variables) into quantum mechanics. He showed that hidden variables cannot be incorporated into the existing theory of quantum mechanics without major modifications, and concluded that if they did exist, the theory would have already failed in situations where it has been successfully applied. von Neumann left open the possibility that the theory is not complete, and his analysis for internal consistency is the best that can be done for a self-referenced logical system (G\"odel's theorem). This analysis had been taken as an ``incorrect proof" against the existence of hidden variables. von Neumann's so-called proof isn't even wrong as such a proof does not exist. One of the earliest attempts at a hidden variable theory was by D. Bohm, and because there were no experimental consequences, W. Pauli referred to it as an ``uncashable check." To our knowledge, a successful hidden variable extension to quantum mechanics with testable consequences has not yet been produced, suggesting that von Neumann's analysis is worthy of rehabilitation, which we attempt to provide in a straightforward manner.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# SoK:WebAssemblyの分析テクニック

SoK: Analysis techniques for WebAssembly ( http://arxiv.org/abs/2401.05943v2 )

ライセンス: Link先を確認
Håkon Harnes, Donn Morrison, (参考訳) WebAssemblyは低レベルのバイトコード言語で、C、C++、Rustといった高レベルの言語を、ネイティブに近いパフォーマンスでブラウザで実行できる。 近年、WebAssemblyは広く採用されており、現在のすべてのブラウザでネイティブにサポートされている。 しかし、CやC++のようなメモリ不安全な言語の脆弱性はWebAssemblyバイナリの脆弱性に変換できる。 残念なことに、ほとんどのWebAssemblyバイナリはそのようなメモリアンセーフな言語からコンパイルされており、これらの脆弱性は現実のシナリオで実用的であることが示されている。 WebAssemblyスマートコントラクトも脆弱性があることが判明した。 さらにWebAssemblyは、暗号ジャッキングのような悪意ある目的で使用されています。 これらの問題に対処するために、WebAssemblyバイナリの分析テクニックがいくつか提案されている。 本稿では,これらの手法の総合的な文献レビューを行い,その分析戦略と目的に基づいて分類する。 さらに,定量的データを用いた手法の比較と評価を行い,その強みと弱さを強調した。 また,本論文の主な貢献の1つは,詳細な文献レビューに基づく今後の研究方向性の同定である。

WebAssembly is a low-level bytecode language that allows high-level languages like C, C++, and Rust to be executed in the browser at near-native performance. In recent years, WebAssembly has gained widespread adoption is now natively supported by all modern browsers. However, vulnerabilities in memory-unsafe languages, like C and C++, can translate into vulnerabilities in WebAssembly binaries. Unfortunately, most WebAssembly binaries are compiled from such memory-unsafe languages, and these vulnerabilities have been shown to be practical in real-world scenarios. WebAssembly smart contracts have also been found to be vulnerable, causing significant financial loss. Additionally, WebAssembly has been used for malicious purposes like cryptojacking. To address these issues, several analysis techniques for WebAssembly binaries have been proposed. In this paper, we conduct a comprehensive literature review of these techniques and categorize them based on their analysis strategy and objectives. Furthermore, we compare and evaluate the techniques using quantitative data, highlighting their strengths and weaknesses. In addition, one of the main contributions of this paper is the identification of future research directions based on the thorough literature review conducted.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# Masked Inter-Intra-Frame Attention を用いた超解像変換器

Video Super-Resolution Transformer with Masked Inter&Intra-Frame Attention ( http://arxiv.org/abs/2401.06312v3 )

ライセンス: Link先を確認
Xingyu Zhou, Leheng Zhang, Xiaorui Zhao, Keze Wang, Leida Li, Shuhang Gu, (参考訳) 近年、Vision Transformerは低解像度のシーケンス、すなわちビデオ超解像(VSR)タスクの欠落した詳細を復元することに成功した。 VSRの精度が優れているにもかかわらず、計算上の重荷と大きなメモリフットプリントは、TransformerベースのVSRモデルを制約されたデバイスに配置することを妨げている。 本稿では,Masked Intra and Inter frame Attention (MIA-VSR) を用いた新しい機能レベルのマスク処理フレームワークを提案する。 MIA-VSRのコアは、隣接するフレーム間の特徴レベルの時間的連続性を利用して冗長な計算を減らし、以前拡張されたSR特徴をより合理的に活用することである。 具体的には,過去の特徴と入力特徴のそれぞれの役割を考慮に入れたフレーム内およびフレーム間アテンションブロックを提案する。 さらに、隣接するフレーム間の特徴的類似性に応じて、重要でない計算をスキップする適応ブロックワイドマスク予測モジュールを開発した。 我々は,提案手法を最近の最先端のVSR手法と比較するため,詳細なアブレーション研究を行っている。 実験の結果,MIA-VSRはPSNRの精度を落とさずに,最先端手法よりもメモリと計算効率を向上することが示された。 コードはhttps://github.com/LabShuHangGU/MIA-VSRで公開されている。

Recently, Vision Transformer has achieved great success in recovering missing details in low-resolution sequences, i.e., the video super-resolution (VSR) task. Despite its superiority in VSR accuracy, the heavy computational burden as well as the large memory footprint hinder the deployment of Transformer-based VSR models on constrained devices. In this paper, we address the above issue by proposing a novel feature-level masked processing framework: VSR with Masked Intra and inter frame Attention (MIA-VSR). The core of MIA-VSR is leveraging feature-level temporal continuity between adjacent frames to reduce redundant computations and make more rational use of previously enhanced SR features. Concretely, we propose an intra-frame and inter-frame attention block which takes the respective roles of past features and input features into consideration and only exploits previously enhanced features to provide supplementary information. In addition, an adaptive block-wise mask prediction module is developed to skip unimportant computations according to feature similarity between adjacent frames. We conduct detailed ablation studies to validate our contributions and compare the proposed method with recent state-of-the-art VSR approaches. The experimental results demonstrate that MIA-VSR improves the memory and computation efficiency over state-of-the-art methods, without trading off PSNR accuracy. The code is available at https://github.com/LabShuHangGU/MIA-VSR.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# 病理組織学における画像検索について

On Image Search in Histopathology ( http://arxiv.org/abs/2401.08699v3 )

ライセンス: Link先を確認
H. R. Tizhoosh, Liron Pantanowitz, (参考訳) 病理像は、カメラ搭載顕微鏡またはスライドスキャナー全体から取得することができる。 これらの画像に基づいて、類似性計算を用いて患者と一致させることは、研究や臨床の文脈において大きな可能性を秘めている。 近年の検索技術の進歩により、様々な一次部位にわたる組織形態の暗黙的な定量化が可能となり、比較が容易になり、診断に関する推論が可能となり、また、診断および治療された症例のキュレートされたデータベースと比較した場合に新しい患者を予測できる可能性がある。 本稿では,画像検索技術における病理組織学の最近の進歩を概観し,その研究に有効な,高速かつ効率的な画像検索手法を求める計算病理研究者向けの簡潔な概要を提供する。

Pathology images of histopathology can be acquired from camera-mounted microscopes or whole slide scanners. Utilizing similarity calculations to match patients based on these images holds significant potential in research and clinical contexts. Recent advancements in search technologies allow for implicit quantification of tissue morphology across diverse primary sites, facilitating comparisons and enabling inferences about diagnosis, and potentially prognosis, and predictions for new patients when compared against a curated database of diagnosed and treated cases. In this paper, we comprehensively review the latest developments in image search technologies for histopathology, offering a concise overview tailored for computational pathology researchers seeking effective, fast and efficient image search methods in their work.
翻訳日:2024-03-25 22:10:49 公開日:2024-03-22
# バーボース画像を用いた大規模視線言語モデルの高エネルギー化

Inducing High Energy-Latency of Large Vision-Language Models with Verbose Images ( http://arxiv.org/abs/2401.11170v2 )

ライセンス: Link先を確認
Kuofeng Gao, Yang Bai, Jindong Gu, Shu-Tao Xia, Philip Torr, Zhifeng Li, Wei Liu, (参考訳) GPT-4のような大規模視覚言語モデル(VLM)は、様々なマルチモーダルタスクにおいて例外的な性能を達成している。 しかしながら、VLMの展開にはかなりのエネルギー消費と計算資源が必要である。 攻撃者がVLMの推論中に高エネルギー消費と遅延時間(遅延コスト)を悪用すると、計算資源を消費する。 本稿では、この攻撃面をVLMの利用可能性について検討し、VLMの推論時に高エネルギー遅延コストを誘導することを目的とする。 我々は,VLM推定における高エネルギー遅延コストを,生成シーケンスの長さを最大化することにより操作できることを見出した。 そこで本稿では,VLMを誘導し,推論中に長文を生成するために,知覚不能な摂動を作り出すことを目的とした冗長な画像を提案する。 具体的には,3つの損失目標を設計する。 まず、EOSトークンはVLMがさらなるトークンを生成するのを止めるシグナルである。 さらに、各生成されたトークンに対する不確実性損失とトークンの多様性損失をそれぞれ提案し、トークンレベルの出力依存性とシーケンスレベルの出力依存性を損なうことができる。 さらに、これらの損失を効果的にバランスできる時間的重み調整アルゴリズムを提案する。 我々の冗長画像は,MS-COCOおよびImageNetデータセットの原画像と比較して7.87倍,8.56倍長くなることが実証された。 私たちのコードはhttps://github.com/KuofengGao/Verbose_Imagesで公開されています。

Large vision-language models (VLMs) such as GPT-4 have achieved exceptional performance across various multi-modal tasks. However, the deployment of VLMs necessitates substantial energy consumption and computational resources. Once attackers maliciously induce high energy consumption and latency time (energy-latency cost) during inference of VLMs, it will exhaust computational resources. In this paper, we explore this attack surface about availability of VLMs and aim to induce high energy-latency cost during inference of VLMs. We find that high energy-latency cost during inference of VLMs can be manipulated by maximizing the length of generated sequences. To this end, we propose verbose images, with the goal of crafting an imperceptible perturbation to induce VLMs to generate long sentences during inference. Concretely, we design three loss objectives. First, a loss is proposed to delay the occurrence of end-of-sequence (EOS) token, where EOS token is a signal for VLMs to stop generating further tokens. Moreover, an uncertainty loss and a token diversity loss are proposed to increase the uncertainty over each generated token and the diversity among all tokens of the whole generated sequence, respectively, which can break output dependency at token-level and sequence-level. Furthermore, a temporal weight adjustment algorithm is proposed, which can effectively balance these losses. Extensive experiments demonstrate that our verbose images can increase the length of generated sequences by 7.87 times and 8.56 times compared to original images on MS-COCO and ImageNet datasets, which presents potential challenges for various applications. Our code is available at https://github.com/KuofengGao/Verbose_Images.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-22
# 高速非線形2時間スケール確率近似:$O(1/k)$ Finite-Sample Complexity

Fast Nonlinear Two-Time-Scale Stochastic Approximation: Achieving $O(1/k)$ Finite-Sample Complexity ( http://arxiv.org/abs/2401.12764v3 )

ライセンス: Link先を確認
Thinh T. Doan, (参考訳) 本稿では,2つの結合した非線形作用素の根を探すために,2時間スケール確率近似の新しい変種を開発することを提案する。 私たちのキーとなるアイデアは、古典的なRuppert-Polyak平均化技術を活用して、それらのサンプルを通して演算子を動的に推定することです。 平均化ステップの推定値は、望まれる解を見つけるために、2段階の確率近似更新に使用される。 我々の理論的な主な結果は、基礎となる非線形作用素の強い単調条件の下で、提案手法によって生成されるイテレートの平均二乗誤差が最適速度$O(1/k)$でゼロに収束し、$k$が反復数であることを示すことである。 この結果は、2時間スケールの確率近似の既存の結果を大幅に改善し、最もよく知られた有限時間収束率は$O(1/k^{2/3})$である。 提案手法を適用して,性能を向上した新しい強化学習アルゴリズムを開発した。

This paper proposes to develop a new variant of the two-time-scale stochastic approximation to find the roots of two coupled nonlinear operators, assuming only noisy samples of these operators can be observed. Our key idea is to leverage the classic Ruppert-Polyak averaging technique to dynamically estimate the operators through their samples. The estimated values of these averaging steps will then be used in the two-time-scale stochastic approximation updates to find the desired solution. Our main theoretical result is to show that under the strongly monotone condition of the underlying nonlinear operators the mean-squared errors of the iterates generated by the proposed method converge to zero at an optimal rate $O(1/k)$, where $k$ is the number of iterations. Our result significantly improves the existing result of two-time-scale stochastic approximation, where the best known finite-time convergence rate is $O(1/k^{2/3})$. We illustrate this result by applying the proposed method to develop new reinforcement learning algorithms with improved performance.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-22
# インサーティングを超えて: セマンティック・フィデリティ・パーソナライズド・ディフュージョン生成のためのアイデンティティ埋め込み学習

Beyond Inserting: Learning Identity Embedding for Semantic-Fidelity Personalized Diffusion Generation ( http://arxiv.org/abs/2402.00631v2 )

ライセンス: Link先を確認
Yang Li, Songlin Yang, Wei Wang, Jing Dong, (参考訳) 安定拡散モデルのような高度な拡散ベースのテキスト・ツー・イメージ(T2I)モデルは、テキストプロンプトだけで多彩で高品質な画像を生成するために大きな進歩を遂げた。 しかし、有名でないユーザがID(ID)に対してパーソナライズされた画像生成を要求する場合、T2IモデルはID関連画像の正確な生成に失敗する。 主な問題は、事前訓練されたT2Iモデルが、新しいIDプロンプトと対応する視覚コンテンツの間のマッピングを学習していないことである。 以前の手法は、顔領域に正確に適合しなかったり、他のT2Iモデルの概念と対話的な生成能力を失ったりした。 言い換えれば、与えられたプロンプトに対して、シーン("Eiffel Tower'')、アクション("holding a basketball'')、顔属性("`eyes closed'')などの他の概念でT2I整列および意味忠実な画像を生成することができない。 本稿では, セマンティック・フィデリティ・パーソナライズド・ジェネレーションのための安定拡散モデルに, 正確でインタラクティブなIDを挿入することに焦点を当てる。 本稿では,この課題を2つの視点から解決する。 具体的には、まず注意過誤問題を可視化し、顔のレイアウトや背景などのID非関連情報を絡ませる代わりに、顔領域に適合する顔の注意損失を提案する。 この鍵となるトリックは、他の既存の概念とIDの精度と対話的な生成能力を大幅に向上させる。 次に,1つのID表現を,各トークンが2つの非絡み合った特徴を持つ複数段単位のトークンとして最適化する。 このテキスト条件空間の拡張はセマンティック・フィデリティ制御を改善する。 実験の結果, 従来の手法と比較して, ID 精度, テキストベース操作能力, 一般化性が良好であることが確認された。

Advanced diffusion-based Text-to-Image (T2I) models, such as the Stable Diffusion Model, have made significant progress in generating diverse and high-quality images using text prompts alone. However, when non-famous users require personalized image generation for their identities (IDs), the T2I models fail to accurately generate their ID-related images. The main problem is that pre-trained T2I models do not learn the mapping between the new ID prompts and their corresponding visual content. The previous methods either failed to accurately fit the face region or lost the interactive generative ability with other existing concepts in T2I models. In other words, they are unable to generate T2I-aligned and semantic-fidelity images for the given prompts with other concepts such as scenes (``Eiffel Tower''), actions (``holding a basketball''), and facial attributes (``eyes closed''). In this paper, we focus on inserting accurate and interactive ID embedding into the Stable Diffusion Model for semantic-fidelity personalized generation. We address this challenge from two perspectives: face-wise region fitting and semantic-fidelity token optimization. Specifically, we first visualize the attention overfit problem and propose a face-wise attention loss to fit the face region instead of entangling ID-unrelated information, such as face layout and background. This key trick significantly enhances the ID accuracy and interactive generative ability with other existing concepts. Then, we optimize one ID representation as multiple per-stage tokens where each token contains two disentangled features. This expansion of the textual conditioning space improves semantic-fidelity control. Extensive experiments validate that our results exhibit superior ID accuracy, text-based manipulation ability, and generalization compared to previous methods.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-22
# 出生率予測のためのデータチャレンジにおけるオランダ調査の強さと登録データの組み合わせ(PreFer)

Combining the Strengths of Dutch Survey and Register Data in a Data Challenge to Predict Fertility (PreFer) ( http://arxiv.org/abs/2402.00705v2 )

ライセンス: Link先を確認
Elizaveta Sivak, Paulina Pankowska, Adrienne Mendrik, Tom Emery, Javier Garcia-Bernardo, Seyit Hocuk, Kasia Karpinska, Angelica Maineri, Joris Mulder, Malvina Nissim, Gert Stulp, (参考訳) 社会科学は、生殖結果の決定要因、または、人々が子供を持つかどうか、そしていつになるかについて、印象的な研究結果を生み出している。 しかし、これらの行列式と基礎となる理論の強さは、新しいデータに対する予測能力で評価されることは滅多にない。 これにより、学習を体系的に比較することができず、知識の評価と蓄積を妨げます。 本稿では,オランダにおける出生率の予測可能性を調べるために利用可能な2つのデータセットについて述べる。 1つのデータセットは、個別の好みや値を含む幅広いトピックに関する数千の変数を含む縦断調査であるISSパネルに基づいている。 もう一つはオランダの登録データに基づいており、位置データに欠けるが、オランダの住民数百万人のライフコースに関する詳細な情報を含んでいる。 我々は、データセットとサンプルに関する情報を提供し、関心の豊かさの結果を説明する。 PreFerはこれらのデータセットに基づいており、2024年の春に開始されます。 これらのデータセットを用いて出生率の予測可能性を測定し、データチャレンジにおけるその強みを組み合わせることで、出生率行動と計算社会科学の理解を深める方法について概説する。 さらに、参加者がデータチャレンジに参加する方法の詳細も提供します。

The social sciences have produced an impressive body of research on determinants of fertility outcomes, or whether and when people have children. However, the strength of these determinants and underlying theories are rarely evaluated on their predictive ability on new data. This prevents us from systematically comparing studies, hindering the evaluation and accumulation of knowledge. In this paper, we present two datasets which can be used to study the predictability of fertility outcomes in the Netherlands. One dataset is based on the LISS panel, a longitudinal survey which includes thousands of variables on a wide range of topics, including individual preferences and values. The other is based on the Dutch register data which lacks attitudinal data but includes detailed information about the life courses of millions of Dutch residents. We provide information about the datasets and the samples, and describe the fertility outcome of interest. We also introduce the fertility prediction data challenge PreFer which is based on these datasets and will start in Spring 2024. We outline the ways in which measuring the predictability of fertility outcomes using these datasets and combining their strengths in the data challenge can advance our understanding of fertility behaviour and computational social science. We further provide details for participants on how to take part in the data challenge.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-22
# Toon Aging: アート・ポートレート・スタイルのトランスファーで顔の再老化

ToonAging: Face Re-Aging upon Artistic Portrait Style Transfer ( http://arxiv.org/abs/2402.02733v3 )

ライセンス: Link先を確認
Bumsoo Kim, Abdul Muqeet, Kyuchul Lee, Sanghyun Seo, (参考訳) 顔の再描画はコンピュータビジョンとグラフィックスにおいて顕著な分野であり、映画、広告、ライブストリーミングといったフォトリアリスティックな領域で重要な応用がある。 近年,漫画やイラスト,アニメーションといったノンフォトリアリスティックなイメージに顔のリエイジを適用する必要性が,様々なエンターテイメント分野の延長として現れている。 しかし、NPR画像の見かけの年齢をシームレスに編集できるネットワークがないため、これらのタスクは単純でシーケンシャルなアプローチに制限されている。 これはしばしば、ドメインの相違による不快なアーティファクトと顔の特徴の喪失をもたらす。 本稿では,1つの生成ステップで実行される顔のリエイジングとポートレートスタイルのトランスファーを組み合わせた,新しい1段階の顔のリエイジング手法を提案する。 同じPRドメイン内でトレーニングされた既存の顔のリエイジとスタイル転送ネットワークを活用します。 本手法は, 老化関連属性とNPRの出現を管理するために, それぞれ異なる潜伏ベクトルを融合させる。 模範的なアプローチを採用することで、通常、各ドメインに対して個別のトレーニングや微調整を必要とするドメインレベルの微調整アプローチに比べて、柔軟性が向上する。 これは、再使用のためのペアデータセットと、スタイリングのためのドメインレベルのデータ駆動アプローチの制限に効果的に対処する。 実験により,本モデルでは,自然の外観と可制御性の両方を維持しつつ,サンプルのスタイルを同時に転送しながら,再老化画像を生成することが可能であることが確認された。

Face re-aging is a prominent field in computer vision and graphics, with significant applications in photorealistic domains such as movies, advertising, and live streaming. Recently, the need to apply face re-aging to non-photorealistic images, like comics, illustrations, and animations, has emerged as an extension in various entertainment sectors. However, the lack of a network that can seamlessly edit the apparent age in NPR images has limited these tasks to a naive, sequential approach. This often results in unpleasant artifacts and a loss of facial attributes due to domain discrepancies. In this paper, we introduce a novel one-stage method for face re-aging combined with portrait style transfer, executed in a single generative step. We leverage existing face re-aging and style transfer networks, both trained within the same PR domain. Our method uniquely fuses distinct latent vectors, each responsible for managing aging-related attributes and NPR appearance. By adopting an exemplar-based approach, our method offers greater flexibility compared to domain-level fine-tuning approaches, which typically require separate training or fine-tuning for each domain. This effectively addresses the limitation of requiring paired datasets for re-aging and domain-level, data-driven approaches for stylization. Our experiments show that our model can effortlessly generate re-aged images while simultaneously transferring the style of examples, maintaining both natural appearance and controllability.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-22
# グループ固有の分散概念ドリフトの展開:フェデレーション学習におけるフェアネス・インペラティブ

Unveiling Group-Specific Distributed Concept Drift: A Fairness Imperative in Federated Learning ( http://arxiv.org/abs/2402.07586v2 )

ライセンス: Link先を確認
Teresa Salazar, João Gama, Helder Araújo, Pedro Henriques Abreu, (参考訳) 機械学習の進化する分野では、公正性の確保が重要な問題となり、意思決定プロセスにおける差別的結果を軽減するために設計されたアルゴリズムの開発が進められている。 しかし,グループ固有の概念ドリフトの存在下での公正性の実現は未発見のフロンティアであり,本研究は先駆的な試みである。 グループ固有の概念ドリフト(グループ固有の概念ドリフト)とは、あるグループが時間とともにコンセプトを経験し、別のグループがそうでない状況を指す。 クライアントが協力的にモデルをトレーニングするフェデレートラーニングのフレームワークの中で、その分散特性は、各クライアントが同じ概念を共有しながらグループ固有のコンセプトドリフトを独立して経験し、公正性を維持するための複雑でダイナミックな環境を作ることができるため、これらの課題をさらに増幅します。 我々の研究の重要な貢献の1つは、グループ固有のコンセプトドリフトと、その分散したコンセプトドリフトの問題の形式化と導入であり、フェアネスの領域におけるその重要な重要性に光を当てている。 さらに,先行研究から得られた知見を生かして,複数モデルアプローチ,局所的なグループ固有のドリフト検出機構,時間経過に伴うモデルの連続的クラスタリングを利用した,グループ固有の分散コンセプトドリフトに取り組むために,既存の分散コンセプトドリフト適応アルゴリズムを適用した。 本実験から得られた知見は,グループ固有のコンセプトドリフトと,機械学習における公平性向上のための分散処理の重要性を浮き彫りにしたものである。

In the evolving field of machine learning, ensuring fairness has become a critical concern, prompting the development of algorithms designed to mitigate discriminatory outcomes in decision-making processes. However, achieving fairness in the presence of group-specific concept drift remains an unexplored frontier, and our research represents pioneering efforts in this regard. Group-specific concept drift refers to situations where one group experiences concept drift over time while another does not, leading to a decrease in fairness even if accuracy remains fairly stable. Within the framework of federated learning, where clients collaboratively train models, its distributed nature further amplifies these challenges since each client can experience group-specific concept drift independently while still sharing the same underlying concept, creating a complex and dynamic environment for maintaining fairness. One of the significant contributions of our research is the formalization and introduction of the problem of group-specific concept drift and its distributed counterpart, shedding light on its critical importance in the realm of fairness. In addition, leveraging insights from prior research, we adapt an existing distributed concept drift adaptation algorithm to tackle group-specific distributed concept drift which utilizes a multi-model approach, a local group-specific drift detection mechanism, and continuous clustering of models over time. The findings from our experiments highlight the importance of addressing group-specific concept drift and its distributed counterpart to advance fairness in machine learning.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-22
# 推論的資源セマンティクス

Inferentialist Resource Semantics ( http://arxiv.org/abs/2402.09217v2 )

ライセンス: Link先を確認
Alexander V. Gheorghiu, Tao Gu, David J. Pym, (参考訳) システムモデリングでは、システムは典型的にどのプロセスが実行されるかを示すリソースから構成される。 情報学における論理学の重要な用途の1つは、それらの振る舞いと性質を推論(おそらく自動化)するためにそのようなシステムをモデル化することである。 この目的のために、システムの資源と状態の観点から論理式を解釈する必要がある;そのような解釈は論理の資源意味論と呼ばれる。 本稿では、推論的行動の観点から意味が与えられるという推論主義が、資源意味論の汎用的で表現力豊かな枠組みをいかに実現しているかを示す。 特に、推論主義は、バンドル・インプリケーションの論理のアサーションに基づくアプローチ、プログラム検証の基礎(例えば、分離論理の基礎)、線形論理の有名な使用数を読むことをシームレスに取り入れている。 この統合により、共有および分離されたリソースを直感的で親しみやすい方法で推論できるだけでなく、システムコンポーネントの構成とインターフェースについても推論できる。

In systems modelling, a system typically comprises located resources relative to which processes execute. One important use of logic in informatics is in modelling such systems for the purpose of reasoning (perhaps automated) about their behaviour and properties. To this end, one requires an interpretation of logical formulae in terms of the resources and states of the system; such an interpretation is called a resource semantics of the logic. This paper shows how inferentialism -- the view that meaning is given in terms of inferential behaviour -- enables a versatile and expressive framework for resource semantics. Specifically, how inferentialism seamlessly incorporates the assertion-based approach of the logic of Bunched Implications, foundational in program verification (e.g., as the basis of Separation Logic), and the renowned number-of-uses reading of Linear Logic. This integration enables reasoning about shared and separated resources in intuitive and familiar ways, as well as about the composition and interfacing of system components.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-22
# 名詞句における頭部の最適配置 : 形容詞・数字・形容詞・名詞の場合

The optimal placement of the head in the noun phrase. The case of demonstrative, numeral, adjective and noun ( http://arxiv.org/abs/2402.10311v5 )

ライセンス: Link先を確認
Ramon Ferrer-i-Cancho, (参考訳) 文の語順は複数の原則で表される。 統語的依存距離最小化の原理は、単一頭部統語的依存構造における部分最小化(または予測可能性最大化)の原理と矛盾する:前者は、頭部を線形配置の中心に置くべきであると予測する一方で、後者は、頭部を一方の端(第一または最後)に配置するべきであると予測する。 致命的な最小化(または予測可能性の最大化)が統語的依存距離を最小化するかどうかが重要な問題である。 単一頭部構造の文脈では、2つの条件、すなわち2つの条件が満たされた場合、これはより起こりやすいと予測されている。 a) 関係する単語が減り b) 単語が短い。 ここでは、指示詞、数字、形容詞、名詞からなる名詞句の予測をテストする。 言語において好まれる順序によって、名詞は終わりの1つに置かれる傾向にあり、理論的な予測が裏付けられる。 選択順序の構文依存性距離は、偶然に予想されるよりも長い。

The word order of a sentence is shaped by multiple principles. The principle of syntactic dependency distance minimization is in conflict with the principle of surprisal minimization (or predictability maximization) in single head syntactic dependency structures: while the former predicts that the head should be placed at the center of the linear arrangement, the latter predicts that the head should be placed at one of the ends (either first or last). A critical question is when surprisal minimization (or predictability maximization) should surpass syntactic dependency distance minimization. In the context of single head structures, it has been predicted that this is more likely to happen when two conditions are met, i.e. (a) fewer words are involved and (b) words are shorter. Here we test the prediction on the noun phrase when it is composed of a demonstrative, a numeral, an adjective and a noun. We find that, across preferred orders in languages, the noun tends to be placed at one of the ends, confirming the theoretical prediction. We also show evidence of anti locality effects: syntactic dependency distances in preferred orders are longer than expected by chance.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-22
# 自発フロケット状態における同時対称性の破れ:フロケット-ナンブ-ゴールドストーンモード、フロケット熱力学および時間演算子

Simultaneous symmetry breaking in spontaneous Floquet states: Floquet-Nambu-Goldstone modes, Floquet thermodynamics, and the time operator ( http://arxiv.org/abs/2402.10784v2 )

ライセンス: Link先を確認
Juan Ramón Muñoz de Nova, Fernando Sols, (参考訳) 本研究では, 原子凝縮体の特異な場合に着目し, 自発フロッケ状態における同時対称性破砕について検討した。 まず, 定常状態におけるNambu-Goldstone (NG) モードの量子化について述べる。 量子化の手順はベリー・ギブス接続(Berry-Gibbs connection)を含み、これは破れた各対称性に付随するマクロ的な保存電荷に依存し、一般化されたゲージ変換では不変ではない。 フォーマリズムをフロケ状態にまで拡張し、同時にいくつかの対称性を破り、ゴールドストーンの定理が準エネルギーゼロのフロケ・ナンブ・ゴールドストーン(FNG)モードの出現へと変換されることを示した。 自発フロッケ状態の場合、連続時間変換対称性の破れから生じる真の時間的FNGモードがあり、量子振幅は量子力学において時間演算子の稀な実現を提供する。 さらに、それらはエネルギーを保存しているため、自発フロケット状態は保存フロケット電荷を持つことを示すことができる。 それにもかかわらず、これらはフロケのエンタルピー(Floquet enthalpy)、つまり、フロケの電荷に対するエネルギーのレジェンド変換(Regendre transform)という観点からの熱力学的な記述も含んでいる。 当社の定式化は, 時間超固体を表すU(1)$および時間変換対称性を破る, 自発フロケット状態, CES状態の特定の実現に応用する。 本稿では,Truncated Wigner法を用いて量子ゆらぎを数値的に計算し,その量子揺らぎは時間的FNGモードによって長期にわたって支配されると理論的に予測し,シミュレーションと理論の顕著な一致を観察する。 これらの結果に基づいて,CES状態の時間的FNGモードを観測するための有意義な実験手法を提案する。

We study simultaneous symmetry-breaking in a spontaneous Floquet state, focusing on the specific case of an atomic condensate. We first describe the quantization of the Nambu-Goldstone (NG) modes for a stationary state simultaneously breaking several symmetries of the Hamiltonian by invoking the generalized Gibbs ensemble, which enables a thermodynamical description of the problem. The quantization procedure involves a Berry-Gibbs connection, which depends on the macroscopic conserved charges associated to each broken symmetry and is not invariant under generalized gauge transformations. We extend the formalism to Floquet states simultaneously breaking several symmetries, finding that Goldstone theorem translates into the emergence of Floquet-Nambu-Goldstone (FNG) modes with zero quasi-energy. In the case of a spontaneous Floquet state, there is a genuine temporal FNG mode arising from the continuous time-translation symmetry breaking, whose quantum amplitude provides a rare realization of a time operator in Quantum Mechanics. Furthermore, since they conserve energy, spontaneous Floquet states can be shown to possess a conserved Floquet charge. Nevertheless, these also admit a thermodynamic description in terms of the Floquet enthalpy, the Legendre transform of the energy with respect to the Floquet charge. We apply our formalism to a particular realization of spontaneous Floquet state, the CES state, which breaks $U(1)$ and time-translation symmetries, representing a time supersolid. Using the Truncated Wigner method, we numerically compute its quantum fluctuations, which are theoretically predicted to be dominated by the temporal FNG mode at long times, observing a remarkable agreement between simulation and theory. Based on these results, we propose a feasible experimental scheme to observe the temporal FNG mode of the CES state.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-22
# 時空間インプットのための時間的遠方性コントラスト拡散モデル

A Temporally Disentangled Contrastive Diffusion Model for Spatiotemporal Imputation ( http://arxiv.org/abs/2402.11558v2 )

ライセンス: Link先を確認
Yakun Chen, Kaize Shi, Zhangkai Wu, Juan Chen, Xianzhi Wang, Julian McAuley, Guandong Xu, Shui Yu, (参考訳) 時空間データ分析は、輸送、気象学、医療など、さまざまな領域で重要である。 実世界のシナリオで収集されたデータは、デバイス障害やネットワークエラーのために不完全であることが多い。 時空間計算は、観測データの空間的および時間的依存関係を利用して、欠落した値を予測することを目的としている。 統計学と機械学習の技術に基づく従来の計算手法では、データはその分布的な仮定に従わなければならないが、グラフとリカレントニューラルネットワークは、再カレントな構造のためにエラー蓄積の問題を引き起こす傾向がある。 生成モデル(特に拡散モデル)は、将来の予測に対する不正確な、以前は不正確な値への依存を回避できるが、しかしながら、拡散モデルは安定した結果を生成するための課題に直面している。 本稿では,これらの課題に対処するために,生成過程をガイドし,学習プロセスの迅速化を図る条件情報の設計を提案する。 C$^2$TSDという条件拡散フレームワークを導入し, 時間的(時間的・季節的)な表現を条件情報として組み込み, コントラスト学習を用いて一般化性を向上させる。 3つの実世界のデータセットに関する大規模な実験は、最先端のベースラインと比較して、我々のアプローチの優れたパフォーマンスを示している。

Spatiotemporal data analysis is pivotal across various domains, such as transportation, meteorology, and healthcare. The data collected in real-world scenarios are often incomplete due to device malfunctions and network errors. Spatiotemporal imputation aims to predict missing values by exploiting the spatial and temporal dependencies in the observed data. Traditional imputation approaches based on statistical and machine learning techniques require the data to conform to their distributional assumptions, while graph and recurrent neural networks are prone to error accumulation problems due to their recurrent structures. Generative models, especially diffusion models, can potentially circumvent the reliance on inaccurate, previously imputed values for future predictions; However, diffusion models still face challenges in generating stable results. We propose to address these challenges by designing conditional information to guide the generative process and expedite the training process. We introduce a conditional diffusion framework called C$^2$TSD, which incorporates disentangled temporal (trend and seasonality) representations as conditional information and employs contrastive learning to improve generalizability. Our extensive experiments on three real-world datasets demonstrate the superior performance of our approach compared to a number of state-of-the-art baselines.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-22
# KoCoSa:韓国のコンテキスト対応サーカム検出データセット

KoCoSa: Korean Context-aware Sarcasm Detection Dataset ( http://arxiv.org/abs/2402.14428v2 )

ライセンス: Link先を確認
Yumin Kim, Heejae Suh, Mingi Kim, Dongyeon Won, Hwanhee Lee, (参考訳) サルカズム(英: Sarcasm)は、言葉による皮肉の一種で、ある人、状況、あるいは考えを笑うために、誰かがその意味とは逆の言葉を言う。 サルカズムを検出するには文脈(すなわち対話履歴)を反映する必要があるため、対話中のサルカズムを検出することはしばしば困難である。 本稿では,韓国語対話サルカズム検出タスクであるKoCoSa(韓国語コンテキスト対応サルカズム検出データセット)について,12.8Kの日次対話と,このタスクのラベルからなる新しいデータセットを提案する。 データセットを構築するために,効率的なサルカズム検出データセット生成パイプラインを提案する。 1)大言語モデルを用いたソース対話から新たなサーカシック対話を生成する。 2 異常及び有害な対話の自動及び手動フィルタリング、及び 3) サルカズム検出タスクに対する人的アノテーション。 また、我々のデータセットで訓練された韓国のサルカズム検出タスクに対して、単純だが効果的なベースラインを提供する。 韓国のサルカズム検出タスクにおいて,GPT-3.5のような大規模言語モデルのように,我々のベースラインシステムは強いベースラインよりも優れていることを示す実験結果を得た。 サルカズム検出タスクは十分なコンテキストの存在に大きく依存していることを示す。 データセットはhttps://github.com/Yu-billie/KoCoSa_sarcasm_detectionで公開します。

Sarcasm is a way of verbal irony where someone says the opposite of what they mean, often to ridicule a person, situation, or idea. It is often difficult to detect sarcasm in the dialogue since detecting sarcasm should reflect the context (i.e., dialogue history). In this paper, we introduce a new dataset for the Korean dialogue sarcasm detection task, KoCoSa (Korean Context-aware Sarcasm Detection Dataset), which consists of 12.8K daily Korean dialogues and the labels for this task on the last response. To build the dataset, we propose an efficient sarcasm detection dataset generation pipeline: 1) generating new sarcastic dialogues from source dialogues with large language models, 2) automatic and manual filtering of abnormal and toxic dialogues, and 3) human annotation for the sarcasm detection task. We also provide a simple but effective baseline for the Korean sarcasm detection task trained on our dataset. Experimental results on the dataset show that our baseline system outperforms strong baselines like large language models, such as GPT-3.5, in the Korean sarcasm detection task. We show that the sarcasm detection task relies deeply on the existence of sufficient context. We will release the dataset at https://github.com/Yu-billie/KoCoSa_sarcasm_detection.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-22
# 語彙単純化のためのLLM強化逆編集システム

An LLM-Enhanced Adversarial Editing System for Lexical Simplification ( http://arxiv.org/abs/2402.14704v3 )

ライセンス: Link先を確認
Keren Tan, Kangyang Luo, Yunshi Lan, Zheng Yuan, Jinlong Shu, (参考訳) Lexical Simplification (LS) は、語彙レベルでのテキストの簡略化を目的としている。 既存のメソッドはアノテーション付きデータに大きく依存しているため、低リソースのシナリオに適用することは困難である。 本稿では,並列コーパスを含まない新しいLS法を提案する。 本手法では,原文の語彙的編集を予測するために,混乱損失と不変損失から導出する逆編集システムを用いる。 一方,我々は,LLM(Large Language Models)からの知識の蒸留を小型LSシステムに導入するために,革新的なLLM強化損失を導入した。 そこから、文中の複雑な単語はマスクされ、難易度を認識したフィリングモジュールは、マスクされた位置を単純な単語で置き換えるように作られている。 最後に,3つのベンチマークLSデータセットの広範な実験結果と解析を行い,提案手法の有効性を実証した。

Lexical Simplification (LS) aims to simplify text at the lexical level. Existing methods rely heavily on annotated data, making it challenging to apply in low-resource scenarios. In this paper, we propose a novel LS method without parallel corpora. This method employs an Adversarial Editing System with guidance from a confusion loss and an invariance loss to predict lexical edits in the original sentences. Meanwhile, we introduce an innovative LLM-enhanced loss to enable the distillation of knowledge from Large Language Models (LLMs) into a small-size LS system. From that, complex words within sentences are masked and a Difficulty-aware Filling module is crafted to replace masked positions with simpler words. At last, extensive experimental results and analyses on three benchmark LS datasets demonstrate the effectiveness of our proposed method.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-22
# 統計的非依存回帰:回帰モデルを検証する機械学習手法

Statistical Agnostic Regression: a machine learning method to validate regression models ( http://arxiv.org/abs/2402.15213v2 )

ライセンス: Link先を確認
Juan M Gorriz, J. Ramirez, F. Segovia, F. J. Martinez-Murcia, C. Jiménez-Mesa, J. Suckling, (参考訳) 回帰分析は統計モデルにおいて中心的なトピックであり、従属変数(一般に応答変数と呼ばれる)と1つ以上の独立変数、すなわち説明変数の間の関係を推定することを目的としている。 線形回帰は、予測、予測、因果推論など、いくつかの分野の研究において、このタスクを実行する最も一般的な方法である。 通常のリースト・スクエア、リッジ、ラッソ・レグレッションといった、より高度な機械学習(ML)技術の基礎となる、線形回帰問題を解決する様々な古典的な方法の他に、後者は統計的重要性の正式な定義なしにこのシナリオでうまく適用されている。 多くの場合、ML推定による検出能力の向上を反映するために、経験的尺度(例:残差、精度)に基づく置換や古典的分析が実施されている。 本稿では,統計的回帰(Agnostic Regression, SAR)と呼ばれる手法を紹介し, 最悪のケースの分析を用いて, 実際のリスクの濃度不等式に基づいて, MLに基づく線形回帰の統計的意義を評価する。 この目的を達成するために、分類問題と同様に、少なくとも1-etaの確率で十分な証拠が存在することを証明するためのしきい値を定義し、説明的(機能)変数と反応(ラベル)変数の間には、集団に線形な関係があることを結論付ける。 2次元のみのシミュレーションでは、勾配パラメータに対する古典的な$F$テストによって与えられる分散の同様の分析を提供するために提案された非依存テストの能力を実証している。

Regression analysis is a central topic in statistical modeling, aiming to estimate the relationships between a dependent variable, commonly referred to as the response variable, and one or more independent variables, i.e., explanatory variables. Linear regression is by far the most popular method for performing this task in several fields of research, such as prediction, forecasting, or causal inference. Beyond various classical methods to solve linear regression problems, such as Ordinary Least Squares, Ridge, or Lasso regressions - which are often the foundation for more advanced machine learning (ML) techniques - the latter have been successfully applied in this scenario without a formal definition of statistical significance. At most, permutation or classical analyses based on empirical measures (e.g., residuals or accuracy) have been conducted to reflect the greater ability of ML estimations for detection. In this paper, we introduce a method, named Statistical Agnostic Regression (SAR), for evaluating the statistical significance of an ML-based linear regression based on concentration inequalities of the actual risk using the analysis of the worst case. To achieve this goal, similar to the classification problem, we define a threshold to establish that there is sufficient evidence with a probability of at least 1-eta to conclude that there is a linear relationship in the population between the explanatory (feature) and the response (label) variables. Simulations in only two dimensions demonstrate the ability of the proposed agnostic test to provide a similar analysis of variance given by the classical $F$ test for the slope parameter.
翻訳日:2024-03-25 22:01:03 公開日:2024-03-22
# ChunkAttention: プリフィックス対応KVキャッシュと2相分割による効率的なセルフアテンション

ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition ( http://arxiv.org/abs/2402.15220v2 )

ライセンス: Link先を確認
Lu Ye, Ze Tao, Yong Huang, Yang Li, (参考訳) 自己注意は、大規模言語モデル(LLM)の重要な構成要素であるが、長いシーケンスに対する推論遅延の重要な原因である。 マルチテナント LLM サービスシナリオでは、複数の LLM 要求がプレフィックス内で共有システムプロンプトを持つ確率を用いて、自己アテンションの計算とメモリ操作のコストを最適化することができる。 本稿では,複数の要求にまたがる一致したプロンプトプレフィックスを検出し,そのキー/値テンソルを実行時にメモリ上で共有し,KVキャッシュのメモリ使用率を向上させるための,プレフィックス対応セルフアテンションモジュールであるChunkAttentionを紹介する。 これは、モノリシックなキー/値テンソルを小さなチャンクに分割し、それらを補助的なプレフィックスツリーに構造化することで実現される。 その結果,プレフィックスツリーをベースとしたKVキャッシュ上に,2相分割アルゴリズムを実装した効率的な自己アテンションカーネルを設計し,共有システムプロンプトが存在する場合の自己アテンション計算におけるデータの局所性を改善する。 実験の結果、ChunkAttentionは1024年から4096年までのシステムプロンプトで、最先端の実装と比較して3.2-4.8$\times$を高速化できることがわかった。

Self-attention is an essential component of large language models(LLMs) but a significant source of inference latency for long sequences. In multi-tenant LLMs serving scenarios, the compute and memory operation cost of self-attention can be optimized by using the probability that multiple LLM requests have shared system prompts in prefixes. In this paper, we introduce ChunkAttention, a prefix-aware self-attention module that can detect matching prompt prefixes across multiple requests and share their key/value tensors in memory at runtime to improve the memory utilization of KV cache. This is achieved by breaking monolithic key/value tensors into smaller chunks and structuring them into the auxiliary prefix tree. Consequently, on top of the prefix-tree based KV cache, we design an efficient self-attention kernel, where a two-phase partition algorithm is implemented to improve the data locality during self-attention computation in the presence of shared system prompts. Experiments show that ChunkAttention can speed up the self-attention kernel by 3.2-4.8$\times$ compared to the start-of-the-art implementation, with the length of the system prompt ranging from 1024 to 4096.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-22
# 検出が追跡される:Point Cloud Multi-Sweepディープラーニングモデルの再検討

Detection Is Tracking: Point Cloud Multi-Sweep Deep Learning Models Revisited ( http://arxiv.org/abs/2402.15756v2 )

ライセンス: Link先を確認
Lingji Chen, (参考訳) 従来のトラッキングパラダイムは、範囲やベアリングなどの瞬時に測定を行い、時間をかけてオブジェクトトラックを生成する。 自律運転のような応用において、点雲の形でのライダー計測は通常、深層学習モデルによって実現された「仮想センサー」を通過して境界箱のような「計測」を発生させ、追跡モジュールによって吸収され、対象のトラックを生成する。 しばしば複数のライダースイープがバッファに蓄積されてマージされ、仮想センサへの入力となる。 本稿では,このような入力には既に時間情報が含まれていることを論じる。そのため,仮想センサ出力にはバッファの終端に対応する時点の瞬時値だけでなく,時間情報も含まなければならない。 特に,MULti-Sweep PAired Detector (MULSPAD) と呼ばれる深層学習モデルを提案する。 これは、一般的に使用されるライダー検出モデルにおいてかなり簡単な変更と、限界余剰処理のみによって達成されるが、結果として生じる対称性は満足している。 このようなペア検出により、初歩的なトラッカーを比較的容易に構築できるだけでなく、ペアが伝達する余分な情報を利用して、モーションモデルやオブジェクトの生死モデルの選択に堅牢な、より洗練されたトラッカーを構築することができる。 提案手法の有効性を示すWaymo Open Datasetを用いて,予備訓練および実験を行った。

Conventional tracking paradigm takes in instantaneous measurements such as range and bearing, and produces object tracks across time. In applications such as autonomous driving, lidar measurements in the form of point clouds are usually passed through a "virtual sensor" realized by a deep learning model, to produce "measurements" such as bounding boxes, which are in turn ingested by a tracking module to produce object tracks. Very often multiple lidar sweeps are accumulated in a buffer to merge and become the input to the virtual sensor. We argue in this paper that such an input already contains temporal information, and therefore the virtual sensor output should also contain temporal information, not just instantaneous values for the time corresponding to the end of the buffer. In particular, we present the deep learning model called MULti-Sweep PAired Detector (MULSPAD) that produces, for each detected object, a pair of bounding boxes at both the end time and the beginning time of the input buffer. This is achieved with fairly straightforward changes in commonly used lidar detection models, and with only marginal extra processing, but the resulting symmetry is satisfying. Such paired detections make it possible not only to construct rudimentary trackers fairly easily, but also to construct more sophisticated trackers that can exploit the extra information conveyed by the pair and be robust to choices of motion models and object birth/death models. We have conducted preliminary training and experimentation using Waymo Open Dataset, which shows the efficacy of our proposed method.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-22
# BigGait: 大規模ビジョンモデルで望むゲット表現を学習する

BigGait: Learning Gait Representation You Want by Large Vision Models ( http://arxiv.org/abs/2402.19122v2 )

ライセンス: Link先を確認
Dingqiang Ye, Chao Fan, Jingzhe Ma, Xiaoming Liu, Shiqi Yu, (参考訳) 歩行認識は、最も重要なリモート識別技術の1つであり、研究や産業コミュニティに徐々に拡大している。 しかし、既存の歩行認識手法は、教師付き学習によって引き起こされるタスク固有の上流に大きく依存し、シルエットシーケンスのような明確な歩行表現を提供し、必然的に高価なアノテーションコストと潜在的なエラー蓄積をもたらす。 この傾向から逃れて、タスク非依存のLVM(Large Vision Models)が生み出す全目的知識に基づく効果的な歩行表現を探索し、BigGaitと呼ばれるシンプルだが効率的な歩行フレームワークを提案する。 具体的には、BigGait内のGait Representation Extractor(GRE)は、確立されたGait表現から設計原則を引き合いに出し、サードパーティの監視信号を必要としない、すべての目的の知識を暗黙のGait表現に変換する。 CCPG, CAISA-B* および SUSTech1K の実験では,BigGait はドメイン内タスクとドメイン間タスクの両方において従来の手法よりも大幅に優れており,次世代の歩行表現を学習するためのより実用的なパラダイムを提供する。 最後に、私たちはLVMベースの歩行認識における今後の課題と将来的な方向性を探求し、この新興トピックにおける今後の研究を刺激することを目指しています。 ソースコードはhttps://github.com/ShiqiYu/OpenGait.comで入手できる。

Gait recognition stands as one of the most pivotal remote identification technologies and progressively expands across research and industry communities. However, existing gait recognition methods heavily rely on task-specific upstream driven by supervised learning to provide explicit gait representations like silhouette sequences, which inevitably introduce expensive annotation costs and potential error accumulation. Escaping from this trend, this work explores effective gait representations based on the all-purpose knowledge produced by task-agnostic Large Vision Models (LVMs) and proposes a simple yet efficient gait framework, termed BigGait. Specifically, the Gait Representation Extractor (GRE) within BigGait draws upon design principles from established gait representations, effectively transforming all-purpose knowledge into implicit gait representations without requiring third-party supervision signals. Experiments on CCPG, CAISA-B* and SUSTech1K indicate that BigGait significantly outperforms the previous methods in both within-domain and cross-domain tasks in most cases, and provides a more practical paradigm for learning the next-generation gait representation. Finally, we delve into prospective challenges and promising directions in LVMs-based gait recognition, aiming to inspire future work in this emerging topic. The source code is available at https://github.com/ShiqiYu/OpenGait.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-22
# 言語横断学習と低リソースファインチューニング--トルコ語 Fact-Checking を事例として

Cross-Lingual Learning vs. Low-Resource Fine-Tuning: A Case Study with Fact-Checking in Turkish ( http://arxiv.org/abs/2403.00411v2 )

ライセンス: Link先を確認
Recep Firat Cekinel, Pinar Karagoz, Cagri Coltekin, (参考訳) ソーシャルメディアプラットフォームを通じた誤報の急速な拡散は、世論への影響を懸念している。 誤報は他の言語で広く見られるが、この分野の研究の大部分は英語に集中している。 そのため、トルコ語を含む他の言語のためのデータセットが不足している。 この問題に対処するため,実世界の主張3238件からなるFCTRデータセットを導入した。 このデータセットは複数のドメインにまたがり、3つのトルコのファクトチェック組織から収集された証拠が組み込まれている。 さらに,トルコ語を中心に,低リソース言語における言語間移動学習の有効性を評価することを目的とする。 この文脈において,大規模言語モデルの文脈内学習(ゼロショット,少数ショット)の性能を実証する。 実験の結果、このデータセットはトルコ語の研究を進展させる可能性が示唆された。

The rapid spread of misinformation through social media platforms has raised concerns regarding its impact on public opinion. While misinformation is prevalent in other languages, the majority of research in this field has concentrated on the English language. Hence, there is a scarcity of datasets for other languages, including Turkish. To address this concern, we have introduced the FCTR dataset, consisting of 3238 real-world claims. This dataset spans multiple domains and incorporates evidence collected from three Turkish fact-checking organizations. Additionally, we aim to assess the effectiveness of cross-lingual transfer learning for low-resource languages, with a particular focus on Turkish. We demonstrate in-context learning (zero-shot and few-shot) performance of large language models in this context. The experimental results indicate that the dataset has the potential to advance research in the Turkish language.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-22
# Align-to-distill: ニューラルネットワーク翻訳における知識蒸留のためのトレーニング可能なアテンションアライメント

Align-to-Distill: Trainable Attention Alignment for Knowledge Distillation in Neural Machine Translation ( http://arxiv.org/abs/2403.01479v2 )

ライセンス: Link先を確認
Heegon Jin, Seonil Son, Jemin Park, Youngseok Kim, Hyungjong Noh, Yeonsoo Lee, (参考訳) スケーラブルなディープモデルと大規模なデータセットの出現により、Neural Machine Translationのパフォーマンスが向上した。 知識蒸留(KD)は、教師モデルからよりコンパクトな学生モデルに知識を移すことによって効率を高める。 しかしながら、トランスフォーマーアーキテクチャへのKDアプローチは、特にどの教師層を蒸留するかを決めるとき、ヒューリスティックに依存していることが多い。 本稿では,学生の注意を教師と適応的にアライメントすることで特徴マッピング問題に対処する「A2D(Align-to-Distill)」戦略を提案する。 A2Dのアテンションアライメントモジュールは、階層をまたいで生徒と教師の注意を集中的に比較し、組合せマッピングヒューリスティックスを学習問題に変換する。 実験の結果, トランスフォーマーベースラインと比較して, WMT-2022 De->Dsb と WMT-2014 En->De に対して, 最大 3.61 と +0.63 BLEU の値が得られた。

The advent of scalable deep models and large datasets has improved the performance of Neural Machine Translation. Knowledge Distillation (KD) enhances efficiency by transferring knowledge from a teacher model to a more compact student model. However, KD approaches to Transformer architecture often rely on heuristics, particularly when deciding which teacher layers to distill from. In this paper, we introduce the 'Align-to-Distill' (A2D) strategy, designed to address the feature mapping problem by adaptively aligning student attention heads with their teacher counterparts during training. The Attention Alignment Module in A2D performs a dense head-by-head comparison between student and teacher attention heads across layers, turning the combinatorial mapping heuristics into a learning problem. Our experiments show the efficacy of A2D, demonstrating gains of up to +3.61 and +0.63 BLEU points for WMT-2022 De->Dsb and WMT-2014 En->De, respectively, compared to Transformer baselines.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-22
# 異種グラフコントラスト変換学習を用いたゼロショット多言語文書・レベル事象因果同定

Zero-Shot Cross-Lingual Document-Level Event Causality Identification with Heterogeneous Graph Contrastive Transfer Learning ( http://arxiv.org/abs/2403.02893v2 )

ライセンス: Link先を確認
Zhitao He, Pengfei Cao, Zhuoran Jin, Yubo Chen, Kang Liu, Zhiqiang Zhang, Mengshu Sun, Jun Zhao, (参考訳) 事象因果同定(英: Event Causality Identification、ECI)とは、テキスト中の事象間の因果関係を検出すること。 しかし、既存の研究の多くは高リソース言語による文レベルECIに焦点を当てており、低リソース言語による文書レベルECI(DECI)は未探索のままである。 本稿では,ゼロショット言語間文書レベルECIのための異種グラフ相互作用モデルと多粒性コントラスト変換学習(GIMC)を提案する。 具体的には、文書上に散在するイベント間の長距離依存性をモデル化する異種グラフ相互作用ネットワークを提案する。 そこで本研究では,ソース言語から学習した因果的知識の言語間伝達性を改善するために,言語間の因果的表現を整合させる多粒度コントラスト的伝達学習モジュールを提案する。 大規模実験により,本フレームワークは,単言語および多言語シナリオの平均F1スコアの9.4%と8.2%で,従来の最先端モデルよりも優れていた。 特に、多言語シナリオでは、ゼロショットフレームワークはGPT-3.5を超え、全体的なパフォーマンスは24.3%向上した。

Event Causality Identification (ECI) refers to the detection of causal relations between events in texts. However, most existing studies focus on sentence-level ECI with high-resource languages, leaving more challenging document-level ECI (DECI) with low-resource languages under-explored. In this paper, we propose a Heterogeneous Graph Interaction Model with Multi-granularity Contrastive Transfer Learning (GIMC) for zero-shot cross-lingual document-level ECI. Specifically, we introduce a heterogeneous graph interaction network to model the long-distance dependencies between events that are scattered over a document. Then, to improve cross-lingual transferability of causal knowledge learned from the source language, we propose a multi-granularity contrastive transfer learning module to align the causal representations across languages. Extensive experiments show our framework outperforms the previous state-of-the-art model by 9.4% and 8.2% of average F1 score on monolingual and multilingual scenarios respectively. Notably, in the multilingual scenario, our zero-shot framework even exceeds GPT-3.5 with few-shot learning by 24.3% in overall performance.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-22
# MaCmS: Magahi Code-mixed Dataset for Sentiment Analysis

MaCmS: Magahi Code-mixed Dataset for Sentiment Analysis ( http://arxiv.org/abs/2403.04639v2 )

ライセンス: Link先を確認
Priya Rani, Gaurav Negi, Theodorus Fransen, John P. McCrae, (参考訳) 本稿では,Magahi-Hindi-English (MHE) 符号混合言語のための新しい感情データであるMacCMSを紹介する。 このデータセットは、感情分析タスクのための最初のMagahi-Hindi-Englishコードミックスデータセットである。 さらに、コードミキシングの構造を理解するためのデータセットの言語学的分析や、異なる極性を持つ話者の言語嗜好を理解するための統計的研究も提供する。 これらの分析により、データセットの品質を評価するためにベースラインモデルをトレーニングする。

The present paper introduces new sentiment data, MaCMS, for Magahi-Hindi-English (MHE) code-mixed language, where Magahi is a less-resourced minority language. This dataset is the first Magahi-Hindi-English code-mixed dataset for sentiment analysis tasks. Further, we also provide a linguistics analysis of the dataset to understand the structure of code-mixing and a statistical study to understand the language preferences of speakers with different polarities. With these analyses, we also train baseline models to evaluate the dataset's quality.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-22
# 近隣のより高速な注意:スレッドブロックレベルでの自己注意のO(n^2)コスト削減

Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level ( http://arxiv.org/abs/2403.04690v2 )

ライセンス: Link先を確認
Ali Hassani, Wen-Mei Hwu, Humphrey Shi, (参考訳) 近隣の注意は、それぞれのトークンの注意を隣人に限定することで、自己注意のコストを減少させる。 この制限は、ウィンドウサイズと拡張係数によってパラメータ化され、線形投影と自己注意の間の潜在的な注意パターンのスペクトルを引き出す。 特に高階空間(2-Dと3-D)では、機能や性能に制限があるカスタムカーネルの開発が求められている。 本研究は,まず,従来のGEMM問題と同様のバッチ化問題として近所の注意を表現できることを示し,その実装を1次元,2次元の近所の注意のために行う。 これらのカーネルの平均は895%と272%で、既存の1次元と2次元の隣り合わせのカーネルと比較して、完全なレイテンシが向上している。 我々は、その性能と低い精度のスケーラビリティを束縛する、未利用の周辺注目カーネルに固有の非効率性を見出した。 我々はまた、異なる空間軸をまたいだ注意をきめ細かく制御できる、融合したドット積アテンションカーネルの適応として、融合した近傍アテンションも開発した。 線形複雑性への自己注意の二次的時間的複雑さを低減したことで知られ、近隣の注意は減少し、一定のメモリフットプリントを享受し、記録破りの半精度のレイテンシーを享受できるようになった。 我々は、融合カーネルが、未利用実装における避けられない非効率を回避できたことを観察する。 GEMMをベースとしたカーネルは, 平均496%, 平均113%の1-D問題に対して, 平均1607%, 平均581%の2-D問題に対して, 半精度しか改善していない。

Neighborhood attention reduces the cost of self attention by restricting each token's attention span to its nearest neighbors. This restriction, parameterized by a window size and dilation factor, draws a spectrum of possible attention patterns between linear projection and self attention. Neighborhood attention, and more generally sliding window attention patterns, have long been bounded by infrastructure, particularly in higher-rank spaces (2-D and 3-D), calling for the development of custom kernels, which have been limited in either functionality, or performance, if not both. In this work, we first show that neighborhood attention can be represented as a batched GEMM problem, similar to standard attention, and implement it for 1-D and 2-D neighborhood attention. These kernels on average provide 895% and 272% improvement in full precision latency compared to existing naive kernels for 1-D and 2-D neighborhood attention respectively. We find certain inherent inefficiencies in all unfused neighborhood attention kernels that bound their performance and lower-precision scalability. We also developed fused neighborhood attention; an adaptation of fused dot-product attention kernels that allow fine-grained control over attention across different spatial axes. Known for reducing the quadratic time complexity of self attention to a linear complexity, neighborhood attention can now enjoy a reduced and constant memory footprint, and record-breaking half precision latency. We observe that our fused kernels successfully circumvent some of the unavoidable inefficiencies in unfused implementations. While our unfused GEMM-based kernels only improve half precision performance compared to naive kernels by an average of 496% and 113% in 1-D and 2-D problems respectively, our fused kernels improve naive kernels by an average of 1607% and 581% in 1-D and 2-D problems respectively.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-22
# HealMe:心理療法のための大規模言語モデルにおける認知的リフレーミングの障害

HealMe: Harnessing Cognitive Reframing in Large Language Models for Psychotherapy ( http://arxiv.org/abs/2403.05574v2 )

ライセンス: Link先を確認
Mengxi Xiao, Qianqian Xie, Ziyan Kuang, Zhicheng Liu, Kailai Yang, Min Peng, Weiguang Han, Jimin Huang, (参考訳) 大きな言語モデル(LLM)は、認知的リフレーミングの重要なタスクを十分に処理し、恥、不信、セラピストのスキルの多様性、資源不足といった課題を克服することで、心理療法において重要な役割を果たす。 認知リフレーミングにおける従来のLLMは、主に否定的な感情を肯定的な感情に変換するが、これらのアプローチは効果が限られており、多くの場合、顧客による代替的な視点の自己発見を促進するものではない。 本稿では、メンタルエンハンスメント(HealMe)モデルにおける適応言語によるヘルピングとエンパワーメントについて紹介する。 この新しい認知的リフレーミング療法は、根深い否定的思考に効果的に対処し、合理的でバランスの取れた視点を育む。 従来のLLM手法とは違い、HealMeは精神療法の枠組みに基づいた共感的な対話を採用している。 顧客を感情から区別し、別の視点でブレインストーミングし、共感的で行動可能な提案を発達させることで、システマティックに顧客を導く。 さらに、AIシミュレーション対話と実際の治療会話の両方において、認知リフレーミングのパフォーマンスを厳格に評価するために特別に設計された、包括的で専門的な心理学的評価指標を採用した。 実験の結果,我々のモデルは共感,指導,論理的コヒーレンスにおいて他者よりも優れており,その効果と心理療法に対する肯定的影響が示された。

Large Language Models (LLMs) can play a vital role in psychotherapy by adeptly handling the crucial task of cognitive reframing and overcoming challenges such as shame, distrust, therapist skill variability, and resource scarcity. Previous LLMs in cognitive reframing mainly converted negative emotions to positive ones, but these approaches have limited efficacy, often not promoting clients' self-discovery of alternative perspectives. In this paper, we unveil the Helping and Empowering through Adaptive Language in Mental Enhancement (HealMe) model. This novel cognitive reframing therapy method effectively addresses deep-rooted negative thoughts and fosters rational, balanced perspectives. Diverging from traditional LLM methods, HealMe employs empathetic dialogue based on psychotherapeutic frameworks. It systematically guides clients through distinguishing circumstances from feelings, brainstorming alternative viewpoints, and developing empathetic, actionable suggestions. Moreover, we adopt the first comprehensive and expertly crafted psychological evaluation metrics, specifically designed to rigorously assess the performance of cognitive reframing, in both AI-simulated dialogues and real-world therapeutic conversations. Experimental results show that our model outperforms others in terms of empathy, guidance, and logical coherence, demonstrating its effectiveness and potential positive impact on psychotherapy.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-22
# 高精度かつ効率的なモデリングのための大規模知識グラフを用いたタスク指向GNN学習

Task-Oriented GNNs Training on Large Knowledge Graphs for Accurate and Efficient Modeling ( http://arxiv.org/abs/2403.05752v2 )

ライセンス: Link先を確認
Hussein Abdallah, Waleed Afandi, Panos Kalnis, Essam Mansour, (参考訳) 知識グラフ(KG)は、多様なノードとエッジタイプを含む異種グラフである。 不均一グラフニューラルネットワーク(HGNN)は、ノード分類やKG上のリンク予測といった機械学習タスクのトレーニングに人気がある。 しかし、HGNN法は、KGのサイズ、密度、ノードとエッジの型数に影響される過度な複雑さを示す。 AI実践者は、特定のタスクに関連するKGGのサブグラフを手作りする。 タスク関連ノードとエッジ型のサブセットを含むタスク指向サブグラフ(TOSG)をGの代わりにTOSGを用いてタスクを訓練することで、大規模なKGに必要な過剰な計算が軽減される。 TOSGを構築するには、KGの構造とタスクの目的を深く理解する必要がある。 したがって、それは挑戦的で時間を要する。 本稿では,タスク指向HGNN訓練におけるTOSG抽出の自動化手法であるKG-TOSAを提案する。 KG-TOSAでは、特定のタスクに関連するKGの局所的および大域的構造をキャプチャする汎用グラフパターンを定義する。 グラフパターンにマッチする部分グラフを抽出する様々な手法を探索する。 一 ランダムウォーク又は影響スコアを用いた標的ノードのサンプリング方法及び方法 (II)RDFエンジンの内蔵指標を利用したSPARQLに基づく抽出手法。 したがって、サンプリング技術と比較して、無視できる事前処理のオーバーヘッドを達成できる。 我々は,大規模な実KGのベンチマークと,ノード分類とリンク予測のための様々なタスクを開発する。 実験の結果、KG-TOSAはトレーニング時間とメモリ使用量を最大70%削減し、モデル性能、例えば精度、推測時間を改善する。

A Knowledge Graph (KG) is a heterogeneous graph encompassing a diverse range of node and edge types. Heterogeneous Graph Neural Networks (HGNNs) are popular for training machine learning tasks like node classification and link prediction on KGs. However, HGNN methods exhibit excessive complexity influenced by the KG's size, density, and the number of node and edge types. AI practitioners handcraft a subgraph of a KG G relevant to a specific task. We refer to this subgraph as a task-oriented subgraph (TOSG), which contains a subset of task-related node and edge types in G. Training the task using TOSG instead of G alleviates the excessive computation required for a large KG. Crafting the TOSG demands a deep understanding of the KG's structure and the task's objectives. Hence, it is challenging and time-consuming. This paper proposes KG-TOSA, an approach to automate the TOSG extraction for task-oriented HGNN training on a large KG. In KG-TOSA, we define a generic graph pattern that captures the KG's local and global structure relevant to a specific task. We explore different techniques to extract subgraphs matching our graph pattern: namely (i) two techniques sampling around targeted nodes using biased random walk or influence scores, and (ii) a SPARQL-based extraction method leveraging RDF engines' built-in indices. Hence, it achieves negligible preprocessing overhead compared to the sampling techniques. We develop a benchmark of real KGs of large sizes and various tasks for node classification and link prediction. Our experiments show that KG-TOSA helps state-of-the-art HGNN methods reduce training time and memory usage by up to 70% while improving the model performance, e.g., accuracy and inference time.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-22
# tLaSDI:熱力学インフォームド潜在空間力学の同定

tLaSDI: Thermodynamics-informed latent space dynamics identification ( http://arxiv.org/abs/2403.05848v2 )

ライセンス: Link先を確認
Jun Sur Richard Park, Siu Wun Cheung, Youngsoo Choi, Yeonjong Shin, (参考訳) 本稿では,熱力学の第一原理と第二原理を組み込んだ潜在空間力学同定法,すなわち tLaSDI を提案する。 潜伏変数は、非線形次元減少モデルとしてオートエンコーダを通して学習される。 潜伏力学は、ジェネリック形式を通して熱力学則の特定の構造を正確に保存するニューラルネットワークベースのモデルによって構成される。 抽象誤差推定が確立され、オートエンコーダのヤコビアン計算を含む新たな損失定式化が提供される。 オートエンコーダと潜伏ダイナミクスは同時にトレーニングされ、新たな損失を最小限に抑える。 計算例では、外挿においても堅牢な一般化能力を示すtLaSDIの有効性を示す。 さらに、潜在空間におけるtLaSDIの量とフルステート溶液の挙動との間には、興味深い相関関係が経験的に観察される。

We propose a latent space dynamics identification method, namely tLaSDI, that embeds the first and second principles of thermodynamics. The latent variables are learned through an autoencoder as a nonlinear dimension reduction model. The latent dynamics are constructed by a neural network-based model that precisely preserves certain structures for the thermodynamic laws through the GENERIC formalism. An abstract error estimate is established, which provides a new loss formulation involving the Jacobian computation of autoencoder. The autoencoder and the latent dynamics are simultaneously trained to minimize the new loss. Computational examples demonstrate the effectiveness of tLaSDI, which exhibits robust generalization ability, even in extrapolation. In addition, an intriguing correlation is empirically observed between a quantity from tLaSDI in the latent space and the behaviors of the full-state solution.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-22
# ニューラルネットワーク探索のための多条件グラフ拡散

Multi-conditioned Graph Diffusion for Neural Architecture Search ( http://arxiv.org/abs/2403.06020v2 )

ライセンス: Link先を確認
Rohan Asthana, Joschua Conrad, Youssef Dawoud, Maurits Ortmanns, Vasileios Belagiannis, (参考訳) ニューラルアーキテクチャサーチは、通常、大きくて複雑なアーキテクチャサーチスペースを探索することによって、ニューラルネットワークアーキテクチャの設計を自動化する。 アーキテクチャ探索を進めるために、離散的な条件付きグラフ拡散プロセスを用いて高性能ニューラルネットワークアーキテクチャを生成するグラフ拡散に基づくNAS手法を提案する。 次に,グラフ拡散ネットワークに適用した多条件分類器フリーガイダンス手法を提案する。 関連する作業と異なり、我々の手法は完全に微分可能であり、単一のモデルトレーニングしか必要としない。 評価では、6つの標準ベンチマークで有望な結果を示し、新しいアーキテクチャとユニークなアーキテクチャを高速に生成する。 さらに,ImageNetデータセットを用いた実験により,本手法の汎用性と効率性を示す。

Neural architecture search automates the design of neural network architectures usually by exploring a large and thus complex architecture search space. To advance the architecture search, we present a graph diffusion-based NAS approach that uses discrete conditional graph diffusion processes to generate high-performing neural network architectures. We then propose a multi-conditioned classifier-free guidance approach applied to graph diffusion networks to jointly impose constraints such as high accuracy and low hardware latency. Unlike the related work, our method is completely differentiable and requires only a single model training. In our evaluations, we show promising results on six standard benchmarks, yielding novel and unique architectures at a fast speed, i.e. less than 0.2 seconds per architecture. Furthermore, we demonstrate the generalisability and efficiency of our method through experiments on ImageNet dataset.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-22
# S-DyRF:ダイナミックシーンのための基準ベーススティル化放射場

S-DyRF: Reference-Based Stylized Radiance Fields for Dynamic Scenes ( http://arxiv.org/abs/2403.06205v3 )

ライセンス: Link先を確認
Xingyi Li, Zhiguo Cao, Yizheng Wu, Kewei Wang, Ke Xian, Zhe Wang, Guosheng Lin, (参考訳) 現在の3Dスタイリング手法は、現実世界の動的な性質に反する静的なシーンを想定することが多い。 この制限に対処するため、S-DyRFは動的神経放射場のための参照型時空間スタイリング法である。 しかし、時間軸に沿ってスタイリングされた参照画像が限られているため、動的3Dシーンのスタイリングは本質的に困難である。 私たちの重要な洞察は、提供された参照に加えて、追加の時間的手がかりを導入することです。 この目的のために、与えられたスタイル化された参照から時間的擬似参照を生成する。 これらの擬似参照は、動的3Dシーン全体の参照からスタイル情報の伝播を促進する。 粗いスタイルの転送には、特徴レベルでの擬似参照に現れるスタイルの詳細を模倣するために、新しいビューと時間を強制する。 高周波の詳細を保存するために、時間的擬似参照からスタイル化された時間的擬似画像のコレクションを作成する。 これらの擬似光線は、細かなスタイル転送を実現するための詳細で明示的なスタイリングガイダンスとして機能する。 合成, 実世界の両方のデータセットを用いた実験により, 動的3次元シーンにおける時空間ビュー合成の高機能なスタイリング結果が得られた。

Current 3D stylization methods often assume static scenes, which violates the dynamic nature of our real world. To address this limitation, we present S-DyRF, a reference-based spatio-temporal stylization method for dynamic neural radiance fields. However, stylizing dynamic 3D scenes is inherently challenging due to the limited availability of stylized reference images along the temporal axis. Our key insight lies in introducing additional temporal cues besides the provided reference. To this end, we generate temporal pseudo-references from the given stylized reference. These pseudo-references facilitate the propagation of style information from the reference to the entire dynamic 3D scene. For coarse style transfer, we enforce novel views and times to mimic the style details present in pseudo-references at the feature level. To preserve high-frequency details, we create a collection of stylized temporal pseudo-rays from temporal pseudo-references. These pseudo-rays serve as detailed and explicit stylization guidance for achieving fine style transfer. Experiments on both synthetic and real-world datasets demonstrate that our method yields plausible stylized results of space-time view synthesis on dynamic 3D scenes.
翻訳日:2024-03-25 21:51:11 公開日:2024-03-22
# FSC:Few-point Shape Completion

FSC: Few-point Shape Completion ( http://arxiv.org/abs/2403.07359v3 )

ライセンス: Link先を確認
Xianzu Wu, Xianfeng Wu, Tianyu Luan, Yajing Bai, Zhongyuan Lai, Junsong Yuan, (参考訳) これまでの研究では、十分な数の点で3次元オブジェクトの形状を完遂することに成功したが、数点(例えば数十点)が観測された場合、しばしば失敗する。 驚くべきことに、エントロピー解析により、いくつかの点、例えば64点でさえ、物体の3次元形状を復元するのに十分な情報を保持できることが判明した。 極めてスパースな点雲による形状完備化の課題に対処するため, 極めてスパースな入力を処理するための新しいデュアルブランチ特徴抽出器と, 動的に重要な割り当てを行うためのサリエンシブランチを併用したFew-point Shape Completion (FSC)モデルを提案する。 このモデルは、抽出された特徴とデコーダ出力の両方を洗練し、完了した点雲の詳細と信頼性を高める2段階のリビジョンネットワークによってさらに強化されている。 実験では,数点から3次元形状を復元できる可能性を示した。 提案したFew-point Shape Completion (FSC) モデルは、小点入力と多点入力の両方において従来の手法よりも優れ、異なる対象カテゴリに対して優れた一般化性を示す。

While previous studies have demonstrated successful 3D object shape completion with a sufficient number of points, they often fail in scenarios when a few points, e.g. tens of points, are observed. Surprisingly, via entropy analysis, we find that even a few points, e.g. 64 points, could retain substantial information to help recover the 3D shape of the object. To address the challenge of shape completion with very sparse point clouds, we then propose Few-point Shape Completion (FSC) model, which contains a novel dual-branch feature extractor for handling extremely sparse inputs, coupled with an extensive branch for maximal point utilization with a saliency branch for dynamic importance assignment. This model is further bolstered by a two-stage revision network that refines both the extracted features and the decoder output, enhancing the detail and authenticity of the completed point cloud. Our experiments demonstrate the feasibility of recovering 3D shapes from a few points. The proposed Few-point Shape Completion (FSC) model outperforms previous methods on both few-point inputs and many-point inputs, and shows good generalizability to different object categories.
翻訳日:2024-03-25 21:41:26 公開日:2024-03-22
# 大規模言語モデルを継続的に事前学習するためのシンプルでスケーラブルな戦略

Simple and Scalable Strategies to Continually Pre-train Large Language Models ( http://arxiv.org/abs/2403.08763v2 )

ライセンス: Link先を確認
Adam Ibrahim, Benjamin Thérien, Kshitij Gupta, Mats L. Richter, Quentin Anthony, Timothée Lesort, Eugene Belilovsky, Irina Rish, (参考訳) 大規模言語モデル(LLM)は、数十億のトークンで定期的に事前訓練されるが、新しいデータが利用可能になると、プロセスを再開する。 より効率的な解決策は、これらのモデルを継続的に事前トレーニングし、再トレーニングよりもかなりの計算を節約することである。 しかし、新しいデータによって引き起こされる分布シフトは、通常、以前のデータの性能低下または新しいデータへの適応不良をもたらす。 本研究では,学習率 (LR) の再ウォーミング, LR再復号化, 過去のデータ再生の簡易かつスケーラブルな組み合わせが, 最終損失と言語モデル (LM) 評価ベンチマークによって測定された, 利用可能なすべてのデータに対してスクラッチから完全に再学習する性能に適合することを示す。 具体的には,2つの LLM 事前学習データセット (英:$\rightarrow$ English) と,大規模データセットサイズ (数十億トークン) のパラメータモデルスケール (405$M) における強い分布シフト (英:$\rightarrow$German) との間に,弱いが現実的な分布シフトを示す。 大規模実験において,弱いが現実的なシフトを選択することで,連続学習戦略が10BパラメータLLMの再学習ベースラインと一致していることが分かる。 この結果から,LLMは単純かつスケーラブルな連続学習戦略により,計算のごく一部で再学習ベースラインに適合することを示す。 最後に,従来の研究に触発されて,LR再ウォーミングによる忘れを回避し,固定トークン予算に縛られないコサイン学習率スケジュールの代替案を提案する。

Large language models (LLMs) are routinely pre-trained on billions of tokens, only to start the process over again once new data becomes available. A much more efficient solution is to continually pre-train these models, saving significant compute compared to re-training. However, the distribution shift induced by new data typically results in degraded performance on previous data or poor adaptation to the new data. In this work, we show that a simple and scalable combination of learning rate (LR) re-warming, LR re-decaying, and replay of previous data is sufficient to match the performance of fully re-training from scratch on all available data, as measured by final loss and language model (LM) evaluation benchmarks. Specifically, we show this for a weak but realistic distribution shift between two commonly used LLM pre-training datasets (English$\rightarrow$English) and a stronger distribution shift (English$\rightarrow$German) at the $405$M parameter model scale with large dataset sizes (hundreds of billions of tokens). Selecting the weak but realistic shift for larger-scale experiments, we also find that our continual learning strategies match the re-training baseline for a 10B parameter LLM. Our results demonstrate that LLMs can be successfully updated via simple and scalable continual learning strategies, matching the re-training baseline using only a fraction of the compute. Finally, inspired by previous work, we propose alternatives to the cosine learning rate schedule that help circumvent forgetting induced by LR re-warming and that are not bound to a fixed token budget.
翻訳日:2024-03-25 21:41:26 公開日:2024-03-22
# VisionGPT-3D:3次元視覚理解のための汎用マルチモーダルエージェント

VisionGPT-3D: A Generalized Multimodal Agent for Enhanced 3D Vision Understanding ( http://arxiv.org/abs/2403.09530v2 )

ライセンス: Link先を確認
Chris Kelly, Luhui Hu, Jiayin Hu, Yu Tian, Deshun Yang, Bang Yang, Cindy Yang, Zihao Li, Zaoshan Huang, Yuexian Zou, (参考訳) テキストから視覚コンポーネントへの進化は、画像の生成、テキストからのビデオ、画像内の望ましい要素の特定など、人々の日常生活を促進する。 前時代のマルチモーダル能力を含むコンピュータビジョンモデルは、明確に定義されたオブジェクトに基づいた画像検出、分類に重点を置いている。 大規模言語モデル(LLM)は、自然言語から視覚オブジェクトへの変換を導入し、テキストコンテキストの視覚的レイアウトを提示する。 OpenAI GPT-4はLLMのピンナクルとして登場し、コンピュータビジョン(CV)ドメインは2D画像をその3D表現に変換するための多くの最先端(SOTA)モデルとアルゴリズムを誇っている。 しかし、アルゴリズムと問題とのミスマッチは、望ましくない結果をもたらす可能性がある。 この課題に対応するために、我々は最先端のビジョンモデルを統合するための統合されたVisionGPT-3Dフレームワークを提案し、それによってビジョン指向AIの開発が容易になる。 VisionGPT-3Dはマルチモーダル基盤モデルの強みを基盤として多目的なマルチモーダルフレームワークを提供する。 様々なSOTAビジョンモデルをシームレスに統合し、SOTAビジョンモデルの選択を自動化し、2次元深度マップ解析に対応する適切な3次元メッシュ生成アルゴリズムを特定し、テキストプロンプトのような多様なマルチモーダル入力に基づいて最適な結果を生成する。 キーワード: VisionGPT-3D, 3次元視覚理解, マルチモーダルエージェント

The evolution of text to visual components facilitates people's daily lives, such as generating image, videos from text and identifying the desired elements within the images. Computer vision models involving the multimodal abilities in the previous days are focused on image detection, classification based on well-defined objects. Large language models (LLMs) introduces the transformation from nature language to visual objects, which present the visual layout for text contexts. OpenAI GPT-4 has emerged as the pinnacle in LLMs, while the computer vision (CV) domain boasts a plethora of state-of-the-art (SOTA) models and algorithms to convert 2D images to their 3D representations. However, the mismatching between the algorithms with the problem could lead to undesired results. In response to this challenge, we propose an unified VisionGPT-3D framework to consolidate the state-of-the-art vision models, thereby facilitating the development of vision-oriented AI. VisionGPT-3D provides a versatile multimodal framework building upon the strengths of multimodal foundation models. It seamlessly integrates various SOTA vision models and brings the automation in the selection of SOTA vision models, identifies the suitable 3D mesh creation algorithms corresponding to 2D depth maps analysis, generates optimal results based on diverse multimodal inputs such as text prompts. Keywords: VisionGPT-3D, 3D vision understanding, Multimodal agent
翻訳日:2024-03-25 21:41:26 公開日:2024-03-22
# 目が閉じて安全:画像からテキストへの変換によるマルチモーダルLCMの保護

Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation ( http://arxiv.org/abs/2403.09572v2 )

ライセンス: Link先を確認
Yunhao Gou, Kai Chen, Zhili Liu, Lanqing Hong, Hang Xu, Zhenguo Li, Dit-Yan Yeung, James T. Kwok, Yu Zhang, (参考訳) マルチモーダルな大規模言語モデル (MLLM) は印象的な推論能力を示しており、従来の LLM よりもジェイルブレイク攻撃に弱い。 安全でない応答を検出できるが,画像特徴の導入により,MLLMにおける予め整列されたLLMの安全性機構が容易に回避できることが観察された。 堅牢なMLLMを構築するために、我々は、MLLMの固有の安全意識を生かし、安全でない画像をテキストに適応的に変換して安全応答を生成し、MLLMにおける予め整列されたLCMの本質的な安全性メカニズムを活性化する新しいトレーニング不要な保護手法ECSO(Eyes Closed, Safety On)を提案する。 The State-of-the-art (SoTA) MLLMの5つの実験により、我々のECSOはモデルの安全性を大幅に向上し(例:MM-SafetyBench (SD+OCR)、LLaVA-1.5-7BのVLSafeは71.3%向上した。 さらに,人間の介入なしにMLLMアライメントのための教師付きファインタニング(SFT)データを生成するために,ECSOをデータエンジンとして使用できることを示す。

Multimodal large language models (MLLMs) have shown impressive reasoning abilities, which, however, are also more vulnerable to jailbreak attacks than their LLM predecessors. Although still capable of detecting unsafe responses, we observe that safety mechanisms of the pre-aligned LLMs in MLLMs can be easily bypassed due to the introduction of image features. To construct robust MLLMs, we propose ECSO(Eyes Closed, Safety On), a novel training-free protecting approach that exploits the inherent safety awareness of MLLMs, and generates safer responses via adaptively transforming unsafe images into texts to activate intrinsic safety mechanism of pre-aligned LLMs in MLLMs. Experiments on five state-of-the-art (SoTA) MLLMs demonstrate that our ECSO enhances model safety significantly (e.g., a 37.6% improvement on the MM-SafetyBench (SD+OCR), and 71.3% on VLSafe for the LLaVA-1.5-7B), while consistently maintaining utility results on common MLLM benchmarks. Furthermore, we show that ECSO can be used as a data engine to generate supervised-finetuning (SFT) data for MLLM alignment without extra human intervention.
翻訳日:2024-03-25 21:41:26 公開日:2024-03-22
# MM1:マルチモーダルLLM事前学習の方法・分析・洞察

MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training ( http://arxiv.org/abs/2403.09611v3 )

ライセンス: Link先を確認
Brandon McKinzie, Zhe Gan, Jean-Philippe Fauconnier, Sam Dodge, Bowen Zhang, Philipp Dufter, Dhruti Shah, Xianzhi Du, Futang Peng, Floris Weers, Anton Belyi, Haotian Zhang, Karanjeet Singh, Doug Kang, Ankur Jain, Hongyu Hè, Max Schwarzer, Tom Gunter, Xiang Kong, Aonan Zhang, Jianyu Wang, Chong Wang, Nan Du, Tao Lei, Sam Wiseman, Guoli Yin, Mark Lee, Zirui Wang, Ruoming Pang, Peter Grasch, Alexander Toshev, Yinfei Yang, (参考訳) 本稿では,MLLM(Multimodal Large Language Models)の構築について論じる。 特に,さまざまなアーキテクチャコンポーネントとデータ選択の重要性について検討する。 画像エンコーダ,視覚言語コネクタ,各種事前学習データの選択を慎重にかつ包括的に改善することにより,いくつかの重要な設計の教訓を明らかにした。 例えば、画像キャプチャー、インターリーブド画像テキスト、テキストのみのデータを慎重に組み合わせた大規模マルチモーダル事前学習は、複数のベンチマークで最新のSOTA (State-of-the-art) 数ショット結果を達成するのに不可欠であることを示す。 さらに、画像解像度と画像トークン数とを併用した画像エンコーダは、視覚言語コネクタ設計が比較的重要視されているのに対して、かなりの影響を与えることを示す。 提案したレシピをスケールアップすることにより,厳密なモデルと混合オブエキスパート(MoE)変異を含む最大30BパラメータのマルチモーダルモデルのファミリーであるMM1を構築する。 大規模な事前トレーニングによって、MM1は、強化されたコンテキスト内学習やマルチイメージ推論などの魅力的な特性を享受し、数発のチェーン・オブ・シークレットのプロンプトを可能にしている。

In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, including both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.
翻訳日:2024-03-25 21:41:26 公開日:2024-03-22
# 対話レコメンデーションのための生成ユーザシミュレータとしての大規模言語モデルの評価

Evaluating Large Language Models as Generative User Simulators for Conversational Recommendation ( http://arxiv.org/abs/2403.09738v3 )

ライセンス: Link先を確認
Se-eun Yoon, Zhankui He, Jessica Maria Echterhoff, Julian McAuley, (参考訳) 合成ユーザは,対話レコメンデーションシステムの評価において,実際のユーザにとって費用対効果の高いプロキシである。 大規模言語モデルは、人間の様態をシミュレートし、多様なユーザーを表わす能力の疑問を提起する。 本稿では,言語モデルが対話的推薦において人間の行動を正確にエミュレートできる程度を測定するための新しいプロトコルを提案する。 このプロトコルは5つのタスクから構成されており、それぞれのタスクは、合成ユーザが提示すべき重要な特性、すなわち、どのアイテムについて話すべきかの選択、バイナリの好みの表現、オープンな好みの表現、レコメンデーションの要求、フィードバックの付与である。 ベースラインシミュレータの評価を通じて、これらのタスクは人間の行動から言語モデルの逸脱を効果的に明らかにし、モデル選択と促進戦略による逸脱を減らす方法についての洞察を与える。

Synthetic users are cost-effective proxies for real users in the evaluation of conversational recommender systems. Large language models show promise in simulating human-like behavior, raising the question of their ability to represent a diverse population of users. We introduce a new protocol to measure the degree to which language models can accurately emulate human behavior in conversational recommendation. This protocol is comprised of five tasks, each designed to evaluate a key property that a synthetic user should exhibit: choosing which items to talk about, expressing binary preferences, expressing open-ended preferences, requesting recommendations, and giving feedback. Through evaluation of baseline simulators, we demonstrate these tasks effectively reveal deviations of language models from human behavior, and offer insights on how to reduce the deviations with model selection and prompting strategies.
翻訳日:2024-03-25 21:41:26 公開日:2024-03-22
# 大規模言語モデルにおける高速投機復号化のための逐次描画法

Recurrent Drafter for Fast Speculative Decoding in Large Language Models ( http://arxiv.org/abs/2403.09919v2 )

ライセンス: Link先を確認
Aonan Zhang, Chong Wang, Yi Wang, Xuanyu Zhang, Yunfei Cheng, (参考訳) 本稿では,大規模言語モデルの提供効率向上を目的とした投機的復号法の改良手法を提案する。 提案手法は,古典的2モデル投機的復号法と,より最近の単一モデル法であるMedusaという2つの確立された手法の長所を生かしている。 Medusaからインスピレーションを得た私たちのアプローチでは、投機的復号化のための単一モデル戦略を採用しています。 しかし,本手法は,従来の投機的復号法で使用される小型のドラフトモデルと本質的に類似しているが,完全なトランスフォーマーアーキテクチャの複雑さは伴わない。 そして、繰り返し発生する依存関係のため、ビームサーチを使用して、望ましくない候補をドラフトヘッドで素早くフィルタリングすることができる。 その結果、単一モデル設計の単純さを組み合わせ、Medusaの推論にのみデータ依存のツリーアテンション構造を作成する必要がなくなる。 提案手法がいくつかのポピュラーなオープンソース言語モデルに対して有効であることを実証的に示すとともに,このアプローチの適用に関わるトレードオフを包括的に分析する。

In this paper, we introduce an improved approach of speculative decoding aimed at enhancing the efficiency of serving large language models. Our method capitalizes on the strengths of two established techniques: the classic two-model speculative decoding approach, and the more recent single-model approach, Medusa. Drawing inspiration from Medusa, our approach adopts a single-model strategy for speculative decoding. However, our method distinguishes itself by employing a single, lightweight draft head with a recurrent dependency design, akin in essence to the small, draft model uses in classic speculative decoding, but without the complexities of the full transformer architecture. And because of the recurrent dependency, we can use beam search to swiftly filter out undesired candidates with the draft head. The outcome is a method that combines the simplicity of single-model design and avoids the need to create a data-dependent tree attention structure only for inference in Medusa. We empirically demonstrate the effectiveness of the proposed method on several popular open source language models, along with a comprehensive analysis of the trade-offs involved in adopting this approach.
翻訳日:2024-03-25 21:41:26 公開日:2024-03-22
# 見えないデータに対するAI大腸内視鏡モデルの一般化予測

Predicting Generalization of AI Colonoscopy Models to Unseen Data ( http://arxiv.org/abs/2403.09920v3 )

ライセンス: Link先を確認
Joel Shor, Carson McNeil, Yotam Intrator, Joseph R Ledsam, Hiro-o Yamano, Daisuke Tsurumaru, Hiroki Kayama, Atsushi Hamabe, Koji Ando, Mitsuhiko Ota, Haruei Ogino, Hiroshi Nakase, Kaho Kobayashi, Masaaki Miyo, Eiji Oki, Ichiro Takemasa, Ehud Rivlin, Roman Goldenberg, (参考訳) $\textbf{Background}$: AI大腸内視鏡アルゴリズムの汎用性は、臨床実践において広く採用される上で重要である。 しかし、現在、目に見えないデータのパフォーマンスを評価する技術は、高価で時間集約的なラベルを必要とする。 $\textbf{Methods}$: 我々は"Masked Siamese Network" (MSN)を使って、目に見えないデータにおける新しい現象を特定し、ポリプ検出器の性能を予測する。 MSNは、ラベルなしでポリプ画像のマスクされた領域を予測するように訓練されている。 我が国の大腸内視鏡(354本,128時間)において,イスラエルからのデータのみを用いてMSNを訓練し,未確認技術,狭帯域画像(NBI)およびクロマトエンドスコープ(CE)を検出する能力について検討した。 また,MSNは日本からのデータに基づいて訓練を受けていないものの,両国の大腸粘膜におけるポリープのCAD(Computer Aided Detection)の性能を予測する能力についても検証した。 $\textbf{Results}$: MSNは、ラベルフリーのFrechet距離を用いて、NBIとCEを日本のホワイトライト(z-test, |z| > 496, p < 10^-8)よりもイスラエルのホワイトライトに似ていないと正しく識別する。 MSNは99%の精度でNBIを検出し、ホワイトライトでのみトレーニングされているにもかかわらず、CEが我々のヒューリスティック(90%対79%の精度)より優れていると予測し、ノイズの多いラベルに対して堅牢な唯一の方法である。 MSNは、イスラエル内および日本の植民地内におけるCADポリプ検出性能(それぞれr=0.79、0.37)を予測している。 日本における検出性能の訓練例は少ないが、MSNによる日本の性能予測は改善されている(r=0.56)。 $\textbf{Conclusion}$:我々の技術は臨床データの分布変化を識別することができ、ラベルなしで、見えないデータ上でCADe検出器のパフォーマンスを予測できる。 当社の自己監督型アプローチは、病院やデータがトレーニングから有意義に移行したなど、実際のデータとトレーニングの違いを検出するのに役立ちます。 MSNは大腸内視鏡以外の医療画像領域にも応用できる可能性がある。

$\textbf{Background}$: Generalizability of AI colonoscopy algorithms is important for wider adoption in clinical practice. However, current techniques for evaluating performance on unseen data require expensive and time-intensive labels. $\textbf{Methods}$: We use a "Masked Siamese Network" (MSN) to identify novel phenomena in unseen data and predict polyp detector performance. MSN is trained to predict masked out regions of polyp images, without any labels. We test MSN's ability to be trained on data only from Israel and detect unseen techniques, narrow-band imaging (NBI) and chromendoscoy (CE), on colonoscopes from Japan (354 videos, 128 hours). We also test MSN's ability to predict performance of Computer Aided Detection (CADe) of polyps on colonoscopies from both countries, even though MSN is not trained on data from Japan. $\textbf{Results}$: MSN correctly identifies NBI and CE as less similar to Israel whitelight than Japan whitelight (bootstrapped z-test, |z| > 496, p < 10^-8 for both) using the label-free Frechet distance. MSN detects NBI with 99% accuracy, predicts CE better than our heuristic (90% vs 79% accuracy) despite being trained only on whitelight, and is the only method that is robust to noisy labels. MSN predicts CADe polyp detector performance on in-domain Israel and out-of-domain Japan colonoscopies (r=0.79, 0.37 respectively). With few examples of Japan detector performance to train on, MSN prediction of Japan performance improves (r=0.56). $\textbf{Conclusion}$: Our technique can identify distribution shifts in clinical data and can predict CADe detector performance on unseen data, without labels. Our self-supervised approach can aid in detecting when data in practice is different from training, such as between hospitals or data has meaningfully shifted from training. MSN has potential for application to medical image domains beyond colonoscopy.
翻訳日:2024-03-25 21:41:26 公開日:2024-03-22
# GPT4ベースのAIエージェントは十分なパフォーマンスの属性分析に役立てられるか?

Can a GPT4-Powered AI Agent Be a Good Enough Performance Attribution Analyst? ( http://arxiv.org/abs/2403.10482v2 )

ライセンス: Link先を確認
Bruno de Melo, Jamiel Sheikh, (参考訳) パフォーマンス属性分析は、投資ポートフォリオのベンチマークに対する過剰なパフォーマンスの要因を説明するプロセスとして定義され、ポートフォリオ管理の重要な特徴であり、特にファンド管理業界において、投資決定プロセスにおいて重要な役割を果たす。 この分析手法の重要性と方法論は、多くの学術研究論文や書籍で広く文書化されている。 大規模言語モデル(LLM)とAIエージェントの統合は、この分野における画期的な発展を示している。 これらのエージェントは、ベンチマークに対するポートフォリオパフォーマンスを正確に計算し分析することにより、パフォーマンス属性分析の自動化と強化を目的としている。 本研究では,多段階の属性分析と質問応答(QA)タスクの計算エンジンとして,パフォーマンスドライバの分析やLLMの利用など,AIエージェントのさまざまなパフォーマンス属性タスクへの適用について紹介する。 この研究は、Chain-of-Thought(CoT)やPlan and Solve(PS)といった先進的な迅速なエンジニアリング技術を活用し、LangChainの標準エージェントフレームワークを使用して、パフォーマンスドライバの分析において93%を超える精度を実現し、マルチレベルの属性計算で100%に達し、公式な検査基準をシミュレートするQA演習では84%を超える精度を実現している。 これらの知見は、AIエージェントのインパクトある役割、ポートフォリオ管理プロセスの進展におけるエンジニアリングと評価の促進、ドメイン内のジェネレーティブAI技術の実践的応用と評価における重要な発展を浮き彫りにしている。

Performance attribution analysis, defined as the process of explaining the drivers of the excess performance of an investment portfolio against a benchmark, stands as a significant feature of portfolio management and plays a crucial role in the investment decision-making process, particularly within the fund management industry. Rooted in a solid financial and mathematical framework, the importance and methodologies of this analytical technique are extensively documented across numerous academic research papers and books. The integration of large language models (LLMs) and AI agents marks a groundbreaking development in this field. These agents are designed to automate and enhance the performance attribution analysis by accurately calculating and analyzing portfolio performances against benchmarks. In this study, we introduce the application of an AI Agent for a variety of essential performance attribution tasks, including the analysis of performance drivers and utilizing LLMs as calculation engine for multi-level attribution analysis and question-answering (QA) tasks. Leveraging advanced prompt engineering techniques such as Chain-of-Thought (CoT) and Plan and Solve (PS), and employing a standard agent framework from LangChain, the research achieves promising results: it achieves accuracy rates exceeding 93% in analyzing performance drivers, attains 100% in multi-level attribution calculations, and surpasses 84% accuracy in QA exercises that simulate official examination standards. These findings affirm the impactful role of AI agents, prompt engineering and evaluation in advancing portfolio management processes, highlighting a significant development in the practical application and evaluation of Generative AI technologies within the domain.
翻訳日:2024-03-25 21:41:26 公開日:2024-03-22
# 心不全リスク予測のための大言語モデルインフォームドECGデュアルアテンションネットワーク

Large Language Model-informed ECG Dual Attention Network for Heart Failure Risk Prediction ( http://arxiv.org/abs/2403.10581v2 )

ライセンス: Link先を確認
Chen Chen, Lei Li, Marcel Beetz, Abhirup Banerjee, Ramneek Gupta, Vicente Grau, (参考訳) 心不全(HF)は、世界的な死亡率の上昇とともに、公衆衛生上の大きな課題となる。 HFの早期検出と予防は、その影響を著しく減少させる可能性がある。 12誘導心電図(ECG)を用いた新しいHFリスク予測手法を提案する。 我々は,低リスク群と高リスク群との顕著な不均衡にもかかわらず,早期のHFリスク予測に不可欠な複雑なECG特徴を捉えるために設計された,より軽量なデュアルアテンションECGネットワークを提案する。 このネットワークには、クロスリードアテンションモジュールと12のリード固有の時間アテンションモジュールが含まれており、クロスリードインタラクションと各リードの局所ダイナミクスに焦点を当てている。 モデルオーバーフィッティングをさらに緩和するため,大規模言語モデル(LLM)とパブリックECG-Reportデータセットを併用して,ECG-Reportアライメントタスクの事前トレーニングを行う。 このネットワークは、高血圧(UKB-HYP)患者と心筋梗塞(UKB-MI)患者の2つの特定のコホートを用いて、HFリスク予測のために微調整される。 その結果,LLMインフォームドプレトレーニングはこれらのコホートにおけるHFリスク予測を著しく向上させることがわかった。 二重アテンション設計は解釈可能性だけでなく予測精度も向上し、既存のCインデックススコアはUKB-HYPが0.6349、UKB-MIが0.5805である。 本研究は, 臨床複雑な心電図データを用いたHFリスクアセスメントの進展を示すものである。

Heart failure (HF) poses a significant public health challenge, with a rising global mortality rate. Early detection and prevention of HF could significantly reduce its impact. We introduce a novel methodology for predicting HF risk using 12-lead electrocardiograms (ECGs). We present a novel, lightweight dual-attention ECG network designed to capture complex ECG features essential for early HF risk prediction, despite the notable imbalance between low and high-risk groups. This network incorporates a cross-lead attention module and twelve lead-specific temporal attention modules, focusing on cross-lead interactions and each lead's local dynamics. To further alleviate model overfitting, we leverage a large language model (LLM) with a public ECG-Report dataset for pretraining on an ECG-report alignment task. The network is then fine-tuned for HF risk prediction using two specific cohorts from the UK Biobank study, focusing on patients with hypertension (UKB-HYP) and those who have had a myocardial infarction (UKB-MI).The results reveal that LLM-informed pre-training substantially enhances HF risk prediction in these cohorts. The dual-attention design not only improves interpretability but also predictive accuracy, outperforming existing competitive methods with C-index scores of 0.6349 for UKB-HYP and 0.5805 for UKB-MI. This demonstrates our method's potential in advancing HF risk assessment with clinical complex ECG data.
翻訳日:2024-03-25 21:41:26 公開日:2024-03-22
# スパイキングウェーブレットトランス

Spiking Wavelet Transformer ( http://arxiv.org/abs/2403.11138v2 )

ライセンス: Link先を確認
Yuetong Fang, Ziqing Wang, Lingfeng Zhang, Jiahang Cao, Honglei Chen, Renjing Xu, (参考訳) スパイキングニューラルネットワーク(SNN)は、脳のイベント駆動処理を模倣することによって、従来のディープラーニングに代わるエネルギー効率の高い代替手段を提供する。 トランスフォーマーをSNNに組み込むことは正確性を示しているが、グローバルな自己注意操作に依存しているため、移動エッジや画素レベルの明るさ変化などの高周波パターンをキャプチャすることは不可能である。 SNNにおける周波数表現の移植は、イベント駆動型ビジョンでは難しいが、不可欠である。 この問題に対処するために,スパースウェーブレット変換を活用することで,空間周波数の包括的特徴をスパイク駆動方式で効果的に学習する,注目のないアーキテクチャであるSpking Wavelet Transformer (SWformer)を提案する。 重要なコンポーネントは、周波数対応のトークンミキサー(FATM)で、3つのブランチがある。 1)空間周波数領域学習のためのスパイクウェーブレット学習装置 2)空間特徴抽出のための畳み込みに基づく学習者 3) チャネル間情報集約のためのポイントワイド・コンボリューションをスパイクする。 また、周波数表現をさらに強化するために、負のスパイクダイナミクスを採用する。 これにより、SWformerは、私たちの経験的な結果によって証明されているように、高周波数の視覚成分をキャプチャするバニラスパイキングトランスフォーマーよりも優れている。 静的データセットとニューロモルフィックデータセットの両方の実験は、SWformerが乗算のないイベント駆動方式で空間周波数パターンをキャプチャし、最先端のSNNより優れた性能を発揮することを示す。 SWformerは、エネルギー消費の50%以上削減、パラメータ数21.1%削減、ImageNetデータセットのパフォーマンス改善を実現している。

Spiking neural networks (SNNs) offer an energy-efficient alternative to conventional deep learning by mimicking the event-driven processing of the brain. Incorporating the Transformers with SNNs has shown promise for accuracy, yet it is incompetent to capture high-frequency patterns like moving edge and pixel-level brightness changes due to their reliance on global self-attention operations. Porting frequency representations in SNN is challenging yet crucial for event-driven vision. To address this issue, we propose the Spiking Wavelet Transformer (SWformer), an attention-free architecture that effectively learns comprehensive spatial-frequency features in a spike-driven manner by leveraging the sparse wavelet transform. The critical component is a Frequency-Aware Token Mixer (FATM) with three branches: 1) spiking wavelet learner for spatial-frequency domain learning, 2) convolution-based learner for spatial feature extraction, and 3) spiking pointwise convolution for cross-channel information aggregation. We also adopt negative spike dynamics to strengthen the frequency representation further. This enables the SWformer to outperform vanilla Spiking Transformers in capturing high-frequency visual components, as evidenced by our empirical results. Experiments on both static and neuromorphic datasets demonstrate SWformer's effectiveness in capturing spatial-frequency patterns in a multiplication-free, event-driven fashion, outperforming state-of-the-art SNNs. SWformer achieves an over 50% reduction in energy consumption, a 21.1% reduction in parameter count, and a 2.40% performance improvement on the ImageNet dataset compared to vanilla Spiking Transformers.
翻訳日:2024-03-25 21:31:40 公開日:2024-03-22
# CPA-エンハンサー:未知の劣化下での物体検出のための適応エンハンサー

CPA-Enhancer: Chain-of-Thought Prompted Adaptive Enhancer for Object Detection under Unknown Degradations ( http://arxiv.org/abs/2403.11220v3 )

ライセンス: Link先を確認
Yuwei Zhang, Yan Wu, Yanming Liu, Xinyue Peng, (参考訳) 既知の単一劣化下での物体検出法は広く研究されている。 しかし、既存のアプローチでは、分解型の事前の知識を必要とし、それぞれ個別のモデルを訓練し、予測不可能な環境での実践的応用を制限する。 この課題に対処するために,未知の劣化下での物体検出のための適応エンハンサーCPA-Enhancerを提案する。 具体的には、CPA-Enhancerは、劣化関連情報をエンコードするCoTプロンプトのステップバイステップガイダンスに基づいて、その拡張戦略を段階的に適応させる。 私たちの知る限りでは、オブジェクト検出タスクのためにCoTのプロンプトを利用する最初の作業です。 全体として、CPA-Enhancerはプラグ・アンド・プレイ拡張モデルであり、いかなるジェネリック検出器にも組み込むことができ、劣化のタイプを事前に知ることなく、劣化した画像に対して実質的なゲインを達成することができる。 実験により、CPA-Enhancerは物体検出のための新しい最先端技術を設定するだけでなく、未知の劣化下での他の下流視覚タスクの性能も向上することが示された。

Object detection methods under known single degradations have been extensively investigated. However, existing approaches require prior knowledge of the degradation type and train a separate model for each, limiting their practical applications in unpredictable environments. To address this challenge, we propose a chain-of-thought (CoT) prompted adaptive enhancer, CPA-Enhancer, for object detection under unknown degradations. Specifically, CPA-Enhancer progressively adapts its enhancement strategy under the step-by-step guidance of CoT prompts, that encode degradation-related information. To the best of our knowledge, it's the first work that exploits CoT prompting for object detection tasks. Overall, CPA-Enhancer is a plug-and-play enhancement model that can be integrated into any generic detectors to achieve substantial gains on degraded images, without knowing the degradation type priorly. Experimental results demonstrate that CPA-Enhancer not only sets the new state of the art for object detection but also boosts the performance of other downstream vision tasks under unknown degradations.
翻訳日:2024-03-25 21:31:40 公開日:2024-03-22
# 量を超えて: 都市におけるインフラ品質規定の不平等を機械学習で評価する

Beyond Quantities: Machine Learning-based Characterization of Inequality in Infrastructure Quality Provision in Cities ( http://arxiv.org/abs/2403.12074v2 )

ライセンス: Link先を確認
Bo Li, Ali Mostafavi, (参考訳) 本研究の目的は,都市部におけるインフラ品質の不平等を特徴づけることである。 都市部におけるインフラの不平等を特徴づけることの重要性を認識し、都市開発計画を伝えるための定量化指標を提供したが、既存の手法の大半はインフラの量を測定することに集中しており、インフラがより良くなると仮定している。 また,既存の研究は,推定主観的重みに基づいて都市部におけるインフラ整備の状況を決定する指標に基づくアプローチに重点を置いている。 主観的重みから得られるインフラ量と指標の使用に焦点が当てられていることは、都市不平等や環境正義の考慮にかかわるインフラの不平等を適切に検証する能力を妨げている。 このギャップを認識し, 環境負荷を発生させるインフラストラクチャの特徴を同定する機械学習に基づく手法を提案し, モデルにより得られた重みを用いて, 都市の空間領域におけるインフラストラクチャ品質規定を算出し, インフラストラクチャ品質の不平等の程度を定量化する。 米国の5大都市圏におけるモデルの実装は、インフラ品質の不平等を特徴づけ、インフラ特徴の重みの都市固有の差異を捉えたアプローチの能力を実証している。 また、低所得層が居住する地域では、インフラ品質の供給が低く、インフラ品質の供給が都市格差の決定要因であることが示唆された。 したがって,提案手法は,データ駆動およびマシンインテリジェンスに基づく洞察に基づいて,インフラの公平性と環境正義を促進するため,統合都市設計戦略に効果的に活用することができる。

The objective of this study is to characterize inequality in infrastructure quality across urban areas. While a growing of body of literature has recognized the importance of characterizing infrastructure inequality in cities and provided quantified metrics to inform urban development plans, the majority of the existing approaches focus primarily on measuring the quantity of infrastructure, assuming that more infrastructure is better. Also, the existing research focuses primarily on index-based approaches in which the status of infrastructure provision in urban areas is determined based on assumed subjective weights. The focus on infrastructure quantity and use of indices obtained from subjective weights has hindered the ability to properly examine infrastructure inequality as it pertains to urban inequality and environmental justice considerations. Recognizing this gap, we propose a machine learning-based approach in which infrastructure features that shape environmental hazard exposure are identified and we use the weights obtained by the model to calculate an infrastructure quality provision for spatial areas of cities and accordingly, quantify the extent of inequality in infrastructure quality. The implementation of the model in five metropolitan areas in the U.S. demonstrates the capability of the proposed approach in characterizing inequality in infrastructure quality and capturing city-specific differences in the weights of infrastructure features. The results also show that areas in which low-income populations reside have lower infrastructure quality provision, suggesting the lower infrastructure quality provision as a determinant of urban disparities. Accordingly, the proposed approach can be effectively used to inform integrated urban design strategies to promote infrastructure equity and environmental justice based on data-driven and machine intelligence-based insights.
翻訳日:2024-03-25 21:31:40 公開日:2024-03-22
# Stance Reasoner: 明示的推論によるソーシャルメディア上のゼロショットスタンス検出

Stance Reasoner: Zero-Shot Stance Detection on Social Media with Explicit Reasoning ( http://arxiv.org/abs/2403.14895v1 )

ライセンス: Link先を確認
Maksym Taranukhin, Vered Shwartz, Evangelos Milios, (参考訳) ソーシャルメディアプラットフォームは、意見のあるコンテンツの豊富なソースです。 スタンス検出は、そうしたコンテンツから様々なトピックに関するユーザの意見を自動的に抽出することを可能にする。 モデルの成功が依存するゼロショットスタンス検出に焦点を当てる。 (a)対象トピックに関する知識,及び (b)新しいトピックに使える一般的な推論戦略を学ぶこと。 本稿では,ソーシャルメディア上でのゼロショットスタンス検出手法であるStance Reasonerを提案する。 具体的には、事前学習された言語モデルを世界知識の源として使用し、中間的推論ステップを生成するために、チェーン・オブ・コンテクスト・ラーニング・アプローチを用いる。 Stance Reasonerは、完全な教師付きモデルを含む、現在の最先端モデルを3つのTwitterデータセットでパフォーマンスします。 ターゲットをまたいでより一般化できると同時に、その予測に対して明示的で解釈可能な説明を提供する。

Social media platforms are rich sources of opinionated content. Stance detection allows the automatic extraction of users' opinions on various topics from such content. We focus on zero-shot stance detection, where the model's success relies on (a) having knowledge about the target topic; and (b) learning general reasoning strategies that can be employed for new topics. We present Stance Reasoner, an approach to zero-shot stance detection on social media that leverages explicit reasoning over background knowledge to guide the model's inference about the document's stance on a target. Specifically, our method uses a pre-trained language model as a source of world knowledge, with the chain-of-thought in-context learning approach to generate intermediate reasoning steps. Stance Reasoner outperforms the current state-of-the-art models on 3 Twitter datasets, including fully supervised models. It can better generalize across targets, while at the same time providing explicit and interpretable explanations for its predictions.
翻訳日:2024-03-25 18:57:02 公開日:2024-03-22
# LLMに基づくバイアス検出におけるバイアスの探索--LLMと人間の知覚の相違

Investigating Bias in LLM-Based Bias Detection: Disparities between LLMs and Human Perception ( http://arxiv.org/abs/2403.14896v1 )

ライセンス: Link先を確認
Luyang Lin, Lingzhi Wang, Jinsong Guo, Kam-Fai Wong, (参考訳) ソーシャルメディアにおける偽情報の拡散と偽情報の拡散は、メディアバイアスを検出することの重要性を浮き彫りにしている。 堅牢なLarge Language Models (LLM) はバイアス予測の基本的なツールとして登場したが、これらのモデルに固有のバイアスに関する懸念は続いている。 本研究では, LLMにおけるバイアスの有無と, メディアバイアス検出への影響について検討する。 メディアコンテンツのバイアス検出にのみ焦点をあてる従来のアプローチとは別に、LLMシステム自体のバイアスを掘り下げる。 特に政治バイアス予測やテキスト継続タスクにおいて,LLMがバイアスを示すかどうかを精査して検討する。 さらに,LLMフレームワーク内でのバイアス表現の微妙なバリエーションを明らかにすることを目的として,多様なトピックにまたがるバイアスについて検討する。 重要なことは、迅速なエンジニアリングとモデル微調整を含むデバイアスング戦略を提案することである。 異なるLLM間でのバイアス傾向の広範囲な解析は、言語モデルにおけるより広いバイアス伝播の風景に光を当てる。 この研究は、LLMバイアスの理解を深め、バイアス検出タスクにおけるその意味に関する重要な洞察を提供し、より堅牢で公平なAIシステムへの道を開く。

The pervasive spread of misinformation and disinformation in social media underscores the critical importance of detecting media bias. While robust Large Language Models (LLMs) have emerged as foundational tools for bias prediction, concerns about inherent biases within these models persist. In this work, we investigate the presence and nature of bias within LLMs and its consequential impact on media bias detection. Departing from conventional approaches that focus solely on bias detection in media content, we delve into biases within the LLM systems themselves. Through meticulous examination, we probe whether LLMs exhibit biases, particularly in political bias prediction and text continuation tasks. Additionally, we explore bias across diverse topics, aiming to uncover nuanced variations in bias expression within the LLM framework. Importantly, we propose debiasing strategies, including prompt engineering and model fine-tuning. Extensive analysis of bias tendencies across different LLMs sheds light on the broader landscape of bias propagation in language models. This study advances our understanding of LLM bias, offering critical insights into its implications for bias detection tasks and paving the way for more robust and equitable AI systems
翻訳日:2024-03-25 18:57:02 公開日:2024-03-22
# 形態的同変PDEとGANに基づく幾何学的生成モデル

Geometric Generative Models based on Morphological Equivariant PDEs and GANs ( http://arxiv.org/abs/2403.14897v1 )

ライセンス: Link先を確認
El Hadji S. Diop, Thierno Fall, Alioune Mbengue, Mohamed Daoudi, (参考訳) コンテンツと画像生成は、テクスチャ、エッジ、その他の薄い画像構造などの特定の特徴を抽出することにより、ノイズの多い情報からデータを作成し、生成する。 ここでは生成モデルに興味があり、2つの主要な問題に対処しています。 まず,マルチスケールの幾何学的特徴を考慮した特定特徴抽出の改良,およびその複雑性を低減し,幾何学的解釈性を提供するためのネットワークの等価性について述べる。 そこで本研究では, グループ畳み込みニューラルネットワーク(G-CNN)のための等変偏微分方程式(PDE)に基づく幾何生成モデルを提案する。 等変PDE層はリーマン多様体で定式化されたマルチスケールのダイレーションと浸食で構成され、群対称性はリー群上で定義される。 我々はリー群構造を利用して層内の等式を適切に統合し、リーマン計量を用いてマルチスケールなモルフォロジー演算を解くことができる。 リー群の各点は多様体の特異点と関連付けられており、リー群の下でのテンソル場不変量からリーマン多様体上の計量を導出するのに役立ち、誘導計量は同じ対称性を持つ。 提案した幾何形態GAN(GM-GAN)は、PDE-G-CNNにおいて提案された形態的同変畳み込みを用いて古典的CNNに非線形性をもたらす。 GM-GANはMNISTデータに基づいて評価され、GANと比較される。 予備的な結果は、GM-GANモデルが古典的GANより優れていることを示している。

Content and image generation consist in creating or generating data from noisy information by extracting specific features such as texture, edges, and other thin image structures. We are interested here in generative models, and two main problems are addressed. Firstly, the improvements of specific feature extraction while accounting at multiscale levels intrinsic geometric features; and secondly, the equivariance of the network to reduce its complexity and provide a geometric interpretability. To proceed, we propose a geometric generative model based on an equivariant partial differential equation (PDE) for group convolution neural networks (G-CNNs), so called PDE-G-CNNs, built on morphology operators and generative adversarial networks (GANs). Equivariant morphological PDE layers are composed of multiscale dilations and erosions formulated in Riemannian manifolds, while group symmetries are defined on a Lie group. We take advantage of the Lie group structure to properly integrate the equivariance in layers, and are able to use the Riemannian metric to solve the multiscale morphological operations. Each point of the Lie group is associated with a unique point in the manifold, which helps us derive a metric on the Riemannian manifold from a tensor field invariant under the Lie group so that the induced metric has the same symmetries. The proposed geometric morphological GAN (GM-GAN) is obtained by using the proposed morphological equivariant convolutions in PDE-G-CNNs to bring nonlinearity in classical CNNs. GM-GAN is evaluated on MNIST data and compared with GANs. Preliminary results show that GM-GAN model outperforms classical GAN.
翻訳日:2024-03-25 18:57:02 公開日:2024-03-22
# Web によるメラノーマ検出

Web-based Melanoma Detection ( http://arxiv.org/abs/2403.14898v1 )

ライセンス: Link先を確認
SangHyuk Kim, Edward Gaibor, Daniel Haehn, (参考訳) メラノーマは皮膚がんの最も攻撃的な形態であり、早期発見は生存率を大幅に増加させ、がんの拡散を防ぐことができる。 しかし、標準化されたデータセットや評価方法が欠如しているため、信頼性の高い自動検出技術の開発は困難である。 本研究では,11のデータセットと24の最先端ディープラーニングアーキテクチャを組み合わせた54の組み合わせをサポートする統一メラノーマ分類手法を提案する。 1,296の実験を公平に比較することができ、その結果、Mela-Dという名前のWebベースのMeshNetアーキテクチャにデプロイ可能な軽量モデルが実現される。 このアプローチはパラメータを24倍にすることで最大33倍高速に実行でき、以前の未確認画像ではResNet50に匹敵する88.8\%の精度が得られる。 これにより、コンシューマレベルのハードウェア上で実行可能な実世界の環境において、効率的かつ正確なメラノーマ検出が可能になる。

Melanoma is the most aggressive form of skin cancer, and early detection can significantly increase survival rates and prevent cancer spread. However, developing reliable automated detection techniques is difficult due to the lack of standardized datasets and evaluation methods. This study introduces a unified melanoma classification approach that supports 54 combinations of 11 datasets and 24 state-of-the-art deep learning architectures. It enables a fair comparison of 1,296 experiments and results in a lightweight model deployable to the web-based MeshNet architecture named Mela-D. This approach can run up to 33x faster by reducing parameters 24x to yield an analogous 88.8\% accuracy comparable with ResNet50 on previously unseen images. This allows efficient and accurate melanoma detection in real-world settings that can run on consumer-level hardware.
翻訳日:2024-03-25 18:57:02 公開日:2024-03-22
# 補助情報を含む雑音行列補完の統計的推測

Statistical Inference For Noisy Matrix Completion Incorporating Auxiliary Information ( http://arxiv.org/abs/2403.14899v1 )

ライセンス: Link先を確認
Shujie Ma, Po-Yao Niu, Yichong Zhang, Yinchu Zhu, (参考訳) 本稿では,補助共変量が存在する場合の半教師付きモデルにおける雑音行列補完の統計的推測について検討する。 モデルは2つの部分から構成される。 1つは観測されない潜在因子によって誘導される低ランク行列であり、もう1つは高次元の列ベクトルからなる係数行列を通して観測された共変量の影響をモデル化する。 我々は,共変量のロジスティック回帰を通じて応答の観測パターンをモデル化し,サンプルサイズが大きくなるにつれてその確率をゼロにすることができる。 検討した文脈において,反復最小二乗(LS)推定手法を適用した。 反復LS法は一般に低い計算コストを享受するが、結果として得られる推定値の統計的性質を導出することは難しい課題である。 提案手法は数回の反復しか必要とせず,結果として得られる低ランク行列と係数行列のエントリーワイズ推定器は漸近正規分布を持つことが保証されている。 その結果、未知行列の各エントリに対して個別の推論を行うことができる。 また,高次元係数行列に対する乗算器ブートストラップを用いた同時試験手法を提案する。 この同時推論ツールは、欠落したエントリの予測に対する共変量の影響をさらに調べるのに役立つ。

This paper investigates statistical inference for noisy matrix completion in a semi-supervised model when auxiliary covariates are available. The model consists of two parts. One part is a low-rank matrix induced by unobserved latent factors; the other part models the effects of the observed covariates through a coefficient matrix which is composed of high-dimensional column vectors. We model the observational pattern of the responses through a logistic regression of the covariates, and allow its probability to go to zero as the sample size increases. We apply an iterative least squares (LS) estimation approach in our considered context. The iterative LS methods in general enjoy a low computational cost, but deriving the statistical properties of the resulting estimators is a challenging task. We show that our method only needs a few iterations, and the resulting entry-wise estimators of the low-rank matrix and the coefficient matrix are guaranteed to have asymptotic normal distributions. As a result, individual inference can be conducted for each entry of the unknown matrices. We also propose a simultaneous testing procedure with multiplier bootstrap for the high-dimensional coefficient matrix. This simultaneous inferential tool can help us further investigate the effects of covariates for the prediction of missing entries.
翻訳日:2024-03-25 18:57:02 公開日:2024-03-22
# Hydro: MLクエリの適応クエリ処理

Hydro: Adaptive Query Processing of ML Queries ( http://arxiv.org/abs/2403.14902v1 )

ライセンス: Link先を確認
Gaurav Tarlok Kakkar, Jiashen Cao, Aubhro Sengupta, Joy Arulraj, Hyesoon Kim, (参考訳) リレーショナルデータベース管理システム(DBMS)におけるクエリ最適化は、高速なクエリ処理に不可欠である。 クエリオプティマイザは、実行前にクエリを効果的に最適化するために、正確な選択性とコスト見積に依存する。 この戦略はリレーショナルDBMSには有効であるが,機械学習(ML)クエリ処理に適したDBMSには十分ではない。 ML中心のDBMSでは、クエリ最適化は2つの理由から難しい。 まず、クエリのパフォーマンスボトルネックは、ディープラーニングモデルをラップするユーザ定義関数(UDF)に移行し、クエリをプロファイリングせずにUDF統計を正確に見積もるのは困難である。 これは不正確な統計とサブ最適クエリ計画につながる。 次に、MLクエリの最適なクエリプランはデータ依存であり、実行中にクエリ計画に適応するためにDBMSを必要とする。 したがって、このようなクエリには静的なクエリプランでは不十分である。 本稿では、適応クエリ処理(AQP)を用いて、MLクエリを効率的に処理するML中心DBMSであるHydroについて述べる。 Hydroは、最適な述語評価順序を確保し、UDF実行のスケーラビリティを向上させることで、UDFベースのクエリ述語を迅速に評価するように設計されている。 AQPを統合することで、HydroはUDF統計を継続的に監視し、データを最適な順序で述語にルーティングし、述語を評価するリソースを動的に割り当てる。 ベースラインシステム上で最大11.52倍のスピードアップを実現し,Hydroの有効性を実証する。

Query optimization in relational database management systems (DBMSs) is critical for fast query processing. The query optimizer relies on precise selectivity and cost estimates to effectively optimize queries prior to execution. While this strategy is effective for relational DBMSs, it is not sufficient for DBMSs tailored for processing machine learning (ML) queries. In ML-centric DBMSs, query optimization is challenging for two reasons. First, the performance bottleneck of the queries shifts to user-defined functions (UDFs) that often wrap around deep learning models, making it difficult to accurately estimate UDF statistics without profiling the query. This leads to inaccurate statistics and sub-optimal query plans. Second, the optimal query plan for ML queries is data-dependent, necessitating DBMSs to adapt the query plan on the fly during execution. So, a static query plan is not sufficient for such queries. In this paper, we present Hydro, an ML-centric DBMS that utilizes adaptive query processing (AQP) for efficiently processing ML queries. Hydro is designed to quickly evaluate UDF-based query predicates by ensuring optimal predicate evaluation order and improving the scalability of UDF execution. By integrating AQP, Hydro continuously monitors UDF statistics, routes data to predicates in an optimal order, and dynamically allocates resources for evaluating predicates. We demonstrate Hydro's efficacy through four illustrative use cases, delivering up to 11.52x speedup over a baseline system.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# Adaptive Coded Federated Learning: プライバシ保護とストラグラー緩和

Adaptive Coded Federated Learning: Privacy Preservation and Straggler Mitigation ( http://arxiv.org/abs/2403.14905v1 )

ライセンス: Link先を確認
Chengxi Li, Ming Xiao, Mikael Skoglund, (参考訳) 本稿では,トラグラーの存在下でのフェデレーション学習の問題に対処する。 この問題に対して、中央サーバが非ストラグラーからのグラデーションを集約し、プライバシ保存グローバルコード化されたデータセットから計算した勾配を集約して、トラグラーの負の影響を緩和する、コード付きフェデレーション学習フレームワークが提案されている。 しかしながら、これらの勾配を集約する場合、固定重み付けはイテレーション間で一貫して適用され、グローバルコード化されたデータセットの生成プロセスや、反復よりもトレーニングされたモデルのダイナミックな性質を無視する。 この監視は学習性能を低下させる可能性がある。 この欠点を克服するために,適応符号化フェデレーション学習(ACFL)と呼ばれる新しい手法を提案する。 ACFLでは、トレーニング前、各デバイスが中央サーバに付加ノイズのあるコード付きローカルデータセットをアップロードし、プライバシー保護要件の下でグローバルコード付きデータセットを生成する。 トレーニングの各イテレーションにおいて、中央サーバは、非ストラグラーから受け取った勾配と、グローバルコード化されたデータセットから計算された勾配を集約する。 本ポリシーでは,学習性能を収束解析により分析し,相互情報差分プライバシを介してプライバシ性能を特徴付ける。 最後に, 適応的でない手法と比較してACFLの優位性を示すシミュレーションを行う。

In this article, we address the problem of federated learning in the presence of stragglers. For this problem, a coded federated learning framework has been proposed, where the central server aggregates gradients received from the non-stragglers and gradient computed from a privacy-preservation global coded dataset to mitigate the negative impact of the stragglers. However, when aggregating these gradients, fixed weights are consistently applied across iterations, neglecting the generation process of the global coded dataset and the dynamic nature of the trained model over iterations. This oversight may result in diminished learning performance. To overcome this drawback, we propose a new method named adaptive coded federated learning (ACFL). In ACFL, before the training, each device uploads a coded local dataset with additive noise to the central server to generate a global coded dataset under privacy preservation requirements. During each iteration of the training, the central server aggregates the gradients received from the non-stragglers and the gradient computed from the global coded dataset, where an adaptive policy for varying the aggregation weights is designed. Under this policy, we optimize the performance in terms of privacy and learning, where the learning performance is analyzed through convergence analysis and the privacy performance is characterized via mutual information differential privacy. Finally, we perform simulations to demonstrate the superiority of ACFL compared with the non-adaptive methods.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# 授業インクリメンタルラーニングにおける不均衡フォーミングの回避

Defying Imbalanced Forgetting in Class Incremental Learning ( http://arxiv.org/abs/2403.14910v1 )

ライセンス: Link先を確認
Shixiong Xu, Gaofeng Meng, Xing Nie, Bolin Ni, Bin Fan, Shiming Xiang, (参考訳) 我々は,同じ古いタスクにおいて,異なるクラスの精度の高レベルの不均衡を初めて観察する。 この興味深い現象は、リプレイベースのClass Incremental Learning (CIL)で発見され、破滅的な忘れ事が起こる前にその正確さが類似していることから、学習したクラスの不均衡な忘れ事を強調している。 この発見は、CILの測定値として平均的なインクリメンタルな精度に依存するため、これまでも不明であり、同じタスク内のクラスの精度が類似していると仮定している。 しかし、この仮定は破滅的な忘れ込みに直面して無効である。 さらなる実証的研究は、この不均衡な忘れは意味論的に類似した古いクラスと新しいクラスの間の表象の衝突によって引き起こされることを示している。 これらの競合は、リプレイベースのCILメソッドに存在するデータ不均衡に根ざしている。 これらの知見に基づいてCLAD(CLass-Aware Disentanglement)を提案する。 重要なことに、CLADは既存のCILメソッドにシームレスに統合できる。 大規模な実験の結果、CLADは現在のリプレイベースの手法を一貫して改善し、パフォーマンスは2.56%向上した。

We observe a high level of imbalance in the accuracy of different classes in the same old task for the first time. This intriguing phenomenon, discovered in replay-based Class Incremental Learning (CIL), highlights the imbalanced forgetting of learned classes, as their accuracy is similar before the occurrence of catastrophic forgetting. This discovery remains previously unidentified due to the reliance on average incremental accuracy as the measurement for CIL, which assumes that the accuracy of classes within the same task is similar. However, this assumption is invalid in the face of catastrophic forgetting. Further empirical studies indicate that this imbalanced forgetting is caused by conflicts in representation between semantically similar old and new classes. These conflicts are rooted in the data imbalance present in replay-based CIL methods. Building on these insights, we propose CLass-Aware Disentanglement (CLAD) to predict the old classes that are more likely to be forgotten and enhance their accuracy. Importantly, CLAD can be seamlessly integrated into existing CIL methods. Extensive experiments demonstrate that CLAD consistently improves current replay-based methods, resulting in performance gains of up to 2.56%.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# 多体物理学におけるドープ安定化状態とその発見方法

Doped stabilizer states in many-body physics and where to find them ( http://arxiv.org/abs/2403.14912v1 )

ライセンス: Link先を確認
Andi Gu, Salvatore F. E. Oliviero, Lorenzo Leone, (参考訳) この研究は、ドープ安定化状態、量子情報理論の概念、摂動多体量子系における固有状態の構造の基本的な関係を明らかにする。 我々は、可換なパウリ作用素(すなわち、安定なハミルトニアン)の和と、限られた数の任意のパウリ項からなる摂動からなるハミルトニアンに対して、固有状態は、小さな安定化子零性を持つドープ安定化状態として表すことができることを証明した。 この結果により、高度に絡み合った状態であっても、多体系の幅広いクラスに安定化器技術を適用することができる。 これに基づいて,低エネルギー固有状態の探索,クエンチダイナミクスのシミュレーション,ギブス状態の生成,およびこれらのシステムにおけるエンタングルメントエントロピーの計算といったタスクのための効率的な古典的アルゴリズムを開発した。 我々の研究は、トポロジカル秩序の堅牢性と摂動下の多体系の力学を理解するための新たな可能性を開き、量子情報、絡み合い、多体系の相互作用に関する新しい洞察の道を開く。

This work uncovers a fundamental connection between doped stabilizer states, a concept from quantum information theory, and the structure of eigenstates in perturbed many-body quantum systems. We prove that for Hamiltonians consisting of a sum of commuting Pauli operators (i.e., stabilizer Hamiltonians) and a perturbation composed of a limited number of arbitrary Pauli terms, the eigenstates can be represented as doped stabilizer states with small stabilizer nullity. This result enables the application of stabilizer techniques to a broad class of many-body systems, even in highly entangled regimes. Building on this, we develop efficient classical algorithms for tasks such as finding low-energy eigenstates, simulating quench dynamics, preparing Gibbs states, and computing entanglement entropies in these systems. Our work opens up new possibilities for understanding the robustness of topological order and the dynamics of many-body systems under perturbations, paving the way for novel insights into the interplay of quantum information, entanglement, and many-body systems.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# 光検出器設計の最適化:モンテカルロと遺伝的アルゴリズムの比較

Optimisation of photodetectors design: comparison between Montecarlo and Genetic Algorithms ( http://arxiv.org/abs/2403.14913v1 )

ライセンス: Link先を確認
Patricia M. E. Vázquez, Ligia Ciocci Brazzano, Francisco E. Veiras, Patricio A. Sorichetti, (参考訳) 本稿では,超インピーダンス増幅器とフォトダイオードに基づく光検出器の設計に適用したモンテカルロ・遺伝的アルゴリズムについて述べる。 回路性能はメリット関数で評価され、系統探索法が参照として使用される。 設計パラメータはフィードバックネットワーク成分とフォトダイオードバイアス電圧である。 最適化を評価するために,システム検索により得られるメリットと最適なメリットとの相対的な差を定義した。 どちらのアルゴリズムでも、電力法則に従って相対差は評価の数によって減少する。 遺伝的アルゴリズムのパワーロー指数はモンテカルロ (0.74 vs. 0.50) よりも大きい。 両アルゴリズムは系統探索法と比較して有利であり, 遺伝的アルゴリズムはモンテカルロよりも優れた性能を示す。

We present Montecarlo and Genetic Algorithm optimisations applied to the design of photodetectors based on a transimpedance amplifier and a photodiode. The circuit performance is evaluated with a merit function and the systematic search method is used as a reference. The design parameters are the feedback network components and the photodiode bias voltage. To evaluate the optimisations, we define the relative difference between its merit and the optimum merit obtained by the systematic search. In both algorithms, the relative difference decreases with the number of evaluations, following a power law. The power-law exponent for the Genetic Algorithm is larger than that of Montecarlo (0.74 vs. 0.50). We conclude that both algorithms are advantageous compared to the systematic search method, and that the Genetic Algorithm shows a better performance than Montecarlo.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# Snail: セキュアな単一イテレーションローカライゼーション

Snail: Secure Single Iteration Localization ( http://arxiv.org/abs/2403.14916v1 )

ライセンス: Link先を確認
James Choncholas, Pujith Kachana, André Mateus, Gregoire Phillips, Ada Gavrilovska, (参考訳) ローカライゼーション(Localization)とは、画像と環境マップからカメラの位置と向きを決定するコンピュータビジョンタスクである。 まず、画像とマップが信頼できない第三者にローカライゼーションをオフロードしたいクライアントによって保持されている場合と、画像とマップが信頼できない第三者によって別々に保持されている場合の2つのシナリオをサポートするプライバシー保護方式でローカライゼーションを行う方法を提案する。 画像とマップが機密である場合には、プライバシ保護のローカライゼーションが必要であり、オフロードはデバイス上の電力を保持し、他のタスクのためのリソースを解放する。 そこで我々は,既存のローカライゼーション手法とマルチパーティ計算(MPC),特にガーブラード回路を統合し,最近の研究成果が脆弱である既存の難読化ベースのアプローチとは対照的に,証明ベースのセキュリティ保証を提供する。 本稿では,2つのローカライゼーション手法,ガーブロード回路に適したローカライゼーションのベースラインデータ公開型適応と,新しいシングルイテレーションローカライゼーションを提案する。 本手法は,入力画像,マップ,出力の機密性を保ちながら,通信ラウンドの増加を犠牲にして全体の性能を向上するが,ラウンド当たりの計算量や通信量を削減できる。 単一イテレーションのローカライゼーションは、入力画像、環境マップ、位置、またはサーバのオフロードに対する向きを明らかにすることなく、最初のロボットで実際の使用をオフロードすることが可能なローカライゼーションへのガーブレード回路の簡単な応用よりも2桁以上高速である。

Localization is a computer vision task by which the position and orientation of a camera is determined from an image and environmental map. We propose a method for performing localization in a privacy preserving manner supporting two scenarios: first, when the image and map are held by a client who wishes to offload localization to untrusted third parties, and second, when the image and map are held separately by untrusting parties. Privacy preserving localization is necessary when the image and map are confidential, and offloading conserves on-device power and frees resources for other tasks. To accomplish this we integrate existing localization methods and secure multi-party computation (MPC), specifically garbled circuits, yielding proof-based security guarantees in contrast to existing obfuscation-based approaches which recent related work has shown vulnerable. We present two approaches to localization, a baseline data-oblivious adaptation of localization suitable for garbled circuits and our novel Single Iteration Localization. Our technique improves overall performance while maintaining confidentiality of the input image, map, and output pose at the expense of increased communication rounds but reduced computation and communication required per round. Single Iteration Localization is over two orders of magnitude faster than a straightforward application of garbled circuits to localization enabling real-world usage in the first robot to offload localization without revealing input images, environmental map, position, or orientation to offload servers.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# カーネルから見た2層ニューラルネットワークの平均場解析

Mean-field Analysis on Two-layer Neural Networks from a Kernel Perspective ( http://arxiv.org/abs/2403.14917v1 )

ライセンス: Link先を確認
Shokichi Takakura, Taiji Suzuki, (参考訳) 本稿では,カーネル方式のレンズを用いて,平均場状態における2層ニューラルネットワークの特徴学習能力について検討する。 第1層によって誘導されるカーネルのダイナミクスに焦点を合わせるため、第2層が第1層よりもはるかに速く動く2時間スケールの制限を利用する。 この限界において、学習問題は本質的なカーネル上の最小化問題に還元される。 次に、平均場ランゲヴィンダイナミクスと導出時間と粒子の離散化誤差のグローバル収束を示す。 また、2層ニューラルネットワークは、どのカーネル手法よりも効率的に複数の再生カーネルヒルベルト空間の結合を学習でき、ニューラルネットワークはターゲット関数と整合するデータ依存カーネルを取得できることを示した。 さらに,大域的最適度に収束するラベルノイズプロシージャを開発し,その自由度が暗黙の正規化として現れることを示す。

In this paper, we study the feature learning ability of two-layer neural networks in the mean-field regime through the lens of kernel methods. To focus on the dynamics of the kernel induced by the first layer, we utilize a two-timescale limit, where the second layer moves much faster than the first layer. In this limit, the learning problem is reduced to the minimization problem over the intrinsic kernel. Then, we show the global convergence of the mean-field Langevin dynamics and derive time and particle discretization error. We also demonstrate that two-layer neural networks can learn a union of multiple reproducing kernel Hilbert spaces more efficiently than any kernel methods, and neural networks acquire data-dependent kernel which aligns with the target function. In addition, we develop a label noise procedure, which converges to the global optimum and show that the degrees of freedom appears as an implicit regularization.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# 深層学習による気象予報手法:伊藤島を事例として

Deep learning-based method for weather forecasting: A case study in Itoshima ( http://arxiv.org/abs/2403.14918v1 )

ライセンス: Link先を確認
Yuzhong Cheng, Linh Thi Hoai Nguyen, Akinori Ozaki, Ton Viet Ta, (参考訳) 正確な天気予報は幅広い応用において最重要であり、科学的、社会的な関心を惹き付けている。 しかし、気象システムの複雑さは正確な予測に重大な課題をもたらす。 本研究では,九州,糸島における気象予報に適した多層パーセプトロンモデルを提案する。 我々の細心の注意を払って設計したアーキテクチャは、Long Short-Term MemoryやRecurrent Neural Networksといったベンチマークを上回り、既存のモデルよりも優れた性能を示している。

Accurate weather forecasting is of paramount importance for a wide range of practical applications, drawing substantial scientific and societal interest. However, the intricacies of weather systems pose substantial challenges to accurate predictions. This research introduces a multilayer perceptron model tailored for weather forecasting in Itoshima, Kyushu, Japan. Our meticulously designed architecture demonstrates superior performance compared to existing models, surpassing benchmarks such as Long Short-Term Memory and Recurrent Neural Networks.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# 効率的な自己回帰テキスト生成のための階層型スキップデコーディング

Hierarchical Skip Decoding for Efficient Autoregressive Text Generation ( http://arxiv.org/abs/2403.14919v1 )

ライセンス: Link先を確認
Yunqi Zhu, Xuebing Yang, Yuanyuan Wu, Wensheng Zhang, (参考訳) 自己回帰復号戦略は、事前訓練された言語モデルを用いたテキスト生成タスクの一般的な方法であり、早期退避は推論段階を高速化するための効果的なアプローチである。 本研究では,効率的な自己回帰テキスト生成のためのHSD(Hierarchical Skip Decoding)という新しい復号法を提案する。 追加のトレーニング可能なコンポーネントを必要とする既存の方法とは異なり、HSDは自動回帰テキスト生成モデルに適用可能なプラグアンドプレイ方式であり、現在のシーケンス長に基づいて階層的にデコード層を適応的にスキップし、計算負荷を削減し、計算資源を割り当てる。 事前訓練された言語モデルを用いた5つのテキスト生成データセットに関する総合実験は、効率性とテキスト品質のバランスをとる上でのHSDの利点を示している。 ほぼ半分のレイヤがスキップされているため、HSDはバニラの自動回帰デコードに比べてテキスト品質の90%を維持でき、競合するアプローチよりも優れています。

Autoregressive decoding strategy is a commonly used method for text generation tasks with pre-trained language models, while early-exiting is an effective approach to speedup the inference stage. In this work, we propose a novel decoding strategy named Hierarchical Skip Decoding (HSD) for efficient autoregressive text generation. Different from existing methods that require additional trainable components, HSD is a plug-and-play method applicable to autoregressive text generation models, it adaptively skips decoding layers in a hierarchical manner based on the current sequence length, thereby reducing computational workload and allocating computation resources. Comprehensive experiments on five text generation datasets with pre-trained language models demonstrate HSD's advantages in balancing efficiency and text quality. With almost half of the layers skipped, HSD can sustain 90% of the text quality compared to vanilla autoregressive decoding, outperforming the competitive approaches.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# CODA:HARのためのCOst- efficient test-time Domain Adaptation Mechanism

CODA: A COst-efficient Test-time Domain Adaptation Mechanism for HAR ( http://arxiv.org/abs/2403.14922v1 )

ライセンス: Link先を確認
Minghui Qiu, Yandao Huang, Lin Chen, Lu Wang, Kaishun Wu, (参考訳) 近年,モバイルセンシングの新たな研究により,人間の日常生活が向上する新たなシナリオが生まれている。 既存のソリューションは通常、ニューラルネットワークに基づくワンオフ適応スキームを採用しており、人間中心の知覚シナリオにおける不確実なドリフト条件に対する堅牢性を確保するのに苦労している。 本稿では,データ分散の観点からのリアルタイムドリフトを能動的学習理論で処理し,デバイス上でのコスト効率の確保を図るモバイルセンシングのためのCOst- efficient Domain AdaptationメカニズムであるCODAを提案する。 クラスタリング損失と重要度重み付けされたアクティブラーニングアルゴリズムを導入することで、CODAはコスト効率のよいインスタンスレベルの更新において、異なるクラスタ間の関係を維持し、データ分散内で有意義な構造を保存する。 また、人間活動認識タスクのためのニューラルネットワークベースのソリューションとシームレスに統合することで、その一般化を示す。 携帯ベース、ウォッチベース、センサーベースの統合センシングタスクなど、さまざまなデータセットの綿密な評価を通じて、CODAによるオンライン適応の可能性と可能性を実証する。 学習可能なパラメータがなくてもCODAが達成した有望な結果は、十分なフィードバックで特定のアプリケーション設計を通じて邪魔にならない適応を実現する可能性も示唆している。

In recent years, emerging research on mobile sensing has led to novel scenarios that enhance daily life for humans, but dynamic usage conditions often result in performance degradation when systems are deployed in real-world settings. Existing solutions typically employ one-off adaptation schemes based on neural networks, which struggle to ensure robustness against uncertain drifting conditions in human-centric sensing scenarios. In this paper, we propose CODA, a COst-efficient Domain Adaptation mechanism for mobile sensing that addresses real-time drifts from the data distribution perspective with active learning theory, ensuring cost-efficient adaptation directly on the device. By incorporating a clustering loss and importance-weighted active learning algorithm, CODA retains the relationship between different clusters during cost-effective instance-level updates, preserving meaningful structure within the data distribution. We also showcase its generalization by seamlessly integrating it with Neural Network-based solutions for Human Activity Recognition tasks. Through meticulous evaluations across diverse datasets, including phone-based, watch-based, and integrated sensor-based sensing tasks, we demonstrate the feasibility and potential of online adaptation with CODA. The promising results achieved by CODA, even without learnable parameters, also suggest the possibility of realizing unobtrusive adaptation through specific application designs with sufficient feedback.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# 電子健康記録のマルチモーダル分析に関するコントラスト学習

Contrastive Learning on Multimodal Analysis of Electronic Health Records ( http://arxiv.org/abs/2403.14926v1 )

ライセンス: Link先を確認
Tianxi Cai, Feiqing Huang, Ryumei Nakada, Linjun Zhang, Doudou Zhou, (参考訳) 電子健康記録(EHR)システムには、臨床コードのような構造化データや、臨床ノートのような構造化されていないデータを含む、豊富なマルチモーダルな臨床データが含まれている。 しかし、既存の EHR に焦点を当てた多くの研究は、伝統的に個々のモダリティに集中するか、比較的初歩的な方法で異なるモダリティを統合するかのいずれかに焦点を合わせてきた。 このアプローチは、しばしば構造化データと非構造化データを別個のエンティティとして認識し、それらの間の固有のシナジーを無視します。 具体的には、この2つの重要なモダリティは、臨床的に関連があり、複雑に結びついており、補完的な健康情報を含んでいる。 患者の医療史のより完全な写真は、2つのデータモダリティのジョイント分析によって取得される。 視覚言語におけるマルチモーダル・コントラスト学習の大きな成功にもかかわらず、そのポテンシャルは、特にその理論的理解の観点から、多モーダル EHR の領域で過小評価されている。 本稿では,マルチモーダルEHRデータの統計的解析に適合するため,新しいマルチモーダル特徴埋め込み生成モデルを提案し,マルチモーダルEHR特徴表現を得るためのマルチモーダルコントラスト損失を設計する。 本理論は, 単一モダリティ学習と比較してマルチモーダル学習の有効性を実証し, 損失関数の解をポイントワイド相互情報行列の特異値分解に接続する。 この接続は、マルチモーダルEHR特徴表現学習に適したプライバシー保護アルゴリズムの道を開く。 シミュレーション研究により,提案アルゴリズムは様々な構成で良好に動作することが示された。 実世界のERHデータにおける提案アルゴリズムの臨床的有用性をさらに検証する。

Electronic health record (EHR) systems contain a wealth of multimodal clinical data including structured data like clinical codes and unstructured data such as clinical notes. However, many existing EHR-focused studies has traditionally either concentrated on an individual modality or merged different modalities in a rather rudimentary fashion. This approach often results in the perception of structured and unstructured data as separate entities, neglecting the inherent synergy between them. Specifically, the two important modalities contain clinically relevant, inextricably linked and complementary health information. A more complete picture of a patient's medical history is captured by the joint analysis of the two modalities of data. Despite the great success of multimodal contrastive learning on vision-language, its potential remains under-explored in the realm of multimodal EHR, particularly in terms of its theoretical understanding. To accommodate the statistical analysis of multimodal EHR data, in this paper, we propose a novel multimodal feature embedding generative model and design a multimodal contrastive loss to obtain the multimodal EHR feature representation. Our theoretical analysis demonstrates the effectiveness of multimodal learning compared to single-modality learning and connects the solution of the loss function to the singular value decomposition of a pointwise mutual information matrix. This connection paves the way for a privacy-preserving algorithm tailored for multimodal EHR feature representation learning. Simulation studies show that the proposed algorithm performs well under a variety of configurations. We further validate the clinical utility of the proposed algorithm in real-world EHR data.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# The Law does't work like a Computer: Exploring Software Licensing Issues Faced by Legal Practitioners

"The Law Doesn't Work Like a Computer": Exploring Software Licensing Issues Faced by Legal Practitioners ( http://arxiv.org/abs/2403.14927v1 )

ライセンス: Link先を確認
Nathan Wintersgill, Trevor Stalnaker, Laura A. Heymann, Oscar Chaparro, Denys Poshyvanyk, (参考訳) 現代のソフトウェア製品のほとんどはオープンソースコンポーネントを取り入れており、各コンポーネントのライセンスに準拠する必要がある。 非コンプライアンスは大きな反響を招きかねないため、組織はしばしば、ライセンスコンプライアンスの維持、ライセンス問題への対処、および非コンプライアンスのリスク管理のために、法的実践者からのアドバイスを求める。 法律実務者はプロセスにおいて重要な役割を果たすが、オープンソースライセンスコンプライアンスエコシステムにおける彼らの経験について、ソフトウェアエンジニアリングコミュニティではほとんど知られていない。 この知識ギャップを埋めるために、ソフトウェアエンジニアリングと法学研究者の共同チームが、30人の法律実務者と関連する職種を対象にした調査を設計、実施し、16回のフォローアップインタビューを行った。 法律実務者の立場からOSSライセンスコンプライアンスの異なる側面を特定した結果,コンプライアンスの一般的なエコシステム,法律実務者の具体的なコンプライアンスプラクティス,法的実践者が直面する課題の3つの主要な領域において,14の重要な発見が得られた。 本研究の意義について論じる。

Most modern software products incorporate open source components, which requires compliance with each component's licenses. As noncompliance can lead to significant repercussions, organizations often seek advice from legal practitioners to maintain license compliance, address licensing issues, and manage the risks of noncompliance. While legal practitioners play a critical role in the process, little is known in the software engineering community about their experiences within the open source license compliance ecosystem. To fill this knowledge gap, a joint team of software engineering and legal researchers designed and conducted a survey with 30 legal practitioners and related occupations and then held 16 follow-up interviews. We identified different aspects of OSS license compliance from the perspective of legal practitioners, resulting in 14 key findings in three main areas of interest: the general ecosystem of compliance, the specific compliance practices of legal practitioners, and the challenges that legal practitioners face. We discuss the implications of our findings.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# 注意駆動推論: 大規模言語モデルの可能性を解き放つ

Attention-Driven Reasoning: Unlocking the Potential of Large Language Models ( http://arxiv.org/abs/2403.14932v1 )

ライセンス: Link先を確認
Bingli Liao, Danilo Vasconcellos Vargas, (参考訳) 大きな言語モデル(LLM)は目覚ましい能力を示しているが、その推論能力と基盤となるメカニズムはいまだによく分かっていない。 本稿では,注意機構の最適化によるLCMの推論を,追加のトレーニングデータなしで向上させる新しい手法を提案する。 非意味的トークンによる注意分布の非効率性を同定し、歪んだ分布を再バランスさせるアルゴリズムを提案し、よりニュアンスな知識を抽象化できるようにする。 我々の実験は、特に非STEM質問に対して、推論能力を大幅に改善したことを示した。 LLMの推論における注意パターンの役割に関する洞察を提供し、これらの能力を高める手法を提案し、より強力で汎用的な言語モデルを構築する。

Large Language Models (LLMs) have shown remarkable capabilities, but their reasoning abilities and underlying mechanisms remain poorly understood. We present a novel approach to enhance LLMs' reasoning through attention mechanism optimization, without additional training data. We identify inefficiencies in the attention distribution caused by non-semantic tokens and propose an algorithm to re-balance the skewed distribution, enabling the model to abstract more nuanced knowledge. Our experiments demonstrate significantly improved reasoning capabilities, particularly for non-STEM questions. We provide insights into the role of attention patterns in LLMs' reasoning and propose a method to enhance these abilities, paving the way for more powerful and versatile language models.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# 人工物のモデリングに関する調査

Survey on Modeling of Articulated Objects ( http://arxiv.org/abs/2403.14937v1 )

ライセンス: Link先を確認
Jiayi Liu, Manolis Savva, Ali Mahdavi-Amiri, (参考訳) 3Dモデリングはコンピュータビジョン、グラフィックス、ロボット工学における研究課題である。 その目的は、調音された部品の形状と動きを理解し、対象部品の形状と移動性を表現し、実世界の調音された物体を反映する現実的なモデルを作成することである。 本調査は,3次元物体の3次元モデリングにおける現状を包括的に概観するものであり,特に明瞭な部分知覚と明瞭な物体生成(再構成と生成)の課題に焦点をあてている。 我々は、幾何学処理と調音モデリングという2つの観点から、関連文献を体系的にレビューし、議論する。 本調査では,これらの領域における実質的な進歩を概説し,現在進行中の課題を概説し,今後の研究のギャップを明らかにする。 本調査は,コンピュータビジョンとグラフィックスの研究者や実践者に対する基礎的な参考資料として機能することを目的としており,音声オブジェクトモデリングの複雑さに関する洞察を提供する。

3D modeling of articulated objects is a research problem within computer vision, graphics, and robotics. Its objective is to understand the shape and motion of the articulated components, represent the geometry and mobility of object parts, and create realistic models that reflect articulated objects in the real world. This survey provides a comprehensive overview of the current state-of-the-art in 3D modeling of articulated objects, with a specific focus on the task of articulated part perception and articulated object creation (reconstruction and generation). We systematically review and discuss the relevant literature from two perspectives: geometry processing and articulation modeling. Through this survey, we highlight the substantial progress made in these areas, outline the ongoing challenges, and identify gaps for future research. Our survey aims to serve as a foundational reference for researchers and practitioners in computer vision and graphics, offering insights into the complexities of articulated object modeling.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# LLMによるゼロショット対音声生成について

On Zero-Shot Counterspeech Generation by LLMs ( http://arxiv.org/abs/2403.14938v1 )

ライセンス: Link先を確認
Punyajoy Saha, Aalok Agrawal, Abhik Jana, Chris Biemann, Animesh Mukherjee, (参考訳) 多数のLarge Language Models (LLM) の出現に伴い、様々な自然言語処理(NLP)アプリケーションにおけるそのようなモデルの使用が急速に増加している。 反音声生成は、ヘイトスピーチと反音声ペアを微調整したLLMで生成モデルを開発するための重要な課題であるが、これらの試みはいずれもゼロショット設定で大規模言語モデルの本質的な性質を探求するものではない。 そこで本研究では,GPT-2,DialoGPT,ChatGPT,FlanT5の4種類のLLMの性能を,対音声生成のためのゼロショット設定で総合的に解析する。 GPT-2 と DialoGPT では,モデルのサイズ(小,中,大)に対する性能差について検討する。 一方,このような手法がモデルの性能に与える影響を解析し,異なる種類の逆音声を生成するための3つの異なるプロンプト戦略を提案する。 分析の結果,2つのデータセットの生成品質(17%)は改善されているが,毒性は25%増加し,モデルサイズは増加した。 モデルの種類を考慮すると、GPT-2とFlanT5モデルは対音声品質においてかなり優れているが、DialoGPTと比較して高い毒性を持つ。 ChatGPTは、すべてのメトリクスの他のモデルよりも、カウンタースピーチを生成するのがはるかに優れている。 プロンプトの観点からは,提案手法が全てのモデルにおける対言生成を改善するのに有効であることがわかった。

With the emergence of numerous Large Language Models (LLM), the usage of such models in various Natural Language Processing (NLP) applications is increasing extensively. Counterspeech generation is one such key task where efforts are made to develop generative models by fine-tuning LLMs with hatespeech - counterspeech pairs, but none of these attempts explores the intrinsic properties of large language models in zero-shot settings. In this work, we present a comprehensive analysis of the performances of four LLMs namely GPT-2, DialoGPT, ChatGPT and FlanT5 in zero-shot settings for counterspeech generation, which is the first of its kind. For GPT-2 and DialoGPT, we further investigate the deviation in performance with respect to the sizes (small, medium, large) of the models. On the other hand, we propose three different prompting strategies for generating different types of counterspeech and analyse the impact of such strategies on the performance of the models. Our analysis shows that there is an improvement in generation quality for two datasets (17%), however the toxicity increase (25%) with increase in model size. Considering type of model, GPT-2 and FlanT5 models are significantly better in terms of counterspeech quality but also have high toxicity as compared to DialoGPT. ChatGPT are much better at generating counter speech than other models across all metrics. In terms of prompting, we find that our proposed strategies help in improving counter speech generation across all the models.
翻訳日:2024-03-25 18:47:18 公開日:2024-03-22
# STAG4D:時空間アンコールによる4Dガウス世代

STAG4D: Spatial-Temporal Anchored Generative 4D Gaussians ( http://arxiv.org/abs/2403.14939v1 )

ライセンス: Link先を確認
Yifei Zeng, Yanqin Jiang, Siyu Zhu, Yuanxun Lu, Youtian Lin, Hao Zhu, Weiming Hu, Xun Cao, Yao Yao, (参考訳) 事前学習した拡散モデルと3D生成の最近の進歩は、4Dコンテンツ生成への関心を喚起している。 しかし,高忠実度4D生成を時空間整合性で実現することは依然として課題である。 本研究では,事前学習した拡散モデルと動的3次元ガウススプラッティングを組み合わせた,高忠実度4D生成のための新しいフレームワークSTAG4Dを提案する。 3D生成技術からインスピレーションを得たマルチビュー拡散モデルを用いて、入力されたビデオフレームに固定されたマルチビュー画像を初期化する。 マルチビューシーケンスの初期化の時間的一貫性を確保するため,自己アテンション計算において,第1フレームを時間的アンカーとして活用する,シンプルかつ効果的な融合戦略を導入する。 ほぼ一貫したマルチビューシーケンスを用いて、4次元ガウス点雲を最適化するためにスコア蒸留サンプリングを適用する。 4次元ガウス空間は、不安定なガウス勾配を緩和し、ロバストな最適化を行うための適応的なデンシフィケーション戦略が提案されている。 特に、提案したパイプラインは、拡散ネットワークの事前学習や微調整を必要とせず、4D生成タスクに対してよりアクセスしやすく実用的なソリューションを提供する。 広汎な実験により,本手法は,テキスト,画像,ビデオなど多種多様な入力から4D生成のレンダリング品質,空間的時間的整合性,ロバスト性において,先行する4D生成よりも優れることが示された。

Recent progress in pre-trained diffusion models and 3D generation have spurred interest in 4D content creation. However, achieving high-fidelity 4D generation with spatial-temporal consistency remains a challenge. In this work, we propose STAG4D, a novel framework that combines pre-trained diffusion models with dynamic 3D Gaussian splatting for high-fidelity 4D generation. Drawing inspiration from 3D generation techniques, we utilize a multi-view diffusion model to initialize multi-view images anchoring on the input video frames, where the video can be either real-world captured or generated by a video diffusion model. To ensure the temporal consistency of the multi-view sequence initialization, we introduce a simple yet effective fusion strategy to leverage the first frame as a temporal anchor in the self-attention computation. With the almost consistent multi-view sequences, we then apply the score distillation sampling to optimize the 4D Gaussian point cloud. The 4D Gaussian spatting is specially crafted for the generation task, where an adaptive densification strategy is proposed to mitigate the unstable Gaussian gradient for robust optimization. Notably, the proposed pipeline does not require any pre-training or fine-tuning of diffusion networks, offering a more accessible and practical solution for the 4D generation task. Extensive experiments demonstrate that our method outperforms prior 4D generation works in rendering quality, spatial-temporal consistency, and generation robustness, setting a new state-of-the-art for 4D generation from diverse inputs, including text, image, and video.
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# グラフ構造から見たレーンレベル交通予測の統一:ベンチマークとベースライン

Unifying Lane-Level Traffic Prediction from a Graph Structural Perspective: Benchmark and Baseline ( http://arxiv.org/abs/2403.14941v1 )

ライセンス: Link先を確認
Shuhao Li, Yue Cui, Jingyi Xu, Libin Li, Lingkai Meng, Weidong Yang, Fan Zhang, Xiaofang Zhou, (参考訳) 交通予測は長い間研究の中心的かつ重要な領域であり、近年の都市レベルから道路レベルへの大きな進展を目撃している。 交通分野におけるV2X技術、自動運転、大規模モデルの発展に伴い、車線レベルの交通予測は必須の方向として現れてきた。 しかし、この分野のさらなる進歩は、包括的で統一された評価基準が欠如していることと、データとコードの公開が限られていることによって妨げられている。 本稿では,レーンレベルの交通予測における既存の研究を幅広く分析し,統一的な空間トポロジ構造と予測タスクを確立し,グラフ構造とMLPネットワークに基づくシンプルなベースラインモデルであるGraphMLPを導入する。 既存の研究では公開されていないコードを複製し、この結果に基づいて、有効性、効率性、適用性の観点から、さまざまなモデルを徹底的かつ公平に評価し、実用的なアプリケーションに対する洞察を提供しました。 さらに、この分野の進歩を加速するための3つの新しいデータセットと対応するコードもリリースしました。

Traffic prediction has long been a focal and pivotal area in research, witnessing both significant strides from city-level to road-level predictions in recent years. With the advancement of Vehicle-to-Everything (V2X) technologies, autonomous driving, and large-scale models in the traffic domain, lane-level traffic prediction has emerged as an indispensable direction. However, further progress in this field is hindered by the absence of comprehensive and unified evaluation standards, coupled with limited public availability of data and code. This paper extensively analyzes and categorizes existing research in lane-level traffic prediction, establishes a unified spatial topology structure and prediction tasks, and introduces a simple baseline model, GraphMLP, based on graph structure and MLP networks. We have replicated codes not publicly available in existing studies and, based on this, thoroughly and fairly assessed various models in terms of effectiveness, efficiency, and applicability, providing insights for practical applications. Additionally, we have released three new datasets and corresponding codes to accelerate progress in this field, all of which can be found on https://github.com/ShuhaoLii/TITS24LaneLevel-Traffic-Benchmark.
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# CLIP-VQ拡散 : CLIPとベクトル量子化拡散モデルを用いたテキストTo画像生成のランゴージュフリートレーニング

CLIP-VQDiffusion : Langauge Free Training of Text To Image generation using CLIP and vector quantized diffusion model ( http://arxiv.org/abs/2403.14944v1 )

ライセンス: Link先を確認
Seungdae Han, Joohee Kim, (参考訳) テキスト条件画像生成モデルには大きな進歩があった。 この分野での最近の進歩は、モデル構造の改善だけでなく、大量のテキストイメージペアデータセットにも依存している。 しかし、このようなデータセットを作成するのは非常にコストがかかり、かなりの労力を要する。 有名な顔データセットには対応するテキストキャプションがないため、これらのデータセット上でテキスト条件の画像生成モデルを開発するのが難しくなる。 テキストキャプションのない画像のみを用いたテキストから画像生成モデルの開発に焦点を当てた研究もある。 本稿では,事前学習したCLIPモデルを利用して,マルチモーダルなテキスト画像表現と強力な画像生成機能を実現するCLIP-VQDiffusionを提案する。 FFHQのデータセットでは、従来の最先端手法よりも4.4%向上し、テキストが配布中と外の両方であっても非常にリアルな画像が生成される。 事前訓練されたモデルとコードは、https://github.com/INFINIQ-AI1/CLIPVQDiffusionで間もなく利用可能になる

There has been a significant progress in text conditional image generation models. Recent advancements in this field depend not only on improvements in model structures, but also vast quantities of text-image paired datasets. However, creating these kinds of datasets is very costly and requires a substantial amount of labor. Famous face datasets don't have corresponding text captions, making it difficult to develop text conditional image generation models on these datasets. Some research has focused on developing text to image generation models using only images without text captions. Here, we propose CLIP-VQDiffusion, which leverage the pretrained CLIP model to provide multimodal text-image representations and strong image generation capabilities. On the FFHQ dataset, our model outperformed previous state-of-the-art methods by 4.4% in clipscore and generated very realistic images even when the text was both in and out of distribution. The pretrained models and codes will soon be available at https://github.com/INFINIQ-AI1/CLIPVQDiffusion
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# タスク適応型低ランク行列の単一線形層収率

A Single Linear Layer Yields Task-Adapted Low-Rank Matrices ( http://arxiv.org/abs/2403.14946v1 )

ライセンス: Link先を確認
Hwichan Kim, Shota Sasaki, Sho Hoshino, Ukyo Honda, (参考訳) Low-Rank Adaptation (LoRA) はパラメータ効率の良いファインチューニング(PEFT)法で、初期重み行列を$W_0$で更新し、デルタ行列$\Delta W$は2つの低ランク行列$A$と$B$からなる。 以前の研究では、$W_0$と$\Delta W$の間に相関があることが示唆された。 本研究では,LoRAの振る舞いをより理解するために,$W_0$と$A$,$B$の関係を深く掘り下げることを目的とする。 特に、$W_0$を低ランク行列に変換する変換行列を分析し、関係に関する情報をカプセル化する。 解析の結果,変換行列は各層で類似していることがわかった。 これらの知見に触発されて、各層の$W_0$を入力とする1つの線形層がタスク適応型低ランク行列を生成できるという仮説を立てた。 この仮説を裏付けるために,1つの線形層から導出される低ランク行列で初期重み行列を更新する条件パラメータ化LoRA (CondLoRA) という手法を考案した。 実験の結果,CundLoRAのトレーニング可能なパラメータがLoRAのパラメータよりも少ないにもかかわらず,CundLoRAはLoRAと同等のパフォーマンスを維持していることがわかった。 したがって、「単一線形層はタスク適応型低ランク行列を生成する」と結論付けている。

Low-Rank Adaptation (LoRA) is a widely used Parameter-Efficient Fine-Tuning (PEFT) method that updates an initial weight matrix $W_0$ with a delta matrix $\Delta W$ consisted by two low-rank matrices $A$ and $B$. A previous study suggested that there is correlation between $W_0$ and $\Delta W$. In this study, we aim to delve deeper into relationships between $W_0$ and low-rank matrices $A$ and $B$ to further comprehend the behavior of LoRA. In particular, we analyze a conversion matrix that transform $W_0$ into low-rank matrices, which encapsulates information about the relationships. Our analysis reveals that the conversion matrices are similar across each layer. Inspired by these findings, we hypothesize that a single linear layer, which takes each layer's $W_0$ as input, can yield task-adapted low-rank matrices. To confirm this hypothesis, we devise a method named Conditionally Parameterized LoRA (CondLoRA) that updates initial weight matrices with low-rank matrices derived from a single linear layer. Our empirical results show that CondLoRA maintains a performance on par with LoRA, despite the fact that the trainable parameters of CondLoRA are fewer than those of LoRA. Therefore, we conclude that "a single linear layer yields task-adapted low-rank matrices."
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# GPT-Connect: トレーニングフリーマンナにおけるテキスト駆動型ヒューマンモーションジェネレータと3次元シーンのインタラクション

GPT-Connect: Interaction between Text-Driven Human Motion Generator and 3D Scenes in a Training-free Manner ( http://arxiv.org/abs/2403.14947v1 )

ライセンス: Link先を確認
Haoxuan Qu, Ziyan Guo, Jun Liu, (参考訳) 近年,テキスト駆動型モーションジェネレータが注目されているが,既存のテキスト駆動型モーションジェネレータの多くは,背景の空白でのみ動作シーケンスを生成するように設計されている。 実際には、人間は空白の背景ではなく、自然に3Dシーンで動きます。 そこで本研究では,シーン認識型テキスト駆動モーション生成を実現することを目的としている。 しかし、直感的に個別のシーン認識モーションジェネレータを教師付きでトレーニングするには、大量のモーションサンプルをトラブルなく収集し、大量の異なる3Dシーンにアノテートする必要がある。 本稿では,このタスクを比較的便利な方法で処理するために,新しいGPT接続フレームワークを提案する。 GPT接続では、ChatGPTを利用して既存のモーションジェネレータと3Dシーンを完全にトレーニングなしで接続することで、既存の空白背景の人体モーションジェネレータを直接利用してシーン認識動作シーケンスを生成する。 大規模な実験により,提案フレームワークの有効性と一般化性を示す。

Recently, while text-driven human motion generation has received massive research attention, most existing text-driven motion generators are generally only designed to generate motion sequences in a blank background. While this is the case, in practice, human beings naturally perform their motions in 3D scenes, rather than in a blank background. Considering this, we here aim to perform scene-aware text-drive motion generation instead. Yet, intuitively training a separate scene-aware motion generator in a supervised way can require a large amount of motion samples to be troublesomely collected and annotated in a large scale of different 3D scenes. To handle this task rather in a relatively convenient manner, in this paper, we propose a novel GPT-connect framework. In GPT-connect, we enable scene-aware motion sequences to be generated directly utilizing the existing blank-background human motion generator, via leveraging ChatGPT to connect the existing motion generator with the 3D scene in a totally training-free manner. Extensive experiments demonstrate the efficacy and generalizability of our proposed framework.
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# オンライン時系列予測における概念シフトへの対処 - Detect-then-Adapt

Addressing Concept Shift in Online Time Series Forecasting: Detect-then-Adapt ( http://arxiv.org/abs/2403.14949v1 )

ライセンス: Link先を確認
YiFan Zhang, Weiqi Chen, Zhaoyang Zhu, Dalin Qin, Liang Sun, Xue Wang, Qingsong Wen, Zhang Zhang, Liang Wang, Rong Jin, (参考訳) 時系列予測モデルのオンライン更新は,ストリーミングデータに基づく予測モデルを調整することで,概念漂流の課題に取り組むことを目的としている。 多くのアルゴリズムが開発されているが、そのほとんどはモデル設計と更新に焦点を当てている。 実際、これらの手法の多くは、蓄積された概念が時間の経過とともに漂流する中で、継続的なパフォーマンスの回帰に苦しむ。 この制限に対処するために、新しいアプローチである Concept \textbf{D}rift \textbf{D}etection an\textbf{D} \textbf{A}daptation (D3A) を提案する。 モデル適応のための履歴データの活用を最大限に活用するために,既存のトレーニングインスタンスにガウスノイズを導入したデータ拡張戦略を提案する。 これは、トレイン-テストのパフォーマンスの不整合に寄与する重要な要因であるデータ分散ギャップを軽減するのに役立ちます。 データ拡張プロセスの重要性を理論的解析により検証した。 6つのデータセットを対象とした実証研究により,モデル適応性向上におけるD3Aの有効性が示された。 特に、単純な時間畳み込みネットワーク(TCN)のベースラインと比較して、D3Aは平均的正方形誤差(MSE)を43.9 %$に下げる。 最先端のSOTA(State-of-the-art)モデルでは、MSEは33.3\%$に値下げされる。

Online updating of time series forecasting models aims to tackle the challenge of concept drifting by adjusting forecasting models based on streaming data. While numerous algorithms have been developed, most of them focus on model design and updating. In practice, many of these methods struggle with continuous performance regression in the face of accumulated concept drifts over time. To address this limitation, we present a novel approach, Concept \textbf{D}rift \textbf{D}etection an\textbf{D} \textbf{A}daptation (D3A), that first detects drifting conception and then aggressively adapts the current model to the drifted concepts after the detection for rapid adaption. To best harness the utility of historical data for model adaptation, we propose a data augmentation strategy introducing Gaussian noise into existing training instances. It helps mitigate the data distribution gap, a critical factor contributing to train-test performance inconsistency. The significance of our data augmentation process is verified by our theoretical analysis. Our empirical studies across six datasets demonstrate the effectiveness of D3A in improving model adaptation capability. Notably, compared to a simple Temporal Convolutional Network (TCN) baseline, D3A reduces the average Mean Squared Error (MSE) by $43.9\%$. For the state-of-the-art (SOTA) model, the MSE is reduced by $33.3\%$.
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# KnowLA: 知識適応によるパラメータ効率向上

KnowLA: Enhancing Parameter-efficient Finetuning with Knowledgeable Adaptation ( http://arxiv.org/abs/2403.14950v1 )

ライセンス: Link先を確認
Xindi Luo, Zequn Sun, Jing Zhao, Zhe Zhao, Wei Hu, (参考訳) パラメータ効率の微調整(PEFT)は,大規模言語モデル(LLM)を下流タスクに適用するための重要な手法である。 本稿では,知識グラフの埋め込みを利用してPEFTの有効性を向上する。 そこで我々は,KnowLAという,知識に富んだ適応手法を提案する。 LLMに適応層を挿入し、入力テキストに現れるエンティティの埋め込みを統合する。 適応層は命令データにおいてLoRAと組み合わせて訓練される。 一般的なLLMと3つの知識グラフを用いた6つのベンチマーク実験は、KnowLAの有効性と堅牢性を示している。 パラメータや入力プロンプトを変更することなく、LLM内の関連するパラメータ化知識を活性化し、質問に答えることができることを示す。

Parameter-efficient finetuning (PEFT) is a key technique for adapting large language models (LLMs) to downstream tasks. In this paper, we study leveraging knowledge graph embeddings to improve the effectiveness of PEFT. We propose a knowledgeable adaptation method called KnowLA. It inserts an adaptation layer into an LLM to integrate the embeddings of entities appearing in the input text. The adaptation layer is trained in combination with LoRA on instruction data. Experiments on six benchmarks with two popular LLMs and three knowledge graphs demonstrate the effectiveness and robustness of KnowLA. We show that \modelname can help activate the relevant parameterized knowledge in an LLM to answer a question without changing its parameters or input prompts.
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# 簡単なグラフ凝縮

Simple Graph Condensation ( http://arxiv.org/abs/2403.14951v1 )

ライセンス: Link先を確認
Zhenbang Xiao, Yu Wang, Shunyu Liu, Huiqiong Wang, Mingli Song, Tongya Zheng, (参考訳) 大規模グラフに対する負担のかかるトレーニングコストは,グラフ凝縮に対する大きな関心を喚起し,グラフニューラルネットワーク(GNN)を大規模オリジナルグラフで使用する小さな凝縮グラフにチューニングする。 既存の手法は主に、GNNの勾配、分布、軌道など、凝縮したグラフと元のグラフの間のキーメトリックの整合に重点を置いており、下流のタスクで十分なパフォーマンスが得られる。 しかし、これらの複雑なメトリクスは複雑な計算を必要とし、凝縮グラフの最適化プロセスを妨害し、凝縮過程を非常に要求され不安定にする可能性がある。 近年,様々な分野において単純化されたモデルが成功し,GNNから受け継いだ不要な複雑性を低減すべく,グラフ凝縮における計量アライメントの簡易化手法を提案する。 提案手法では, 外部パラメータを排除し, 凝縮過程において対象の凝縮グラフを排他的に保持する。 本稿では,GNN の階層的集約の原則に従い,SimGC (Simple Graph Condensation) フレームワークを導入する。このフレームワークは,コンデンスされたグラフを,入力層から予測層までの原グラフと整列し,前訓練されたSGC (Simple Graph Convolution) モデルで導出する。 その結果、両方のグラフはGNNをトレーニングするのと同じ能力を持っている。 この単純で効果的な戦略は、最先端のベースラインに匹敵する性能を保ちながら、既存のグラフ凝縮法と比較して最大10倍のスピードアップを達成する。 7つのベンチマークデータセットで実施された総合的な実験は、予測精度、凝縮時間、一般化能力におけるSimGCの有効性を示す。 私たちのコードは公開されます。

The burdensome training costs on large-scale graphs have aroused significant interest in graph condensation, which involves tuning Graph Neural Networks (GNNs) on a small condensed graph for use on the large-scale original graph. Existing methods primarily focus on aligning key metrics between the condensed and original graphs, such as gradients, distribution and trajectory of GNNs, yielding satisfactory performance on downstream tasks. However, these complex metrics necessitate intricate computations and can potentially disrupt the optimization process of the condensation graph, making the condensation process highly demanding and unstable. Motivated by the recent success of simplified models in various fields, we propose a simplified approach to metric alignment in graph condensation, aiming to reduce unnecessary complexity inherited from GNNs. In our approach, we eliminate external parameters and exclusively retain the target condensed graph during the condensation process. Following the hierarchical aggregation principles of GNNs, we introduce the Simple Graph Condensation (SimGC) framework, which aligns the condensed graph with the original graph from the input layer to the prediction layer, guided by a pre-trained Simple Graph Convolution (SGC) model on the original graph. As a result, both graphs possess the similar capability to train GNNs. This straightforward yet effective strategy achieves a significant speedup of up to 10 times compared to existing graph condensation methods while performing on par with state-of-the-art baselines. Comprehensive experiments conducted on seven benchmark datasets demonstrate the effectiveness of SimGC in prediction accuracy, condensation time, and generalization capability. Our code will be made publicly available.
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# Evidence-Driven Retrieval Augmented Response Generation for Online Misinformation

Evidence-Driven Retrieval Augmented Response Generation for Online Misinformation ( http://arxiv.org/abs/2403.14952v1 )

ライセンス: Link先を確認
Zhenrui Yue, Huimin Zeng, Yimeng Lu, Lanyu Shang, Yang Zhang, Dong Wang, (参考訳) オンラインの誤報の拡散は、大衆の関心に重大な脅威をもたらしている。 多くのオンラインユーザーが誤報との戦いに積極的に参加しているが、こうした反応の多くは丁寧さの欠如と支援事実によって特徴づけられる。 解法として, テキスト生成手法を提案し, 反情報応答を自動生成する。 それでも、既存のメソッドは外部の知識を活用せずにエンドツーエンドで訓練されることが多く、結果としてテキストの品質が低くなり、繰り返しの応答が過度に繰り返される。 本稿では,オンライン誤情報(RARG)に対する検索強化応答生成を提案する。 具体的には,(1)研究論文100万件を超えるデータベースを用いて,証拠文書を検索・再引用するための検索パイプラインを設計するエビデンス収集,(2)大規模言語モデル(LLM)を整列させて,人間からのフィードバック(RLHF)からの強化学習を通じてエビデンスベースの応答を生成する応答生成,という2つの段階から構成される。 本稿では, 得られた証拠の有効利用を最大化しつつ, 得られたテキストの品質を維持しつつ, 誤情報を明確に否定する礼儀正しく事実的な応答を与える報奨関数を提案する。 提案手法の有効性を実証するため,COVID-19の事例について検討し,ドメイン内およびクロスドメインのデータセットを用いて広範な実験を行い,RARGは高品質な偽情報応答を発生させることでベースラインを一貫して上回る結果を得た。

The proliferation of online misinformation has posed significant threats to public interest. While numerous online users actively participate in the combat against misinformation, many of such responses can be characterized by the lack of politeness and supporting facts. As a solution, text generation approaches are proposed to automatically produce counter-misinformation responses. Nevertheless, existing methods are often trained end-to-end without leveraging external knowledge, resulting in subpar text quality and excessively repetitive responses. In this paper, we propose retrieval augmented response generation for online misinformation (RARG), which collects supporting evidence from scientific sources and generates counter-misinformation responses based on the evidences. In particular, our RARG consists of two stages: (1) evidence collection, where we design a retrieval pipeline to retrieve and rerank evidence documents using a database comprising over 1M academic articles; (2) response generation, in which we align large language models (LLMs) to generate evidence-based responses via reinforcement learning from human feedback (RLHF). We propose a reward function to maximize the utilization of the retrieved evidence while maintaining the quality of the generated text, which yields polite and factual responses that clearly refutes misinformation. To demonstrate the effectiveness of our method, we study the case of COVID-19 and perform extensive experiments with both in- and cross-domain datasets, where RARG consistently outperforms baselines by generating high-quality counter-misinformation responses.
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# Adapprox: ランダム化低ランク行列によるアダム最適化における適応近似

Adapprox: Adaptive Approximation in Adam Optimization via Randomized Low-Rank Matrices ( http://arxiv.org/abs/2403.14958v1 )

ライセンス: Link先を確認
Pengxiang Zhao, Ping Li, Yingjie Gu, Yi Zheng, Stephan Ludger Kölker, Zhefeng Wang, Xiaoming Yuan, (参考訳) ディープラーニングモデルのサイズが指数関数的に大きくなるにつれて、Adam氏のようなオプティマイザは、第1モーメントと第2モーメントデータの保存によるメモリ消費の問題に遭遇する。 AdafactorやCAMEのような現在のメモリ効率のよい手法は、行列分解技術によって精度を損なうことが多い。 これに対応するために,ランダム化低ランク行列近似を用いた新しいアプローチであるAdapproxを導入する。 Adapproxは適応的なランク選択機構を備え、精度とメモリ効率を微妙にバランスさせ、安定性を高め、収束を早めるオプションのコサイン類似性ガイダンス戦略を備えている。 GPT-2のトレーニングとダウンストリームタスクでは、AdapproxはAdamWを34.5%から49.9%、33.8%から49.9%に上回り、117Mモデルと345Mモデルでそれぞれメモリ節約を達成し、最初の瞬間が有効となり、最初の瞬間なしでこれらの節約をさらに増やした。 さらにコンバージェンス速度を向上し、ダウンストリームタスクのパフォーマンスも向上する。

As deep learning models exponentially increase in size, optimizers such as Adam encounter significant memory consumption challenges due to the storage of first and second moment data. Current memory-efficient methods like Adafactor and CAME often compromise accuracy with their matrix factorization techniques. Addressing this, we introduce Adapprox, a novel approach that employs randomized low-rank matrix approximation for a more effective and accurate approximation of Adam's second moment. Adapprox features an adaptive rank selection mechanism, finely balancing accuracy and memory efficiency, and includes an optional cosine similarity guidance strategy to enhance stability and expedite convergence. In GPT-2 training and downstream tasks, Adapprox surpasses AdamW by achieving 34.5% to 49.9% and 33.8% to 49.9% memory savings for the 117M and 345M models, respectively, with the first moment enabled, and further increases these savings without the first moment. Besides, it enhances convergence speed and improves downstream task performance relative to its counterparts.
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# Feshbach共鳴の閉チャネルパラメータ

Closed-channel parameters of Feshbach resonances ( http://arxiv.org/abs/2403.14962v1 )

ライセンス: Link先を確認
Pascal Naidon, (参考訳) フィスの作品。 A 100, 042710 (2019)では、2体のフェシュバッハ共鳴の一般的な説明は、共鳴を引き起こす素境界状態に関連する「閉チャネルパラメータ」を必要とすると主張した。 本研究は、共振理論が再正規化されると(物理オブザーバブルの項でそのパラメータが表される)、閉チャネルパラメータに対する2体オブザーバブルの依存は、波動関数がエネルギー独立な領域でチャネル間カップリングが局所化されるときに消失することを示す。 このような状態において、結果として生じる量子欠陥理論は、素境界状態エネルギーとは驚くほど独立である。 この結果は、超低温原子の磁気共鳴やハドロン共鳴のような他の種類の共鳴など、この状態における共鳴の質的な違いを浮き彫りにする。 磁気共鳴の閉チャネルパラメータは2体オブザーバブルには影響しないが、短距離プローブと3体オブザーバブルから実験的に証明できることが示唆された。

In the work of Phys. Rev. A 100, 042710 (2019), it was argued that the general description of two-body Feshbach resonances requires "closed-channel parameters" related to the bare bound state causing the resonance. The present work shows that once the resonance theory is renormalised (i.e. its parameters are expressed in terms of physical observables) the dependence of two-body observables on the closed-channel parameters disappears when the inter-channel coupling is localised in a region where the wave functions are energy independent. In such a regime, the resulting quantum defect theory is surprisingly independent of the bare bound state energy. This result highlights a qualitative difference between resonances in this regime, such as magnetic resonances in ultracold atoms, and other kinds of resonances, such as hadron resonances. Although the closed-channel parameters of magnetic resonances do not affect two-body observables, it is suggested that they could be evidenced experimentally from short-distance probing and three-body observables.
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# 非協調細胞デバイスの物理的局在の解明

Enabling Physical Localization of Uncooperative Cellular Devices ( http://arxiv.org/abs/2403.14963v1 )

ライセンス: Link先を確認
Taekkyung Oh, Sangwook Bae, Junho Ahn, Yonghwa Lee, Dinh-Tuan Hoang, Min Suk Kang, Nils Ole Tippenhauer, Yongdae Kim, (参考訳) 携帯電話ネットワークでは、当局が犯罪者や違法なデバイスを追跡するために、物理的にユーザーデバイスを見つける必要がある。 細胞オペレーターは、デバイスがキャンプしている細胞情報を当局に提供することができるが、微細な局所化は依然として必要である。 そのため、認証されたエージェントは、アップリンク信号を監視してデバイスをトレースする。 しかし、その協力なしにアップリンク信号源を追跡することは、オペレーターや当局にとっても困難である。 特に、微細な局所化には3つの課題がある。 一 装置が時間とともに十分なアップリンクトラフィックを発生させる場合に限る。 二 目標装置が、電力が著しく低いアップリンクトラフィックを発生させることができること。 三 セルリピータは、真のアップリンク信号に過度にノイズを加えることができる。 これらの課題は、ローカライゼーションの実践的なハードルを示すが、それらは以前の研究で見過ごされてきた。 本研究では,これらの現実的課題が細胞局在に与える影響について検討し,これらの課題に対処する非協調的多角的攻撃(UMA)を提案する。 UMA can 1) 目標装置にトラフィックの連続送信を強制する。 2)目標の信号強度を最大まで引き上げ、 3) ターゲットとリピータとのトラフィックをユニークに区別する。 特に、UMA技術は携帯電話のオペレーターやユーザーデバイスでは特権なく動作し、LTEネットワークでも動作する。 UMAは, デバイスがローカライゼーションに協力的でない場合に, 現実環境における課題を効果的に解決することを示す。 我々のアプローチは、GSMAに責任を持って開示した現在の細胞設計上の脆弱性を利用しています。

In cellular networks, it can become necessary for authorities to physically locate user devices for tracking criminals or illegal devices. While cellular operators can provide authorities with cell information the device is camping on, fine-grained localization is still required. Therefore, the authorized agents trace the device by monitoring its uplink signals. However, tracking the uplink signal source without its cooperation is challenging even for operators and authorities. Particularly, three challenges remain for fine-grained localization: i) localization works only if devices generate enough uplink traffic reliably over time, ii) the target device might generate its uplink traffic with significantly low power, and iii) cellular repeater may add too much noise to true uplink signals. While these challenges present practical hurdles for localization, they have been overlooked in prior works. In this work, we investigate the impact of these real-world challenges on cellular localization and propose an Uncooperative Multiangulation Attack (UMA) that addresses these challenges. UMA can 1) force a target device to transmit traffic continuously, 2) boost the target's signal strength to the maximum, and 3) uniquely distinguish traffic from the target and the repeaters. Notably, the UMA technique works without privilege on cellular operators or user devices, which makes it operate on any LTE network. Our evaluations show that UMA effectively resolves the challenges in real-world environments when devices are not cooperative for localization. Our approach exploits the current cellular design vulnerabilities, which we have responsibly disclosed to GSMA.
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# 行動駆動型開発受け入れテストの自動化における大規模言語モデルの利用に関する総合的評価と考察

Comprehensive Evaluation and Insights into the Use of Large Language Models in the Automation of Behavior-Driven Development Acceptance Test Formulation ( http://arxiv.org/abs/2403.14965v1 )

ライセンス: Link先を確認
Shanthi Karpurapu, Sravanthy Myneni, Unnati Nettur, Likhit Sagar Gajja, Dave Burke, Tom Stiehm, Jeffery Payne, (参考訳) 振る舞い駆動開発(BDD)は、開発者、QAアナリスト、ステークホルダ間のコラボレーションを促進するアジャイルテスト方法論である。 本稿では,大規模言語モデル(LLM)を用いてBDDの実践を向上し,受け入れテスト生成を自動化する手法を提案する。 本研究は, GPT-3.5, GPT-4, Llama-2-13B, PaLM-2 などの LLM の評価に 0 および few-shot プロンプトを用いた。 本稿では,データセット,プロンプト技術,LCM,評価プロセスなどを含む詳細な方法論を提案する。 その結果, GPT-3.5 と GPT-4 は誤りのないBDD 受け入れテストを生成し,性能が向上した。 数発のプロンプト技術は、コンテキスト内学習の例を取り入れて、より高い精度を提供する能力を強調している。 さらに,文法の誤り,検証の正確さ,LLMの比較分析について検討し,BDDの実践を強化する上での有効性を明らかにした。 しかし,本研究は,提案手法には限界があることを認めている。 このアプローチは、共同BDDプロセスをサポートし、LLMを使用したBDD受け入れテストの自動生成を将来研究する機会を生み出すことができる、と強調する。

Behavior-driven development (BDD) is an Agile testing methodology fostering collaboration among developers, QA analysts, and stakeholders. In this manuscript, we propose a novel approach to enhance BDD practices using large language models (LLMs) to automate acceptance test generation. Our study uses zero and few-shot prompts to evaluate LLMs such as GPT-3.5, GPT-4, Llama-2-13B, and PaLM-2. The paper presents a detailed methodology that includes the dataset, prompt techniques, LLMs, and the evaluation process. The results demonstrate that GPT-3.5 and GPT-4 generate error-free BDD acceptance tests with better performance. The few-shot prompt technique highlights its ability to provide higher accuracy by incorporating examples for in-context learning. Furthermore, the study examines syntax errors, validation accuracy, and comparative analysis of LLMs, revealing their effectiveness in enhancing BDD practices. However, our study acknowledges that there are limitations to the proposed approach. We emphasize that this approach can support collaborative BDD processes and create opportunities for future research into automated BDD acceptance test generation using LLMs.
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# DreamFlow:確率フローの近似による高品質テキストから3D生成

DreamFlow: High-Quality Text-to-3D Generation by Approximating Probability Flow ( http://arxiv.org/abs/2403.14966v1 )

ライセンス: Link先を確認
Kyungmin Lee, Kihyuk Sohn, Jinwoo Shin, (参考訳) テキスト・ツー・3D生成の最近の進歩は, 予め訓練したテキスト・ツー・イメージ(T2I)拡散モデルを用いて, 拡散モデルトレーニングの目的を通した蒸留により, スコア・蒸留法を用いて達成されている。 しかし、このようなアプローチは必然的に各更新におけるランダムなタイムステップの使用をもたらすため、勾配のばらつきが増大し、最終的には最適化プロセスが長くなる。 本稿では,T2I拡散を利用したテキスト・ツー・3Dの最適化手法を提案する。 そこで我々は,テキストから3Dへの最適化を多視点画像への変換問題として解釈し,確率フローを近似した解を提案する。 提案手法を応用して,高品質で高解像度な1024×1024の3Dコンテンツを高速に生成できる,実用的な3段階間粗大なテキスト・ツー・3D最適化フレームワークであるDreamFlowを設計する。 例えば、DreamFlowは既存の最先端のテキスト・トゥ・3D法よりも5倍高速であり、よりフォトリアリスティックな3Dコンテンツを生成する。 プロジェクトのページ(https://kyungmnlee.github.io/dreamflow.github.io/)を参照してください。

Recent progress in text-to-3D generation has been achieved through the utilization of score distillation methods: they make use of the pre-trained text-to-image (T2I) diffusion models by distilling via the diffusion model training objective. However, such an approach inevitably results in the use of random timesteps at each update, which increases the variance of the gradient and ultimately prolongs the optimization process. In this paper, we propose to enhance the text-to-3D optimization by leveraging the T2I diffusion prior in the generative sampling process with a predetermined timestep schedule. To this end, we interpret text-to3D optimization as a multi-view image-to-image translation problem, and propose a solution by approximating the probability flow. By leveraging the proposed novel optimization algorithm, we design DreamFlow, a practical three-stage coarseto-fine text-to-3D optimization framework that enables fast generation of highquality and high-resolution (i.e., 1024x1024) 3D contents. For example, we demonstrate that DreamFlow is 5 times faster than the existing state-of-the-art text-to-3D method, while producing more photorealistic 3D contents. Visit our project page (https://kyungmnlee.github.io/dreamflow.github.io/) for visualizations.
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# 単一ボソニックモードを用いた汎用的で効果的な量子メートル法の実現

Realisation of versatile and effective quantum metrology using a single bosonic mode ( http://arxiv.org/abs/2403.14967v1 )

ライセンス: Link先を確認
Xiaozhou Pan, Tanjung Krisnanda, Andrea Duina, Kimin Park, Pengtao Song, Clara Yun Fontaine, Adrian Copetudo, Radim Filip, Yvonne Y. Gao, (参考訳) 量子メートル法は古典的手法に比べて測定精度が優れている。 伝統的に、この拡張を実現するには、事実上困難な状態の準備と検出のスキームを必要とする、多粒子の絡み合った量子状態を採用する必要がある。 本稿では,1つのボソニックモード上での2つの状態転送操作を利用する決定論的パラメータ推定のための,汎用的でオンデマンドなプロトコルを提案する。 具体的には、このプロトコルを、ボゾン回路量子電磁力学(cQED)プラットフォームにおけるコヒーレント状態の重畳を用いた位相および振幅推定の文脈で実証する。 低光子数は最大1.76で、ハイゼンベルクのスケーリングに接近し、位相推定と振幅推定でそれぞれ7.5(6) dBと9.3(5) dBに達する。 本研究では,特定のシステム制約に基づいて入力状態を調整することにより,ハエの利得や感度範囲をさらに高めることができることを示す。 我々のプロトコルは、ボソニックなcQEDハードウェアだけでなく、他の連続可変プラットフォームにも容易に拡張可能な、調整された量子状態や演算を用いて、望ましいメリットの数値をさらに最適化することができる。 この汎用的で効果的なスキームの実現は、実用的な量子強調センシングへの有望な道のりを与える。

Quantum metrology offers superior measurement precision compared to classical counterparts. Traditionally, achieving this enhancement involves employing multi-particle entangled quantum states, necessitating state preparation and detection schemes that are practically challenging. In this article, we present a versatile and on-demand protocol for deterministic parameter estimation that leverages two state-transfer operations on a single bosonic mode. Specifically, we demonstrate this protocol in the context of phase and amplitude estimation using the superposition of coherent states in the bosonic circuit quantum electrodynamics (cQED) platform. With low photon numbers of up to 1.76, we achieve quantum-enhanced precision approaching the Heisenberg scaling, reaching a metrological gain of 7.5(6) dB and 9.3(5) dB respectively for phase and amplitude estimation. We show that the gain or sensitivity range can be further enhanced on the fly by tailoring the input states based on specific system constraints. Our protocol can be adapted to further optimize the desired figures of merit using tailored quantum states or operations, not only for bosonic cQED hardware but also readily extensible to other continuous-variable platforms. The realisation of this versatile and effective scheme affords a promising path towards practical quantum-enhanced sensing.
翻訳日:2024-03-25 18:37:30 公開日:2024-03-22
# 初級者を教える学習者:昇華型代替評価

Learners Teaching Novices: An Uplifting Alternative Assessment ( http://arxiv.org/abs/2403.14971v1 )

ライセンス: Link先を確認
Ali Malik, Juliette Woodrow, Chris Piech, (参考訳) 本研究では,より初級の生徒を指導することで,CS1トピックに対する学習者の理解を実証する,AVT (Audiment via Teaching) と呼ばれる新しい形式的評価手法を提案し,実践する。 AVTは従来のアセスメントよりも強力なメリットがあり、他者へのサービスを中心にしており、教える学習者には高い報奨を与える。 さらに,教材に対する学習者の理解が向上し,フリーの1対1の指導を受ける初心者に大きなポジティブな影響を与えている。 最後に、このようなアセスメントの形式は、大きな言語モデルの時代におけるアセスメントの重要な特性である、騙すことが自然に困難である。 我々は,R1大学におけるCS1コースの学習者とのランダム化制御試験において,AVTを用いた。 学習者は、より初心者の生徒に、同じコースのオンラインバージョンをラタグで受けられるように指導セッションを提供する。 授業試験前のAVTセッションを行う学習者は,いくつかの質問に対して,クラス平均よりも20~30ポイントよい成績を示した。 さらに, 実習試験を行った学生と比較して, AVT学習者はより経験を積み, 授業の2倍の確率で学習した。 AVTは、形式的評価のためのスケーラブルで高揚的な方法であり、いつかは従来の試験に取って代わるかもしれない、と私たちは信じています。

We propose and carry-out a novel method of formative assessment called Assessment via Teaching (AVT), in which learners demonstrate their understanding of CS1 topics by tutoring more novice students. AVT has powerful benefits over traditional forms of assessment: it is centered around service to others and is highly rewarding for the learners who teach. Moreover, teaching greatly improves the learners' own understanding of the material and has a huge positive impact on novices, who receive free 1:1 tutoring. Lastly, this form of assessment is naturally difficult to cheat -- a critical property for assessments in the era of large-language models. We use AVT in a randomised control trial with learners in a CS1 course at an R1 university. The learners provide tutoring sessions to more novice students taking a lagged online version of the same course. We show that learners who do an AVT session before the course exam performed 20 to 30 percentage points better than the class average on several questions. Moreover, compared to students who did a practice exam, the AVT learners enjoyed their experience more and were twice as likely to study for their teaching session. We believe AVT is a scalable and uplifting method for formative assessment that could one day replace traditional exams.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# グラフの価値:マルチモーダル推論のためのグラフに関するブループリント議論

A Picture Is Worth a Graph: Blueprint Debate on Graph for Multimodal Reasoning ( http://arxiv.org/abs/2403.14972v1 )

ライセンス: Link先を確認
Changmeng Zheng, Dayong Liang, Wengyu Zhang, Xiao-Yong Wei, Tat-Seng Chua, Qing Li, (参考訳) 本稿では,マルチモーダル推論にマルチエージェントの議論を導入することを目的としたパイロット研究を提案する。 この研究は、過剰な要約による意見の自明化と、画像から導入された散逸した概念による焦点の転換という2つの主要な課題に対処する。 これらの課題は、既存の議論スキームの帰納的(ボットアップ)性に起因している。 この問題に対処するため,BDoG (Blueprint Debate on Graphs) と呼ばれる演目的(トップダウン)な議論手法を提案する。 BDoGでは、議論は世界レベルの要約による意見の自明化を防ぐために青写真グラフに限られる。 さらに、グラフ内の枝にエビデンスを格納することで、BDoGは頻繁だが無関係な概念によって引き起こされる散逸を緩和する。 大規模な実験によりBDoGが検証され、Science QAとMMBenchの最先端の結果が得られた。

This paper presents a pilot study aimed at introducing multi-agent debate into multimodal reasoning. The study addresses two key challenges: the trivialization of opinions resulting from excessive summarization and the diversion of focus caused by distractor concepts introduced from images. These challenges stem from the inductive (bottom-up) nature of existing debating schemes. To address the issue, we propose a deductive (top-down) debating approach called Blueprint Debate on Graphs (BDoG). In BDoG, debates are confined to a blueprint graph to prevent opinion trivialization through world-level summarization. Moreover, by storing evidence in branches within the graph, BDoG mitigates distractions caused by frequent but irrelevant concepts. Extensive experiments validate BDoG, achieving state-of-the-art results in Science QA and MMBench with significant improvements over previous methods.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# 軌道正則化は自己教師付き幾何学的表現を促進する

Trajectory Regularization Enhances Self-Supervised Geometric Representation ( http://arxiv.org/abs/2403.14973v1 )

ライセンス: Link先を確認
Jiayun Wang, Stella X. Yu, Yubei Chen, (参考訳) 自己教師付き学習(SSL)は、様々な下流タスクの高品質な表現を学習するのに有効であることが証明されており、主にセマンティックタスクに焦点を当てている。 しかし、幾何学的タスクへのその応用は、幾何表現の標準化された評価方法が欠如していることもあって、まだ未解明のままである。 このギャップに対処するために、SSL幾何学的表現を評価するための新しいポーズ推定ベンチマークを導入する。 本ベンチマークでは,意味分類の精度を犠牲にすることなくSSL幾何学的表現の強化について検討する。 中間層表現の活用により,ポーズ推定性能が10~20%向上することが判明した。 さらに、教師なしトラジェクトリ規則化損失を導入し、さらに4%の性能向上と、アウト・オブ・ディストリビューションデータに対する一般化能力の向上を実現した。 提案するベンチマークと手法は,自己教師付き幾何表現学習における新たな洞察と改善をもたらすことを期待する。

Self-supervised learning (SSL) has proven effective in learning high-quality representations for various downstream tasks, with a primary focus on semantic tasks. However, its application in geometric tasks remains underexplored, partially due to the absence of a standardized evaluation method for geometric representations. To address this gap, we introduce a new pose-estimation benchmark for assessing SSL geometric representations, which demands training without semantic or pose labels and achieving proficiency in both semantic and geometric downstream tasks. On this benchmark, we study enhancing SSL geometric representations without sacrificing semantic classification accuracy. We find that leveraging mid-layer representations improves pose-estimation performance by 10-20%. Further, we introduce an unsupervised trajectory-regularization loss, which improves performance by an additional 4% and improves generalization ability on out-of-distribution data. We hope the proposed benchmark and methods offer new insights and improvements in self-supervised geometric representation learning.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# AVT2-DWF:オーディオ・ビジュアルフュージョンと動的重み付けによるディープフェイク検出の改善

AVT2-DWF: Improving Deepfake Detection with Audio-Visual Fusion and Dynamic Weighting Strategies ( http://arxiv.org/abs/2403.14974v1 )

ライセンス: Link先を確認
Rui Wang, Dengpan Ye, Long Tang, Yunming Zhang, Jiacheng Deng, (参考訳) ディープフェイク法の継続的な改善により、偽メッセージは単一のモダリティからマルチモーダル融合へと移行し、既存の偽メッセージ検出アルゴリズムに新たな課題が生じた。 本稿では,ダイナミックウェイト・フュージョンを基盤としたオーディオ・ビジュアルデュアルトランスフォーマーであるAVT2-DWFを提案する。 AVT2-DWFは、表情の空間的特徴と時間的ダイナミクスの両方を捉えるための二重ステージアプローチを採用している。 これは、nフレーム単位のトークン化戦略エンコーダとオーディオトランスフォーマーエンコーダを備えたフェイストランスフォーマーによって実現される。 その後、動的重み付けによるマルチモーダル変換を用いて、オーディオと視覚の異種情報融合の課題に対処する。 DeepfakeTIMIT、FakeAVCeleb、DFDCデータセットに関する実験は、AVT2-DWFが最先端のDeepfake検出とクロスデータセットのDeepfake検出を実現していることを示している。 コードはhttps://github.com/raining-dev/AVT2-DWFで入手できる。

With the continuous improvements of deepfake methods, forgery messages have transitioned from single-modality to multi-modal fusion, posing new challenges for existing forgery detection algorithms. In this paper, we propose AVT2-DWF, the Audio-Visual dual Transformers grounded in Dynamic Weight Fusion, which aims to amplify both intra- and cross-modal forgery cues, thereby enhancing detection capabilities. AVT2-DWF adopts a dual-stage approach to capture both spatial characteristics and temporal dynamics of facial expressions. This is achieved through a face transformer with an n-frame-wise tokenization strategy encoder and an audio transformer encoder. Subsequently, it uses multi-modal conversion with dynamic weight fusion to address the challenge of heterogeneous information fusion between audio and visual modalities. Experiments on DeepfakeTIMIT, FakeAVCeleb, and DFDC datasets indicate that AVT2-DWF achieves state-of-the-art performance intra- and cross-dataset Deepfake detection. Code is available at https://github.com/raining-dev/AVT2-DWF.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# 深層学習のためのPiecewise-Linear Manifolds

Piecewise-Linear Manifolds for Deep Metric Learning ( http://arxiv.org/abs/2403.14977v1 )

ライセンス: Link先を確認
Shubhang Bhatnagar, Narendra Ahuja, (参考訳) 無教師付き深度学習(UDML)は、ラベルなしデータのみを使用して意味表現空間を学習することに焦点を当てる。 この難しい問題は、ディープネットワークを監督するために使用されるデータポイント間の類似性を正確に推定する必要がある。 この目的のために,各低次元線形片が点の小さな近傍でデータ多様体を近似して高次元データ多様体を1次線形近似を用いてモデル化することを提案する。 これらの地区は、データポイント間の類似性を推定するために使用される。 我々は、この類似度推定が、現在の最先端技術の類似度推定よりも基礎的真理と相関していることを実証的に示す。 また,教師付き距離学習においてよく用いられるプロキシは,教師なし条件下での片方向線形多様体のモデル化に有効であり,性能向上に有効であることを示す。 本手法は、標準ゼロショット画像検索ベンチマークにおいて、既存の教師なしメトリック学習手法よりも優れている。

Unsupervised deep metric learning (UDML) focuses on learning a semantic representation space using only unlabeled data. This challenging problem requires accurately estimating the similarity between data points, which is used to supervise a deep network. For this purpose, we propose to model the high-dimensional data manifold using a piecewise-linear approximation, with each low-dimensional linear piece approximating the data manifold in a small neighborhood of a point. These neighborhoods are used to estimate similarity between data points. We empirically show that this similarity estimate correlates better with the ground truth than the similarity estimates of current state-of-the-art techniques. We also show that proxies, commonly used in supervised metric learning, can be used to model the piecewise-linear manifold in an unsupervised setting, helping improve performance. Our method outperforms existing unsupervised metric learning approaches on standard zero-shot image retrieval benchmarks.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# MasonTigers at SemEval-2024 Task 9: Solving Puzzles with a Ensemble of Chain-of-Thoughts (英語)

MasonTigers at SemEval-2024 Task 9: Solving Puzzles with an Ensemble of Chain-of-Thoughts ( http://arxiv.org/abs/2403.14982v1 )

ライセンス: Link先を確認
Md Nishat Raihan, Dhiman Goswami, Al Nahian Bin Emran, Sadiya Sayara Chowdhury Puspo, Amrita Ganguly, Marcos Zampieri, (参考訳) 本稿では,SemEval-2024 Task 9 に対する MasonTigers チームによる提案について述べる。 我々は,いくつかのプロンプト手法を用いて,この課題を解決するために,大規模言語モデル (LLM) を用いる。 ゼロショットと少数ショットのプロンプトは、オープンソースモデルと比較して、プロプライエタリなLLMでテストすると合理的に良い結果をもたらす。 推論過程を段階的に分解する反復的プロンプト法であるチェーン・オブ・シークレット・プロンプトを用いて、さらに改良された結果を得る。 提案手法は,「パズルサブタスク」と「パズルサブタスク」の2番目と「パズルサブタスク」の13番目である。 LLMの強い性能は、思考過程を分解するときに複雑な推論能力を示す。 私たちの研究は、ステップワイズな説明プロンプトが、大規模モデルのパラメータにエンコードされた知識を解き放つ方法に光を当てています。

Our paper presents team MasonTigers submission to the SemEval-2024 Task 9 - which provides a dataset of puzzles for testing natural language understanding. We employ large language models (LLMs) to solve this task through several prompting techniques. Zero-shot and few-shot prompting generate reasonably good results when tested with proprietary LLMs, compared to the open-source models. We obtain further improved results with chain-of-thought prompting, an iterative prompting method that breaks down the reasoning process step-by-step. We obtain our best results by utilizing an ensemble of chain-of-thought prompts, placing 2nd in the word puzzle subtask and 13th in the sentence puzzle subtask. The strong performance of prompted LLMs demonstrates their capability for complex reasoning when provided with a decomposition of the thought process. Our work sheds light on how step-wise explanatory prompts can unlock more of the knowledge encoded in the parameters of large models.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# FileDES: セキュアでスケーラブルで、暗号化された分散ストレージネットワーク

FileDES: A Secure Scalable and Succinct Decentralized Encrypted Storage Network ( http://arxiv.org/abs/2403.14985v1 )

ライセンス: Link先を確認
Minghui Xu, Jiahao Zhang, Hechuan Guo, Xiuzhen Cheng, Dongxiao Yu, Qin Hu, Yijun Li, Yipu Wu, (参考訳) 分散ストレージネットワーク(DSN)は、独立したプロバイダからストレージ容量を統合し、分散ストレージと検索サービスを提供するコーディネートすることで、従来のクラウドベースのストレージシステムに挑戦する新興技術である。 しかし、現在のDSNは、データプライバシと証明システムの効率性に関わるいくつかの課題に直面している。 これらの問題に対処するために、プライバシ保存、スケーラブルストレージ証明、バッチ検証の3つの重要な要素を含むFileDES(\uline{D}ecentralized \uline{E}ncrypted \uline{S}torage)を提案する。 FileDESは、SybilとGeneration攻撃に耐性のあるスケーラブルなProof of Encrypted Storage (PoES)アルゴリズムを使用して、データの可用性を維持しながら、暗号化されたデータストレージを提供する。 さらに,複数ファイルを同時に検証するロールアップベースのバッチ検証手法を提案する。 FileDES, Filecoin, Storj, Siaについて, 最大120個の地理的分散ノードからなるWANを含む様々な条件下で比較評価を行った。 我々のプロトコルは、証明生成/検証効率、ストレージコスト、スケーラビリティにおいて他よりも優れています。

Decentralized Storage Network (DSN) is an emerging technology that challenges traditional cloud-based storage systems by consolidating storage capacities from independent providers and coordinating to provide decentralized storage and retrieval services. However, current DSNs face several challenges associated with data privacy and efficiency of the proof systems. To address these issues, we propose FileDES (\uline{D}ecentralized \uline{E}ncrypted \uline{S}torage), which incorporates three essential elements: privacy preservation, scalable storage proof, and batch verification. FileDES provides encrypted data storage while maintaining data availability, with a scalable Proof of Encrypted Storage (PoES) algorithm that is resilient to Sybil and Generation attacks. Additionally, we introduce a rollup-based batch verification approach to simultaneously verify multiple files using publicly verifiable succinct proofs. We conducted a comparative evaluation on FileDES, Filecoin, Storj and Sia under various conditions, including a WAN composed of up to 120 geographically dispersed nodes. Our protocol outperforms the others in terms of proof generation/verification efficiency, storage costs, and scalability.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# AIがエレガントコーディングの技法を語る:グローバルコースでタイムリー、フェア、ヘルプフルスタイルのフィードバック

AI Teaches the Art of Elegant Coding: Timely, Fair, and Helpful Style Feedback in a Global Course ( http://arxiv.org/abs/2403.14986v1 )

ライセンス: Link先を確認
Juliette Woodrow, Ali Malik, Chris Piech, (参考訳) 生徒にエレガントで再利用性があり、理解しやすいコードを書く方法を教えることは、CS1教育の基本的な部分である。 しかし、この"スタイルフィードバック"をタイムリーに提供することは、スケールするのが困難であることが証明された。 本稿では,大規模なオンラインCS1コースであるCode in Placeに,新しいリアルタイムフィードバックツールをデプロイした経験を紹介する。 我々のツールは,大規模言語モデル(LLM)の最新のブレークスルーに基づいており,学生にとって安全で役に立つように設計されている。 世界中から8,000人以上の多様な学生を抱えたクラスでリアルタイムスタイルフィードバックツール(RTSF)を使用して、ランダムなコントロールトライアルを実施して、そのメリットを理解しました。 その結果, リアルタイムにスタイルフィードバックを受けた学生は, 遅延フィードバックを受けた学生に比べて, 5倍の視聴率と参加率を示した。 さらに、フィードバックを見た人は、コードに重要なスタイル関連の編集を行う傾向があり、これらの編集のうち79%が直接フィードバックを取り入れている。 また, LLM ベースのフィードバックツールの実用性と危険性, 生成したフィードバックの品質, LLM の制限, 一貫性, 標準化, および人口統計バイアスに対する保護技術についても論じる。

Teaching students how to write code that is elegant, reusable, and comprehensible is a fundamental part of CS1 education. However, providing this "style feedback" in a timely manner has proven difficult to scale. In this paper, we present our experience deploying a novel, real-time style feedback tool in Code in Place, a large-scale online CS1 course. Our tool is based on the latest breakthroughs in large-language models (LLMs) and was carefully designed to be safe and helpful for students. We used our Real-Time Style Feedback tool (RTSF) in a class with over 8,000 diverse students from across the globe and ran a randomized control trial to understand its benefits. We show that students who received style feedback in real-time were five times more likely to view and engage with their feedback compared to students who received delayed feedback. Moreover, those who viewed feedback were more likely to make significant style-related edits to their code, with over 79% of these edits directly incorporating their feedback. We also discuss the practicality and dangers of LLM-based tools for feedback, investigating the quality of the feedback generated, LLM limitations, and techniques for consistency, standardization, and safeguarding against demographic bias, all of which are crucial for a tool utilized by students.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# 画像合成パーソナライズのための生成能動学習

Generative Active Learning for Image Synthesis Personalization ( http://arxiv.org/abs/2403.14987v1 )

ライセンス: Link先を確認
Xulu Zhang, Wengyu Zhang, Xiao-Yong Wei, Jinlin Wu, Zhaoxiang Zhang, Zhen Lei, Qing Li, (参考訳) 本稿では,従来の識別モデルを用いて研究されてきたアクティブラーニングを生成モデルに適用するパイロット研究について述べる。 具体的には、画像合成パーソナライズタスクに焦点を当てる。 生成モデルにおいてアクティブな学習を行う上での最大の課題は、単一の概念をターゲットとする識別モデルにおけるクローズドなクエリ形式とは異なる、クエリのオープンな性質にある。 問合せ処理を半開問題に変換するために,アンカー方向の概念を導入する。 そこで本稿では,創発的アクティブラーニングを可能にする方向ベース不確実性サンプリング戦略を提案し,活用探索ジレンマに対処する。 提案手法の有効性を検証するため,GoogleのStyleDropのような大企業が開発したクローズドソースモデルと比較して,オープンソースモデルの方が優れた性能が得られることを示した。 ソースコードはhttps://github.com/zhangxulu1996/GAL4Personalizationで公開されている。

This paper presents a pilot study that explores the application of active learning, traditionally studied in the context of discriminative models, to generative models. We specifically focus on image synthesis personalization tasks. The primary challenge in conducting active learning on generative models lies in the open-ended nature of querying, which differs from the closed form of querying in discriminative models that typically target a single concept. We introduce the concept of anchor directions to transform the querying process into a semi-open problem. We propose a direction-based uncertainty sampling strategy to enable generative active learning and tackle the exploitation-exploration dilemma. Extensive experiments are conducted to validate the effectiveness of our approach, demonstrating that an open-source model can achieve superior performance compared to closed-source models developed by large companies, such as Google's StyleDrop. The source code is available at https://github.com/zhangxulu1996/GAL4Personalization.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# 大規模言語モデルにおけるリスクと応答:キー脅威カテゴリの評価

Risk and Response in Large Language Models: Evaluating Key Threat Categories ( http://arxiv.org/abs/2403.14988v1 )

ライセンス: Link先を確認
Bahareh Harandizadeh, Abel Salinas, Fred Morstatter, (参考訳) 本稿では,大規模言語モデル(LLM)におけるリスクアセスメント(リスクアセスメント)の課題について考察する。 プレトレーニング済みのLLMを微調整して人的価値と整合させ、異なるタイプのリスクを知覚し、分類する方法に着目し、嗜好に基づくトレーニングデータの主観的な性質によって引き起こされる課題について検討する。 人為的レッドチームデータセットを利用することで、情報ハザード、悪用、差別/憎しみのあるコンテンツなど、主要なリスクカテゴリを分析します。 以上の結果から,LSMは情報ハザードを有害とみなす傾向があることが示唆された。 さらに、我々の分析では、LSMは他のリスクに比べて、情報ハザードに対する厳格な対応が低いことが示されています。 この研究は、情報ハザードシナリオにおけるジェイルブレイク攻撃に対するLLMの重大な脆弱性を明らかにし、LLMのリスク評価における重要なセキュリティ上の懸念を強調し、AIの安全性対策の改善の必要性を強調している。

This paper explores the pressing issue of risk assessment in Large Language Models (LLMs) as they become increasingly prevalent in various applications. Focusing on how reward models, which are designed to fine-tune pretrained LLMs to align with human values, perceive and categorize different types of risks, we delve into the challenges posed by the subjective nature of preference-based training data. By utilizing the Anthropic Red-team dataset, we analyze major risk categories, including Information Hazards, Malicious Uses, and Discrimination/Hateful content. Our findings indicate that LLMs tend to consider Information Hazards less harmful, a finding confirmed by a specially developed regression model. Additionally, our analysis shows that LLMs respond less stringently to Information Hazards compared to other risks. The study further reveals a significant vulnerability of LLMs to jailbreaking attacks in Information Hazard scenarios, highlighting a critical security concern in LLM risk assessment and emphasizing the need for improved AI safety measures.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# SemEval-2024タスク8におけるMasonTigers: 機械生成テキスト検出におけるトランスフォーマーモデルの性能解析

MasonTigers at SemEval-2024 Task 8: Performance Analysis of Transformer-based Models on Machine-Generated Text Detection ( http://arxiv.org/abs/2403.14989v1 )

ライセンス: Link先を確認
Sadiya Sayara Chowdhury Puspo, Md Nishat Raihan, Dhiman Goswami, Al Nahian Bin Emran, Amrita Ganguly, Ozlem Uzuner, (参考訳) 本稿では,SemEval-2024 Task 8 - Multigenerator, Multi domain, and Multilingual Black-Box Machine-Generated Text DetectionのMasonTigersエントリについて述べる。 このタスクは、バイナリ人文対マシン生成テキスト分類(トラックA)、マルチウェイマシン生成テキスト分類(トラックB)、ヒューマン・マシン混合テキスト検出(トラックC)を含む。 本稿では,主に識別器変換器モデルのアンサンブルと,特定の事例における文変換器と統計的機械学習のアプローチを利用する。 また、トラックA,BにはFLAN-T5のゼロショットプロンプトと微調整が用いられる。

This paper presents the MasonTigers entry to the SemEval-2024 Task 8 - Multigenerator, Multidomain, and Multilingual Black-Box Machine-Generated Text Detection. The task encompasses Binary Human-Written vs. Machine-Generated Text Classification (Track A), Multi-Way Machine-Generated Text Classification (Track B), and Human-Machine Mixed Text Detection (Track C). Our best performing approaches utilize mainly the ensemble of discriminator transformer models along with sentence transformer and statistical machine learning approaches in specific cases. Moreover, zero-shot prompting and fine-tuning of FLAN-T5 are used for Track A and B.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# MasonTigers at SemEval-2024 Task 1: An Ensemble Approach for Semantic Textual Relatedness

MasonTigers at SemEval-2024 Task 1: An Ensemble Approach for Semantic Textual Relatedness ( http://arxiv.org/abs/2403.14990v1 )

ライセンス: Link先を確認
Dhiman Goswami, Sadiya Sayara Chowdhury Puspo, Md Nishat Raihan, Al Nahian Bin Emran, Amrita Ganguly, Marcos Zampieri, (参考訳) 本稿では,SemEval-2024 Task 1 - Semantic Textual RelatednessのMasonTigersエントリについて述べる。 このタスクには、教師なし(Track A)、教師なし(Track B)、14言語にわたる言語横断(Track C)アプローチが含まれる。 MasonTigers氏は3つのトラックですべての言語に参加した2チームのうちの1つとして際立っている。 提案手法は,トラックAにおける11位から21位,トラックBにおける1位から8位,トラックCにおける5位から12位までのランク付けを達成した。

This paper presents the MasonTigers entry to the SemEval-2024 Task 1 - Semantic Textual Relatedness. The task encompasses supervised (Track A), unsupervised (Track B), and cross-lingual (Track C) approaches across 14 different languages. MasonTigers stands out as one of the two teams who participated in all languages across the three tracks. Our approaches achieved rankings ranging from 11th to 21st in Track A, from 1st to 8th in Track B, and from 5th to 12th in Track C. Adhering to the task-specific constraints, our best performing approaches utilize ensemble of statistical machine learning approaches combined with language-specific BERT based models and sentence transformers.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# 適応セグメンテーションのための誘導訓練によるクロスドメイン混合サンプリングの改善

Improve Cross-domain Mixed Sampling with Guidance Training for Adaptive Segmentation ( http://arxiv.org/abs/2403.14995v1 )

ライセンス: Link先を確認
Wenlve Zhou, Zhiheng Zhou, Tianlei Wang, Delu Zeng, (参考訳) 教師なしのドメイン適応(UDA)は、ソースドメインでトレーニングされたモデルを調整し、追加のアノテーションを必要とせずにターゲットドメインでうまく機能させる。 密度予測のためにUDAに取り組むドメイン適応セマンティックセマンティックセマンティクスのコンテキストでは、コストのかかるピクセルレベルのアノテーションの必要性を回避することが目標である。 通常、様々な一般的な手法は、ドメインギャップによる性能低下を軽減するために、クロスドメイン混合サンプリング技術による中間ドメインの構築に依存している。 しかし、そのような手法は実世界の分布から分岐する合成データを生成し、真のターゲット分布からモデルアストレイを導く可能性がある。 この課題に対処するため、我々はガイダンストレーニングと呼ばれる新しい補助課題を提案する。 本課題は,実世界の分散シフトを緩和しつつ,クロスドメイン混合サンプリング手法の有効利用を促進する。 具体的には、混合データから対象領域の特徴分布を抽出・再構成し、次いで再構成対象領域の特徴を復号して擬似ラベル予測を行う。 重要なことは、ガイダンストレーニングの統合は、最小限のトレーニングオーバーヘッドをもたらし、追加の推論負荷を課さないことである。 既存の手法と統合し、継続的に性能を向上することで、我々のアプローチの有効性を実証する。 実装はhttps://github.com/Wenlve-Zhou/Guidance-Training.comで公開される。

Unsupervised Domain Adaptation (UDA) endeavors to adjust models trained on a source domain to perform well on a target domain without requiring additional annotations. In the context of domain adaptive semantic segmentation, which tackles UDA for dense prediction, the goal is to circumvent the need for costly pixel-level annotations. Typically, various prevailing methods baseline rely on constructing intermediate domains via cross-domain mixed sampling techniques to mitigate the performance decline caused by domain gaps. However, such approaches generate synthetic data that diverge from real-world distributions, potentially leading the model astray from the true target distribution. To address this challenge, we propose a novel auxiliary task called Guidance Training. This task facilitates the effective utilization of cross-domain mixed sampling techniques while mitigating distribution shifts from the real world. Specifically, Guidance Training guides the model to extract and reconstruct the target-domain feature distribution from mixed data, followed by decoding the reconstructed target-domain features to make pseudo-label predictions. Importantly, integrating Guidance Training incurs minimal training overhead and imposes no additional inference burden. We demonstrate the efficacy of our approach by integrating it with existing methods, consistently improving performance. The implementation will be available at https://github.com/Wenlve-Zhou/Guidance-Training.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# 量子化DNNの時代へのマジック

Magic for the Age of Quantized DNNs ( http://arxiv.org/abs/2403.14999v1 )

ライセンス: Link先を確認
Yoshihide Sawada, Ryuji Saiin, Kazuma Suetake, (参考訳) 近年、LLM(Large Language Models)の例のように、DNNのパラメータの数が爆発的に増加し、小規模コンピュータでの推論がより困難になっている。 したがって、モデル圧縮技術は製品への統合に不可欠である。 本稿では,量子化対応学習法を提案する。 ミニバッチサイズに依存しない新しい正規化(Layer-Batch Normalization)を導入し,推論時に追加の計算コストを必要としない。 そして、重みの標準化により、スケールした円クリップ関数によって重みの定量化を行う。 また、同じ関数を用いて活性化関数を量子化し、代理勾配を適用して、量子化重みと量子化活性化関数の両方でモデルを訓練する。 我々はこの手法を、量子DNN(MaQD)の時代におけるマジックと呼ぶ。 実験結果から, 量子化法は最小精度の劣化で実現できることがわかった。

Recently, the number of parameters in DNNs has explosively increased, as exemplified by LLMs (Large Language Models), making inference on small-scale computers more difficult. Model compression technology is, therefore, essential for integration into products. In this paper, we propose a method of quantization-aware training. We introduce a novel normalization (Layer-Batch Normalization) that is independent of the mini-batch size and does not require any additional computation cost during inference. Then, we quantize the weights by the scaled round-clip function with the weight standardization. We also quantize activation functions using the same function and apply surrogate gradients to train the model with both quantized weights and the quantized activation functions. We call this method Magic for the age of Quantised DNNs (MaQD). Experimental results show that our quantization method can be achieved with minimal accuracy degradation.
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# ParFormer: ローカル・グローバル・トーケン・ミキサーとコンボリューション・アテンション・パッチ・埋め込みを併用したビジョントランスフォーマーベースライン

ParFormer: Vision Transformer Baseline with Parallel Local Global Token Mixer and Convolution Attention Patch Embedding ( http://arxiv.org/abs/2403.15004v1 )

ライセンス: Link先を確認
Novendra Setyawan, Ghufron Wahyu Kurniawan, Chi-Chia Sun, Jun-Wei Hsieh, Hui-Kai Su, Wen-Kai Kuo, (参考訳) この作業では、ParFormerを、異なるトークンミキサーを単一のステージに組み込むことができる拡張トランスフォーマーアーキテクチャとして提示し、機能抽出機能を改善する。 局所的データと大域的データを統合することで、シフトウィンドウのような計算集約的な手法を必要とせずに、短距離空間関係と長距離空間関係を正確に表現することができる。 並列トークンミキサーエンコーダとともに、コンボリューショナルアテンションパッチ埋め込み(CAPE)を標準パッチ埋め込みの強化として提供し、コンボリューショナルアテンションモジュールによるトークンミキサー抽出を改善する。 包括的評価により,私たちのParFormerは画像分類やオブジェクト認識などの複雑なタスクにおいて,CNNベースおよび最先端のトランスフォーマーベースアーキテクチャよりも優れていることが示された。 提案したCAPEは、アイデンティティマッピングのToken Mixerを利用しても、MetaFormerアーキテクチャ全体のメリットを享受できることが実証されている。 ParFormerモデルは、純粋な畳み込みとトランスフォーマーモデルの精度で、ConvNeXtとSwin Transformerより優れていた。 さらに,本モデルでは,ImageNet-1K分類テストにおいて,競合するTop-1スコアに到達することで,現行のリードハイブリッドトランスフォーマーを上回っている。 具体的には,11M,23M,34Mパラメータのモデル変種は,それぞれ80.4\%,82.1\%,83.1\%のスコアを得る。 コード:https://github.com/novendrastywn/ParFormer-CAPE-2024

This work presents ParFormer as an enhanced transformer architecture that allows the incorporation of different token mixers into a single stage, hence improving feature extraction capabilities. Integrating both local and global data allows for precise representation of short- and long-range spatial relationships without the need for computationally intensive methods such as shifting windows. Along with the parallel token mixer encoder, We offer the Convolutional Attention Patch Embedding (CAPE) as an enhancement of standard patch embedding to improve token mixer extraction with a convolutional attention module. Our comprehensive evaluation demonstrates that our ParFormer outperforms CNN-based and state-of-the-art transformer-based architectures in image classification and several complex tasks such as object recognition. The proposed CAPE has been demonstrated to benefit the overall MetaFormer architecture, even while utilizing the Identity Mapping Token Mixer, resulting in a 0.5\% increase in accuracy. The ParFormer models outperformed ConvNeXt and Swin Transformer for the pure convolution and transformer model in accuracy. Furthermore, our model surpasses the current leading hybrid transformer by reaching competitive Top-1 scores in the ImageNet-1K classification test. Specifically, our model variants with 11M, 23M, and 34M parameters achieve scores of 80.4\%, 82.1\%, and 83.1\%, respectively. Code: https://github.com/novendrastywn/ParFormer-CAPE-2024
翻訳日:2024-03-25 18:27:45 公開日:2024-03-22
# 幾何学的深度補正のための3視点分解法

Tri-Perspective View Decomposition for Geometry-Aware Depth Completion ( http://arxiv.org/abs/2403.15008v1 )

ライセンス: Link先を確認
Zhiqiang Yan, Yuankai Lin, Kun Wang, Yupeng Zheng, Yufei Wang, Zhenyu Zhang, Jun Li, Jian Yang, (参考訳) 深さの完成は自動運転にとって重要な課題であり、スパースとノイズの深さの測定からシーンの正確な3次元形状を再構築する。 しかし、既存のほとんどの手法は2次元の深さ表現にのみ依存するか、補償のために生の3次元点の雲を直接組み込むかのいずれかであり、シーンの微細な3次元形状を捉えるのにはまだ不十分である。 この課題に対処するために,3次元幾何学を明示的にモデル化できる新しいフレームワークであるTri-Perspective View Decomposition (TPVD)を導入する。 特に、(1)TPVDは、原点雲を3つの2次元ビューに巧みに分解し、そのうちの1つはスパース深度入力に対応する。 2) 距離認識球面畳み込み (DASC) を適用した2D-3D-2Dアグリゲーションによる2D TPV特徴の更新を行うため, TPV Fusion を設計した。 (3) 新たに提案した幾何空間伝搬ネットワーク(GSPN)は,TPV親和性近傍を適応的に選択することにより,幾何整合性をさらに向上する。 その結果,TPVDはKITTI,NYUv2,SUN RGBDの既存手法よりも優れていた。 さらに,TOFDC(Time-of-light)センサとスマートフォンのカラーカメラによって取得される新しい深度補完データセットを構築した。 プロジェクトページ: https://yanzq95.github.io/projectpage/TOFDC/index.html

Depth completion is a vital task for autonomous driving, as it involves reconstructing the precise 3D geometry of a scene from sparse and noisy depth measurements. However, most existing methods either rely only on 2D depth representations or directly incorporate raw 3D point clouds for compensation, which are still insufficient to capture the fine-grained 3D geometry of the scene. To address this challenge, we introduce Tri-Perspective view Decomposition (TPVD), a novel framework that can explicitly model 3D geometry. In particular, (1) TPVD ingeniously decomposes the original point cloud into three 2D views, one of which corresponds to the sparse depth input. (2) We design TPV Fusion to update the 2D TPV features through recurrent 2D-3D-2D aggregation, where a Distance-Aware Spherical Convolution (DASC) is applied. (3) By adaptively choosing TPV affinitive neighbors, the newly proposed Geometric Spatial Propagation Network (GSPN) further improves the geometric consistency. As a result, our TPVD outperforms existing methods on KITTI, NYUv2, and SUN RGBD. Furthermore, we build a novel depth completion dataset named TOFDC, which is acquired by the time-of-flight (TOF) sensor and the color camera on smartphones. Project page: https://yanzq95.github.io/projectpage/TOFDC/index.html
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# TexRO:再帰的最適化による3次元モデルの複雑なテクスチャの生成

TexRO: Generating Delicate Textures of 3D Models by Recursive Optimization ( http://arxiv.org/abs/2403.15009v1 )

ライセンス: Link先を確認
Jinbo Wu, Xing Liu, Chenming Wu, Xiaobo Gao, Jialun Liu, Xinqi Liu, Chen Zhao, Haocheng Feng, Errui Ding, Jingdong Wang, (参考訳) 本稿では,そのUVテクスチャを最適化して,既知の3次元メッシュの繊細なテクスチャを生成するTexROを提案する。 主なコントリビューションは2つだ。 本稿では,メッシュのすべての面をカバーする,最もミニチュアな視点の集合を求める最適視点選択戦略を提案する。 我々の視点選択戦略は、生成された結果の完全性を保証する。 本稿では,UVテクスチャを高解像度で最適化する再帰最適化パイプラインを提案し,新しいテクスチャ生成のために既存のテクスチャを再利用する適応デノナイズ手法を提案する。 大規模な実験を通じて,テクスチャ品質,ディテール保存,視覚的一貫性,特に実行速度において,TexROの優れた性能が,他の手法よりも優れていることを示す。 TexROの幅広い適用性は、様々な3Dモデルでの成功によってさらに確認されている。

This paper presents TexRO, a novel method for generating delicate textures of a known 3D mesh by optimizing its UV texture. The key contributions are two-fold. We propose an optimal viewpoint selection strategy, that finds the most miniature set of viewpoints covering all the faces of a mesh. Our viewpoint selection strategy guarantees the completeness of a generated result. We propose a recursive optimization pipeline that optimizes a UV texture at increasing resolutions, with an adaptive denoising method that re-uses existing textures for new texture generation. Through extensive experimentation, we demonstrate the superior performance of TexRO in terms of texture quality, detail preservation, visual consistency, and, notably runtime speed, outperforming other current methods. The broad applicability of TexRO is further confirmed through its successful use on diverse 3D models.
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# クリーンイメージのバックドア攻撃

Clean-image Backdoor Attacks ( http://arxiv.org/abs/2403.15010v1 )

ライセンス: Link先を確認
Dazhong Rong, Shuheng Shen, Xinyi Fu, Peng Qian, Jianhai Chen, Qinming He, Xing Fu, Weiqiang Wang, (参考訳) 高性能画像分類モデルのための大量の注釈付きトレーニングデータを収集するために、多くの企業が、ラベルなしデータのラベル付けをサードパーティプロバイダに依頼する。 モデルの最終性能に対するこれらの小さな不正確さの影響は無視可能であり、既存のバックドアアタックは攻撃者がトレーニングイメージに毒を盛る能力を必要とするためである。 しかし,本論文では,トレーニング画像を変更することなく,一部の不正ラベルを通じてバックドアを注入できることを明らかにするクリーンイメージバックドア攻撃を提案する。 具体的には、攻撃者はまず、トレーニングイメージを2つの部分に分割するトリガー機能を探します。 その後、攻撃者は前者のラベルをバックドアクラスに偽装する。 バックドアは、毒データで訓練された後、最終的にターゲットモデルに埋め込まれる。 推論フェーズの間、攻撃者は2つの方法でバックドアを起動することができる。 攻撃の有効性と実用性を実証する広範囲な実験を行った。 実験結果から,我々の攻撃は画像分類モデルの公平性とロバスト性を著しく損なうものであり,アウトソースラベルの不正なラベルについて警戒する必要があると結論付けた。

To gather a significant quantity of annotated training data for high-performance image classification models, numerous companies opt to enlist third-party providers to label their unlabeled data. This practice is widely regarded as secure, even in cases where some annotated errors occur, as the impact of these minor inaccuracies on the final performance of the models is negligible and existing backdoor attacks require attacker's ability to poison the training images. Nevertheless, in this paper, we propose clean-image backdoor attacks which uncover that backdoors can still be injected via a fraction of incorrect labels without modifying the training images. Specifically, in our attacks, the attacker first seeks a trigger feature to divide the training images into two parts: those with the feature and those without it. Subsequently, the attacker falsifies the labels of the former part to a backdoor class. The backdoor will be finally implanted into the target model after it is trained on the poisoned data. During the inference phase, the attacker can activate the backdoor in two ways: slightly modifying the input image to obtain the trigger feature, or taking an image that naturally has the trigger feature as input. We conduct extensive experiments to demonstrate the effectiveness and practicality of our attacks. According to the experimental results, we conclude that our attacks seriously jeopardize the fairness and robustness of image classification models, and it is necessary to be vigilant about the incorrect labels in outsourced labeling.
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# 生物的ニーズに応じた細胞追跡 --アレタリック不確かさを意識した強ミトーシス型ランダム有限集合追跡装置-

Cell Tracking according to Biological Needs -- Strong Mitosis-aware Random-finite Sets Tracker with Aleatoric Uncertainty ( http://arxiv.org/abs/2403.15011v1 )

ライセンス: Link先を確認
Timo Kaiser, Maximilian Schier, Bodo Rosenhahn, (参考訳) 細胞追跡とセグメンテーションは、大規模な顕微鏡タイムラプスデータから洞察を抽出する生物学者を支援する。 局所的精度のメトリクスによって駆動される現在のトラッキングアプローチは、長期的な一貫性の欠如に悩まされることが多い。 この問題に対処するため,ニューラルトラッキング・バイ・レグレッション・フレームワークの不確実性評価手法を導入し,新しい拡張型Poisson multi-Bernoulli混合トラッカーに組み込む。 我々の不確実性推定は、問題特異的なテスト時間拡張を用いたハイパフォーマンスなトラッキング・バイ・レグレッション手法における不確かさを識別する。 この不確実性を利用して、新しいミトーシス対応課題の定式化とともに、トラッカーは、長期の対立に起因する偽の関連とミトーシスの検出を解消する。 我々は、9つの競合データセットに対する我々のアプローチを評価し、生物学的に関連する指標の最先端を著しく上回り、約5.75ドルの改善を達成していることを実証した。 さらに,トラッキング・バイ・レグレッションの不確実性の挙動に関する新たな知見を明らかにした。

Cell tracking and segmentation assist biologists in extracting insights from large-scale microscopy time-lapse data. Driven by local accuracy metrics, current tracking approaches often suffer from a lack of long-term consistency. To address this issue, we introduce an uncertainty estimation technique for neural tracking-by-regression frameworks and incorporate it into our novel extended Poisson multi-Bernoulli mixture tracker. Our uncertainty estimation identifies uncertain associations within high-performing tracking-by-regression methods using problem-specific test-time augmentations. Leveraging this uncertainty, along with a novel mitosis-aware assignment problem formulation, our tracker resolves false associations and mitosis detections stemming from long-term conflicts. We evaluate our approach on nine competitive datasets and demonstrate that it outperforms the current state-of-the-art on biologically relevant metrics substantially, achieving improvements by a factor of approximately $5.75$. Furthermore, we uncover new insights into the behavior of tracking-by-regression uncertainty.
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# 臨床機械学習における多ソースクロスバリデーションの実証的研究

Empirical investigation of multi-source cross-validation in clinical machine learning ( http://arxiv.org/abs/2403.15012v1 )

ライセンス: Link先を確認
Tuija Leinonen, David Wong, Ali Wahab, Ramesh Nadarajah, Matti Kaisti, Antti Airola, (参考訳) 伝統的に、機械学習に基づく臨床予測モデルは、病院のような単一ソースからの患者データに基づいて訓練され、評価されてきた。 クロスバリデーション法は、同じソースから得られた新しい患者に対して、データを繰り返しランダムに分割することで、そのようなモデルの精度を推定することができる。 しかし、そのような推定は、新しい病院のようなデータセットに表現されていないソースにモデルを配置することによって得られる精度と比較して、非常に過度に最適化される傾向にある。 マルチソース医療データセットの可用性の向上は、ソースレベルのクロスバリデーション設計を通じて、予想される精度をより包括的で現実的に評価する新たな機会を提供する。 本研究では,マルチソース環境下での標準K-foldクロスバリデーションとLeft-source-outクロスバリデーションの系統的評価について述べる。 心電図に基づく心血管疾患分類の課題について検討し,オープンなPhyloNet CinC Challenge 2021とShandong Provincial Hospitalデータセットを併用して検討した。 以上の結果から,K-foldクロスバリデーションは単一ソースデータと複数ソースデータの両方において,新たなソースへの一般化を目標とする場合の予測性能を体系的に過大評価していることがわかった。 ソースアウトのクロスバリデーションは、より信頼性の高いパフォーマンス見積を提供し、バイアスはゼロに近いが、より大きなばらつきがある。 この評価は、医療データ上で誤ったクロスバリデーション結果を得る危険性を強調し、これらの問題がマルチソースデータにアクセスする際にどのように緩和されるかを示す。

Traditionally, machine learning-based clinical prediction models have been trained and evaluated on patient data from a single source, such as a hospital. Cross-validation methods can be used to estimate the accuracy of such models on new patients originating from the same source, by repeated random splitting of the data. However, such estimates tend to be highly overoptimistic when compared to accuracy obtained from deploying models to sources not represented in the dataset, such as a new hospital. The increasing availability of multi-source medical datasets provides new opportunities for obtaining more comprehensive and realistic evaluations of expected accuracy through source-level cross-validation designs. In this study, we present a systematic empirical evaluation of standard K-fold cross-validation and leave-source-out cross-validation methods in a multi-source setting. We consider the task of electrocardiogram based cardiovascular disease classification, combining and harmonizing the openly available PhysioNet CinC Challenge 2021 and the Shandong Provincial Hospital datasets for our study. Our results show that K-fold cross-validation, both on single-source and multi-source data, systemically overestimates prediction performance when the end goal is to generalize to new sources. Leave-source-out cross-validation provides more reliable performance estimates, having close to zero bias though larger variability. The evaluation highlights the dangers of obtaining misleading cross-validation results on medical data and demonstrates how these issues can be mitigated when having access to multi-source data.
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# クラウドソーシング型パッチラベリングによる人間の注意抽出

Extracting Human Attention through Crowdsourced Patch Labeling ( http://arxiv.org/abs/2403.15013v1 )

ライセンス: Link先を確認
Minsuk Chang, Seokhyeon Park, Hyeon Jeon, Aeri Cho, Soohyun Lee, Jinwook Seo, (参考訳) 画像分類では、データセットのバイアスから重大な問題が生じる。 特定のタイプの画像のみを含む場合、分類器は、意思決定の単純かつ誤った規則であるショートカットに依存するようになる。 これにより、トレーニングデータセットの性能は向上するが、分類器の一般化能力が低下するにつれて、新しい様々な画像に対して劣る結果が得られる。 例えば、口ひげとラベル付けされた画像が男性のみで構成されている場合、モデルが不注意に口ひげの存在ではなく、性別別に画像を分類することを学習する可能性がある。 このようなバイアスを軽減する1つのアプローチは、モデルが対象のオブジェクトの位置に注意を向けることであり、通常はアノテーションのためにバウンディングボックスやポリゴンを使ってマークされる。 しかし、こうした注釈の収集にはかなりの時間と人的労力を要する。 そこで我々は,画像から人の注意を捉えるために,AI支援とクラウドソーシングを統合したパッチラベル手法を提案する。 私たちの方法は2つのステップから成り立っている。 まず,人間による精度検証によって補足された訓練済みの精度検出モデルを用いて,目標の近似位置を抽出する。 そして,画像を小さなパッチに反復的に分割し,各パッチを対象オブジェクトとして分類できるかどうかを確認するために,クラウドソーシングを用いて画像中の人間の注意領域を決定する。 分類精度の向上とモデルの改良によるバイアス軽減における本手法の有効性を実証した。 また, クラウドソース実験により, アノテーションをポリゴンでアノテートするよりも最大3.4倍の速さで収集し, 人的資源の必要性を著しく低減することを確認した。 本稿では,クラウドソーシングにおける手法の利点を論じ,主にヒューマンエラーとアクセシビリティの観点から論じる。

In image classification, a significant problem arises from bias in the datasets. When it contains only specific types of images, the classifier begins to rely on shortcuts - simplistic and erroneous rules for decision-making. This leads to high performance on the training dataset but inferior results on new, varied images, as the classifier's generalization capability is reduced. For example, if the images labeled as mustache consist solely of male figures, the model may inadvertently learn to classify images by gender rather than the presence of a mustache. One approach to mitigate such biases is to direct the model's attention toward the target object's location, usually marked using bounding boxes or polygons for annotation. However, collecting such annotations requires substantial time and human effort. Therefore, we propose a novel patch-labeling method that integrates AI assistance with crowdsourcing to capture human attention from images, which can be a viable solution for mitigating bias. Our method consists of two steps. First, we extract the approximate location of a target using a pre-trained saliency detection model supplemented by human verification for accuracy. Then, we determine the human-attentive area in the image by iteratively dividing the image into smaller patches and employing crowdsourcing to ascertain whether each patch can be classified as the target object. We demonstrated the effectiveness of our method in mitigating bias through improved classification accuracy and the refined focus of the model. Also, crowdsourced experiments validate that our method collects human annotation up to 3.4 times faster than annotating object locations with polygons, significantly reducing the need for human resources. We conclude the paper by discussing the advantages of our method in a crowdsourcing context, mainly focusing on aspects of human errors and accessibility.
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# 北欧における車両検出性能

Vehicle Detection Performance in Nordic Region ( http://arxiv.org/abs/2403.15017v1 )

ライセンス: Link先を確認
Hamam Mokayed, Rajkumar Saini, Oluwatosin Adewumi, Lama Alkhaled, Bjorn Backe, Palaiahnakote Shivakumara, Olle Hagner, Yan Chai Hum, (参考訳) 本報告では, 豪雪, 可視性低下, 低照度を特徴とする北欧地域の厳しい冬条件下での車両検出の課題について述べる。 環境の歪みや閉塞の影響を受けやすいため、従来の車両検出法はこれらの有害な状況に苦しんだ。 先進的な深層学習アーキテクチャは約束をもたらしたが、北欧の冬における車両検出の難しさは相変わらず解決されていない。 本研究は、スウェーデン北部のUAV画像を持つ北欧自動車データセット(NVD)を用いて、挑戦的な気象条件下での最先端の車両検出アルゴリズムの性能を評価する。 本手法は,NVDに対する単段,二段,変圧器に基づく検出器の総合的な評価を含む。 本稿では,データ拡張,ハイパーパラメータチューニング,トランスファーラーニング,DTRモデル用に明示的に設計された新しい戦略など,各検出フレームワークに適した一連の拡張を提案する。 本研究は,北欧環境における現在の検知システムの限界を浮き彫りにするだけでなく,冬の景観の複雑さの中で,車両検出におけるロバスト性や精度を向上させるために,これらのアルゴリズムを改良するための有望な方向性を提供する。 コードとデータセットはhttps://nvd.ltu-ai.devで公開されている。

This paper addresses the critical challenge of vehicle detection in the harsh winter conditions in the Nordic regions, characterized by heavy snowfall, reduced visibility, and low lighting. Due to their susceptibility to environmental distortions and occlusions, traditional vehicle detection methods have struggled in these adverse conditions. The advanced proposed deep learning architectures brought promise, yet the unique difficulties of detecting vehicles in Nordic winters remain inadequately addressed. This study uses the Nordic Vehicle Dataset (NVD), which has UAV images from northern Sweden, to evaluate the performance of state-of-the-art vehicle detection algorithms under challenging weather conditions. Our methodology includes a comprehensive evaluation of single-stage, two-stage, and transformer-based detectors against the NVD. We propose a series of enhancements tailored to each detection framework, including data augmentation, hyperparameter tuning, transfer learning, and novel strategies designed explicitly for the DETR model. Our findings not only highlight the limitations of current detection systems in the Nordic environment but also offer promising directions for enhancing these algorithms for improved robustness and accuracy in vehicle detection amidst the complexities of winter landscapes. The code and the dataset are available at https://nvd.ltu-ai.dev
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# BSNet:3次元インスタンスセグメンテーションのための箱型シミュレーション支援平均教師

BSNet: Box-Supervised Simulation-assisted Mean Teacher for 3D Instance Segmentation ( http://arxiv.org/abs/2403.15019v1 )

ライセンス: Link先を確認
Jiahao Lu, Jiacheng Deng, Tianzhu Zhang, (参考訳) 3Dインスタンスのセグメンテーション(3DIS)は重要なタスクですが、ポイントレベルのアノテーションは、完全に教師された設定では面倒です。 このように、アノテーションとしてバウンディングボックス(bbox)を使用することは、大きな可能性を秘めている。 現在の主流のアプローチは、2段階のプロセスであり、ボックスアノテーションから擬似ラベルを生成し、擬似ラベルで3DISネットワークをトレーニングする。 しかしながら、bbox間の交差が存在するため、特に重なり合う領域において、すべての点が決定されたインスタンスラベルを持つわけではない。 より高品質な擬似ラベルを生成し,より精度の低い3DIS結果を実現するために,シミュレーション支援トランスフォーマと呼ばれる新しい擬似ラベルを考案したBox-Supervised Simulation-assisted Mean Teacher for 3D Instance Segmentation (BSNet)を提案する。 ラベルは2つの主要コンポーネントから構成される。 1つ目は、シミュレーション支援平均教師であり、これは、このタスクで初めて平均教師を紹介し、ラベラーが重複する領域に関する事前知識を取得するのを手助けするシミュレーションサンプルを構築する。 また,教師や学生のラベリングのためのデコーダとして,ローカル・グローバル・アウェア・アテンション(Local-Global Aware Attention)を提案する。 ScanNetV2とS3DISデータセットで実施された大規模な実験は、我々の設計の優位性を検証する。 コードは \href{https://github.com/Peoplelu/BSNet}{https://github.com/Peoplelu/BSNet} で入手できる。

3D instance segmentation (3DIS) is a crucial task, but point-level annotations are tedious in fully supervised settings. Thus, using bounding boxes (bboxes) as annotations has shown great potential. The current mainstream approach is a two-step process, involving the generation of pseudo-labels from box annotations and the training of a 3DIS network with the pseudo-labels. However, due to the presence of intersections among bboxes, not every point has a determined instance label, especially in overlapping areas. To generate higher quality pseudo-labels and achieve more precise weakly supervised 3DIS results, we propose the Box-Supervised Simulation-assisted Mean Teacher for 3D Instance Segmentation (BSNet), which devises a novel pseudo-labeler called Simulation-assisted Transformer. The labeler consists of two main components. The first is Simulation-assisted Mean Teacher, which introduces Mean Teacher for the first time in this task and constructs simulated samples to assist the labeler in acquiring prior knowledge about overlapping areas. To better model local-global structure, we also propose Local-Global Aware Attention as the decoder for teacher and student labelers. Extensive experiments conducted on the ScanNetV2 and S3DIS datasets verify the superiority of our designs. Code is available at \href{https://github.com/peoplelu/BSNet}{https://github.com/peoplelu/BSNet}.
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# トポロジカル強磁性体Fe3GeTe2により実現された全ファンデルワールス3末端SOT-MRAM

All van der Waals three-terminal SOT-MRAM realized by topological ferromagnet Fe3GeTe2 ( http://arxiv.org/abs/2403.15020v1 )

ライセンス: Link先を確認
Jingyuan Cui, Kai-Xuan Zhang, Je-Geun Park, (参考訳) 磁気ファンデルワールス(vdW)材料は、学術的関心と過去数年間の応用の可能性から、大きな注目を集めている。 その主な利点は本質的な2次元性であり、新しい概念のより小さなデバイスを可能にする。 特にエキサイティングな方向の1つは、電流駆動のスピン軌道トルク(SOT)にある。 ここでは,Fe3GeTe2(FGT)の巨大内在性SOTの物理原理と,産業適応型トンネル磁気抵抗効果(TMR)を応用して,初めて,全vdW三端子SOTメモリを実現する。 デバイス操作手順を設計し,FGT/h-BN/FGT vdWヘテロ構造を概念実証として作製した。 この装置は古典的なTMR効果を示し、期待通りに正確な性能で概念を実証する:トップFGTの磁気情報は電流駆動SOTによって書かれ、TMRによって別々に読み出される。 書き込みと読み込みの現在のパスは物理的に分離され、設計と最適化の柔軟性が大幅に向上し、デバイスの耐久性が自然に向上する。 我々の研究は、スピントロニクス用途にvdWマグネットをより広範囲に利用することを促すだろう。

Magnetic van der Waals (vdW) materials have attracted massive attention because of their academic interest and application potential for the past few years. Its main advantage is the intrinsic two-dimensionality, enabling much smaller devices of novel concepts. One particular exciting direction lies in the current-driven spin-orbit torque (SOT). Here, we, for the first time, realize an all vdW three-terminal SOT memory, employing the unique physics principle of gigantic intrinsic SOT of Fe3GeTe2 (FGT) and the well-known industry-adopted tunnelling magnetoresistance (TMR) effect. We designed the device operation procedure and fabricated the FGT/h-BN/FGT vdW heterostructure as a proof of concept. This device exhibits a classical TMR effect and unambiguously demonstrates the conception by precise performance as expected: the magnetic information of the top-FGT is written by current-driven SOT and read out by TMR separately. The writing and reading current paths are physically decoupled, enhancing the design and optimization flexibility substantially and further strengthening the device's endurance naturally. Our work would prompt more expansive use of vdW magnets for spintronic applications.
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# プログラマは個別に割り当てられたタスクと共有責任を優先する

Programmers Prefer Individually Assigned Tasks vs. Shared Responsibility ( http://arxiv.org/abs/2403.15021v1 )

ライセンス: Link先を確認
Adela Krylova, Roman Makarov, Sergei Pasynkov, Yegor Bugayenko, (参考訳) 従来のマネジメントでは、タスクは通常個人に割り当てられ、各ワーカーはタスクの成功や失敗に対して完全な責任を負う。 対照的に、現代のアジャイル、リーン、eXtremeプログラミングのプラクティスは、グループ全体がプロジェクトやタスクの結果に責任を負う、共通の責任を主張します。 他の領域での多くの研究にもかかわらず、プログラマの好みは十分に分析されていない。 このギャップに対処するため、我々は7つの状況質問を含む調査を行い、120人のソフトウェア開発実践者の意見を収集した。 その結果、プログラマは個別にタスクを割り当てることを好み、失敗に対する個人的な責任を負うだけでなく、成功に対する個々の報酬を受け取ることに感謝していることがわかった。 これらの好みを理解することは、チームのダイナミクスを最適化し、ソフトウェアプロジェクトの成功を確実にすることを目的としたプロジェクトマネージャにとって非常に重要です。

In traditional management, tasks are typically assigned to individuals, with each worker taking full responsibility for the success or failure of a task. In contrast, modern Agile, Lean, and eXtreme Programming practices advocate for shared responsibility, where an entire group is accountable for the outcome of a project or task. Despite numerous studies in other domains, the preferences of programmers have not been thoroughly analyzed. To address this gap, we conducted a survey featuring seven situational questions and collected the opinions of 120 software development practitioners. Our findings reveal that programmers prefer tasks to be assigned to them on an individual basis and appreciate taking personal responsibility for failures, as well as receiving individual rewards for successes. Understanding these preferences is crucial for project managers aiming to optimize team dynamics and ensure the successful completion of software projects.
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# Lottery Ticket仮説と反復マグニチュードプルーニング

Insights into the Lottery Ticket Hypothesis and the Iterative Magnitude Pruning ( http://arxiv.org/abs/2403.15022v1 )

ライセンス: Link先を確認
Tausifa Jan Saleem, Ramanjit Ahuja, Surendra Prasad, Brejesh Lall, (参考訳) ディープニューラルネットワークのロッテチケット仮説は、反復等級プルーニングプロセスを用いて得られたスペーサーネットワークを再訓練するために使われる初期化の重要性を強調している。 抽選券仮説によって提案された特定の初期化が、一般化(および訓練)性能においてよりうまく機能する傾向にある理由を説明する。 さらに、イテレーティブ・マグニチュード・プルーニング(英語版)の根底にある原則、例えば、より小さなマグニチュードのプルーニングや反復的プロセスの役割は、完全な理解と説明が欠如している。 本研究は, 反復等級プルーニングプロセスの様々な段階において得られた溶液の体積・幾何学的特徴と損失景観特性を実証的に研究することによって, これらの現象に関する知見を提供するものである。

Lottery ticket hypothesis for deep neural networks emphasizes the importance of initialization used to re-train the sparser networks obtained using the iterative magnitude pruning process. An explanation for why the specific initialization proposed by the lottery ticket hypothesis tends to work better in terms of generalization (and training) performance has been lacking. Moreover, the underlying principles in iterative magnitude pruning, like the pruning of smaller magnitude weights and the role of the iterative process, lack full understanding and explanation. In this work, we attempt to provide insights into these phenomena by empirically studying the volume/geometry and loss landscape characteristics of the solutions obtained at various stages of the iterative magnitude pruning process.
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# 物理インフォームド構造因果モデルによる分布シフト下のロバスト等角予測

Robust Conformal Prediction under Distribution Shift via Physics-Informed Structural Causal Model ( http://arxiv.org/abs/2403.15025v1 )

ライセンス: Link先を確認
Rui Xu, Yue Sun, Chao Chen, Parv Venkitasubramaniam, Sihong Xie, (参考訳) 不確実性は、マシンラーニングによる信頼性の高い意思決定に不可欠である。 整形予測(CP)は、テスト入力のセットを予測することで不確実性に対処し、セットが真のラベルを少なくとも$(1-\alpha)$自信でカバーすることを期待する。 このカバレッジは、キャリブレーションとテストデータセットの差分分布が$P_X$であったとしても、テストデータ上で保証することができる。 しかし、実際には、条件分布 $P_{Y|X}$ がキャリブレーションとテストデータで異なる場合、カバレッジは保証されておらず、分布シフトの下でのカバレッジ損失をtextit{all} の信頼性レベルで測定し、最小化することが不可欠である。 これらの問題に対処するために、キャリブレーションの累積密度関数とテストコンフォメーションスコアとワッサーシュタイン距離を用いて、全てのレベルにおけるカバレッジ差を上限とする。 データ分布間の物理の不変性に着想を得て,上界を減少させる物理インフォームド構造因果モデル(PI-SCM)を提案する。 PI-SCMは,交通速度予測タスクと,複数の実世界のデータセットを用いた流行拡散タスクにおいて,信頼性レベルとテスト領域に沿ったカバレッジロバスト性を向上させることができることを確認した。

Uncertainty is critical to reliable decision-making with machine learning. Conformal prediction (CP) handles uncertainty by predicting a set on a test input, hoping the set to cover the true label with at least $(1-\alpha)$ confidence. This coverage can be guaranteed on test data even if the marginal distributions $P_X$ differ between calibration and test datasets. However, as it is common in practice, when the conditional distribution $P_{Y|X}$ is different on calibration and test data, the coverage is not guaranteed and it is essential to measure and minimize the coverage loss under distributional shift at \textit{all} possible confidence levels. To address these issues, we upper bound the coverage difference at all levels using the cumulative density functions of calibration and test conformal scores and Wasserstein distance. Inspired by the invariance of physics across data distributions, we propose a physics-informed structural causal model (PI-SCM) to reduce the upper bound. We validated that PI-SCM can improve coverage robustness along confidence level and test domain on a traffic speed prediction task and an epidemic spread task with multiple real-world datasets.
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# VRSO:静的オブジェクトアノテーションのための視覚中心再構成

VRSO: Visual-Centric Reconstruction for Static Object Annotation ( http://arxiv.org/abs/2403.15026v1 )

ライセンス: Link先を確認
Chenyao Yu, Yingfeng Cai, Jiaxin Zhang, Hui Kong, Wei Sui, Cong Yang, (参考訳) 知的運転システムの認識結果の一部として、3次元空間における静的物体検出(SOD)は、環境理解を駆動するための重要な手がかりとなる。 SODタスクのためのディープニューラルネットワークの迅速なデプロイにより、高品質なトレーニングサンプルの需要が急増した。 従来の信頼性の高い方法では、高密度のLiDAR点雲と参照イメージを手動でラベル付けする。 ほとんどの公共の運転データセットは、SODの真実(GT)を提供するためにこの戦略を採用しているが、実際には高価(LiDARスキャナーが必要)であり、低効率(時間の浪費とスケーリングが不可能)である。 本稿では静的オブジェクトアノテーションのための視覚中心型アプローチであるVRSOを紹介する。 VRSOは,(1)カメラ画像のみを入力として3次元空間の静的物体を復元し,(2)手動ラベリングは,自動再構成およびアノテーションパイプラインに基づいてSODタスクのGTを生成するため,ほとんど関与しない。 (3) Waymo Open Datasetの実験では、VRSOアノテーションからの平均再射誤差はわずか2.6ピクセルであり、Waymoラベルの約4倍(10.6ピクセル)である。 ソースコードは、https://github.com/CaiYingFeng/VRSOで入手できる。

As a part of the perception results of intelligent driving systems, static object detection (SOD) in 3D space provides crucial cues for driving environment understanding. With the rapid deployment of deep neural networks for SOD tasks, the demand for high-quality training samples soars. The traditional, also reliable, way is manual labeling over the dense LiDAR point clouds and reference images. Though most public driving datasets adopt this strategy to provide SOD ground truth (GT), it is still expensive (requires LiDAR scanners) and low-efficient (time-consuming and unscalable) in practice. This paper introduces VRSO, a visual-centric approach for static object annotation. VRSO is distinguished in low cost, high efficiency, and high quality: (1) It recovers static objects in 3D space with only camera images as input, and (2) manual labeling is barely involved since GT for SOD tasks is generated based on an automatic reconstruction and annotation pipeline. (3) Experiments on the Waymo Open Dataset show that the mean reprojection error from VRSO annotation is only 2.6 pixels, around four times lower than the Waymo labeling (10.6 pixels). Source code is available at: https://github.com/CaiYingFeng/VRSO.
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# 時系列予測のためのグレーインフォームドニューラルネットワーク

Grey-informed neural network for time-series forecasting ( http://arxiv.org/abs/2403.15027v1 )

ライセンス: Link先を確認
Wanli Xie, Ruibin Zhao, Zhenguo Xu, Tingting Liang, (参考訳) ニューラルネットワークモデルは、様々な分野における複雑な問題に対する優れた性能と解決方法を示してきた。 しかしながら、これらのモデルのほとんどはブラックボックスと見なされており、開発にはかなりの量のデータが必要である。 したがって、限られたデータを持つ状況では、データの透明性や不足のため、適切なモデルの構築が困難になる。 これらの課題に対処するために、グレーインフォームドニューラルネットワーク(GINN)の実装を提案する。 GINNは、ニューラルネットワークの出力がグレーシステムの微分方程式モデルに従うことを保証し、解釈可能性を向上させる。 さらに、灰色のシステム理論からの事前知識を取り入れることで、従来のニューラルネットワークは小さなデータサンプルを効果的に処理できる。 提案手法は,実世界の基盤となるパターンを解明し,実証データに基づいて信頼性の高い予測を行う。

Neural network models have shown outstanding performance and successful resolutions to complex problems in various fields. However, the majority of these models are viewed as black-box, requiring a significant amount of data for development. Consequently, in situations with limited data, constructing appropriate models becomes challenging due to the lack of transparency and scarcity of data. To tackle these challenges, this study suggests the implementation of a grey-informed neural network (GINN). The GINN ensures that the output of the neural network follows the differential equation model of the grey system, improving interpretability. Moreover, incorporating prior knowledge from grey system theory enables traditional neural networks to effectively handle small data samples. Our proposed model has been observed to uncover underlying patterns in the real world and produce reliable forecasts based on empirical data.
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# ブロックチェーンにおける作業の一部証明に基づくティーブレーキングルール

Tie-Breaking Rule Based on Partial Proof of Work in a Blockchain ( http://arxiv.org/abs/2403.15030v1 )

ライセンス: Link先を確認
Akira Sakurai, Kazuyuki Shudo, (参考訳) ブロックチェーンシステムにおける攻撃者による意図的なフォークの抑制には,数多くの方法が提案されている。 これらのうち、チェーン間の最新のチェーンを選択する最後のルールは、ブロックチェーンプロトコルに大きな変更を加える必要のない効果的な方法である。 しかし、既存の方法は信頼できる第三者を必要とするか、攻撃者が操作できるタイムスタンプに依存しているため、Bitcoinのような既存のシステムに最後のルールを適用できない。 これらの問題に対処するため、既存のブロックチェーンシステムの実証に容易に適用可能な、最後の生成ルールを提案する。 本手法では,ブロックとして機能しない部分的な作業証明を,より粒度の細かい時間標準として用いる。 既存のシステムで既に満たされている弱い同期のみが効果的な機能に必要である。 提案手法を,既存の研究に欠けている詳細な分析によって評価した。 本手法を適用したネットワークでは,攻撃者のブロック伝搬能力にかかわらず,攻撃者のハッシュレートの比率は約0.31479以上であった。 さらに,最終生成ルールのすべてに関係する前生成ブロックに対するMatchの影響を,適切なパラメータ設定で緩和できることを示した。

Numerous methods have been proposed for suppressing intentional forks by attackers in blockchain systems. Among these, last-generated rules, which select the latest chain among chains in a tie, are effective methods that do not require significant changes to the blockchain protocol. However, existing methods either require a trusted third party or rely on timestamps that attackers can manipulate which makes applying a last-generated rule to existing systems such as Bitcoin challenging. To address these issues, we propose a last-generated rule that can be easily applied to existing proof of work blockchain systems. Our method uses partial proof of work, which does not function as a block, as a time standard with finer granularity. Only weak synchronization, which is already met by existing systems, is required for effective functioning. We evaluated the proposed method through a detailed analysis that is lacking in existing works. In networks that adopt our method, the proportion of the attacker hashrate necessary for selfish mining was approximately 0.31479 or higher, regardless of the block propagation capability of the attacker. Furthermore, we demonstrated through extended selfish mining that the impact of Match against pre-generated block, which is a concern in all last-generated rules, can be mitigated with appropriate parameter settings.
翻訳日:2024-03-25 18:18:01 公開日:2024-03-22
# 回転不変変分量子回路を用いた画像分類

Image Classification with Rotation-Invariant Variational Quantum Circuits ( http://arxiv.org/abs/2403.15031v1 )

ライセンス: Link先を確認
Paul San Sebastian, Mikel Cañizo, Román Orús, (参考訳) 変分量子アルゴリズムは、ノイズ中間スケール量子(NISQ)デバイスの初期応用として注目されている。 変分法の主な問題の1つは、変分パラメータの最適化に現れるバレンプラトー現象にある。 量子モデルに幾何学的帰納バイアスを加えることは、この問題を緩和する潜在的な解決策として提案され、幾何学量子機械学習と呼ばれる新しい分野が生まれた。 本研究では、変分量子分類器の同変アーキテクチャを導入し、$C_4$回転ラベル対称性を持つ画像分類のためのラベル不変モデルを作成する。 同変回路は2つの異なるアーキテクチャに対してベンチマークされ、幾何学的アプローチがモデルの性能を高めることを実験的に観察した。 最後に、NISQデバイスで利用可能なリソースを用いて、より大きな画像の処理のための量子モデルを拡張するための古典的同変畳み込み演算を提案する。

Variational quantum algorithms are gaining attention as an early application of Noisy Intermediate-Scale Quantum (NISQ) devices. One of the main problems of variational methods lies in the phenomenon of Barren Plateaus, present in the optimization of variational parameters. Adding geometric inductive bias to the quantum models has been proposed as a potential solution to mitigate this problem, leading to a new field called Geometric Quantum Machine Learning. In this work, an equivariant architecture for variational quantum classifiers is introduced to create a label-invariant model for image classification with $C_4$ rotational label symmetry. The equivariant circuit is benchmarked against two different architectures, and it is experimentally observed that the geometric approach boosts the model's performance. Finally, a classical equivariant convolution operation is proposed to extend the quantum model for the processing of larger images, employing the resources available in NISQ devices.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# 高解像度リモートセンシング画像における露天地雷変動検出のための総合的周辺・規模情報ネットワーク

An Integrated Neighborhood and Scale Information Network for Open-Pit Mine Change Detection in High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2403.15032v1 )

ライセンス: Link先を確認
Zilin Xie, Kangning Li, Jinbao Jiang, Jinzhong Yang, Xiaojun Qiao, Deshuai Yuan, Cheng Nie, (参考訳) 高分解能(HR)リモートセンシング画像における露天地雷変化検出(CD)は、鉱物開発と環境保護において重要な役割を担っている。 近年, 深層学習技術の進歩により, この分野に顕著な進展がみられた。 しかし、既存のディープラーニングベースのCD手法は、近隣情報とスケール情報を効果的に統合することの難しさに直面する。 そこで,本研究では,周辺地域と規模情報の影響パターンを探索し,HRリモートセンシング画像におけるオープンピットマイニングCDのためのINSINet(Integrated Neighborhood and Scale Information Network)を提案する。 特に,INSINetでは,中心画像境界領域の認識を向上し,より広い受容領域を取得するために,隣り合う8画像情報を導入している。 マルチパスディープ・アテンション(MDSA)モジュールは、スキップ接続、ディープ・インフォメーション・メカニズム、およびアテンション・メカニズムの技法に基づいて、マルチスケール情報融合と変更特徴抽出を強化するように設計されている。 実験分析によると、近隣情報と規模情報を組み合わせることで、INSINetのF1スコアが6.40%向上し、それぞれ3.08%と3.32%改善している。 INSINetは、全体の精度97.69%、連合のインターセクション71.26%、F1スコア83.22%で、既存の手法を上回っている。 INSINetは、HRリモートセンシング画像におけるオープンピットマイニングCDの重要性を示している。

Open-pit mine change detection (CD) in high-resolution (HR) remote sensing images plays a crucial role in mineral development and environmental protection. Significant progress has been made in this field in recent years, largely due to the advancement of deep learning techniques. However, existing deep-learning-based CD methods encounter challenges in effectively integrating neighborhood and scale information, resulting in suboptimal performance. Therefore, by exploring the influence patterns of neighborhood and scale information, this paper proposes an Integrated Neighborhood and Scale Information Network (INSINet) for open-pit mine CD in HR remote sensing images. Specifically, INSINet introduces 8-neighborhood-image information to acquire a larger receptive field, improving the recognition of center image boundary regions. Drawing on techniques of skip connection, deep supervision, and attention mechanism, the multi-path deep supervised attention (MDSA) module is designed to enhance multi-scale information fusion and change feature extraction. Experimental analysis reveals that incorporating neighborhood and scale information enhances the F1 score of INSINet by 6.40%, with improvements of 3.08% and 3.32% respectively. INSINet outperforms existing methods with an Overall Accuracy of 97.69%, Intersection over Union of 71.26%, and F1 score of 83.22%. INSINet shows significance for open-pit mine CD in HR remote sensing images.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# データ増幅学習による簡潔で高品質な顔作り

Toward Tiny and High-quality Facial Makeup with Data Amplify Learning ( http://arxiv.org/abs/2403.15033v1 )

ライセンス: Link先を確認
Qiaoqiao Jin, Xuanhong Chen, Meiguang Jin, Ying Cheng, Rui Shi, Yucheng Zheng, Yupeng Zhu, Bingbing Ni, (参考訳) 現代の化粧は、主に障害のない学習パラダイムにヒンジでアプローチするが、不正確な監督(例えば、顔の修正)と洗練された顔のプロンプト(顔解析、ランドマーク検出を含む)の課題に対処する。 これらの課題は、特にモバイルデバイスにおける顔化粧モデルの低コスト展開を禁止している。 以上の問題を解決するために、我々は「データ増幅学習(DAL)」と呼ばれる新しい学習パラダイムを提案し、さらに「TinyBeauty」というコンパクトメイクモデルも提案する。 DALの中核となる考え方は、DDA(Diffusion-based Data Amplifier)を使用して、モデルトレーニングのための制限されたイメージを"増幅する"ことである。 1)残差拡散モデル(RDM)は、高忠実度の詳細を生成し、バニラ拡散モデルにおける詳細化問題を回避し、(2)ファイングラインドメイクアップモジュール(FGMM)は、顔認証を維持しながら正確なメイクアップ制御と組み合わせを実現するために提案されている。 DALと組み合わせて、TinyBeautyは80Kパラメータを必要とせず、複雑な顔プロンプトなしで最先端のパフォーマンスを実現する。 一方、TinyBeautyはiPhone 13で460fpsという驚くべき速度を実現している。 大規模な実験により、DALは5つの画像ペアだけで非常に競争力のあるメイクモデルを作成できることが示された。

Contemporary makeup approaches primarily hinge on unpaired learning paradigms, yet they grapple with the challenges of inaccurate supervision (e.g., face misalignment) and sophisticated facial prompts (including face parsing, and landmark detection). These challenges prohibit low-cost deployment of facial makeup models, especially on mobile devices. To solve above problems, we propose a brand-new learning paradigm, termed "Data Amplify Learning (DAL)," alongside a compact makeup model named "TinyBeauty." The core idea of DAL lies in employing a Diffusion-based Data Amplifier (DDA) to "amplify" limited images for the model training, thereby enabling accurate pixel-to-pixel supervision with merely a handful of annotations. Two pivotal innovations in DDA facilitate the above training approach: (1) A Residual Diffusion Model (RDM) is designed to generate high-fidelity detail and circumvent the detail vanishing problem in the vanilla diffusion models; (2) A Fine-Grained Makeup Module (FGMM) is proposed to achieve precise makeup control and combination while retaining face identity. Coupled with DAL, TinyBeauty necessitates merely 80K parameters to achieve a state-of-the-art performance without intricate face prompts. Meanwhile, TinyBeauty achieves a remarkable inference speed of up to 460 fps on the iPhone 13. Extensive experiments show that DAL can produce highly competitive makeup models using only 5 image pairs.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# 高次元における複数平均ベクトルの推定

Estimation of multiple mean vectors in high dimension ( http://arxiv.org/abs/2403.15038v1 )

ライセンス: Link先を確認
Gilles Blanchard, Jean-Baptiste Fermanian, Hannah Marienwald, (参考訳) 我々は,独立標本に基づいて,共通空間上の様々な確率分布の多次元的手段を推定する。 我々のアプローチは、これらのサンプルから得られた経験的手段の凸結合による推定器の形成である。 本稿では,2次リスクに縛られた上位信頼度を最小化することにより,2次重み付けを行う方法と,2次重み付けを行う方法とを比較検討し,2次重み付け法と2次重み付け法を比較検討した。 本分析は,データの有効次元が増大するにつれて,我々の手法がオラクル(minimax)改善に漸近的にアプローチすることを示し,シミュレーションと実世界の両方のデータセットの実験を通して,複数のカーネルの平均埋め込みを推定する手法の有効性を実証する。

We endeavour to estimate numerous multi-dimensional means of various probability distributions on a common space based on independent samples. Our approach involves forming estimators through convex combinations of empirical means derived from these samples. We introduce two strategies to find appropriate data-dependent convex combination weights: a first one employing a testing procedure to identify neighbouring means with low variance, which results in a closed-form plug-in formula for the weights, and a second one determining weights via minimization of an upper confidence bound on the quadratic risk.Through theoretical analysis, we evaluate the improvement in quadratic risk offered by our methods compared to the empirical means. Our analysis focuses on a dimensional asymptotics perspective, showing that our methods asymptotically approach an oracle (minimax) improvement as the effective dimension of the data increases.We demonstrate the efficacy of our methods in estimating multiple kernel mean embeddings through experiments on both simulated and real-world datasets.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# GPT-4による命令規則学習によるESG分類

ESG Classification by Implicit Rule Learning via GPT-4 ( http://arxiv.org/abs/2403.15040v1 )

ライセンス: Link先を確認
Hyo Jeong Yun, Chanyoung Kim, Moonjeong Hahm, Kyuri Kim, Guijin Son, (参考訳) 環境、社会、統治(ESG)要因は高い投資リターン指標として広く採用されている。 そのため、言語モデルによるESG評価の自動化や、大量のWebテキストから信号を容易に抽出する取り組みが進行中である。 しかし、近年のアプローチは、評価機関が評価指標を秘密にしているため、トレーニングデータの欠如に悩まされている。 本稿では, GPT-4のような最先端言語モデルが, プロンプト, チェーン・オブ・シークレット推論, ダイナミック・イン・コンテクスト・ラーニングといった戦略を通じて, 未知のESG評価基準に適合するようにガイドできるかどうかを検討する。 韓国における共有タスクML-ESG-3Impact Type Trackの2位にランク付けすることで,これらのアプローチの有効性を実証する。 また、調整の促進が、公開重量の小さなモデルを活用して、財務上の課題に対処する言語モデルの能力にどのように影響するかについても検討する。 我々は、金融ダウンストリームタスクにおけるパフォーマンス向上と相関する、より一般的な事前トレーニングを観察する。 本研究は, 具体例の欠如にもかかわらず, 複雑な主観的評価ガイドラインをナビゲートする言語モデルの可能性を示し, 金融ダウンストリームタスクのためのトレーニングフリーソリューションの機会を明らかにした。

Environmental, social, and governance (ESG) factors are widely adopted as higher investment return indicators. Accordingly, ongoing efforts are being made to automate ESG evaluation with language models to extract signals from massive web text easily. However, recent approaches suffer from a lack of training data, as rating agencies keep their evaluation metrics confidential. This paper investigates whether state-of-the-art language models like GPT-4 can be guided to align with unknown ESG evaluation criteria through strategies such as prompting, chain-of-thought reasoning, and dynamic in-context learning. We demonstrate the efficacy of these approaches by ranking 2nd in the Shared-Task ML-ESG-3 Impact Type track for Korean without updating the model on the provided training data. We also explore how adjusting prompts impacts the ability of language models to address financial tasks leveraging smaller models with openly available weights. We observe longer general pre-training to correlate with enhanced performance in financial downstream tasks. Our findings showcase the potential of language models to navigate complex, subjective evaluation guidelines despite lacking explicit training examples, revealing opportunities for training-free solutions for financial downstream tasks.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# LLM2LLM: 新たな反復データ拡張によるLDMの強化

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement ( http://arxiv.org/abs/2403.15042v1 )

ライセンス: Link先を確認
Nicholas Lee, Thanakul Wattanawong, Sehoon Kim, Karttikeya Mangalam, Sheng Shen, Gopala Anumanchipali, Michael W. Mahoney, Kurt Keutzer, Amir Gholami, (参考訳) 事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 多くの現実世界のアプリケーションは、パフォーマンスの満足できるレベルに達するのに微調整を必要とするが、その多くが低データ状態にあるため、微調整が難しい。 そこで本研究では,LLM2LLMを提案する。LLM2LLMは,教師のLLMを用いて,特定のタスクの微調整に使用可能なデータを追加することで,小さなシードデータセットの強化を行う。 LLM2LLM (1) 最初のシードデータに基づいてベースラインの学生LSMを微調整し、(2)モデルが間違っているデータポイントを評価し、抽出し、(3)教師のLSMを使用して、これらの誤ったデータポイントに基づいて合成データを生成し、トレーニングデータに追加する。 このアプローチは、トレーニング中にLLMが誤って予測したデータポイントから信号を増幅し、データセットに再統合して、LLMのより難しい例に集中する。 以上の結果から,LLM2LLMは従来の微調整およびデータ拡張ベースラインよりも優れ,低データ方式におけるLCMの性能を著しく向上させることが示された。 LLM2LLMは、労働集約的なデータキュレーションへの依存を減らし、よりスケーラブルでパフォーマンスの高いLCMソリューションの道を開く。 我々はGSM8Kデータセットで最大24.2%、CaseHOLDで32.6%、SNIPSで32.0%、TRECで52.6%、SST-2で39.8%の改善を実現した。

Pretrained large language models (LLMs) are currently state-of-the-art for solving the vast majority of natural language processing tasks. While many real-world applications still require fine-tuning to reach satisfactory levels of performance, many of them are in the low-data regime, making fine-tuning challenging. To address this, we propose LLM2LLM, a targeted and iterative data augmentation strategy that uses a teacher LLM to enhance a small seed dataset by augmenting additional data that can be used for fine-tuning on a specific task. LLM2LLM (1) fine-tunes a baseline student LLM on the initial seed data, (2) evaluates and extracts data points that the model gets wrong, and (3) uses a teacher LLM to generate synthetic data based on these incorrect data points, which are then added back into the training data. This approach amplifies the signal from incorrectly predicted data points by the LLM during training and reintegrates them into the dataset to focus on more challenging examples for the LLM. Our results show that LLM2LLM significantly enhances the performance of LLMs in the low-data regime, outperforming both traditional fine-tuning and other data augmentation baselines. LLM2LLM reduces the dependence on labor-intensive data curation and paves the way for more scalable and performant LLM solutions, allowing us to tackle data-constrained domains and tasks. We achieve improvements up to 24.2% on the GSM8K dataset, 32.6% on CaseHOLD, 32.0% on SNIPS, 52.6% on TREC and 39.8% on SST-2 over regular fine-tuning in the low-data regime using a LLaMA2-7B student model.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# 実験モデルを用いたマルチモーダル核融合による実地環境解析

Multimodal Fusion with Pre-Trained Model Features in Affective Behaviour Analysis In-the-wild ( http://arxiv.org/abs/2403.15044v1 )

ライセンス: Link先を確認
Zhuofan Wen, Fengyu Zhang, Siyuan Zhang, Haiyang Sun, Mingyu Xu, Licai Sun, Zheng Lian, Bin Liu, Jianhua Tao, (参考訳) マルチモーダル融合は、ほとんどのマルチモーダルタスクにとって重要な方法である。 近年の大規模な事前学習モデルの増加に伴い、多モード融合法と事前学習モデルの特徴を組み合わせることで、多くのマルチモーダルタスクにおいて優れた性能が得られる。 本稿では,表現(Expr)認識の課題とValence-Arousal(VA)推定の両方に対処する手法を提案する。 我々は,事前学習モデルを用いてAff-Wild2データベースを評価し,モデルの最終層を特徴として抽出する。 抽出した特徴を整合させるために前処理や補間、あるいは畳み込みを行い、異なるモデルを用いてモーダル融合を行う。 私たちのコードはGitHub - FulgenceWen/ABAW6thで利用可能です。

Multimodal fusion is a significant method for most multimodal tasks. With the recent surge in the number of large pre-trained models, combining both multimodal fusion methods and pre-trained model features can achieve outstanding performance in many multimodal tasks. In this paper, we present our approach, which leverages both advantages for addressing the task of Expression (Expr) Recognition and Valence-Arousal (VA) Estimation. We evaluate the Aff-Wild2 database using pre-trained models, then extract the final hidden layers of the models as features. Following preprocessing and interpolation or convolution to align the extracted features, different models are employed for modal fusion. Our code is available at GitHub - FulgenceWen/ABAW6th.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# DP-Dueling: ユーザのプライバシを損なうことなく、優先フィードバックから学ぶ

DP-Dueling: Learning from Preference Feedback without Compromising User Privacy ( http://arxiv.org/abs/2403.15045v1 )

ライセンス: Link先を確認
Aadirupa Saha, Hilal Asi, (参考訳) 差分プライバシーの制約の下で、学習者がペアワイズ比較を用いて準最適行動を特定することを目的とした、よく研究されたデュエルバンディット問題について考察する。 本研究では,大規模(潜在的に非有界な)決定空間に対するユーティリティベースの選好行列の一般クラスを考察し,ユーザ選好を用いたアクティブラーニングのための最初の微分プライベート・デュエル・バンディットアルゴリズムを提案する。 提案アルゴリズムは, プライベートおよび非プライベートな後悔境界の両面において, ほぼ最適性能で計算効率がよい。 より正確には、決定空間が有限サイズ$K$であるとき、提案アルゴリズムは、$O\Big(\sum_{i = 2}^K\log\frac{KT}{\Delta_i} + \frac{K}{\epsilon}\Big)$ regret bound for pure $\epsilon$-DP, ここで、$\Delta_i$は$i$-th腕の最適値差を表す。 また,アルゴリズムの最適性を証明した下界解析も提案する。 最後に、我々の結果は、潜在的に無限の腕を持つ$d$-dimensionsに拡張し、後悔する$\tilde{O} \left( \frac{d^6}{\kappa \epsilon } + \frac{d\sqrt{T }}{\kappa} \right)$で$\epsilon$-DPアルゴリズムを設計します。

We consider the well-studied dueling bandit problem, where a learner aims to identify near-optimal actions using pairwise comparisons, under the constraint of differential privacy. We consider a general class of utility-based preference matrices for large (potentially unbounded) decision spaces and give the first differentially private dueling bandit algorithm for active learning with user preferences. Our proposed algorithms are computationally efficient with near-optimal performance, both in terms of the private and non-private regret bound. More precisely, we show that when the decision space is of finite size $K$, our proposed algorithm yields order optimal $O\Big(\sum_{i = 2}^K\log\frac{KT}{\Delta_i} + \frac{K}{\epsilon}\Big)$ regret bound for pure $\epsilon$-DP, where $\Delta_i$ denotes the suboptimality gap of the $i$-th arm. We also present a matching lower bound analysis which proves the optimality of our algorithms. Finally, we extend our results to any general decision space in $d$-dimensions with potentially infinite arms and design an $\epsilon$-DP algorithm with regret $\tilde{O} \left( \frac{d^6}{\kappa \epsilon } + \frac{ d\sqrt{T }}{\kappa} \right)$, providing privacy for free when $T \gg d$.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# Cartoon Hallucinations Detection:コンテキスト学習におけるPose-Aware

Cartoon Hallucinations Detection: Pose-aware In Context Visual Learning ( http://arxiv.org/abs/2403.15048v1 )

ライセンス: Link先を確認
Bumsoo Kim, Wonseop Shin, Kyuchul Lee, Sanghyun Seo, (参考訳) 大規模テキスト・トゥ・イメージ(TTI)モデルは、様々な生成分野のトレーニングデータを生成する一般的なアプローチとなっている。 しかし、視覚的な幻覚は知覚的に批判的な欠陥を含んでいるが、特に漫画のキャラクターのような非フォトリアリスティックなスタイルでは特に懸念されている。 TTIモデルにより生成された漫画の文字画像に対する新しい視覚幻覚検出システムを提案する。 提案手法は,視覚言語モデル (VLM) を用いたポーズ認識型インコンテキスト・ビジュアル・ラーニング (PA-ICVL) を活用し,RGB画像とポーズ情報の両方を活用する。 微調整されたポーズ推定器からポーズガイダンスを組み込むことで、VLMがより正確な決定を下すことができる。 実験の結果,RGB画像のみに依存したベースライン法に比べて視覚幻覚の同定が有意に改善した。 この研究は、視覚幻覚を緩和し、非フォトリアリスティック領域におけるその可能性を広げることで、TTIモデルを前進させる。

Large-scale Text-to-Image (TTI) models have become a common approach for generating training data in various generative fields. However, visual hallucinations, which contain perceptually critical defects, remain a concern, especially in non-photorealistic styles like cartoon characters. We propose a novel visual hallucination detection system for cartoon character images generated by TTI models. Our approach leverages pose-aware in-context visual learning (PA-ICVL) with Vision-Language Models (VLMs), utilizing both RGB images and pose information. By incorporating pose guidance from a fine-tuned pose estimator, we enable VLMs to make more accurate decisions. Experimental results demonstrate significant improvements in identifying visual hallucinations compared to baseline methods relying solely on RGB images. This research advances TTI models by mitigating visual hallucinations, expanding their potential in non-photorealistic domains.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# 連続的な視覚・言語ナビゲーション

Continual Vision-and-Language Navigation ( http://arxiv.org/abs/2403.15049v1 )

ライセンス: Link先を確認
Seongjun Jeong, Gi-Cheon Kang, Seongho Choi, Joochan Kim, Byoung-Tak Zhang, (参考訳) VLN(Vision-and-Language Navigation)エージェントは、自然言語命令と観察する視覚情報を使用して目的地にナビゲートする。 既存のVLNエージェントのトレーニング方法は、固定データセットを前提としており、新しい環境の導入は、彼らの知識を維持するために、以前遭遇した環境の再トレーニングを必要とします。 これにより、常に変化する現実世界で作動するVLNエージェントの訓練が困難になる。 この制限に対処するために,連続的な学習プロセスを通じて訓練されたエージェントを評価するために設計されたCVLN(Continuousal Vision-and-Language Navigation)パラダイムを提案する。 CVLNエージェントのトレーニングと評価のために、既存のVLNデータセットを再配置し、初期命令解釈によるナビゲーションに焦点を当てたCVLN-Iと、他のエージェントとの対話によるナビゲーションを目的としたCVLN-Dという2つのデータセットを提案する。 さらに,CVLN, Perplexity Replay (PerpR), Episodic Self-Replay (ESR) の2つの新しいリハーサル方式を提案する。 PerpRはアクションの難易度に基づいて困難なエピソードの再生を優先し、ESRは以前に予測されたアクションログを再生して学習行動を保存する。 CVLNにおける提案手法の有効性を実験的に検証した。

Vision-and-Language Navigation (VLN) agents navigate to a destination using natural language instructions and the visual information they observe. Existing methods for training VLN agents presuppose fixed datasets, leading to a significant limitation: the introduction of new environments necessitates retraining with previously encountered environments to preserve their knowledge. This makes it difficult to train VLN agents that operate in the ever-changing real world. To address this limitation, we present the Continual Vision-and-Language Navigation (CVLN) paradigm, designed to evaluate agents trained through a continual learning process. For the training and evaluation of CVLN agents, we re-arrange existing VLN datasets to propose two datasets: CVLN-I, focused on navigation via initial-instruction interpretation, and CVLN-D, aimed at navigation through dialogue with other agents. Furthermore, we propose two novel rehearsal-based methods for CVLN, Perplexity Replay (PerpR) and Episodic Self-Replay (ESR). PerpR prioritizes replaying challenging episodes based on action perplexity, while ESR replays previously predicted action logits to preserve learned behaviors. We demonstrate the effectiveness of the proposed methods on CVLN through extensive experiments.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# Bambooのパワー:検索可能なシンメトリ暗号化のためのポストコンパイルセキュリティについて

The Power of Bamboo: On the Post-Compromise Security for Searchable Symmetric Encryption ( http://arxiv.org/abs/2403.15052v1 )

ライセンス: Link先を確認
Tianyang Chen, Peng Xu, Stjepan Picek, Bo Luo, Willy Susilo, Hai Jin, Kaitai Liang, (参考訳) 動的検索可能な対称暗号化(DSSE)により、ユーザはキーワードのプライバシを失うことなく、動的に更新された暗号化されたデータベース上のキーワード検索を、正直だが正確なサーバに委譲することができる。 本稿では,DSSEのセキュリティ上の新たなリスク,すなわち秘密鍵の妥協(ユーザの秘密鍵の漏洩や盗難など)について検討し,既存のDSSEスキームのセキュリティ保証を脅かす。 このオープンな問題に対処するために,非インタラクティブなキー更新オプションを提供するキー更新(SEKU)による検索可能な暗号化の概念を導入する。 さらに,クライアントの秘密鍵が漏洩した後も,DSSEスキームがデータセキュリティを提供することができるかどうかを検討するために,漏洩関数に関してセキュアなポストコンパイルの概念を定義した。 ポストコンパイル後のセキュリティは ``Bamboo' と呼ばれるプロトコルによって実現可能であることを実証する。 興味深いことに、Bambooの漏洩機能は前方セキュリティと後方セキュリティの両方の要件を満たす。 実世界のデータセットを用いてBambooの性能評価を行い、その実行効率を既存のフォワード・アンド・バック・セキュアDSSEスキームと比較する。 その結果、Bambooは優れたか同等のパフォーマンスで強力なセキュリティを提供します。

Dynamic searchable symmetric encryption (DSSE) enables users to delegate the keyword search over dynamically updated encrypted databases to an honest-but-curious server without losing keyword privacy. This paper studies a new and practical security risk to DSSE, namely, secret key compromise (e.g., a user's secret key is leaked or stolen), which threatens all the security guarantees offered by existing DSSE schemes. To address this open problem, we introduce the notion of searchable encryption with key-update (SEKU) that provides users with the option of non-interactive key updates. We further define the notion of post-compromise secure with respect to leakage functions to study whether DSSE schemes can still provide data security after the client's secret key is compromised. We demonstrate that post-compromise security is achievable with a proposed protocol called ``Bamboo". Interestingly, the leakage functions of Bamboo satisfy the requirements for both forward and backward security. We conduct a performance evaluation of Bamboo using a real-world dataset and compare its runtime efficiency with the existing forward-and-backward secure DSSE schemes. The result shows that Bamboo provides strong security with better or comparable performance.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# MM-Diff:マルチモード条件統合による高精細画像のパーソナライズ

MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration ( http://arxiv.org/abs/2403.15059v1 )

ライセンス: Link先を確認
Zhichao Wei, Qingkun Su, Long Qin, Weizhi Wang, (参考訳) 拡散モデルに基づくチューニング不要なパーソナライズ画像生成の最近の進歩は印象的だ。 しかし、対象の忠実度を改善するために、既存の手法は拡散モデルを再訓練するか、密集した視覚的埋め込みを注入するかのいずれかであり、どちらも一般化と効率の低下に悩まされている。 また、これらの手法は、制約のないクロスアテンション機構により、マルチオブジェクト画像生成においてフェールする。 本稿では,MM-Diffを提案する。MM-Diffは単一対象と複数対象の高忠実度画像を秒単位で生成できる,統一的でチューニング不要な画像パーソナライズフレームワークである。 具体的には、テキストの一貫性と被写体忠実度を同時に向上するために、MM-Diffは視覚エンコーダを使用して入力画像をCLSに変換し、埋め込みをパッチする。 一方、CLS埋め込みはテキスト埋め込みを増強するために使用され、一方、パッチ埋め込みと共に少数の詳細に富んだ対象埋め込みを導出し、どちらもよく設計されたマルチモーダル・クロスアテンション機構によって拡散モデルに効率的に統合される。 さらに、MM-Diffはトレーニングフェーズ中に、クロスアテンションマップの制約を導入し、事前定義された入力(例えば、レイアウト)なしで、推論中に柔軟なマルチオブジェクトイメージサンプリングを保証する。 MM-Diffの他の先行手法よりも優れた性能を示す実験が盛んである。

Recent advances in tuning-free personalized image generation based on diffusion models are impressive. However, to improve subject fidelity, existing methods either retrain the diffusion model or infuse it with dense visual embeddings, both of which suffer from poor generalization and efficiency. Also, these methods falter in multi-subject image generation due to the unconstrained cross-attention mechanism. In this paper, we propose MM-Diff, a unified and tuning-free image personalization framework capable of generating high-fidelity images of both single and multiple subjects in seconds. Specifically, to simultaneously enhance text consistency and subject fidelity, MM-Diff employs a vision encoder to transform the input image into CLS and patch embeddings. CLS embeddings are used on the one hand to augment the text embeddings, and on the other hand together with patch embeddings to derive a small number of detail-rich subject embeddings, both of which are efficiently integrated into the diffusion model through the well-designed multimodal cross-attention mechanism. Additionally, MM-Diff introduces cross-attention map constraints during the training phase, ensuring flexible multi-subject image sampling during inference without any predefined inputs (e.g., layout). Extensive experiments demonstrate the superior performance of MM-Diff over other leading methods.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# 圧縮トーンマップ高ダイナミックレンジ映像の主観的品質評価

Subjective Quality Assessment of Compressed Tone-Mapped High Dynamic Range Videos ( http://arxiv.org/abs/2403.15061v1 )

ライセンス: Link先を確認
Abhinau K. Venkataramanan, Alan C. Bovik, (参考訳) 高ダイナミックレンジ(HDR)ビデオは、標準ダイナミックレンジ(SDR)ビデオよりも幅広いコントラストや色を表現でき、より鮮明な体験を提供する。 このため、HDRビデオは未来の支配的なビデオモダリティへと成長することが期待されている。 しかし、HDRビデオは既存のSDRディスプレイと互換性がない。 このため、HDRビデオはトーン・マッピングによって処理され、ビット深度を減らし、SDR限定のビデオコンシューマーに広くサービスを提供する必要がある。 本稿では,HDR動画の映像品質に及ぼすトーンマッピング演算子の影響を解析する。 この目的のために、40のユニークなHDRソースコンテンツから抽出された15,000のトーンマップされたシーケンスを含む、圧縮トーンマップされたHDRビデオの最初の大規模主観的なオープンソースデータベースを構築した。 データベース内のビデオには75万以上の主観的品質アノテーションがラベル付けられ、1,600人以上のユニークな観察者から収集された。 視覚的品質の客観的モデルをベンチマークすることで,新しい主観的データベースの有用性を示す。 我々は,新しいLIVE Tone-Mapped HDR (LIVE-TMHDR) データベースが将来,HDRビデオトーンマッピングと品質評価を大幅に進歩させることを期待している。 この目的のために、データベースはhttps://live.ece.utexas.edu/research/LIVE_TMHDR/index.orgで無料で利用できます。

High Dynamic Range (HDR) videos are able to represent wider ranges of contrasts and colors than Standard Dynamic Range (SDR) videos, giving more vivid experiences. Due to this, HDR videos are expected to grow into the dominant video modality of the future. However, HDR videos are incompatible with existing SDR displays, which form the majority of affordable consumer displays on the market. Because of this, HDR videos must be processed by tone-mapping them to reduced bit-depths to service a broad swath of SDR-limited video consumers. Here, we analyze the impact of tone-mapping operators on the visual quality of streaming HDR videos. To this end, we built the first large-scale subjectively annotated open-source database of compressed tone-mapped HDR videos, containing 15,000 tone-mapped sequences derived from 40 unique HDR source contents. The videos in the database were labeled with more than 750,000 subjective quality annotations, collected from more than 1,600 unique human observers. We demonstrate the usefulness of the new subjective database by benchmarking objective models of visual quality on it. We envision that the new LIVE Tone-Mapped HDR (LIVE-TMHDR) database will enable significant progress on HDR video tone mapping and quality assessment in the future. To this end, we make the database freely available to the community at https://live.ece.utexas.edu/research/LIVE_TMHDR/index.html
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# 大規模言語モデルのための日本語金融ベンチマークの構築

Construction of a Japanese Financial Benchmark for Large Language Models ( http://arxiv.org/abs/2403.15062v1 )

ライセンス: Link先を確認
Masanori Hirano, (参考訳) 近年の大規模言語モデル(LLM)の発展に伴い、特定のドメインや言語に焦点を絞ったモデルの必要性が議論されている。 また、各ドメインにおける現在のLLMのパフォーマンスを評価するためのベンチマークの必要性も高まっている。 そこで本研究では,日本語と金融ドメインに特有の複数のタスクからなるベンチマークを構築し,いくつかのモデルでベンチマーク測定を行った。 その結果、GPT-4が現在未完成であり、構築されたベンチマークが効果的に機能していることが確認された。 分析の結果,タスクを異なる困難に組み合わせることで,ベンチマークスコアをすべての性能範囲のモデル間で差別化することができることがわかった。

With the recent development of large language models (LLMs), models that focus on certain domains and languages have been discussed for their necessity. There is also a growing need for benchmarks to evaluate the performance of current LLMs in each domain. Therefore, in this study, we constructed a benchmark comprising multiple tasks specific to the Japanese and financial domains and performed benchmark measurements on some models. Consequently, we confirmed that GPT-4 is currently outstanding, and that the constructed benchmarks function effectively. According to our analysis, our benchmark can differentiate benchmark scores among models in all performance ranges by combining tasks with different difficulties.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# 3次元全身CTスキャンを用いた包括的・効率的・確率的解剖構造分割モデルの構築

Towards a Comprehensive, Efficient and Promptable Anatomic Structure Segmentation Model using 3D Whole-body CT Scans ( http://arxiv.org/abs/2403.15063v1 )

ライセンス: Link先を確認
Heng Guo, Jianfeng Zhang, Jiaxing Huang, Tony C. W. Mok, Dazhou Guo, Ke Yan, Le Lu, Dakai Jin, Minfeng Xu, (参考訳) Segment Any Model (SAM) は、自然画像のセグメンテーションに強い一般化能力を示す。 しかし, 医用画像分割タスクへの直接適応は, 精度が劣り, 不安定な結果も有意な性能低下を示す。 また、適度な精度を得るためには、過剰な数のプロンプトポイントを必要とすることもある。 3D放射線CTまたはMRIスキャンを分割するには、2D SAMモデルは数百の2Dスライスを別々に処理する必要がある。 SAMを医用画像量に適応させる研究はほとんどないが、2D適応法の効率性は不満足であり、3D適応法は特定の臓器や腫瘍を分節化できるのみである。 そこで本研究では,CT-SAM3Dという全身CTセグメンテーションのための包括的でスケーラブルな3次元SAMモデルを提案する。 SAMを適応させる代わりに、(ほぼ)完全ラベル付きCTデータセットを用いた3次元プロンプト可能なセグメンテーションモデルを提案する。 CT-SAM3Dを効果的に訓練するには、高次元空間的プロンプトに対するモデルの正確な応答を保証することが不可欠であり、GPUメモリの制約により3Dパッチワイドトレーニングが必要である。 この目的のために、我々は2つの重要な技術開発を提案する。 1) 局所的な3次元空間におけるクリックプロンプトを効果的に符号化する、段階的かつ空間的に整合したプロンプトエンコーディング法 2) クロスパッチプロンプト学習方式により, より大きな臓器を対話的にプロンプトする際には, 編集作業の削減に有効である。 CT-SAM3Dは107体の解剖を含む1204個のCTスキャンを用いて訓練・検証され、従来のSAM由来のモデルに対して、クリックプロンプトがはるかに少ない大きなマージンで、かなり優れた定量的性能を報告している。 我々のモデルは、見えない臓器の分節も扱える。 コード、データ、準リアルタイム応答を備えた3Dインタラクティブセグメンテーションツールが公開されます。

Segment anything model (SAM) demonstrates strong generalization ability on natural image segmentation. However, its direct adaption in medical image segmentation tasks shows significant performance drops with inferior accuracy and unstable results. It may also requires an excessive number of prompt points to obtain a reasonable accuracy. For segmenting 3D radiological CT or MRI scans, a 2D SAM model has to separately handle hundreds of 2D slices. Although quite a few studies explore adapting SAM into medical image volumes, the efficiency of 2D adaption methods is unsatisfactory and 3D adaptation methods only capable of segmenting specific organs/tumors. In this work, we propose a comprehensive and scalable 3D SAM model for whole-body CT segmentation, named CT-SAM3D. Instead of adapting SAM, we propose a 3D promptable segmentation model using a (nearly) fully labeled CT dataset. To train CT-SAM3D effectively, ensuring the model's accurate responses to higher-dimensional spatial prompts is crucial, and 3D patch-wise training is required due to GPU memory constraints. For this purpose, we propose two key technical developments: 1) a progressively and spatially aligned prompt encoding method to effectively encode click prompts in local 3D space; and 2) a cross-patch prompt learning scheme to capture more 3D spatial context, which is beneficial for reducing the editing workloads when interactively prompting on large organs. CT-SAM3D is trained and validated using a curated dataset of 1204 CT scans containing 107 whole-body anatomies, reporting significantly better quantitative performance against all previous SAM-derived models by a large margin with much fewer click prompts. Our model can handle segmenting unseen organ as well. Code, data, and our 3D interactive segmentation tool with quasi-real-time responses will be made publicly available.
翻訳日:2024-03-25 18:08:17 公開日:2024-03-22
# 一般シーンの3次元再構成の最近の動向

Recent Trends in 3D Reconstruction of General Non-Rigid Scenes ( http://arxiv.org/abs/2403.15064v1 )

ライセンス: Link先を確認
Raza Yunus, Jan Eric Lenssen, Michael Niemeyer, Yiyi Liao, Christian Rupprecht, Christian Theobalt, Gerard Pons-Moll, Jia-Bin Huang, Vladislav Golyanik, Eddy Ilg, (参考訳) コンピュータグラフィックスやコンピュータビジョンにおいて、3次元幾何学、外観、実際のシーンの動きを含む現実世界のモデルの再構築が不可欠である。 これは、映画産業やAR/VRアプリケーションに有用な、フォトリアリスティックなノベルビューの合成を可能にする。 また、コンピュータゲームやAR/VRで必要となるコンテンツ作成を、面倒な手作業による設計プロセスを避けることで促進する。 さらに、そのようなモデルは、人間の世界と安全に行動し、相互作用するために現実世界のシーンとアクションを解釈する必要があるインテリジェントコンピューティングシステムにとって、基本的なものである。 特に、私たちを取り巻く世界は動的であり、動的で厳格に動くシーンのモデルを再構築することは、過小評価され難解な問題である。 この最新技術レポート(STAR)は、RGBやRGB-Dセンサーのデータなどの単眼的および多眼的な入力による最先端技術の概要を読者に提供し、異なるアプローチ、潜在的な応用、さらなる研究の方向性について理解を深める。 本報告では, 一般的な非剛性シーンの3次元再構成と, シーンの分解, 編集, 制御, 一般化, 生成的モデリング技術について述べる。 より具体的には、フィールドを理解し、ナビゲートするのに必要となる一般的で基本的な概念をまずレビューし、次に、従来型および機械学習ベースのニューラル表現を用いた最近のアプローチをレビューして、最新技術について議論する。 STARは、残りの制限とオープンな課題に関する議論で締めくくられている。

Reconstructing models of the real world, including 3D geometry, appearance, and motion of real scenes, is essential for computer graphics and computer vision. It enables the synthesizing of photorealistic novel views, useful for the movie industry and AR/VR applications. It also facilitates the content creation necessary in computer games and AR/VR by avoiding laborious manual design processes. Further, such models are fundamental for intelligent computing systems that need to interpret real-world scenes and actions to act and interact safely with the human world. Notably, the world surrounding us is dynamic, and reconstructing models of dynamic, non-rigidly moving scenes is a severely underconstrained and challenging problem. This state-of-the-art report (STAR) offers the reader a comprehensive summary of state-of-the-art techniques with monocular and multi-view inputs such as data from RGB and RGB-D sensors, among others, conveying an understanding of different approaches, their potential applications, and promising further research directions. The report covers 3D reconstruction of general non-rigid scenes and further addresses the techniques for scene decomposition, editing and controlling, and generalizable and generative modeling. More specifically, we first review the common and fundamental concepts necessary to understand and navigate the field and then discuss the state-of-the-art techniques by reviewing recent approaches that use traditional and machine-learning-based neural representations, including a discussion on the newly enabled applications. The STAR is concluded with a discussion of the remaining limitations and open challenges.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# 強化学習における欠陥多様性のテスト

Testing for Fault Diversity in Reinforcement Learning ( http://arxiv.org/abs/2403.15065v1 )

ライセンス: Link先を確認
Quentin Mazouni, Helge Spieker, Arnaud Gotlieb, Mathieu Acher, (参考訳) 強化学習(Reinforcement Learning)は、自動車や着陸宇宙船などの複雑なタスクを含む、シーケンシャルな意思決定問題にアプローチするための最重要技術である。 ソフトウェア検証と検証のプラクティスの中で、機能的障害検出のテストは、学習した決定モデルに信頼性を構築するのに便利な方法です。 最近の研究は検出された断層の数を最大化しようとしているが、さらなる多様性を求める際に断層の特徴を考慮しない。 ポリシテストは、可能な限り多くの障害(例えば、同様の自動車事故を引き起こすインプット)を見つけるのではなく、可能な限り情報的かつ多様な障害を明らかにすることを目指している、と私たちは主張する。 本稿では,政策試験における欠陥多様性の問題を解決するため,品質多様性最適化の活用について検討する。 品質多様性最適化(QD: Quality diversity optimization)は、高品質な多様な解を求める複雑な組合せ最適化問題を解くための進化アルゴリズムの一種である。 我々は、QD最適化をアクションポリシーのテストに適用する上での根本的な課題を定義し、対処する。 さらに,従来のQDオプティマイザを,検索効率とフォールト多様性の両面で,政策テスト専用の最先端フレームワークと比較した。 我々はQDの最適化が概念的には単純であり、一般的に適用可能であるが、決定モデルに事実上より多様な欠点があることを示し、QDベースの政策テストが有望なアプローチであると結論づける。

Reinforcement Learning is the premier technique to approach sequential decision problems, including complex tasks such as driving cars and landing spacecraft. Among the software validation and verification practices, testing for functional fault detection is a convenient way to build trustworthiness in the learned decision model. While recent works seek to maximise the number of detected faults, none consider fault characterisation during the search for more diversity. We argue that policy testing should not find as many failures as possible (e.g., inputs that trigger similar car crashes) but rather aim at revealing as informative and diverse faults as possible in the model. In this paper, we explore the use of quality diversity optimisation to solve the problem of fault diversity in policy testing. Quality diversity (QD) optimisation is a type of evolutionary algorithm to solve hard combinatorial optimisation problems where high-quality diverse solutions are sought. We define and address the underlying challenges of adapting QD optimisation to the test of action policies. Furthermore, we compare classical QD optimisers to state-of-the-art frameworks dedicated to policy testing, both in terms of search efficiency and fault diversity. We show that QD optimisation, while being conceptually simple and generally applicable, finds effectively more diverse faults in the decision model, and conclude that QD-based policy testing is a promising approach.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# 量子想像性のユニタリ不変証人

Unitary-invariant witnesses of quantum imaginarity ( http://arxiv.org/abs/2403.15066v1 )

ライセンス: Link先を確認
Carlos Fernandes, Rafael Wagner, Leonardo Novo, Ernesto F. Galvão, (参考訳) 量子論は伝統的に複素数を用いて定式化されている。 この量子論の想像力は、識別タスク、擬似ランダムネス生成、量子メトロジーに応用されたリソースとして定量化されてきた。 ここでは、状態集合のユニタリ不変性の測定に依存する、基底非依存の虚像の証人を提案する。 3つの純状態に対して、量子論によって達成可能な不変値を完全に特徴付け、4つの純状態に対して部分的特徴付けを与える。 単純なペアの重なり合いの測定は、4つの状態の集合を目撃するのに十分であるが、3つの状態の集合については不十分であることを示す。 我々の目撃者は実験的に友好的であり、想像力をリソースとして測定し利用するための新しい道を開く。

Quantum theory is traditionally formulated using complex numbers. This imaginarity of quantum theory has been quantified as a resource with applications in discrimination tasks, pseudorandomness generation, and quantum metrology. Here we propose witnesses for imaginarity that are basis-independent, relying on measurements of unitary-invariant properties of sets of states. For 3 pure states, we completely characterize the invariant values attainable by quantum theory, and give a partial characterization for 4 pure states. We show that simple pairwise overlap measurements suffice to witness imaginarity of sets of 4 states, but not for sets of 3. Our witnesses are experimentally friendly, opening up a new path for measuring and using imaginarity as a resource.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# ピラミッドグラフ畳み込みネットワークを用いたデジタル病理におけるマルチスケールトポロジーの統合

Integrating multiscale topology in digital pathology with pyramidal graph convolutional networks ( http://arxiv.org/abs/2403.15068v1 )

ライセンス: Link先を確認
Victor Ibañez, Przemyslaw Szostak, Quincy Wong, Konstanty Korski, Samaneh Abbasi-Sureshjani, Alvaro Gomariz, (参考訳) グラフ畳み込みネットワーク(GCN)は、デジタル病理学における畳み込みニューラルネットワークによる複数のインスタンス学習の強力な代替手段として登場し、様々な空間範囲にわたる構造情報の優れたハンドリングを提供する。 しかし、グラフメッセージパッシングアルゴリズムは、大きな近所を集約する場合、しばしば過密に悩まされる。 したがって、マルチレンジ相互作用の効果的なモデリングは、グラフの注意深く構成に依存する。 提案するマルチスケールGCN (MS-GCN) は,WSIの複数の倍率レベルにまたがる情報を活用することでこの問題に対処する。 MS-GCNは、病理学者が通常行う分析パイプラインと同様に、低い倍率での長距離構造依存と高い倍率での高解像度セル詳細を同時にモデル化することができる。 アーキテクチャのユニークな構成は、より低い倍率で構造パターンを同時にモデル化し、より高い倍率で詳細なセル特徴をモデル化すると同時に、各倍率レベルの予測への寄与を定量化できる。 異なるデータセットをテストすることで、MS-GCNは既存の単一磁化GCNメソッドよりも優れたパフォーマンスを示す。 本手法による性能向上と解釈可能性の向上は,特に広い空間環境を必要とするタスクにおいて,計算病理モデルの発展を約束する。

Graph convolutional networks (GCNs) have emerged as a powerful alternative to multiple instance learning with convolutional neural networks in digital pathology, offering superior handling of structural information across various spatial ranges - a crucial aspect of learning from gigapixel H&E-stained whole slide images (WSI). However, graph message-passing algorithms often suffer from oversmoothing when aggregating a large neighborhood. Hence, effective modeling of multi-range interactions relies on the careful construction of the graph. Our proposed multi-scale GCN (MS-GCN) tackles this issue by leveraging information across multiple magnification levels in WSIs. MS-GCN enables the simultaneous modeling of long-range structural dependencies at lower magnifications and high-resolution cellular details at higher magnifications, akin to analysis pipelines usually conducted by pathologists. The architecture's unique configuration allows for the concurrent modeling of structural patterns at lower magnifications and detailed cellular features at higher ones, while also quantifying the contribution of each magnification level to the prediction. Through testing on different datasets, MS-GCN demonstrates superior performance over existing single-magnification GCN methods. The enhancement in performance and interpretability afforded by our method holds promise for advancing computational pathology models, especially in tasks requiring extensive spatial context.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# カルテシアンテンソルニューラルネット電位における電荷とスピン状態の包含について

On the Inclusion of Charge and Spin States in Cartesian Tensor Neural Network Potentials ( http://arxiv.org/abs/2403.15073v1 )

ライセンス: Link先を確認
Guillem Simeon, Antonio Mirarchi, Raul P. Pelaez, Raimondas Galvelis, Gianni De Fabritiis, (参考訳) 本稿では, 構造変化やコストの増大を伴わずに, 荷電分子やスピン状態の処理が可能となる, 最先端の同変型モンテカルロテンソル神経電位であるTensorNetの拡張について述べる。 これらの属性を組み込むことで、入力縮退問題に対処し、様々な化学系におけるモデルの予測精度を高める。 この進歩はTensorNetの適用性を大幅に拡大し、その効率性と正確性を維持した。

In this letter, we present an extension to TensorNet, a state-of-the-art equivariant Cartesian tensor neural network potential, allowing it to handle charged molecules and spin states without architectural changes or increased costs. By incorporating these attributes, we address input degeneracy issues, enhancing the model's predictive accuracy across diverse chemical systems. This advancement significantly broadens TensorNet's applicability, maintaining its efficiency and accuracy.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# 暗号資産の課税のための税務員ガイド

A Taxmans guide to taxation of crypto assets ( http://arxiv.org/abs/2403.15074v1 )

ライセンス: Link先を確認
Arindam Misra, (参考訳) 金融制度は急速な技術革新を目撃している。 BitcoinおよびDistributed Ledger Technologyに基づく他の暗号資産の台頭は、人々が分散化されたネットワーク上で価値を交換し、伝達する方法の根本的な変化を示している。 このことは、政府や税務当局が、この革新的で革新的で、急進的な技術に対する政策対応を理解し、提供するために、規制と税政策の盲点を生み出している。 ブロックチェーン技術におけるイノベーションの破滅的なスピードと、分散金融、分散自治組織、メタバースの出現により、規制当局や税務当局による政策介入やガイダンスは、イノベーションのペースに先行する、あるいは同期する可能性は低い。 本稿では、暗号資産が機能する原理と、その基盤技術と、このエコシステム内で発生する税問題や課税可能な事象との関連について説明する。 また、FATFやOECDによる最近の報告基準の変更など、様々な管轄区域で既に実施されている税や規制政策の対応の事例も提供している。 本稿では,既存の法律や政策の背景にある根拠と,その実施上の課題について説明する。 また、この資産クラスの課税ポテンシャルを推定し、偽名や治外法的な問題に対処できるグローバル・パブリック・デジタル・インフラストラクチャーの創出を提案する。 本稿では,暗号資産に関する直接的および間接的な課税問題を解析し,より詳しくは,証明・オブ・テイクや最大抽出可能な値などの近年の側面について論じる。

The Financial system has witnessed rapid technological changes. The rise of Bitcoin and other crypto assets based on Distributed Ledger Technology mark a fundamental change in the way people transact and transmit value over a decentralized network, spread across geographies. This has created regulatory and tax policy blind spots, as governments and tax administrations take time to understand and provide policy responses to this innovative, revolutionary, and fast-paced technology. Due to the breakneck speed of innovation in blockchain technology and advent of Decentralized Finance, Decentralized Autonomous Organizations and the Metaverse, it is unlikely that the policy interventions and guidance by regulatory authorities or tax administrations would be ahead or in sync with the pace of innovation. This paper tries to explain the principles on which crypto assets function, their underlying technology and relates them to the tax issues and taxable events which arise within this ecosystem. It also provides instances of tax and regulatory policy responses already in effect in various jurisdictions, including the recent changes in reporting standards by the FATF and the OECD. This paper tries to explain the rationale behind existing laws and policies and the challenges in their implementation. It also attempts to present a ballpark estimate of tax potential of this asset class and suggests creation of global public digital infrastructure that can address issues related to pseudonymity and extra-territoriality. The paper analyses both direct and indirect taxation issues related to crypto assets and discusses more recent aspects like proof-of-stake and maximal extractable value in greater detail.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# 勧告のための双方向非対称グラフコントラスト学習

Bilateral Unsymmetrical Graph Contrastive Learning for Recommendation ( http://arxiv.org/abs/2403.15075v1 )

ライセンス: Link先を確認
Jiaheng Yu, Jing Li, Yue He, Kai Zhu, Shuyi Zhang, Wen Hu, (参考訳) 近年,グラフ構造化ユーザ・イテム相互作用データ中のグラフコントラスト学習を協調フィルタリングに利用し,その有効性を示した。 しかし、ユーザ側とアイテム側のノード間の差分関係密度は、マルチホップグラフ相互作用計算の後に両側ノード上のグラフの適応性が異なることを無視し、既存のモデルで理想的な結果が得られるように制限する。 この問題を解決するために,二方向非対称グラフコントラスト学習(BusGCL)と呼ばれる,スライスされたユーザとアイテムグラフのノード関係密度の左右非対称性を考慮した,二方向非対称グラフコントラスト学習(Bilateral Unsymmetrical Graph Contrastive Learning)を提案する。 特に、暗黙の類似性を掘り起こす際のハイパーグラフベースのグラフ畳み込みネットワーク(GCN)の集約能力を考慮すると、ハイパーグラフベースのGCN、GCN、摂動GCNの3つの異なるモジュールから生成された埋め込みを、ユーザ側とアイテム側でそれぞれ2つのサブビューに分割し、ノード間関係構造の特徴に基づいてサブビューペアに選択的に結合する。 さらに、アグリゲーション後のユーザとアイテムの埋め込みの分布を調整するために、分散損失を利用して、すべての埋め込み間の相互距離を調整し、学習能力を維持する。 2つの公開データセットに関する総合的な実験は、様々なレコメンデーション手法と比較して、BusGCLの優位性を証明している。 他のモデルは、余分な費用を要さずに、我々の両面スライシング・コントラスト学習を利用して、推奨性能を高めることができる。

Recent methods utilize graph contrastive Learning within graph-structured user-item interaction data for collaborative filtering and have demonstrated their efficacy in recommendation tasks. However, they ignore that the difference relation density of nodes between the user- and item-side causes the adaptability of graphs on bilateral nodes to be different after multi-hop graph interaction calculation, which limits existing models to achieve ideal results. To solve this issue, we propose a novel framework for recommendation tasks called Bilateral Unsymmetrical Graph Contrastive Learning (BusGCL) that consider the bilateral unsymmetry on user-item node relation density for sliced user and item graph reasoning better with bilateral slicing contrastive training. Especially, taking into account the aggregation ability of hypergraph-based graph convolutional network (GCN) in digging implicit similarities is more suitable for user nodes, embeddings generated from three different modules: hypergraph-based GCN, GCN and perturbed GCN, are sliced into two subviews by the user- and item-side respectively, and selectively combined into subview pairs bilaterally based on the characteristics of inter-node relation structure. Furthermore, to align the distribution of user and item embeddings after aggregation, a dispersing loss is leveraged to adjust the mutual distance between all embeddings for maintaining learning ability. Comprehensive experiments on two public datasets have proved the superiority of BusGCL in comparison to various recommendation methods. Other models can simply utilize our bilateral slicing contrastive learning to enhance recommending performance without incurring extra expenses.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# 大規模言語モデルを用いた総合的なリピドミック自動化ワークフロー

Comprehensive Lipidomic Automation Workflow using Large Language Models ( http://arxiv.org/abs/2403.15076v1 )

ライセンス: Link先を確認
Connor Beveridge, Sanjay Iyer, Caitlin E. Randolph, Matthew Muhoberac, Palak Manchanda, Amy C. Clingenpeel, Shane Tichy, Gaurav Chopra, (参考訳) リピドミクスは、手動の注釈と解釈を困難にする巨大なデータを生成する。 構造異性体の脂質化学的および構造的多様性はさらにアノテーションを複雑にする。 標的脂質識別のための商用およびオープンソースソフトウェアはいくつか存在するが、自動メソッド生成ワークフローや統計およびバイオインフォマティクスツールとの統合は欠如している。 我々は,MRM前駆体および製品イオン対転移に基づく解析,詳細な統計分析,脂質アノテーションのための統合ワークフローを備えた包括的リピドミック自動ワークフロー(CLAW)プラットフォームを開発した。 CLAWは、オゾンエレクトロスプレーイオン化(OzESI)-MRM法と組み合わせた際の不飽和脂質中の炭素-炭素二重結合位置の同定を含むいくつかのモジュールを含む。 CLAWにおける自動化ワークフローの有用性を実証するため,生物試料と非生物試料のOzESI-MRMプロファイリングを用いて大規模リポソームデータを収集した。 具体的には,18-24カ月のアルツハイマー病マウスの異なる脳領域から分離された脂質液滴と,年齢に適合した野生型コントロールを同定するために,MRMをベースとした10種類の質量分析法に組織された1497件のトランジションを用いた。 さらに,OzESI-MRMプロファイリングを用いて,カノラ油から炭素-炭素二重結合特異性のトリアシルグリセロール (TGs) プロファイルを作成した。 また,チャットボット端末を用いてCLAWプラットフォームと対話し,統計的・バイオインフォマティクス解析を行うことができるAIエージェントを用いた大規模言語モデルを用いた統合言語ユーザインタフェースを開発した。 我々は、データ取得からAIエージェントベースのバイオインフォマティクス分析まで、ユーザが自動的なリポロミクスワークフローを生成するのに役立つ、高スループット脂質構造識別タスクに使用されるCLAWパイプラインを想定する。

Lipidomics generates large data that makes manual annotation and interpretation challenging. Lipid chemical and structural diversity with structural isomers further complicates annotation. Although, several commercial and open-source software for targeted lipid identification exists, it lacks automated method generation workflows and integration with statistical and bioinformatics tools. We have developed the Comprehensive Lipidomic Automated Workflow (CLAW) platform with integrated workflow for parsing, detailed statistical analysis and lipid annotations based on custom multiple reaction monitoring (MRM) precursor and product ion pair transitions. CLAW contains several modules including identification of carbon-carbon double bond position(s) in unsaturated lipids when combined with ozone electrospray ionization (OzESI)-MRM methodology. To demonstrate the utility of the automated workflow in CLAW, large-scale lipidomics data was collected with traditional and OzESI-MRM profiling on biological and non-biological samples. Specifically, a total of 1497 transitions organized into 10 MRM-based mass spectrometry methods were used to profile lipid droplets isolated from different brain regions of 18-24 month-old Alzheimer's disease mice and age-matched wild-type controls. Additionally, triacyclglycerols (TGs) profiles with carbon-carbon double bond specificity were generated from canola oil samples using OzESI-MRM profiling. We also developed an integrated language user interface with large language models using artificially intelligent (AI) agents that permits users to interact with the CLAW platform using a chatbot terminal to perform statistical and bioinformatic analyses. We envision CLAW pipeline to be used in high-throughput lipid structural identification tasks aiding users to generate automated lipidomics workflows ranging from data acquisition to AI agent-based bioinformatic analysis.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# GTAGCN: 一般化トポロジ適応グラフ畳み込みネットワーク

GTAGCN: Generalized Topology Adaptive Graph Convolutional Networks ( http://arxiv.org/abs/2403.15077v1 )

ライセンス: Link先を確認
Sukhdeep Singh, Anuj Sharma, Vinod Kumar Chauhan, (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するためのポピュラーで標準的なアプローチとして登場した。 GNNの文献は、この進化する研究領域の可能性と、現実の応用において広く採用されていることを強調している。 しかし、ほとんどのアプローチは概念上新しいものであるか、特定の技術に由来するものである。 したがって、複数のハイブリッド形式のアプローチの可能性は広く研究されていないため、シーケンスデータや静的データを一緒に利用することができる。 我々は、一般化集約ネットワークとトポロジ適応グラフ畳み込みネットワークという2つの確立された手法に基づくハイブリッドアプローチを導出し、データのシーケンスと静的な性質の両方に適用する目的を効果的に解決する。 提案手法はノード分類とグラフ分類の両方に適用できる。 実験により, 結果が文献と同等であり, グラフ構造が探索されていないシーケンスデータとして手書きのストロークの方が優れていることが明らかとなった。

Graph Neural Networks (GNN) have emerged as a popular and standard approach for learning from graph-structured data. The literature on GNN highlights the potential of this evolving research area and its widespread adoption in real-life applications. However, most of the approaches are either new in concept or derived from specific techniques. Therefore, the potential of more than one approach in hybrid form has not been studied extensively, which can be well utilized for sequenced data or static data together. We derive a hybrid approach based on two established techniques as generalized aggregation networks and topology adaptive graph convolution networks that solve our purpose to apply on both types of sequenced and static nature of data, effectively. The proposed method applies to both node and graph classification. Our empirical analysis reveals that the results are at par with literature results and better for handwritten strokes as sequenced data, where graph structures have not been explored.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# 資源制約デバイスに対するリアルタイム脅威検出手法

Real-time Threat Detection Strategies for Resource-constrained Devices ( http://arxiv.org/abs/2403.15078v1 )

ライセンス: Link先を確認
Mounia Hamidouche, Biniam Fisseha Demissie, Bilel Cherif, (参考訳) より多くのデバイスがインターネットに接続されるにつれて、その制限と基本的なセキュリティニーズに対処することが重要になる。 多くの研究は、セキュリティ問題に対処するためにMLとDLを活用することに重点を置いているが、リアルタイム設定でこれらの手法を実装する実践性と実現可能性を見落としている傾向がしばしばある。 この監視は、特定のデバイス(IoTデバイス)の制約された処理能力とメモリ、およびこれらのアプローチの一般化可能性に関する懸念に起因している。 ルータにおけるDNSチューニング攻撃の検出を事例として,これらの課題に効果的に対処するエンド・ツー・エンド・エンド・プロセスを提案する。 このプロセスは、軽量なDNSチューニング検出モデルの開発から、リアルタイム検出のためのリソース制約されたデバイスへの統合まで、幅広い。 実験を通じて、MLモデルのトレーニングにステートレスな機能を利用することと、ネットワーク構成に依存しない機能を使用することで、極めて正確な結果が得られることを実証した。 さまざまな環境にまたがる組み込みデバイスに最適化されたこの慎重に構築されたモデルのデプロイにより、最小のレイテンシでDNSチューニングされた攻撃検出が可能になった。 本研究の目的は、デバイスセキュリティの進化を続ける状況において、理論的進歩とMLアプローチの実践的適用性のバランスを崩すソリューションを奨励することである。

As more devices connect to the internet, it becomes crucial to address their limitations and basic security needs. While much research focuses on utilizing ML and DL to tackle security challenges, there is often a tendency to overlook the practicality and feasibility of implementing these methods in real-time settings. This oversight stems from the constrained processing power and memory of certain devices (IoT devices), as well as concerns about the generalizability of these approaches. Focusing on the detection of DNS-tunneling attacks in a router as a case study, we present an end-to-end process designed to effectively address these challenges. The process spans from developing a lightweight DNS-tunneling detection model to integrating it into a resource-constrained device for real-time detection. Through our experiments, we demonstrate that utilizing stateless features for training the ML model, along with features chosen to be independent of the network configuration, leads to highly accurate results. The deployment of this carefully crafted model, optimized for embedded devices across diverse environments, resulted in high DNS-tunneling attack detection with minimal latency. With this work, we aim to encourage solutions that strike a balance between theoretical advancements and the practical applicability of ML approaches in the ever-evolving landscape of device security.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# 逆強化学習のための自動特徴選択

Automated Feature Selection for Inverse Reinforcement Learning ( http://arxiv.org/abs/2403.15079v1 )

ライセンス: Link先を確認
Daulet Baimukashev, Gokhan Alcan, Ville Kyrki, (参考訳) 逆強化学習(IRL)は、専門家によるデモンストレーションから報酬関数を学習するための模倣学習手法である。 その使用は、強化学習の一般化力を保ちながら、手動報酬仕様の困難で退屈な手順を避ける。 IRLでは、報酬は通常特徴の線形結合として表現される。 連続状態空間では、状態変数だけでは機能として使われるには十分ではないが、どの特徴が良いかは一般には分かっていない。 この問題に対処するために,多項式基底関数を用いて,状態分布の統計的モーメントの整合性を示す特徴の候補集合を形成する手法を提案する。 次に、軌跡確率と特徴期待との相関を利用して、候補に対する特徴選択を行う。 複雑性を増大させる非線形制御タスクのエキスパートポリシーをキャプチャする報酬関数を回収することで、アプローチの有効性を実証する。 コード、データ、ビデオはhttps://sites.google.com/view/feature4irl.comで公開されている。

Inverse reinforcement learning (IRL) is an imitation learning approach to learning reward functions from expert demonstrations. Its use avoids the difficult and tedious procedure of manual reward specification while retaining the generalization power of reinforcement learning. In IRL, the reward is usually represented as a linear combination of features. In continuous state spaces, the state variables alone are not sufficiently rich to be used as features, but which features are good is not known in general. To address this issue, we propose a method that employs polynomial basis functions to form a candidate set of features, which are shown to allow the matching of statistical moments of state distributions. Feature selection is then performed for the candidates by leveraging the correlation between trajectory probabilities and feature expectations. We demonstrate the approach's effectiveness by recovering reward functions that capture expert policies across non-linear control tasks of increasing complexity. Code, data, and videos are available at https://sites.google.com/view/feature4irl.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# 複数要素認証・回復設定がユーザアカウントのセキュリティ・アクセシビリティに及ぼす影響評価

Evaluating the Influence of Multi-Factor Authentication and Recovery Settings on the Security and Accessibility of User Accounts ( http://arxiv.org/abs/2403.15080v1 )

ライセンス: Link先を確認
Andre Büttner, Nils Gruschka, (参考訳) 現在、ほとんどのオンラインサービスは、ユーザーが多要素認証のために設定できる異なる認証方法を提供しているが、リカバリ方法でもある。 この設定は、正統なユーザがアカウントにアクセスできなくなることを保証しながら、敵のアクセスを防止するために徹底的に行う必要がある。 どちらの障害も重大な結果をもたらすような、基本的な日常的なサービスにとって、これは特に重要です。 それでも、セキュリティとアカウントからロックアウトされるリスクについて、実際のユーザの認証についてはほとんど研究されていない。 そこで本研究では,Google および Apple ユーザのアカウント設定について検討する。 多要素認証設定とリカバリオプションを考慮して,アカウントのセキュリティとロックアウトリスクを分析した。 以上の結果から,Google と Apple のアカウント間のセキュリティ上の大きな違いを示すとともに,認証デバイスを1つ失うと,多くのユーザがアカウントへのアクセスを逃してしまうことが判明した。

Nowadays, most online services offer different authentication methods that users can set up for multi-factor authentication but also as a recovery method. This configuration must be done thoroughly to prevent an adversary's access while ensuring the legitimate user does not lose access to their account. This is particularly important for fundamental everyday services, where either failure would have severe consequences. Nevertheless, little research has been done on the authentication of actual users regarding security and the risk of being locked out of their accounts. To foster research in this direction, this paper presents a study on the account settings of Google and Apple users. Considering the multi-factor authentication configuration and recovery options, we analyzed the account security and lock-out risks. Our results provide insights into the usage of multi-factor authentication in practice, show significant security differences between Google and Apple accounts, and reveal that many users would miss access to their accounts when losing a single authentication device.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# 細胞変動情報ボトルネックネットワーク

Cell Variational Information Bottleneck Network ( http://arxiv.org/abs/2403.15082v1 )

ライセンス: Link先を確認
Zhonghua Zhai, Chen Ju, Jinsong Lan, Shuai Xiao, (参考訳) 本研究では,情報ボトルネック機構を用いた畳み込みニューラルネットワークであるCell Variational Information Bottleneck Network (cellVIB)を提案する。 我々のセル変動情報ボトルネックネットワークは、不確実性のある特徴マップを生成するVIBセルを積み重ねて構築されている。 層が深くなるにつれて、Deep VIBのように、モデルの出力層に直接過剰な規則的な制約を加えるのではなく、正規化効果が徐々に増加します。 各VIBセルでは、フィードフォワードプロセスは独立平均項と標準偏差項を学習し、それらに基づいてガウス分布を予測する。 フィードバックプロセスは、効果的なトレーニングのためのパラメータ化トリックに基づいている。 この研究は、各VIB細胞の有効性を検証するためにMNISTデータセットを広範囲に分析し、VIB細胞が相互情報にどのように影響するかについての洞察に富んだ分析を提供する。 CIFAR-10で行った実験では、我々の細胞VIBはトレーニング中のノイズラベルや検査中の劣化画像に対して堅牢であることが示された。 そして,本手法をPACSデータセット上で検証した結果,VIBセルが基本モデルの一般化性能を大幅に向上できることが示された。 最後に、より複雑な表現学習タスクである顔認識において、我々のネットワーク構造も非常に競争力のある結果を得た。

In this work, we propose Cell Variational Information Bottleneck Network (cellVIB), a convolutional neural network using information bottleneck mechanism, which can be combined with the latest feedforward network architecture in an end-to-end training method. Our Cell Variational Information Bottleneck Network is constructed by stacking VIB cells, which generate feature maps with uncertainty. As layers going deeper, the regularization effect will gradually increase, instead of directly adding excessive regular constraints to the output layer of the model as in Deep VIB. Under each VIB cell, the feedforward process learns an independent mean term and an standard deviation term, and predicts the Gaussian distribution based on them. The feedback process is based on reparameterization trick for effective training. This work performs an extensive analysis on MNIST dataset to verify the effectiveness of each VIB cells, and provides an insightful analysis on how the VIB cells affect mutual information. Experiments conducted on CIFAR-10 also prove that our cellVIB is robust against noisy labels during training and against corrupted images during testing. Then, we validate our method on PACS dataset, whose results show that the VIB cells can significantly improve the generalization performance of the basic model. Finally, in a more complex representation learning task, face recognition, our network structure has also achieved very competitive results.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# SIMAP:ニューラルネットワークのための単純なマップレイヤ

SIMAP: A simplicial-map layer for neural networks ( http://arxiv.org/abs/2403.15083v1 )

ライセンス: Link先を確認
Rocio Gonzalez-Diaz, Miguel A. Gutiérrez-Naranjo, Eduardo Paluzo-Hidalgo, (参考訳) 本稿では,ディープラーニングモデルに統合された新しいレイヤであるSIMAPについて述べる。 SIMAPレイヤは、Simplicial-Map Neural Networks(SMNN)の拡張版である。 第一に、SIMAP層は他のディープラーニングアーキテクチャと組み合わせて、古典的な高密度最終層を代用する解釈可能な層として機能する。 第二に、SMNNとは異なり、サポートセットは、行列ベースの乗算アルゴリズムで効率よく計算される、固定された最大値の単純度に基づいている。

In this paper, we present SIMAP, a novel layer integrated into deep learning models, aimed at enhancing the interpretability of the output. The SIMAP layer is an enhanced version of Simplicial-Map Neural Networks (SMNNs), an explainable neural network based on support sets and simplicial maps (functions used in topology to transform shapes while preserving their structural connectivity). The novelty of the methodology proposed in this paper is two-fold: Firstly, SIMAP layers work in combination with other deep learning architectures as an interpretable layer substituting classic dense final layers. Secondly, unlike SMNNs, the support set is based on a fixed maximal simplex, the barycentric subdivision being efficiently computed with a matrix-based multiplication algorithm.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# CHisIEC: 古代中国史のための情報抽出コーパス

CHisIEC: An Information Extraction Corpus for Ancient Chinese History ( http://arxiv.org/abs/2403.15088v1 )

ライセンス: Link先を確認
Xuemei Tang, Zekun Deng, Qi Su, Hao Yang, Jun Wang, (参考訳) 自然言語処理(NLP)は、デジタル人文科学(DH)の領域において重要な役割を担い、歴史的・文化的遺産文書の構造解析を推進するための基盤となっている。 これは、名前付きエンティティ認識(NER)と関係抽出(RE)のドメインに特に当てはまる。 我々は,古代史・文化の迅速化への取り組みとして,「中国歴史情報抽出法人」(CHisIEC)を提示する。 CHisIEC は NER と RE タスクの開発と評価を目的とした,精巧にキュレートされたデータセットである。 1830年以上にわたる13の王朝のデータを網羅した、顕著な歴史的時系列を描いているCisIECは、中国の史料に固有の広範囲の時間的範囲とテキストの不均一性を表わしている。 データセットには4つの異なるエンティティタイプと12のリレーションタイプが含まれており、14,194のエンティティと8,609のリレーションで構成されている。 データセットの堅牢性と汎用性を確立するため,さまざまなサイズとパラダイムのモデルを含む総合的な実験を行った。 また,古代中国史に関わる課題の文脈において,Large Language Models (LLMs) の機能を評価する。 データセットとコードは \url{https://github.com/tangxuemei 1995/CHisIEC} で公開されている。

Natural Language Processing (NLP) plays a pivotal role in the realm of Digital Humanities (DH) and serves as the cornerstone for advancing the structural analysis of historical and cultural heritage texts. This is particularly true for the domains of named entity recognition (NER) and relation extraction (RE). In our commitment to expediting ancient history and culture, we present the ``Chinese Historical Information Extraction Corpus''(CHisIEC). CHisIEC is a meticulously curated dataset designed to develop and evaluate NER and RE tasks, offering a resource to facilitate research in the field. Spanning a remarkable historical timeline encompassing data from 13 dynasties spanning over 1830 years, CHisIEC epitomizes the extensive temporal range and text heterogeneity inherent in Chinese historical documents. The dataset encompasses four distinct entity types and twelve relation types, resulting in a meticulously labeled dataset comprising 14,194 entities and 8,609 relations. To establish the robustness and versatility of our dataset, we have undertaken comprehensive experimentation involving models of various sizes and paradigms. Additionally, we have evaluated the capabilities of Large Language Models (LLMs) in the context of tasks related to ancient Chinese history. The dataset and code are available at \url{https://github.com/tangxuemei1995/CHisIEC}.
翻訳日:2024-03-25 17:58:20 公開日:2024-03-22
# IFSENet : 対話型Few-shotセグメンテーションのハーネス化

IFSENet : Harnessing Sparse Iterations for Interactive Few-shot Segmentation Excellence ( http://arxiv.org/abs/2403.15089v1 )

ライセンス: Link先を確認
Shreyas Chandgothia, Ardhendu Sekhar, Amit Sethi, (参考訳) コンピュータビジョンシステムをトレーニングして、新しいクラスをセグメンテーションするには、多くの画像にそのクラスのオブジェクトを注釈付けする必要がある。 ほとんどショットのセグメンテーション技術は、新しいクラスのセグメンテーションを学ぶために必要な画像数を減らすが、オブジェクト境界に対する注意深いアノテーションは依然として必要である。 一方、インタラクティブなセグメンテーション技術は、クラスに依存しない方法で1つのオブジェクトのセグメンテーションを段階的に改善することのみに焦点を当てている。 2つの概念を組み合わせることで、新しいクラスのセグメンテーションモデルをトレーニングするのに要する労力を大幅に削減する。 対話型セグメンテーションマスクを数発のセグメンテーションモデルに自明に供給する代わりに、単一または少数のサポートイメージに対するスパース・インスペクションをクリック形式で受け入れ、サポート中のマスク(トレーニング、少なくとも一度クリック)とクエリ(テスト、決してクリックしない)イメージを生成するIFSENetを提案する。 精度を柔軟にトレードオフするために、サポートセットに画像とクリックの数を漸進的に追加して、サポートのセグメンテーションとクエリイメージをさらに改善することができる。 提案モデルでは,クエリ画像上のPascalデータセットとSBDデータセットでテストした場合,アノテーションの労力がかなり小さく(地図の代わりにクリックする),従来の数ショットセグメンテーションモデルの精度にアプローチする。 また、サポート画像の対話的セグメンテーション手法としても機能する。

Training a computer vision system to segment a novel class typically requires collecting and painstakingly annotating lots of images with objects from that class. Few-shot segmentation techniques reduce the required number of images to learn to segment a new class, but careful annotations of object boundaries are still required. On the other hand, interactive segmentation techniques only focus on incrementally improving the segmentation of one object at a time (typically, using clicks given by an expert) in a class-agnostic manner. We combine the two concepts to drastically reduce the effort required to train segmentation models for novel classes. Instead of trivially feeding interactive segmentation masks as ground truth to a few-shot segmentation model, we propose IFSENet, which can accept sparse supervision on a single or few support images in the form of clicks to generate masks on support (training, at least clicked upon once) as well as query (test, never clicked upon) images. To trade-off effort for accuracy flexibly, the number of images and clicks can be incrementally added to the support set to further improve the segmentation of support as well as query images. The proposed model approaches the accuracy of previous state-of-the-art few-shot segmentation models with considerably lower annotation effort (clicks instead of maps), when tested on Pascal and SBD datasets on query images. It also works well as an interactive segmentation method on support images.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# 長期記憶に基づく深層強化学習のための排水処理シミュレータの改善

Improved Long Short-Term Memory-based Wastewater Treatment Simulators for Deep Reinforcement Learning ( http://arxiv.org/abs/2403.15091v1 )

ライセンス: Link先を確認
Esmaeel Mohammadi, Daniel Ortiz-Arroyo, Mikkel Stokholm-Bjerregaard, Aviaja Anna Hansen, Petar Durdevic, (参考訳) 深層強化学習(DRL)は, ロボティクスやゲームにおいて優れた成果を上げているが, 排水処理などの産業プロセスの最適化においては, 実装が困難である。 課題の1つは、DRLポリシーのトレーニングを可能な限り正確に行うシミュレーション環境の欠如である。 廃棄物処理データの確率性と非線形性は、長期間の地平線上でのモデルの不安定で誤った予測につながる。 モデルの誤ったシミュレーションの振る舞いの1つが、シミュレーション全体のエラーの蓄積である複合的エラーの問題に関係している可能性がある。 合成誤差は、モデルがその予測を各タイミングステップの入力として利用するため発生する。 シミュレーションが進むにつれて、実際のデータと予測の間の誤差が蓄積される。 その結果,1-モデルの予測データをトレーニングステップの入力として使用し,2-損失関数を変化させて長期予測形状(力学)を考慮した。 実験の結果, これらの手法を用いることで, 基礎モデルと比較して1年を通して, 98%までの動的時間ワープでシミュレータの挙動を改善できることがわかった。 これらの改善は、既存のプロセスの知識を必要とせず、システムから得られた時系列データにのみ依存する生物学的プロセスのシミュレータを作成する上で大きな可能性を示している。

Even though Deep Reinforcement Learning (DRL) showed outstanding results in the fields of Robotics and Games, it is still challenging to implement it in the optimization of industrial processes like wastewater treatment. One of the challenges is the lack of a simulation environment that will represent the actual plant as accurately as possible to train DRL policies. Stochasticity and non-linearity of wastewater treatment data lead to unstable and incorrect predictions of models over long time horizons. One possible reason for the models' incorrect simulation behavior can be related to the issue of compounding error, which is the accumulation of errors throughout the simulation. The compounding error occurs because the model utilizes its predictions as inputs at each time step. The error between the actual data and the prediction accumulates as the simulation continues. We implemented two methods to improve the trained models for wastewater treatment data, which resulted in more accurate simulators: 1- Using the model's prediction data as input in the training step as a tool of correction, and 2- Change in the loss function to consider the long-term predicted shape (dynamics). The experimental results showed that implementing these methods can improve the behavior of simulators in terms of Dynamic Time Warping throughout a year up to 98% compared to the base model. These improvements demonstrate significant promise in creating simulators for biological processes that do not need pre-existing knowledge of the process but instead depend exclusively on time series data obtained from the system.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# 人工知能と環境騒音トモグラフィによるエンド・ツー・エンド鉱物探査

End-to-End Mineral Exploration with Artificial Intelligence and Ambient Noise Tomography ( http://arxiv.org/abs/2403.15095v1 )

ライセンス: Link先を確認
Jack Muir, Gerrit Olivier, Anthony Reid, (参考訳) 本稿では, 環境騒音トモグラフィ (ANT) と人工知能 (AI) を統合し, 世界の低炭素経済への移行に必要な鉱物資源の発見とデライン化を促進すべく, 鉱物探査の革新的なエンド・ツー・エンドワークフローを提案する。 我々は, 再生可能エネルギーソリューションにおいて, かなりの量の銅を必須元素として重視する。 我々は,その速度,スケーラビリティ,深度浸透,分解能,環境影響の低さを特徴とするANTの利点を,局所的な高分解能データに基づいて我々のモデルを微調整することにより,鉱床規模で大陸規模の確率モデルを洗練する人工知能(AI)技術とともに示す。 本手法は,オーストラリアにおける銅に対する新しいデータ駆動型AI確率モデルを提案することにより,提案手法の可能性を実証する。 次に、ヨーク半島のヒルサイドIOCG鉱床に焦点を当てる。 比較的少数の局所的なトレーニングサンプル(ボディインターセプト)では、基礎モデルを微調整してヒルサイドのオリボディのアウトラインを適切に推定できることが示される。 提案手法は, 地学的データの解釈をAIが拡張し, 鉱物資源発見の急激なニーズに対処するため, 鉱物探査の新たなアプローチを提供し, 鉱化をターゲットとした意思決定能力の向上を図っている。

This paper presents an innovative end-to-end workflow for mineral exploration, integrating ambient noise tomography (ANT) and artificial intelligence (AI) to enhance the discovery and delineation of mineral resources essential for the global transition to a low carbon economy. We focus on copper as a critical element, required in significant quantities for renewable energy solutions. We show the benefits of utilising ANT, characterised by its speed, scalability, depth penetration, resolution, and low environmental impact, alongside artificial intelligence (AI) techniques to refine a continent-scale prospectivity model at the deposit scale by fine-tuning our model on local high-resolution data. We show the promise of the method by first presenting a new data-driven AI prospectivity model for copper within Australia, which serves as our foundation model for further fine-tuning. We then focus on the Hillside IOCG deposit on the prospective Yorke Peninsula. We show that with relatively few local training samples (orebody intercepts), we can fine tune the foundation model to provide a good estimate of the Hillside orebody outline. Our methodology demonstrates how AI can augment geophysical data interpretation, providing a novel approach to mineral exploration with improved decision-making capabilities for targeting mineralization, thereby addressing the urgent need for increased mineral resource discovery.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# イベントリンクに対するArgument-Awareアプローチ

Argument-Aware Approach To Event Linking ( http://arxiv.org/abs/2403.15097v1 )

ライセンス: Link先を確認
I-Hung Hsu, Zihan Xue, Nilay Pochh, Sahil Bansal, Premkumar Natarajan, Jayanth Srinivasa, Nanyun Peng, (参考訳) イベントリンクは、テキスト内のイベント参照と、知識ベース(KB)内の関連するノードを接続する。 イベントリンクに関する以前の研究は、主にエンティティリンクの手法を借りて、イベントの異なる特徴を見下ろしてきた。 広範囲に検討されたエンティティリンクタスクと比較して、イベントはより複雑な構造を持ち、関連する引数を調べることでより効果的に区別できる。 さらに、イベントの情報豊富な性質は、イベントKBの不足につながる。 これは、KBにないイベントの言及を'out-of-KB'として識別し分類するためのイベントリンクモデルの必要性を強調している。 本研究では,議論に配慮したアプローチを導入することで,これらの課題に対処する。 まず、入力テキストにタグ付けされたイベント引数情報を追加し、イベント参照に関する重要な情報の認識を容易にすることにより、イベントリンクモデルを改善する。 その後、モデルが ``out-of-KB'' シナリオを処理するのを助けるために、イベント引数の制御操作を通じて、イン-KBインスタンスからアウト-オブ-KBトレーニング例を合成する。 2つのテストデータセットを対象とした実験では,KB内シナリオとKB外シナリオの両方で大幅な改善が見られ,KB外評価では22%が顕著に改善された。

Event linking connects event mentions in text with relevant nodes in a knowledge base (KB). Prior research in event linking has mainly borrowed methods from entity linking, overlooking the distinct features of events. Compared to the extensively explored entity linking task, events have more complex structures and can be more effectively distinguished by examining their associated arguments. Moreover, the information-rich nature of events leads to the scarcity of event KBs. This emphasizes the need for event linking models to identify and classify event mentions not in the KB as ``out-of-KB,'' an area that has received limited attention. In this work, we tackle these challenges by introducing an argument-aware approach. First, we improve event linking models by augmenting input text with tagged event argument information, facilitating the recognition of key information about event mentions. Subsequently, to help the model handle ``out-of-KB'' scenarios, we synthesize out-of-KB training examples from in-KB instances through controlled manipulation of event arguments. Our experiment across two test datasets showed significant enhancements in both in-KB and out-of-KB scenarios, with a notable 22% improvement in out-of-KB evaluations.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# UniTraj: スケーラブルな自動車軌道予測のための統一フレームワーク

UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction ( http://arxiv.org/abs/2403.15098v1 )

ライセンス: Link先を確認
Lan Feng, Mohammadhossein Bahari, Kaouther Messaoud Ben Amor, Éloi Zablocki, Matthieu Cord, Alexandre Alahi, (参考訳) 車両軌道予測は、データ駆動型ソリューションにますます依存しているが、異なるデータドメインにスケールする能力と、その一般化に対するより大きなデータセットサイズの影響は、まだ解明されていない。 これらの質問は、複数のデータセットを使用することで研究できるが、データフォーマットやマップ解像度、セマンティックアノテーションタイプにおける \textit{e g ,} といったいくつかの相違があるため、難しい。 これらの課題に対処するために、様々なデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを導入し、車両軌道予測分野の新しい機会を示す。 特に、UniTrajを用いて広範な実験を行い、他のデータセットに転送するとモデルの性能が著しく低下することがわかった。 しかし、データサイズと多様性の増大はパフォーマンスを大幅に向上させ、nuScenesデータセットの新たな最先端結果をもたらす。 これらの知見を説明するために,データセットの特徴に関する洞察を提供する。 コードは以下の通りである。 \hyperlink{https://github.com/vita-epfl/UniTraj}{https://github.com/vita-epfl/UniTraj}。

Vehicle trajectory prediction has increasingly relied on data-driven solutions, but their ability to scale to different data domains and the impact of larger dataset sizes on their generalization remain under-explored. While these questions can be studied by employing multiple datasets, it is challenging due to several discrepancies, \textit{e.g.,} in data formats, map resolution, and semantic annotation types. To address these challenges, we introduce UniTraj, a comprehensive framework that unifies various datasets, models, and evaluation criteria, presenting new opportunities for the vehicle trajectory prediction field. In particular, using UniTraj, we conduct extensive experiments and find that model performance significantly drops when transferred to other datasets. However, enlarging data size and diversity can substantially improve performance, leading to a new state-of-the-art result for the nuScenes dataset. We provide insights into dataset characteristics to explain these findings. The code can be found here: \hyperlink{https://github.com/vita-epfl/UniTraj}{https://github.com/vita-epfl/UniTraj}.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# 協調動作制御のための準変分強化学習フレームワーク

Subequivariant Reinforcement Learning Framework for Coordinated Motion Control ( http://arxiv.org/abs/2403.15100v1 )

ライセンス: Link先を確認
Haoyu Wang, Xiaoyu Tan, Xihe Qiu, Chao Qu, (参考訳) 効果的な協調は、特にエージェントの複雑さとそれらの動きが増加するにつれて、強化学習による運動制御に不可欠である。 しかし、既存の方法の多くは、関節間の複雑な依存関係を考慮するのに苦労している。 我々は,物理から準同変原理を取り入れた新しいアーキテクチャであるCoordiGraphを導入し,強化学習による運動制御のコーディネーションを強化する。 この方法は、重力の影響下での学習過程に固有のパターンとして等分散の原理を組み込み、運動制御に不可欠な関節間のニュアンス関係をモデル化する。 多様な環境における高度なエージェントによる広範囲な実験を通じて、我々はアプローチのメリットを強調した。 現在の先行手法と比較して、CoordiGraphは特に一般化とサンプル効率を向上させる。

Effective coordination is crucial for motion control with reinforcement learning, especially as the complexity of agents and their motions increases. However, many existing methods struggle to account for the intricate dependencies between joints. We introduce CoordiGraph, a novel architecture that leverages subequivariant principles from physics to enhance coordination of motion control with reinforcement learning. This method embeds the principles of equivariance as inherent patterns in the learning process under gravity influence, which aids in modeling the nuanced relationships between joints vital for motion control. Through extensive experimentation with sophisticated agents in diverse environments, we highlight the merits of our approach. Compared to current leading methods, CoordiGraph notably enhances generalization and sample efficiency.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# 胎児MRIにおけるクロスドメイン脳組織セグメンテーションの合成データによる改善

Improving cross-domain brain tissue segmentation in fetal MRI with synthetic data ( http://arxiv.org/abs/2403.15103v1 )

ライセンス: Link先を確認
Vladyslav Zalevskyi, Thomas Sanchez, Margaux Roulet, Jordina Aviles Verddera, Jana Hutter, Hamza Kebiri, Meritxell Bach Cuadra, (参考訳) 磁気共鳴イメージング(MRI)による胎児脳組織の分節化は、子宮神経発達の研究において重要な役割を担っている。 しかし、自動化ツールは、非常に異質な臨床データに対して堅牢でなければならないため、しばしば数に制限があり、アノテーションが欠如しているため、かなりのドメインシフトに直面している。 実際、胎児脳形態、MRI取得パラメータ、超解像再構成(SR)アルゴリズムの高可変性は、ドメイン外評価時のモデルの性能に悪影響を及ぼす。 本研究では,SynthSegにインスパイアされた胎児脳MRIの領域ランダム化手法であるFetalSynthSegを紹介する。 以上の結果から,120オブジェクトのクロスドメインデータセットを用いて,実データでトレーニングしたモデルにおいて,合成データのみをトレーニングしたモデルが,実際のデータでトレーニングされたモデルよりも優れていたことが示唆された。 さらに,低磁場(0.55T)MRIを用いて得られた40名を対象に,新しいSRモデルを用いて再構成し,異なる磁場強度とSRアルゴリズムを用いたロバスト性を示す。 生成的合成アプローチを活用することで、胎児脳MRIにおけるドメインシフト問題に取り組み、限定的でヘテロジニアスなデータを持つ分野の応用に魅力的な可能性を提供する。

Segmentation of fetal brain tissue from magnetic resonance imaging (MRI) plays a crucial role in the study of in utero neurodevelopment. However, automated tools face substantial domain shift challenges as they must be robust to highly heterogeneous clinical data, often limited in numbers and lacking annotations. Indeed, high variability of the fetal brain morphology, MRI acquisition parameters, and superresolution reconstruction (SR) algorithms adversely affect the model's performance when evaluated out-of-domain. In this work, we introduce FetalSynthSeg, a domain randomization method to segment fetal brain MRI, inspired by SynthSeg. Our results show that models trained solely on synthetic data outperform models trained on real data in out-ofdomain settings, validated on a 120-subject cross-domain dataset. Furthermore, we extend our evaluation to 40 subjects acquired using lowfield (0.55T) MRI and reconstructed with novel SR models, showcasing robustness across different magnetic field strengths and SR algorithms. Leveraging a generative synthetic approach, we tackle the domain shift problem in fetal brain MRI and offer compelling prospects for applications in fields with limited and highly heterogeneous data.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# PseudoTouch: ロボットマニピュレーションのための物体の表面を効率よく撮像する

PseudoTouch: Efficiently Imaging the Surface Feel of Objects for Robotic Manipulation ( http://arxiv.org/abs/2403.15107v1 )

ライセンス: Link先を確認
Adrian Röfer, Nick Heppert, Abdallah Ayman, Eugenio Chisari, Abhinav Valada, (参考訳) 人間は知覚に潜在的な触覚信号が組み込まれているように見える。 私たちのゴールは、ロボットに同じような能力を持たせることです。 \ourmodelは、タッチされた領域を表す視覚的パッチに基づいて、期待されるタッチ信号を予測することを目的としている。 我々は、この問題を低次元視覚触覚埋め込みの学習タスクとして捉え、そこから触覚信号を復号する深度パッチを符号化する。 この課題を達成するために、安価で交換可能な磁気ベースの触覚センサであるReSkinを採用した。 ReSkinを用いて,8つの基本的な幾何学的形状をランダムに触れることで得られる触覚と視覚データの組み合わせからなるデータセット上でPseudoTouchを収集・訓練する。 我々はPseudoTouchの有効性を、物体認識と把握安定性予測という2つの下流タスクに適用することで実証する。 物体認識タスクでは,5つの基本形状と5つの家庭用物体の集合に対して,学習した埋め込みの性能を評価する。 PseudoTouchを用いて10回のタッチで84%のオブジェクト認識精度を達成し,プロプレセプションベースラインを超越した。 グリップ安定タスクでは、仮想深度情報から導出したPseudoTouchの予測を用いて、ACRONYMラベルを用いて、グリップ成功予測器を訓練し、評価する。 提案手法では, 部分点クラウドデータに依存するベースラインに比べて, 絶対精度が32%向上した。 データ、コード、トレーニングされたモデルをhttp://pseudotouch.cs.uni-freiburg.deで公開しています。

Humans seemingly incorporate potential touch signals in their perception. Our goal is to equip robots with a similar capability, which we term \ourmodel. \ourmodel aims to predict the expected touch signal based on a visual patch representing the touched area. We frame this problem as the task of learning a low-dimensional visual-tactile embedding, wherein we encode a depth patch from which we decode the tactile signal. To accomplish this task, we employ ReSkin, an inexpensive and replaceable magnetic-based tactile sensor. Using ReSkin, we collect and train PseudoTouch on a dataset comprising aligned tactile and visual data pairs obtained through random touching of eight basic geometric shapes. We demonstrate the efficacy of PseudoTouch through its application to two downstream tasks: object recognition and grasp stability prediction. In the object recognition task, we evaluate the learned embedding's performance on a set of five basic geometric shapes and five household objects. Using PseudoTouch, we achieve an object recognition accuracy 84% after just ten touches, surpassing a proprioception baseline. For the grasp stability task, we use ACRONYM labels to train and evaluate a grasp success predictor using PseudoTouch's predictions derived from virtual depth information. Our approach yields an impressive 32% absolute improvement in accuracy compared to the baseline relying on partial point cloud data. We make the data, code, and trained models publicly available at http://pseudotouch.cs.uni-freiburg.de.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# Wasserstein 距離と GroupSort ニューラルネットワークに基づく回帰学習

Active Learning for Regression based on Wasserstein distance and GroupSort Neural Networks ( http://arxiv.org/abs/2403.15108v1 )

ライセンス: Link先を確認
Benjamin Bobbia, Matthias Picard, (参考訳) 本稿では,回帰問題に対する新たなアクティブラーニング戦略について述べる。 提案した Wasserstein 能動回帰モデルは、ラベル付きデータセットの表現性を測るための分布マッチングの原理に基づいている。 Wasserstein距離はGroupSort Neural Networksを用いて計算される。 このようなネットワークの使用は、そのサイズと深さの明示的な境界でエラーを定量化する方法を提供する理論的基盤を提供する。 このソリューションは、クエリ戦略を完成させる上で、より不確実性に基づくアプローチと組み合わせられます。 最後に、この手法は他の古典的および最近の解と比較される。 本研究は,このような表現性不確実性アプローチの有効性を実証的に示す。 さらに、ワッサーシュタインの能動回帰は、しばしばより正確な推定を達成し、他のモデルよりも精度を向上する傾向がある。

This paper addresses a new active learning strategy for regression problems. The presented Wasserstein active regression model is based on the principles of distribution-matching to measure the representativeness of the labeled dataset. The Wasserstein distance is computed using GroupSort Neural Networks. The use of such networks provides theoretical foundations giving a way to quantify errors with explicit bounds for their size and depth. This solution is combined with another uncertainty-based approach that is more outlier-tolerant to complete the query strategy. Finally, this method is compared with other classical and recent solutions. The study empirically shows the pertinence of such a representativity-uncertainty approach, which provides good estimation all along the query procedure. Moreover, the Wasserstein active regression often achieves more precise estimations and tends to improve accuracy faster than other models.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# LLM埋め込みによるテキストクラスタリング

Text clustering with LLM embeddings ( http://arxiv.org/abs/2403.15112v1 )

ライセンス: Link先を確認
Alina Petukhova, Joao P. Matos-Carvalho, Nuno Fachada, (参考訳) テキストクラスタリングは、デジタルコンテンツの増加を組織化する上で重要なアプローチであり、分類されていないデータに隠されたパターンを構造化し見つけるのに役立つ。 本研究では,大規模言語モデル(LLM)におけるテキスト埋め込みとクラスタリングアルゴリズムの違いが,テキストデータセットのクラスタリングに与える影響について検討した。 組込みがクラスタリング結果にどのように影響するか, 要約による次元還元による役割, 組込みサイズ調整について, 一連の実験を行った。 その結果、LLM埋め込みは構造化言語のニュアンスを捉えるのに優れており、BERTは性能において軽量な選択肢を導いていることがわかった。 さらに,組込み次元の増大や要約手法はクラスタリング効率を均一に向上させるものではないことが判明し,これらの手法が実生活モデルで使用するためには慎重な分析が必要であることが示唆された。 これらの結果は、テキストクラスタリングアプリケーションにおいて、ニュアンス付きテキスト表現の必要性と計算可能性との複雑なバランスを浮き彫りにする。 本研究は, 従来のテキストクラスタリングフレームワークを拡張し, LLMからの埋め込みを組み込むことで, 方法論改善の道を切り開くとともに, 各種テキスト解析における新たな手法を開拓する。

Text clustering is an important approach for organising the growing amount of digital content, helping to structure and find hidden patterns in uncategorised data. In this research, we investigated how different textual embeddings - particularly those used in large language models (LLMs) - and clustering algorithms affect how text datasets are clustered. A series of experiments were conducted to assess how embeddings influence clustering results, the role played by dimensionality reduction through summarisation, and embedding size adjustment. Results reveal that LLM embeddings excel at capturing the nuances of structured language, while BERT leads the lightweight options in performance. In addition, we find that increasing embedding dimensionality and summarisation techniques do not uniformly improve clustering efficiency, suggesting that these strategies require careful analysis to use in real-life models. These results highlight a complex balance between the need for nuanced text representation and computational feasibility in text clustering applications. This study extends traditional text clustering frameworks by incorporating embeddings from LLMs, thereby paving the way for improved methodologies and opening new avenues for future research in various types of textual analysis.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# 量子アニールを用いた実世界のパッケージ配送経路問題の解決

Solving a Real-World Package Delivery Routing Problem Using Quantum Annealers ( http://arxiv.org/abs/2403.15114v1 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez, Antón Asla, (参考訳) 近年,量子コンピューティングとルーティング問題との連携に焦点をあてた研究が盛んに行われている。 作品の多くは、トラベルセールスマン問題や自動車ルーティング問題といった古典的な問題を中心に展開している。 これらの問題に取り組むことは価値があるが、彼らの学術的指向性が現実世界の要求に満たされていないことは否定できない。 本研究の目的は,問題緩和や技術的ショートカットを回避し,現実的な事例の解決方法を提案することである。 代わりに、Q4RPDと呼ばれる量子古典ハイブリッド・ソルバが開発され、車両の異種系統、優先配送、パッケージの重みと寸法の2つの値で特徴づけられる容量などの実際の制約を考慮に入れている。 Q4RPDはD波のLeap Constrained Quadratic Model Hybrid Solverを利用する。 Q4RPDの適用を実証するために、6つの異なるインスタンスからなる実験が実施されている。

Research focused on the conjunction between quantum computing and routing problems has been very prolific in recent years. Most of the works revolve around classical problems such as the Traveling Salesman Problem or the Vehicle Routing Problem. Even though working on these problems is valuable, it is also undeniable that their academic-oriented nature falls short of real-world requirements. The main objective of this research is to present a solving method for realistic instances, avoiding problem relaxations or technical shortcuts. Instead, a quantum-classical hybrid solver has been developed, coined Q4RPD, that considers a set of real constraints such as a heterogeneous fleet of vehicles, priority deliveries, and capacities characterized by two values: weight and dimensions of the packages. Q4RPD resorts to the Leap Constrained Quadratic Model Hybrid Solver of D-Wave. To demonstrate the application of Q4RPD, an experimentation composed of six different instances has been conducted, aiming to serve as illustrative examples.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# 対話における言語モデル:人間とAIの対話における会話の最大化

Language Models in Dialogue: Conversational Maxims for Human-AI Interactions ( http://arxiv.org/abs/2403.15115v1 )

ライセンス: Link先を確認
Erik Miehling, Manish Nagireddy, Prasanna Sattigeri, Elizabeth M. Daly, David Piorkowski, John T. Richards, (参考訳) 現代言語モデルは洗練されているが、固有の欠点、特に会話の場面で現れている。 観察された欠点の多くは、1つ以上の会話の原則に違反しているためである、と我々は主張する。 社会科学とAIコミュニティの両方からの広範な研究に基づいて、有効な人間とAIの会話を記述するために、量、品質、関連性、方法、慈悲、透明性のセットを提案する。 まず、人間とAIの相互作用の文脈において、最初の4つの最大値(Griceから)の適用性を正当化する。 次に、現代の人間とAIの相互作用に特有の行動に対処するためには、2つの新たな最大性、善意(有害なコンテンツの生成と関与)と透明性(知識境界、運用上の制約、意図の認識)が必要であると論じる。 提案した最大値は、人間とLLM駆動の会話エージェントの会話品質の評価方法に関する規範的なガイダンスを提供し、その評価と設計の改善の両方を通知する。

Modern language models, while sophisticated, exhibit some inherent shortcomings, particularly in conversational settings. We claim that many of the observed shortcomings can be attributed to violation of one or more conversational principles. By drawing upon extensive research from both the social science and AI communities, we propose a set of maxims -- quantity, quality, relevance, manner, benevolence, and transparency -- for describing effective human-AI conversation. We first justify the applicability of the first four maxims (from Grice) in the context of human-AI interactions. We then argue that two new maxims, benevolence (concerning the generation of, and engagement with, harmful content) and transparency (concerning recognition of one's knowledge boundaries, operational constraints, and intents), are necessary for addressing behavior unique to modern human-AI interactions. The proposed maxims offer prescriptive guidance on how to assess conversational quality between humans and LLM-driven conversational agents, informing both their evaluation and improved design.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# 動的野生人再同定のためのオープンワールド, ディバース, 異時間ベンチマーク

An Open-World, Diverse, Cross-Spatial-Temporal Benchmark for Dynamic Wild Person Re-Identification ( http://arxiv.org/abs/2403.15119v1 )

ライセンス: Link先を確認
Lei Zhang, Xiaowei Fu, Fuxiang Huang, Yi Yang, Xinbo Gao, (参考訳) 人物再識別(ReID)は、データ駆動のディープラーニング技術のおかげで大きな進歩を遂げました。 しかし、既存のベンチマークデータセットには多様性がなく、これらのデータに基づいてトレーニングされたモデルは、動的なワイルドシナリオに対してうまく一般化できない。 ReIDモデルの明示的な一般化を目標として,OWDと呼ばれる新たなオープンワールド,ディバース,クロス空間・テンポラルデータセットを開発した。 1)多様な収集シーン:複数の独立したオープンワールドと、通り、交差点、ショッピングモールなど高度にダイナミックな収集シーン。 2) 日中から夜間にかけての光の変動は, 照度が変化し, 長時間に及んだ。 3) 多様な人格: 常・逆の気象条件と多様な歩行者(例えば, 衣服, 個人所有物, ポーズなど)の季節ごとの複数のカメラネットワーク。 4)プライバシ保護:プライバシクリティカルなアプリケーションには見えない顔。 ReIDの暗黙的な一般化を改善するために、識別的アイデンティティ関連と信頼できるドメイン関連の特徴を分離し、ドメイン不変表現を容易にするために、よりリッチなドメイン多様性を持つドメインランダム化ID特徴空間拡張を暗黙的に実施する、Latent Domain Expansion (LDE)法を提案する。 コミュニティのほとんどのベンチマークデータセットによる包括的な評価は、進歩には不可欠ですが、この作業は、オープンワールドとダイナミックワイルドなアプリケーションへの大目標には程遠いものです。

Person re-identification (ReID) has made great strides thanks to the data-driven deep learning techniques. However, the existing benchmark datasets lack diversity, and models trained on these data cannot generalize well to dynamic wild scenarios. To meet the goal of improving the explicit generalization of ReID models, we develop a new Open-World, Diverse, Cross-Spatial-Temporal dataset named OWD with several distinct features. 1) Diverse collection scenes: multiple independent open-world and highly dynamic collecting scenes, including streets, intersections, shopping malls, etc. 2) Diverse lighting variations: long time spans from daytime to nighttime with abundant illumination changes. 3) Diverse person status: multiple camera networks in all seasons with normal/adverse weather conditions and diverse pedestrian appearances (e.g., clothes, personal belongings, poses, etc.). 4) Protected privacy: invisible faces for privacy critical applications. To improve the implicit generalization of ReID, we further propose a Latent Domain Expansion (LDE) method to develop the potential of source data, which decouples discriminative identity-relevant and trustworthy domain-relevant features and implicitly enforces domain-randomized identity feature space expansion with richer domain diversity to facilitate domain invariant representations. Our comprehensive evaluations with most benchmark datasets in the community are crucial for progress, although this work is far from the grand goal toward open-world and dynamic wild applications.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# SynCS: 中枢性サルカス分節に対する総合的データとコントラスト的自己スーパービジョントレーニング

SYNCS: Synthetic Data and Contrastive Self-Supervised Training for Central Sulcus Segmentation ( http://arxiv.org/abs/2403.15121v1 )

ライセンス: Link先を確認
Vladyslav Zalevskyi, Kristoffer Hougaard Madsen, (参考訳) 双極性障害 (BD) と統合失調症 (SZ) は重篤な精神疾患であり、社会に深刻な影響を及ぼす。 早期にリスクマーカーを同定することは、疾患の進行を理解し、予防措置を可能にするために重要である。 デンマークのハイリスク・レジリエンス研究(VIA)は、特に家族性高リスク児(FHR)の早期疾患プロセスの理解に焦点を当てている。 これらの疾患に関連する構造的脳の変化を早期に理解することは効果的な介入に不可欠である。 中枢サルクス(Central sulcus, CS)は、運動および感覚処理に関わる脳の領域に関連する顕著な脳のランドマークである。 CS形態解析は、FHRグループの神経発達異常に関する貴重な洞察を与えることができる。 しかし、中枢性サルクス(CS)の分節化は、その多様性、特に青年期において困難を呈する。 本研究では,CSの多様性をモデル化するための合成データ生成と,新しいコホートにモデルを適用するためのマルチタスク学習による自己教師付き事前学習という,CSセグメンテーションを改善するための2つの新しいアプローチを紹介する。 これらの手法は多様な集団におけるセグメンテーション性能を高めることを目的としており、広範な前処理の必要性を排除している。

Bipolar disorder (BD) and schizophrenia (SZ) are severe mental disorders with profound societal impact. Identifying risk markers early is crucial for understanding disease progression and enabling preventive measures. The Danish High Risk and Resilience Study (VIA) focuses on understanding early disease processes, particularly in children with familial high risk (FHR). Understanding structural brain changes associated with these diseases during early stages is essential for effective interventions. The central sulcus (CS) is a prominent brain landmark related to brain regions involved in motor and sensory processing. Analyzing CS morphology can provide valuable insights into neurodevelopmental abnormalities in the FHR group. However, segmenting the central sulcus (CS) presents challenges due to its variability, especially in adolescents. This study introduces two novel approaches to improve CS segmentation: synthetic data generation to model CS variability and self-supervised pre-training with multi-task learning to adapt models to new cohorts. These methods aim to enhance segmentation performance across diverse populations, eliminating the need for extensive preprocessing.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# ヒストグラムに基づく置換不変ネットワークの定量化

Quantification using Permutation-Invariant Networks based on Histograms ( http://arxiv.org/abs/2403.15123v1 )

ライセンス: Link先を確認
Olaya Pérez-Mon, Alejandro Moreo, Juan José del Coz, Pablo González, (参考訳) 量子化 (quantification) またはクラス有病率推定 (class prevalence estimation) は、モデルが与えられたサンプルの袋の中で各クラスの有病率を予測するために訓練される教師付き学習タスクである。 本稿では、中間段階として分類する必要をなくし、量子化問題に直接対処する対称教師ありアプローチを適用可能なシナリオにおいて、量子化タスクへのディープニューラルネットワークの適用について検討する。 さらに、設定処理用に設計された既存の置換不変層について論じ、定量化の適性を評価する。 本稿では, 量子化問題に特に適しているヒストグラムに基づく置換不変表現に依存した新しいニューラルアーキテクチャHistNetQを提案する。 これまでに開催された唯一の定量化コンペで実施した実験により、HistNetQは、セット処理のために考案された他のディープニューラルネットワークアーキテクチャ、および最先端の定量化手法よりも優れていることが示された。 さらにHistNetQは、従来の定量化方法よりも2つの大きな利点を提供している。 一 訓練例のラベルを必要とせず、訓練袋のコレクションの有病率のみを必要とせず、新規のシナリオに適用すること。 二 カスタム量子化指向損失関数を最適化することができること。

Quantification, also known as class prevalence estimation, is the supervised learning task in which a model is trained to predict the prevalence of each class in a given bag of examples. This paper investigates the application of deep neural networks to tasks of quantification in scenarios where it is possible to apply a symmetric supervised approach that eliminates the need for classification as an intermediary step, directly addressing the quantification problem. Additionally, it discusses existing permutation-invariant layers designed for set processing and assesses their suitability for quantification. In light of our analysis, we propose HistNetQ, a novel neural architecture that relies on a permutation-invariant representation based on histograms that is specially suited for quantification problems. Our experiments carried out in the only quantification competition held to date, show that HistNetQ outperforms other deep neural architectures devised for set processing, as well as the state-of-the-art quantification methods. Furthermore, HistNetQ offers two significant advantages over traditional quantification methods: i) it does not require the labels of the training examples but only the prevalence values of a collection of training bags, making it applicable to new scenarios; and ii) it is able to optimize any custom quantification-oriented loss function.
翻訳日:2024-03-25 17:48:36 公開日:2024-03-22
# EndoGSLAM : ガウススプラッティングによる内視鏡下手術におけるリアルタイムDenseの再建と追跡

EndoGSLAM: Real-Time Dense Reconstruction and Tracking in Endoscopic Surgeries using Gaussian Splatting ( http://arxiv.org/abs/2403.15124v1 )

ライセンス: Link先を確認
Kailing Wang, Chen Yang, Yuehao Wang, Sikuang Li, Yan Wang, Qi Dou, Xiaokang Yang, Wei Shen, (参考訳) 正確なカメラ追跡、高忠実度3D組織再構成、リアルタイムオンライン可視化は、内視鏡やカプセルロボットのような体内の医療画像装置にとって重要である。 しかし、既存のSLAM法は、完全に高品質な外科領域の再構築と効率的な計算の両立に苦慮し、内視鏡手術における術中応用を制限している。 本稿では,鏡視下手術における効率的なSLAMアプローチであるEndoGSLAMを紹介し,ガウス表現の合理化とラスタ化を併用して,オンラインカメラのトラッキングと組織再構成において100fps以上のレンダリング速度を実現する。 広汎な実験により,EndoGSLAMは従来型あるいは神経型SLAMアプローチよりも術中可用性と再建品質のトレードオフを良好に達成し,内視鏡的手術の可能性を示した。 プロジェクトページはhttps://EndoGSLAM.loping151.comにある。

Precise camera tracking, high-fidelity 3D tissue reconstruction, and real-time online visualization are critical for intrabody medical imaging devices such as endoscopes and capsule robots. However, existing SLAM (Simultaneous Localization and Mapping) methods often struggle to achieve both complete high-quality surgical field reconstruction and efficient computation, restricting their intraoperative applications among endoscopic surgeries. In this paper, we introduce EndoGSLAM, an efficient SLAM approach for endoscopic surgeries, which integrates streamlined Gaussian representation and differentiable rasterization to facilitate over 100 fps rendering speed during online camera tracking and tissue reconstructing. Extensive experiments show that EndoGSLAM achieves a better trade-off between intraoperative availability and reconstruction quality than traditional or neural SLAM approaches, showing tremendous potential for endoscopic surgeries. The project page is at https://EndoGSLAM.loping151.com
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# クラス不均衡半教師対象検出のための勾配型サンプリング

Gradient-based Sampling for Class Imbalanced Semi-supervised Object Detection ( http://arxiv.org/abs/2403.15127v1 )

ライセンス: Link先を確認
Jiaming Li, Xiangru Lin, Wei Zhang, Xiao Tan, Yingying Li, Junyu Han, Errui Ding, Jingdong Wang, Guanbin Li, (参考訳) 現在の半教師付きオブジェクト検出(SSOD)アルゴリズムは、通常、クラスバランスデータセット(PASCAL VOCなど)や少しクラスバランスの取れないデータセット(MS-COCOなど)を仮定する。 この仮定は、実世界のデータセットは自然界において極端に非平衡であり、半教師対象検出器の性能は満足できないため、容易に破ることができる。 さらに、SSODにおけるこの問題の研究は極めて過小評価されている。 この研究ギャップを埋めるため、より困難なシナリオ下でSSODのクラス不均衡問題を包括的に研究し、クラス不均衡SSOD(CI-SSOD)のための最初の実験環境を形成する。 さらに,2種類の確認バイアスの観点から,クラス不均衡問題に対処する簡易かつ効果的な勾配に基づくサンプリングフレームワークを提案する。 多数派に対する確認バイアスに対処するために、勾配に基づく再重み付けと勾配に基づく閾値付けモジュールは、各クラスからの勾配を利用して、多数派と少数派の影響を完全にバランスさせる。 マイノリティクラスの不正な擬似ラベルからの確認バイアスに対処するため、クラス再分散サンプリングモジュールは、勾配に基づく再重み付けモジュールのガイダンスに従ってラベル付きデータを再サンプリングする。 提案する3つのサブタスク(MS-COCO, MS-COCO to Object365, LVIS)を実験した結果, 提案手法は現在のクラス不均衡物体検出器よりもクリアマージンで優れており, 将来のCI-SSOD研究のベースラインとして機能することが示唆された。 コードはhttps://github.com/nightkeepers/CI-SSODで入手できる。

Current semi-supervised object detection (SSOD) algorithms typically assume class balanced datasets (PASCAL VOC etc.) or slightly class imbalanced datasets (MS-COCO, etc). This assumption can be easily violated since real world datasets can be extremely class imbalanced in nature, thus making the performance of semi-supervised object detectors far from satisfactory. Besides, the research for this problem in SSOD is severely under-explored. To bridge this research gap, we comprehensively study the class imbalance problem for SSOD under more challenging scenarios, thus forming the first experimental setting for class imbalanced SSOD (CI-SSOD). Moreover, we propose a simple yet effective gradient-based sampling framework that tackles the class imbalance problem from the perspective of two types of confirmation biases. To tackle confirmation bias towards majority classes, the gradient-based reweighting and gradient-based thresholding modules leverage the gradients from each class to fully balance the influence of the majority and minority classes. To tackle the confirmation bias from incorrect pseudo labels of minority classes, the class-rebalancing sampling module resamples unlabeled data following the guidance of the gradient-based reweighting module. Experiments on three proposed sub-tasks, namely MS-COCO, MS-COCO to Object365 and LVIS, suggest that our method outperforms current class imbalanced object detectors by clear margins, serving as a baseline for future research in CI-SSOD. Code will be available at https://github.com/nightkeepers/CI-SSOD.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# 一般化可能な画像復調のための転送CLIP

Transfer CLIP for Generalizable Image Denoising ( http://arxiv.org/abs/2403.15132v1 )

ライセンス: Link先を確認
Jun Cheng, Dong Liang, Shan Tan, (参考訳) 画像の復調はコンピュータビジョンの基本的な課題である。 ディープ・ラーニングに基づく教師付き・自己監督型の手法は、分散ノイズの除去に優れてきたが、アウト・オブ・ディストリビューション(OOD)ノイズへの感受性は依然として大きな課題である。 対照的な言語イメージ事前学習(CLIP)モデルが最近出現し、オープンワールド画像認識とセグメンテーションにおいて例外的な能力を示した。 しかし、低レベルのタスクの堅牢性を高めるためにCLIPを活用する可能性は、まだ明らかにされていない。 本稿では,CLIP の凍結した ResNet 画像エンコーダから抽出した特定の高密度特徴が歪み不変性および内容関連性を示し,一般化可能な復調性を示す。 これらの特性を活用することで,CLIPの凍結したResNetエンコーダから高次特徴を含む高次特徴を学習可能な画像デコーダに組み込んだ非対称エンコーダデノーズネットワークを考案し,一般化可能なデノーズを実現する。 プログレッシブな機能拡張戦略は、学習可能なデコーダの頑健さを緩和し、機能オーバーフィットを軽減するためにさらに提案される。 合成ノイズ,実世界のsRGBノイズ,低線量CT画像ノイズなど多種多様なOODノイズに対する大規模な実験と比較を行った結果,本手法のより優れた一般化能が示された。

Image denoising is a fundamental task in computer vision. While prevailing deep learning-based supervised and self-supervised methods have excelled in eliminating in-distribution noise, their susceptibility to out-of-distribution (OOD) noise remains a significant challenge. The recent emergence of contrastive language-image pre-training (CLIP) model has showcased exceptional capabilities in open-world image recognition and segmentation. Yet, the potential for leveraging CLIP to enhance the robustness of low-level tasks remains largely unexplored. This paper uncovers that certain dense features extracted from the frozen ResNet image encoder of CLIP exhibit distortion-invariant and content-related properties, which are highly desirable for generalizable denoising. Leveraging these properties, we devise an asymmetrical encoder-decoder denoising network, which incorporates dense features including the noisy image and its multi-scale features from the frozen ResNet encoder of CLIP into a learnable image decoder to achieve generalizable denoising. The progressive feature augmentation strategy is further proposed to mitigate feature overfitting and improve the robustness of the learnable decoder. Extensive experiments and comparisons conducted across diverse OOD noises, including synthetic noise, real-world sRGB noise, and low-dose CT image noise, demonstrate the superior generalization ability of our method.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# CACA Agent: 機能コラボレーションベースのAIエージェント

CACA Agent: Capability Collaboration based AI Agent ( http://arxiv.org/abs/2403.15137v1 )

ライセンス: Link先を確認
Peng Xu, Haoran Wang, Chuang Wang, Xu Liu, (参考訳) LLM(Large Language Models)に基づくAIエージェントは、さまざまな分野における実践的なアプリケーションの可能性を示しているため、AIエージェントの迅速なデプロイ方法と、AIエージェントのアプリケーションシナリオを便利に拡張する方法が課題となっている。 これまでの研究は主に、単一のLLM内でAIエージェントのすべての推論能力を実装することに焦点を当てていた。 本稿では,CACAエージェント(Capability Collaboration based AI Agent)を提案する。 CACA Agentは、単一のLLMへの依存を減らすだけでなく、計画能力とAIエージェントが利用できるツールの拡張性を向上させるため、AIエージェントを実装するための一連の協調機能を統合する。 提案システムを利用して,CACAエージェントの動作と応用シナリオの拡張を説明する。

As AI Agents based on Large Language Models (LLMs) have shown potential in practical applications across various fields, how to quickly deploy an AI agent and how to conveniently expand the application scenario of AI agents has become a challenge. Previous studies mainly focused on implementing all the reasoning capabilities of AI agents within a single LLM, which often makes the model more complex and also reduces the extensibility of AI agent functionality. In this paper, we propose CACA Agent (Capability Collaboration based AI Agent), using an open architecture inspired by service computing. CACA Agent integrates a set of collaborative capabilities to implement AI Agents, not only reducing the dependence on a single LLM, but also enhancing the extensibility of both the planning abilities and the tools available to AI agents. Utilizing the proposed system, we present a demo to illustrate the operation and the application scenario extension of CACA Agent.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# 画像ダウンスケーリング評価のための深部生成モデルに基づく速度歪み

Deep Generative Model based Rate-Distortion for Image Downscaling Assessment ( http://arxiv.org/abs/2403.15139v1 )

ライセンス: Link先を確認
Yuanbang Liang, Bhavesh Garg, Paul L Rosin, Yipeng Qin, (参考訳) 本稿では,画像ダウンスケーリングアルゴリズムを定量的に評価する新しい手法であるIDA-RDによる画像ダウンスケーリングアセスメントを提案する。 ダウンスケール画像の品質を計測する画像ベース手法とは対照的に,我々は,ダウンスケール時に発生する歪みを測定するために,レート歪み理論からアイデアを引き出すプロセスベースである。 我々の主な考え方は、ダウンスケーリングと超解像(SR)をそれぞれ、レート歪みモデルにおける符号化と復号化のプロセスと見なすことができ、その結果の低解像度(LR)画像により多くの詳細を保存するダウンスケーリングアルゴリズムは、SRにおけるより歪みの少ない高解像度(HR)画像をもたらす、というものである。 言い換えれば、ダウンスケーリングアルゴリズムが劣化するにつれて歪みが増大する。 しかし、SRアルゴリズムが盲目かつ確率的である必要があるため、この歪みを測定することは自明ではない。 我々の重要な洞察は、これらの要求は、学習した画像多様体上の所定のLR画像に対して、全ての一致するHR画像を見つけることができる、深い生成モデルに基づく最近のSRアルゴリズムによって満たされるということである。 IDA-RD測定の有効性について検討した。

In this paper, we propose Image Downscaling Assessment by Rate-Distortion (IDA-RD), a novel measure to quantitatively evaluate image downscaling algorithms. In contrast to image-based methods that measure the quality of downscaled images, ours is process-based that draws ideas from rate-distortion theory to measure the distortion incurred during downscaling. Our main idea is that downscaling and super-resolution (SR) can be viewed as the encoding and decoding processes in the rate-distortion model, respectively, and that a downscaling algorithm that preserves more details in the resulting low-resolution (LR) images should lead to less distorted high-resolution (HR) images in SR. In other words, the distortion should increase as the downscaling algorithm deteriorates. However, it is non-trivial to measure this distortion as it requires the SR algorithm to be blind and stochastic. Our key insight is that such requirements can be met by recent SR algorithms based on deep generative models that can find all matching HR images for a given LR image on their learned image manifolds. Extensive experimental results show the effectiveness of our IDA-RD measure.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# 画像アノテーションのためのモジュール型深部能動学習フレームワーク:眼科AIプロジェクトのための技術報告

Modular Deep Active Learning Framework for Image Annotation: A Technical Report for the Ophthalmo-AI Project ( http://arxiv.org/abs/2403.15143v1 )

ライセンス: Link先を確認
Md Abdul Kadir, Hasan Md Tusfiqur Alam, Pascale Maul, Hans-Jürgen Profitlich, Moritz Wolf, Daniel Sonntag, (参考訳) 画像アノテーションは、患者の適切な治療を保証し、医療画像診断や疾患診断の分野で治療の経過を追跡するための最も重要なタスクの1つである。 しかし、手動で大量の2Dおよび3D画像データに注釈を付けるのは極めて面倒である。 ディープラーニング(DL)ベースのセグメンテーションアルゴリズムは、このプロセスを完全に変換し、画像セグメンテーションの自動化を可能にした。 医用画像の正確なセグメント化によって、これらのアルゴリズムは手動のアノテーションに必要な時間と労力を大幅に最小化することができる。 さらに、アクティブラーニング(AL)手法を取り入れることで、これらのセグメンテーションアルゴリズムはより少ない基底真理データではるかに効果的に実行できる。 完全なALサイクルを実装するエンドツーエンドフレームワークであるMedDeepCyleALを紹介します。 研究者に、採用したいディープラーニングモデルの種類を選択する柔軟性を提供し、医療画像の分類とセグメンテーションをサポートするアノテーションツールを含む。 ユーザフレンドリーなインターフェースは、設定ファイルを通じてALとDLモデルの設定を簡単に変更することができ、事前のプログラミング経験を必要としない。 MedDeepCyleALはどんな画像データにも適用可能ですが、本プロジェクトでは特に眼科データに適用しています。

Image annotation is one of the most essential tasks for guaranteeing proper treatment for patients and tracking progress over the course of therapy in the field of medical imaging and disease diagnosis. However, manually annotating a lot of 2D and 3D imaging data can be extremely tedious. Deep Learning (DL) based segmentation algorithms have completely transformed this process and made it possible to automate image segmentation. By accurately segmenting medical images, these algorithms can greatly minimize the time and effort necessary for manual annotation. Additionally, by incorporating Active Learning (AL) methods, these segmentation algorithms can perform far more effectively with a smaller amount of ground truth data. We introduce MedDeepCyleAL, an end-to-end framework implementing the complete AL cycle. It provides researchers with the flexibility to choose the type of deep learning model they wish to employ and includes an annotation tool that supports the classification and segmentation of medical images. The user-friendly interface allows for easy alteration of the AL and DL model settings through a configuration file, requiring no prior programming experience. While MedDeepCyleAL can be applied to any kind of image data, we have specifically applied it to ophthalmology data in this project.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# 非均一な平滑さ下でのアダムの収束について:SGDMとそれ以上の分離性

On the Convergence of Adam under Non-uniform Smoothness: Separability from SGDM and Beyond ( http://arxiv.org/abs/2403.15146v1 )

ライセンス: Link先を確認
Bohan Wang, Huishuai Zhang, Qi Meng, Ruoyu Sun, Zhi-Ming Ma, Wei Chen, (参考訳) 本稿では,SGDM(Stochastic Gradient Descent with Momentum)とAdamを収束率で明確に区別することを目的とする。 我々は,非一様有界な滑らかさの条件下で,AdamがSGDMよりも高速な収束を実現することを示した。 その結果,(1)決定論的環境下では,Adamは決定論的一階最適化器の収束率の既知下限を達成でき,一方,GDM(Gradient Descent with Momentum)の収束速度は,初期関数値に高い順序依存性を持つことがわかった。(2)確率的設定では,Adamの収束速度上限上限は,初期関数値と最終誤差の両方を考慮して,確率的一階最適化器の下限と一致し,SGDMが任意の学習率に収束しない場合がある。 これらの知見はアダムとSGDMの収束率を明確に区別する。 さらに、新しい停止時間に基づく手法を導入することにより、反復中の最小勾配ノルムを考えると、対応する収束率は全ての問題ハイパーパラメータの下位境界と一致することが証明される。 このテクニックは、特定のハイパーパラメータスケジューラを持つAdamがパラメータ非依存であることを証明するのに役立つ。

This paper aims to clearly distinguish between Stochastic Gradient Descent with Momentum (SGDM) and Adam in terms of their convergence rates. We demonstrate that Adam achieves a faster convergence compared to SGDM under the condition of non-uniformly bounded smoothness. Our findings reveal that: (1) in deterministic environments, Adam can attain the known lower bound for the convergence rate of deterministic first-order optimizers, whereas the convergence rate of Gradient Descent with Momentum (GDM) has higher order dependence on the initial function value; (2) in stochastic setting, Adam's convergence rate upper bound matches the lower bounds of stochastic first-order optimizers, considering both the initial function value and the final error, whereas there are instances where SGDM fails to converge with any learning rate. These insights distinctly differentiate Adam and SGDM regarding their convergence rates. Additionally, by introducing a novel stopping-time based technique, we further prove that if we consider the minimum gradient norm during iterations, the corresponding convergence rate can match the lower bounds across all problem hyperparameters. The technique can also help proving that Adam with a specific hyperparameter scheduler is parameter-agnostic, which hence can be of independent interest.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# プログラム言語バージョン間の深層学習に基づくコード補完の一般化可能性について

On the Generalizability of Deep Learning-based Code Completion Across Programming Language Versions ( http://arxiv.org/abs/2403.15149v1 )

ライセンス: Link先を確認
Matteo Ciniselli, Alberto Martin-Lopez, Gabriele Bavota, (参考訳) コード補完は統合開発環境(IDE)の重要な機能であり、開発者が書こうとしている次のトークンを予測することを目的としており、より速く、より少ない労力でコードを書くのに役立つ。 現代のコード補完アプローチは、しばしばディープラーニング(DL)モデルによって利用される。 しかし、プログラミング言語の急速な進化は、DLベースのコード補完モデルの性能に重要な課題をもたらす。 この論文にはそのような疑問が浮かび上がっている。 特に、最先端のモデルであるCodeT5の能力を評価し、Java 2からJava 17まで、Java 8のコードでのみトレーニングされながら、9つの異なるJavaバージョンを一般化します。 私たちの評価は、トークン、コンストラクト(例えばif文の状態)、コードブロック全体の3つの補完シナリオにまたがっています。 調査の結果、言語バージョン間で顕著な相違が明らかとなり、Java 2と17では最悪のパフォーマンスが得られました。 性能劣化の原因について検討し、限定バージョン固有の微調整の導入が問題を部分的に軽減できることを示す。 私たちの作業は、継続的モデルの洗練の重要性に対する認識を高め、コード補完モデルを言語進化に対してより堅牢にするための代替案の設計を知らせることができます。

Code completion is a key feature of Integrated Development Environments (IDEs), aimed at predicting the next tokens a developer is likely to write, helping them write code faster and with less effort. Modern code completion approaches are often powered by deep learning (DL) models. However, the swift evolution of programming languages poses a critical challenge to the performance of DL-based code completion models: Can these models generalize across different language versions? This paper delves into such a question. In particular, we assess the capabilities of a state-of-the-art model, CodeT5, to generalize across nine different Java versions, ranging from Java 2 to Java 17, while being exclusively trained on Java 8 code. Our evaluation spans three completion scenarios, namely, predicting tokens, constructs (e.g., the condition of an if statement) and entire code blocks. The results of our study reveal a noticeable disparity among language versions, with the worst performance being obtained in Java 2 and 17 - the most far apart versions compared to Java 8. We investigate possible causes for the performance degradation and show that the adoption of a limited version-specific fine-tuning can partially alleviate the problem. Our work raises awareness on the importance of continuous model refinement, and it can inform the design of alternatives to make code completion models more robust to language evolution.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# 持続的深層学習のためのデータ削減手法の深さ解析

An In-Depth Analysis of Data Reduction Methods for Sustainable Deep Learning ( http://arxiv.org/abs/2403.15150v1 )

ライセンス: Link先を確認
Víctor Toscano-Durán, Javier Perera-Lago, Eduardo Paluzo-Hidalgo, Rocío Gonzalez-Diaz, Miguel Ángel Gutierrez-Naranjo, Matteo Rucco, (参考訳) 近年、Deep Learningは複雑な分類タスクを解く能力で人気を集め、より正確なモデルの開発、大量のデータの提供、現代のコンピュータの計算能力の向上などにより、より良い結果をもたらすようになった。 しかしながら、これらのパフォーマンスの改善は、データセットやモデルの保存や、トレーニングプロセスと推論プロセスの両方にかかわるエネルギーと時間の無駄に関連する効率上の問題ももたらします。 この文脈では、深層学習モデルのトレーニングにおいて、データ削減はエネルギー消費を減らすのに役立つ。 本稿では,最大8種類のトレーニングデータセットのサイズを縮小する手法を提案し,それらを適用するためのPythonパッケージを開発する。 また、トポロジに基づく代表性メトリクスを導入し、削減されたデータセットと完全なトレーニングデータセットがどの程度類似しているかを測定します。 さらに,これらのデータ削減手法をオブジェクト検出タスクのための画像データセットに適用する手法を開発した。 最後に、これらのデータ削減手法が、削減されたデータセットの表現性、エネルギー消費、モデルの予測性能にどのように影響するかを実験的に比較した。

In recent years, Deep Learning has gained popularity for its ability to solve complex classification tasks, increasingly delivering better results thanks to the development of more accurate models, the availability of huge volumes of data and the improved computational capabilities of modern computers. However, these improvements in performance also bring efficiency problems, related to the storage of datasets and models, and to the waste of energy and time involved in both the training and inference processes. In this context, data reduction can help reduce energy consumption when training a deep learning model. In this paper, we present up to eight different methods to reduce the size of a tabular training dataset, and we develop a Python package to apply them. We also introduce a representativeness metric based on topology to measure how similar are the reduced datasets and the full training dataset. Additionally, we develop a methodology to apply these data reduction methods to image datasets for object detection tasks. Finally, we experimentally compare how these data reduction methods affect the representativeness of the reduced dataset, the energy consumption and the predictive performance of the model.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# クロスドメイン画像検索のためのマルチモーダルアプローチ

A Multimodal Approach for Cross-Domain Image Retrieval ( http://arxiv.org/abs/2403.15152v1 )

ライセンス: Link先を確認
Lucas Iijima, Tania Stathaki, (参考訳) 画像生成装置は膨大な人気を集めており、デジタルコンテンツの作り方も急速に変化している。 最新のAI技術では、何百万もの高品質な画像が一般大衆によって生成され、それは常に研究コミュニティに、より複雑でリアルな画像を作るための生成モデルの限界を押し上げる動機になっている。 本稿では,データセット内の画像間の類似度を判定し,生成した画像のコレクションを検査するための追加ツールとして,CDIR(Cross-Domain Image Retrieval)に焦点を当てる。 理想的な検索システムは、複数のドメイン(写真、絵、絵画など)から見えない複雑な画像を一般化することができる。 この目的を達成するために,大規模データセット上で事前学習したマルチモーダル言語ビジョンアーキテクチャを活用する新しいキャプションマッチング手法を提案する。 この方法はDomainNetとOffice-Homeのデータセットでテストされ、クロスドメイン画像検索の文献における最新のアプローチよりも一貫して最先端のパフォーマンスを実現している。 また、AI生成画像の有効性を検証するために、コンテンツ生成のための広く利用されている生成プラットフォームであるMidjourneyから収集したサンプルをデータベースで検証した。

Image generators are gaining vast amount of popularity and have rapidly changed how digital content is created. With the latest AI technology, millions of high quality images are being generated by the public, which are constantly motivating the research community to push the limits of generative models to create more complex and realistic images. This paper focuses on Cross-Domain Image Retrieval (CDIR) which can be used as an additional tool to inspect collections of generated images by determining the level of similarity between images in a dataset. An ideal retrieval system would be able to generalize to unseen complex images from multiple domains (e.g., photos, drawings and paintings). To address this goal, we propose a novel caption-matching approach that leverages multimodal language-vision architectures pre-trained on large datasets. The method is tested on DomainNet and Office-Home datasets and consistently achieves state-of-the-art performance over the latest approaches in the literature for cross-domain image retrieval. In order to verify the effectiveness with AI-generated images, the method was also put to test with a database composed by samples collected from Midjourney, which is a widely used generative platform for content creation.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# 2モードボース-アインシュタイン凝縮における拡散複雑性と動的遷移

Spread complexity and dynamical transition in two-mode Bose-Einstein condensations ( http://arxiv.org/abs/2403.15154v1 )

ライセンス: Link先を確認
Bozhen Zhou, Shu Chen, (参考訳) 2モードのボース=アインシュタイン凝縮における拡散複雑性について検討し、拡散複雑性の長期平均$\overline{C}_{K}$が自己トラッピングからジョセフソン振動への動的遷移を探索できることを明らかにする。 パラメータ $\omega$ が臨界値 $\omega_c$ を超えて増加すると、拡散複雑性は低い値から高い値への急激な遷移を示し、対応する位相空間軌跡は自己トラッピングからジョセフソン振動へ変化する。 さらに、固有スペクトルを精査し、臨界エネルギー$E_{c}$における状態密度の特異点の出現を特徴とする動的遷移と励起状態量子相転移の関係を明らかにする。 熱力学的極限において、$E_{c}(\omega)$ の交差点と初期エネルギー $E_{0}(\omega)$ は力学遷移点 $\omega_c$ を決定する。 最後に、固定点が不安定な状態から安定な状態に変化するとき、一定点における初期状態の異なる動的挙動は、拡散複雑性の長期平均によって区別できることを示す。

We study the spread complexity in two-mode Bose-Einstein condensations and unveil that the long-time average of the spread complexity $\overline{C}_{K}$ can probe the dynamical transition from self-trapping to Josephson oscillation. When the parameter $\omega$ increases over a critical value $\omega_c$, we reveal that the spread complexity exhibits a sharp transition from lower to higher value, with the corresponding phase space trajectory changing from self-trapping to Josephson oscillation. Moreover, we scrutinize the eigen-spectrum and uncover the relation between the dynamical transition and the excited state quantum phase transition, which is characterized by the emergence of singularity in the density of states at critical energy $E_{c}$. In the thermodynamical limit, the cross point of $E_{c}(\omega)$ and the initial energy $E_{0}(\omega)$ determines the dynamical transition point $\omega_c$. Finally, we show that the different dynamical behavior for the initial state at a fixed point can be distinguished by the long-time average of the spread complexity, when the fixed point changes from unstable to stable.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# マイクロファブリック化原子気相セルを用いた広帯域帯域マイクロ波スペクトル解析装置

Broad Instantaneous Bandwidth Microwave Spectrum Analyzer with a Microfabricated Atomic Vapor Cell ( http://arxiv.org/abs/2403.15155v1 )

ライセンス: Link先を確認
Yongqi Shi, Thomas Ruster, Melvyn Ho, Sylvain Karlen, Jacques Haesler, Philipp Treutlein, (参考訳) 本研究では, マイクロファブリケート気相セル中のホット$^{87}\mathrm{Rb}$原子を用いた広帯域マイクロ波スペクトル解析について報告する。 センサーは、同位体的に純粋な$^{87}\mathrm{Rb}$と$$\mathrm{N}_2$バッファーガスで満たされたMEMS原子蒸気セルで、原子の運動を局在させる。 興味のあるマイクロ波信号はコプラナー導波路を介してセルに結合され、原子の光学的に励起された基底状態間のスピンフリップ遷移を誘導する。 大きな勾配の静的磁場は、入力されたマイクロ波信号の$\textit{ frequency spectrum}$を、位置依存の$\textit{spin-flip pattern}$にマッピングする。 本実験では,13.165GHz,3MHzの周波数分解能,2kHzのリフレッシュレート,および1s測定時間で-23dBmのシングルトンマイクロ波パワー検出限界を有するマイクロ波スペクトル解析器を試作した。 光ポンピング、マイクロ波相互作用、$^{87}\mathrm{Rb}$原子の拡散、レーザー吸収の過程を考慮し、画像信号をシミュレートする理論モデルを構築した。 印加磁場勾配によって制限された最適化セットアップで25GHz以上の瞬時帯域に到達することが期待されている。 本実験は,電子ヘテロダイン検出に基づく従来のマイクロ波スペクトル解析装置に代わる実用的代替手段を提供する。

We report on broad instantaneous bandwidth microwave spectrum analysis with hot $^{87}\mathrm{Rb}$ atoms in a microfabricated vapor cell in a large magnetic field gradient. The sensor is a MEMS atomic vapor cell filled with isotopically pure $^{87}\mathrm{Rb}$ and $\mathrm{N}_2$ buffer gas to localize the motion of the atoms. The microwave signals of interest are coupled through a coplanar waveguide to the cell, inducing spin flip transitions between optically pumped ground states of the atoms. A static magnetic field with large gradient maps the $\textit{frequency spectrum}$ of the input microwave signals to a position-dependent $\textit{spin-flip pattern}$ on absorption images of the cell recorded with a laser beam onto a camera. In our proof-of-principle experiment, we demonstrate a microwave spectrum analyzer that has $\approx$ 1 GHz instantaneous bandwidth centered at 13.165 GHz, 3 MHz frequency resolution, 2 kHz refresh rate, and a -23 dBm single-tone microwave power detection limit in 1 s measurement time. A theoretical model is constructed to simulate the image signals by considering the processes of optical pumping, microwave interaction, diffusion of $^{87}\mathrm{Rb}$ atoms, and laser absorption. We expect to reach more than 25 GHz instantaneous bandwidth in an optimized setup, limited by the applied magnetic field gradient. Our demonstration offers a practical alternative to conventional microwave spectrum analyzers based on electronic heterodyne detection.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# 自動バレットパーキングにおけるインフラ支援協調認識:安全の観点から

Infrastructure-Assisted Collaborative Perception in Automated Valet Parking: A Safety Perspective ( http://arxiv.org/abs/2403.15156v1 )

ライセンス: Link先を確認
Yukuan Jia, Jiawen Zhang, Shimeng Lu, Baokang Fan, Ruiqing Mao, Sheng Zhou, Zhisheng Niu, (参考訳) AVP(Automated Valet Parking)における環境認識は、駐車場における厳しい閉塞のために困難な課題となっている。 コラボレーティブ・パーセプション(CP)は、連結車両の視野を広げるために応用できるが、車両通信の帯域幅は限られている。 本研究では,インフラ支援型AVPシステムのためのBEV機能に基づくCPネットワークアーキテクチャを提案する。 このモデルでは、路面カメラとLiDARをオプション入力とし、搭載されているセンサーを統一されたBEV表現で適応的に融合させる。 オートエンコーダとダウンサンプリングは、チャネルワイドおよび空間ワイド次元の縮小に応用され、スパース化と量子化は、データ精度をほとんど損なわない特徴写像をさらに圧縮する。 これらの手法を組み合わせることで、BEV特徴マップのサイズを効果的に圧縮し、NR-V2Xネットワークの実現可能なデータレートに適合させる。 合成AVPデータセットを用いて、CPは特に歩行者の知覚性能を効果的に向上させることができることを観察する。 さらに、AVP設定における2つの典型的な安全クリティカルなシナリオにおいて、インフラ支援CPの利点が示され、両方のシナリオで最大3m/sの安全巡航速度が向上する。

Environmental perception in Automated Valet Parking (AVP) has been a challenging task due to severe occlusions in parking garages. Although Collaborative Perception (CP) can be applied to broaden the field of view of connected vehicles, the limited bandwidth of vehicular communications restricts its application. In this work, we propose a BEV feature-based CP network architecture for infrastructure-assisted AVP systems. The model takes the roadside camera and LiDAR as optional inputs and adaptively fuses them with onboard sensors in a unified BEV representation. Autoencoder and downsampling are applied for channel-wise and spatial-wise dimension reduction, while sparsification and quantization further compress the feature map with little loss in data precision. Combining these techniques, the size of a BEV feature map is effectively compressed to fit in the feasible data rate of the NR-V2X network. With the synthetic AVP dataset, we observe that CP can effectively increase perception performance, especially for pedestrians. Moreover, the advantage of infrastructure-assisted CP is demonstrated in two typical safety-critical scenarios in the AVP setting, increasing the maximum safe cruising speed by up to 3m/s in both scenarios.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# AllHands: 大規模言語モデルによる大規模言語フィードバックについて質問する

AllHands: Ask Me Anything on Large-scale Verbatim Feedback via Large Language Models ( http://arxiv.org/abs/2403.15157v1 )

ライセンス: Link先を確認
Chaoyun Zhang, Zicheng Ma, Yuhao Wu, Shilin He, Si Qin, Minghua Ma, Xiaoting Qin, Yu Kang, Yuyi Liang, Xiaoyu Gou, Yajie Xue, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang, (参考訳) Verbatimのフィードバックは、ソフトウェア開発に不可欠なユーザエクスペリエンス、意見、要求の貴重なリポジトリを構成する。 このようなデータから価値ある洞察を効果的かつ効率的に抽出することは、難しい課題となる。 本稿では,大規模言語モデル(LLM)を活用した,自然言語インタフェースによる大規模フィードバック分析のための革新的な分析フレームワークであるAllhandsを紹介する。 Allhandsは従来のフィードバック分析ワークフローに固執し、最初は分類とトピックモデリングを行い、それらを構造的に拡張されたフォーマットに変換し、正確性、堅牢性、一般化、ユーザフレンドリ性を高めるためにLSMを組み込んだ。 その後、LLMエージェントを使用して、自然言語のさまざまな質問を自然言語で解釈し、実行のためにPythonコードに翻訳し、テキスト、コード、テーブル、イメージを含む包括的なマルチモーダルレスポンスを提供する。 Allhandsを3つの多様なフィードバックデータセットで評価する。 実験により、Allhandsは、分類やトピックモデリングを含む分析のあらゆる段階で優れた効果を達成し、最終的には、包括的で正しい、人間が読める応答を持つ‘ask me anything’体験をユーザに提供した。 私たちの知識を最大限に活用するために、Allhandsは、自然言語インターフェースを通じて洞察抽出のための多様でカスタマイズされた要求をサポートする、初めての総合的なフィードバック分析フレームワークである。

Verbatim feedback constitutes a valuable repository of user experiences, opinions, and requirements essential for software development. Effectively and efficiently extracting valuable insights from such data poses a challenging task. This paper introduces Allhands , an innovative analytic framework designed for large-scale feedback analysis through a natural language interface, leveraging large language models (LLMs). Allhands adheres to a conventional feedback analytic workflow, initially conducting classification and topic modeling on the feedback to convert them into a structurally augmented format, incorporating LLMs to enhance accuracy, robustness, generalization, and user-friendliness. Subsequently, an LLM agent is employed to interpret users' diverse questions in natural language on feedback, translating them into Python code for execution, and delivering comprehensive multi-modal responses, including text, code, tables, and images. We evaluate Allhands across three diverse feedback datasets. The experiments demonstrate that Allhands achieves superior efficacy at all stages of analysis, including classification and topic modeling, eventually providing users with an ``ask me anything'' experience with comprehensive, correct and human-readable response. To the best of our knowledge, Allhands stands as the first comprehensive feedback analysis framework that supports diverse and customized requirements for insight extraction through a natural language interface.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# FastCAD: スキャンとビデオからのリアルタイムCAD検索とアライメント

FastCAD: Real-Time CAD Retrieval and Alignment from Scans and Videos ( http://arxiv.org/abs/2403.15161v1 )

ライセンス: Link先を確認
Florian Langer, Jihong Ju, Georgi Dikov, Gerhard Reitmayr, Mohsen Ghafoorian, (参考訳) 3D世界をクリーンなCADモデルベースの表現にジジタイズすることは、拡張現実とロボット工学にとって重要な応用である。 現在最先端の手法は,検出対象を個別に符号化し,CADアライメントを第2段階で最適化することにより,計算集約化されている。 本研究では,FastCADを提案する。FastCADは,シーン内のすべてのオブジェクトに対して,CADモデルを同時検索・アライメントするリアルタイム手法である。 従来の研究とは対照的に、アライメントパラメータと形状埋め込みを直接予測する。 我々は、対比学習フレームワークにおけるCAD埋め込みを学習し、それらをFastCADに蒸留することにより、高品質な形状検索を実現する。 Scan2CADアライメントベンチマークでは,RGB-Dスキャンで動作している他の手法と比較して,単段法では推論時間を50倍に高速化する。 さらに,本手法はオンライン3D再構成技術とシームレスに連携する。 これにより、10FPSでビデオからCADモデルに基づく正確な再構成をリアルタイムに生成できる。 これにより、ビデオ設定におけるScan2CADアライメント精度を43.0%から48.2%に、再構成精度を22.9%から29.6%に改善する。

Digitising the 3D world into a clean, CAD model-based representation has important applications for augmented reality and robotics. Current state-of-the-art methods are computationally intensive as they individually encode each detected object and optimise CAD alignments in a second stage. In this work, we propose FastCAD, a real-time method that simultaneously retrieves and aligns CAD models for all objects in a given scene. In contrast to previous works, we directly predict alignment parameters and shape embeddings. We achieve high-quality shape retrievals by learning CAD embeddings in a contrastive learning framework and distilling those into FastCAD. Our single-stage method accelerates the inference time by a factor of 50 compared to other methods operating on RGB-D scans while outperforming them on the challenging Scan2CAD alignment benchmark. Further, our approach collaborates seamlessly with online 3D reconstruction techniques. This enables the real-time generation of precise CAD model-based reconstructions from videos at 10 FPS. Doing so, we significantly improve the Scan2CAD alignment accuracy in the video setting from 43.0% to 48.2% and the reconstruction accuracy from 22.9% to 29.6%.
翻訳日:2024-03-25 17:38:51 公開日:2024-03-22
# 連続時間結晶の対称性と相関

Symmetries & Correlations in Continous Time Crystals ( http://arxiv.org/abs/2403.15164v1 )

ライセンス: Link先を確認
Ankan Mukherjee, Yeshma Ibrahim, Michal Hajdušek, Sai Vinjanampathy, (参考訳) 連続時間結晶のダイナミクスに対する初期状態相関の影響を探索し、高次累積展開を必要とする平均場理論の不適切性を実証する。 平均場が位相遷移を予測できない猫の状態を用いてこれを例示するが、2階累積展開理論はそれを捉える。 系の対称性に触発され、2階の累積理論の切り離しを選択し、平均場から見下ろされる力学的特徴を正確に捉えるのに十分であることを示す。

We demonstrate the inadequacy of mean-field theory by exploring the effects of initial state correlations on the dynamics of continuous time crystals, necessitating higher-order cumulant expansions. We exemplify this using cat states for which the mean field fails to predict a phase transition but the second order cumulant expansion theory captures it. Motivated by the symmetries of the system, we choose a truncation of cumulant theory at the second-order and demonstrate that it is sufficient to accurately capture the dynamical features overlooked by the mean-field.
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# ターゲットクラス分類の遷移グラフ特性

Transition Graph Properties of Target Class Classification ( http://arxiv.org/abs/2403.15167v1 )

ライセンス: Link先を確認
Levon Aslanyan, Hasmik Sahakyan, (参考訳) ターゲットクラス分類(Target class classification)は、特定のオブジェクトにオブジェクトを割り当てることが目的である混成分類と遷移モデルである。 分類プロセスは反復的であり、各ステップでは、あるクラスのオブジェクトがそのクラスにアタッチされたアクションを実行し、オブジェクトのクラスへの遷移を開始する。 クラストランジションと呼ばれるトランジションのシーケンスは、ターゲットクラスへのオブジェクトの最終割り当てを提供するように設計されなければなりません。 遷移過程は有向グラフの形で記述することができ、最終分類の成功は主に、このグラフの性質によるものである。 先程の研究では、遷移グラフの望ましい構造は、通常のクラスに対応するルート頂点への向きを持つ向き付けられたルートツリーであることを示した。 任意のアルゴリズム(政治)の遷移グラフがこの性質を持っていないことは明らかである。 本稿では, 現実的な遷移グラフの構造について検討し, 分類の不整合の発見を可能にし, 所望の形式への変換に役立てる。 本論文で考慮された動的治療体制の医学的解釈は,研究の枠組みをさらに明らかにしている。

Target class classification is a mixed classification and transition model whose integrated goal is to assign objects to a certain, so called target or normal class. The classification process is iterative, and in each step an object in a certain class undergoes an action attached to that class, initiating the transition of the object to one of the classes. The sequence of transitions, which we call class transitions, must be designed to provide the final assignment of objects to the target class. The transition process can be described in the form of a directed graph, and the success of the final classification is mainly due to the properties of this graph. In our previous research we showed that the desirable structure of the transition graph is an oriented rooted tree with orientation towards the root vertex, which corresponds to the normal class. It is clear that the transition graph of an arbitrary algorithm (policy) may not have this property. In this paper we study the structure of realistic transition graphs, which makes it possible to find classification inconsistencies, helping to transfer it into the desired form. The medical interpretation of dynamic treatment regime considered in the article further clarifies the investigated framework.
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# マイクロサービスアーキテクチャのサイバーセキュリティリスクアセスメントを実現するためのディープラーニング

Towards Deep Learning Enabled Cybersecurity Risk Assessment for Microservice Architectures ( http://arxiv.org/abs/2403.15169v1 )

ライセンス: Link先を確認
Majid Abdulsatar, Hussain Ahmad, Diksha Goel, Faheem Ullah, (参考訳) マイクロサービスアーキテクチャの普及により、ソフトウェアセキュリティの新たな課題が生まれている。 これらの課題は、マイクロサービス固有のユニークな機能に起因しています。 ソフトウェアセキュリティリスク評価のような,ソフトウェアセキュリティ上の課題を体系的に評価し,対処することが重要である。 しかしながら、既存のアプローチは、マイクロサービスアーキテクチャに関連するセキュリティリスクを正確に評価する上で、非効率であることを証明している。 この問題に対処するため,マイクロサービスアーキテクチャに関連するセキュリティリスクの予測と評価を目的としたフレームワークであるCyberWise Predictorを提案する。 我々のフレームワークは、脆弱性記述を分析し、脆弱性メトリクスを予測し、セキュリティリスクを評価するために、ディープラーニングベースの自然言語処理モデルを使用している。 我々はCyberWise Predictorの有効性を実験的に評価し,脆弱性メトリクスの自動予測において平均92%の精度を実現した。 私たちのフレームワークと発見は、ソフトウェア開発者がマイクロサービスアーキテクチャのセキュリティリスクを特定し、緩和するためのガイドとして役立ちます。

The widespread adoption of microservice architectures has given rise to a new set of software security challenges. These challenges stem from the unique features inherent in microservices. It is important to systematically assess and address software security challenges such as software security risk assessment. However, existing approaches prove inefficient in accurately evaluating the security risks associated with microservice architectures. To address this issue, we propose CyberWise Predictor, a framework designed for predicting and assessing security risks associated with microservice architectures. Our framework employs deep learning-based natural language processing models to analyze vulnerability descriptions for predicting vulnerability metrics to assess security risks. Our experimental evaluation shows the effectiveness of CyberWise Predictor, achieving an average accuracy of 92% in automatically predicting vulnerability metrics for new vulnerabilities. Our framework and findings serve as a guide for software developers to identify and mitigate security risks in microservice architectures.
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# 知的障害検出の文脈における自己指導型学習のタスク非依存的行動の探索

Exploring the Task-agnostic Trait of Self-supervised Learning in the Context of Detecting Mental Disorders ( http://arxiv.org/abs/2403.15170v1 )

ライセンス: Link先を確認
Rohan Kumar Gupta, Rohit Sinha, (参考訳) 自己教師付き学習(SSL)は、様々な領域にまたがるタスクに依存しない表現を生成するために研究されている。 しかし、複数の精神疾患を検出するための調査は行われていない。 タスクに依存しない表現の存在の背後にある理論的根拠は、複数の精神疾患の重なり合う症状にある。 その結果、メンタルヘルスアセスメントのために収集された行動データは、複数の障害に関連する属性が混在している可能性がある。 そこで本研究では,大うつ病 (MDD) と外傷後ストレス障害 (PTSD) の検出におけるSSLによるタスク非依存表現について,対話セッション中に収集した音声およびビデオデータを用いて検討した。 この研究では、複数の固定されたターゲットまたはマスクされたフレームを予測することでトレーニングされたSSLモデルを採用する。 本稿では,MDDおよびPTSDの検出において,生成した表現をより効率的にするための固定目標のリストを提案する。 さらに,固定目標を予測するSSLエンコーダのハイパーパラメータを変更して,時間的コンテキストの異なるグローバル表現を生成する。 これら2つの革新は、精神疾患に対する検出性能の改善と、タスクに依存しない特性を示すことが注目されている。 マスクフレームを予測するSSLモデルのコンテキストでは、生成されたグローバル表現もタスクに依存しない特性を示す。

Self-supervised learning (SSL) has been investigated to generate task-agnostic representations across various domains. However, such investigation has not been conducted for detecting multiple mental disorders. The rationale behind the existence of a task-agnostic representation lies in the overlapping symptoms among multiple mental disorders. Consequently, the behavioural data collected for mental health assessment may carry a mixed bag of attributes related to multiple disorders. Motivated by that, in this study, we explore a task-agnostic representation derived through SSL in the context of detecting major depressive disorder (MDD) and post-traumatic stress disorder (PTSD) using audio and video data collected during interactive sessions. This study employs SSL models trained by predicting multiple fixed targets or masked frames. We propose a list of fixed targets to make the generated representation more efficient for detecting MDD and PTSD. Furthermore, we modify the hyper-parameters of the SSL encoder predicting fixed targets to generate global representations that capture varying temporal contexts. Both these innovations are noted to yield improved detection performances for considered mental disorders and exhibit task-agnostic traits. In the context of the SSL model predicting masked frames, the generated global representations are also noted to exhibit task-agnostic traits.
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# LSK3DNet:大きなスパースカーネルによる有効かつ効率的な3D知覚を目指して

LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels ( http://arxiv.org/abs/2403.15173v1 )

ライセンス: Link先を確認
Tuo Feng, Wenguan Wang, Fan Ma, Yi Yang, (参考訳) 自律システムは、限られた計算資源を持つ大規模でスパースで不規則な点雲を処理する必要がある。 そのため, 効率的かつ効果的なLiDAR認識手法の開発が不可欠である。 ネイティブに3Dカーネルのサイズを拡大するとパフォーマンスが向上するが、オーバヘッドは3倍に増加する。 したがって、冗長な重みを排除し、より大きなカーネルで効果的に動作する3D大型カーネルの設計を合理化することが重要である。 本稿では,動的プルーニングを利用して3次元カーネルサイズを増幅する,効率的かつ効率的なLarge Sparse Kernel 3D Neural Network (LSK3DNet)を提案する。 提案手法は,SDS (Spatial-wise Dynamic Sparsity) とCWS (Channel-wise Weight Selection) の2つのコアコンポーネントから構成される。 SDSは、大きめのスパース3Dカーネルを学習するために、最初から動的にプーンし、体積重みを回復する。 性能を向上するだけでなく、モデルのサイズや計算コストを大幅に削減する。 さらに、CWSはトレーニング中に3D畳み込みのための最も重要なチャネルを選択し、その後、冗長なチャネルを抜いて、3D視覚タスクの推論を加速する。 3つのベンチマークデータセットと5つのトラックに対するLSK3DNetの有効性を,古典的モデルや大規模カーネル設計と比較した。 特に、LSK3DNetはSemanticKITTIの最先端性能(シングルスキャンで75.6%、マルチスキャンで63.4%)を達成し、モデルサイズを約40%削減し、より単純な3Dカーネルモデルと比較して60%のコンピューティング操作を削減した。

Autonomous systems need to process large-scale, sparse, and irregular point clouds with limited compute resources. Consequently, it is essential to develop LiDAR perception methods that are both efficient and effective. Although naively enlarging 3D kernel size can enhance performance, it will also lead to a cubically-increasing overhead. Therefore, it is crucial to develop streamlined 3D large kernel designs that eliminate redundant weights and work effectively with larger kernels. In this paper, we propose an efficient and effective Large Sparse Kernel 3D Neural Network (LSK3DNet) that leverages dynamic pruning to amplify the 3D kernel size. Our method comprises two core components: Spatial-wise Dynamic Sparsity (SDS) and Channel-wise Weight Selection (CWS). SDS dynamically prunes and regrows volumetric weights from the beginning to learn a large sparse 3D kernel. It not only boosts performance but also significantly reduces model size and computational cost. Moreover, CWS selects the most important channels for 3D convolution during training and subsequently prunes the redundant channels to accelerate inference for 3D vision tasks. We demonstrate the effectiveness of LSK3DNet on three benchmark datasets and five tracks compared with classical models and large kernel designs. Notably, LSK3DNet achieves the state-of-the-art performance on SemanticKITTI (i.e., 75.6% on single-scan and 63.4% on multi-scan), with roughly 40% model size reduction and 60% computing operations reduction compared to the naive large 3D kernel model.
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# ダブルクロスフィットの2倍のロバスト推定器: シリーズリグレッションを超えて

Double Cross-fit Doubly Robust Estimators: Beyond Series Regression ( http://arxiv.org/abs/2403.15175v1 )

ライセンス: Link先を確認
Alec McClean, Sivaraman Balakrishnan, Edward H. Kennedy, Larry Wasserman, (参考訳) クロスフィットの頑健な推定器は、構造に依存しないエラー保証のために因果推論で人気を博している。 しかし、H\"{o}lder smoothness(英語版)のような追加構造が利用可能であれば、トレーニングデータを分割し、独立サンプルに平滑なニュアンス関数推定器を組み込むことで、より正確な「二重適合二重剛性」(DCDR)推定器を構築することができる。 我々は、因果推論と条件独立性テストに対する関心の関数である、期待された条件共分散のDCDR推定器について検討し、徐々に強い仮定を持つ、より強力な結果のシリーズを導出する。 まず、直流DR推定器に対して、ニュアンス関数やその推定器に関する仮定のない構造に依存しない誤差解析を行う。 すると、ニュアンス関数が H\ "{o}lder smooth であると仮定するが、真の滑らか度レベルや共変量密度の知識を仮定せずに、線形スムーサを持つ DCDR 推定器は最小条件下で半パラメトリック効率を保ち、非$\sqrt{n}$ 状態における高速収束率を達成する。 共変量密度と滑らかさが知られているとき、不規則なカーネル回帰に基づく最小最大速度最適化DCDR推定器を提案する。 さらに、非滑らかなDCDR推定器は、より遅い-$\sqrt{n}$中心極限定理を満たすことを示し、非$\sqrt{n}$状態においても推論が可能である。 最後に、シミュレーションによる理論結果をサポートし、二重クロスフィットとアンダースムースメントの直観を提供し、通常の「単一クロスフィット」推定器が失敗する間、我々の推定器がセミパラメトリック効率をどこで達成しているかを示し、アンダースムースされたDCDR推定器の漸近正規性を示す。

Doubly robust estimators with cross-fitting have gained popularity in causal inference due to their favorable structure-agnostic error guarantees. However, when additional structure, such as H\"{o}lder smoothness, is available then more accurate "double cross-fit doubly robust" (DCDR) estimators can be constructed by splitting the training data and undersmoothing nuisance function estimators on independent samples. We study a DCDR estimator of the Expected Conditional Covariance, a functional of interest in causal inference and conditional independence testing, and derive a series of increasingly powerful results with progressively stronger assumptions. We first provide a structure-agnostic error analysis for the DCDR estimator with no assumptions on the nuisance functions or their estimators. Then, assuming the nuisance functions are H\"{o}lder smooth, but without assuming knowledge of the true smoothness level or the covariate density, we establish that DCDR estimators with several linear smoothers are semiparametric efficient under minimal conditions and achieve fast convergence rates in the non-$\sqrt{n}$ regime. When the covariate density and smoothnesses are known, we propose a minimax rate-optimal DCDR estimator based on undersmoothed kernel regression. Moreover, we show an undersmoothed DCDR estimator satisfies a slower-than-$\sqrt{n}$ central limit theorem, and that inference is possible even in the non-$\sqrt{n}$ regime. Finally, we support our theoretical results with simulations, providing intuition for double cross-fitting and undersmoothing, demonstrating where our estimator achieves semiparametric efficiency while the usual "single cross-fit" estimator fails, and illustrating asymptotic normality for the undersmoothed DCDR estimator.
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# 意味ベクトルの脳基底化は視覚刺激の神経復号を改善する

Brain-grounding of semantic vectors improves neural decoding of visual stimuli ( http://arxiv.org/abs/2403.15176v1 )

ライセンス: Link先を確認
Shirin Vafaei, Ryohei Fukuma, Huixiang Yang, Haruhiko Kishima, Takufumi Yanagisawa, (参考訳) メンタルコンテンツの正確で包括的なニューラルデコードのためのアルゴリズムを開発することは、神経科学と脳と機械のインターフェイスの分野における長年の目標の1つである。 従来の研究では、脳の活動パターンを刺激の意味的ベクトル表現にマッピングするために、機械学習モデルをトレーニングすることで、神経復号が実現可能であることが示されている。 これらのベクトルは、後に事前訓練された特徴ベクトルと呼ばれ、通常、画像やテキストの特徴のみに基づく意味空間から派生しているため、視覚刺激が人間の脳内でどのように表現されるかとは全く異なる特徴を持つため、脳デコーダがこのマッピングを学習する能力を制限する。 この問題に対処するために,人間の脳における視覚刺激の神経的表現との整合性を高めるために,機能ベクトルを微調整した意味ベクトルの脳基底化という表現学習フレームワークを提案する。 我々はこのモデルを150種類の視覚刺激カテゴリーの機能的磁気共鳴画像(fMRI)を用いて訓練し、ゼロショット脳デコーディングと識別分析を行った。 1)fMRIおよびfMRI 2)脳磁図(MEG)。 興味深いことに、脳基底ベクトルを用いることで、異なる脳画像モダリティの脳データにおける脳の復号と識別精度が増大する。 これらの知見は、脳復号アルゴリズムの性能を高めるために、より豊富な脳由来の機能を組み込むことの可能性を強調している。

Developing algorithms for accurate and comprehensive neural decoding of mental contents is one of the long-cherished goals in the field of neuroscience and brain-machine interfaces. Previous studies have demonstrated the feasibility of neural decoding by training machine learning models to map brain activity patterns into a semantic vector representation of stimuli. These vectors, hereafter referred as pretrained feature vectors, are usually derived from semantic spaces based solely on image and/or text features and therefore they might have a totally different characteristics than how visual stimuli is represented in the human brain, resulting in limiting the capability of brain decoders to learn this mapping. To address this issue, we propose a representation learning framework, termed brain-grounding of semantic vectors, which fine-tunes pretrained feature vectors to better align with the neural representation of visual stimuli in the human brain. We trained this model this model with functional magnetic resonance imaging (fMRI) of 150 different visual stimuli categories, and then performed zero-shot brain decoding and identification analyses on 1) fMRI and 2) magnetoencephalography (MEG). Interestingly, we observed that by using the brain-grounded vectors, the brain decoding and identification accuracy on brain data from different neuroimaging modalities increases. These findings underscore the potential of incorporating a richer array of brain-derived features to enhance performance of brain decoding algorithms.
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# Bi$_2$Sr$_2$CaCu$_2$O$_{8+δ}$薄膜におけるスピン渦誘起ループ電流による磁場の計算

Calculations of magnetic field produced by spin-vortex-induced loop currents in Bi$_2$Sr$_2$CaCu$_2$O$_{8+δ}$ thin films using the particle-number conserving Bogoliubov-de Gennes formalism ( http://arxiv.org/abs/2403.15177v1 )

ライセンス: Link先を確認
Hiroyasu Koizumi, Haruki Nakayama, Hayato Taya, (参考訳) 銅酸化物超伝導の理論は、'`スピン渦誘起ループ電流(SVILCs)'と呼ばれるナノサイズのループ電流の存在を予測している。 我々は,Bi$_2$Sr$_2$CaCu$_2$O$_{8+\delta}$ (Bi-2212)薄膜の2つのバルクCuO$_2$2層からなるモデルに対して,それらの磁場を計算した。 このモデルでは、バルクCuO$_2$層は、ドープされた孔から形成された小さなポラロンの周りに安定なスピン渦をホストし、多体波動関数からベリー接続によって記述されたU(1)$ゲージ場を生じさせ、SVILCを生成する。 ゲージ場の効果は、ボゴリューボフ=ド・ジェンヌ(英語版)(PNC-BdG)を保存する粒子数によって考慮される。 表面近傍のSVILCs (10a \approx 4$ nm, ここで$a$はCuO$_2$平面の格子定数である) で計算された磁場の大きさはmTの順であり、現在利用可能な検出方法によって検出することができる。 磁場測定によるSVILCの検出は、銅酸化物超伝導の解明につながる可能性があり、また量子ビットを含む量子デバイス応用にも繋がる可能性がある。

A theory for cuprate superconductivity predicts the existence of nano-sized loop currents called, `` spin-vortex-induced loop currents (SVILCs)''. We calculate magnetic fields produced by them for a model of Bi$_2$Sr$_2$CaCu$_2$O$_{8+\delta}$ (Bi-2212) thin films composed of one surface and two bulk CuO$_2$ bilayers. In this model, bulk CuO$_2$ layers host stable spin-vortices around small polarons formed from doped holes; they give rise to a $U(1)$ gauge field described by the Berry connection from many-body wave functions, and generates the SVILCs. The effect of the gauge field is taken into account by the particle-number conserving Bogoliubov-de Gennes (PNC-BdG) formalism. The magnitude of the calculated magnetic field produced by the SVILCs in the vicinity of the surface ($10a \approx 4$ nm, where $a$ is the lattice constant of the CuO$_2$ plane) is in the order of mT; thus, may be detectable by currently available detection methods. The detection of the SVILCs by the magnetic field measurement may bring about the elucidation of the cuprate superconductivity, and may also lead to their quantum device applications, including qubits.
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# キャビティベースリモートエンタングルメント生成におけるレート忠実度トレードオフ

Rate-fidelity trade-off in cavity-based remote entanglement generation ( http://arxiv.org/abs/2403.15179v1 )

ライセンス: Link先を確認
Kazufumi Tanji, Hiroki Takahashi, Wojciech Roga, Masahiro Takeoka, (参考訳) 量子ビットのスケーラビリティは、量子コンピューティングの分野で最重要課題を課している。 異なる量子コンピューティングモジュール間のフォトニック相互接続は、この問題に対処するための解決策を提供する。 このアプローチの基本的な部分は、物質量子ビットによって放出される移動光子による絡み合い分布である。 しかし、物質量子ビットにおける自然放出のランダム性は、絡み合いの忠実度と生成速度の両方を制限する。 本稿では,光子発生に使用するポンプパルスの波形と自然発生による絡み合いの関係を数値解析・解析的に検討する。 本研究では,ガウスポンプパルスと交互に交互に交互に接続する際の利率不整合トレードオフを確認し解析し,ガウスポンプパルスへの簡単な拡張により,あるパラメータ領域におけるトレードオフが向上することを示す。 さらに,本解析を一般多部構造における絡み合い分布にまで拡張し,両部構造解析も直接適用可能であることを示す。

The qubit scalability imposes a paramount challenge in the field of quantum computing. Photonic interconnects between distinct quantum computing modules provide a solution to deal with this issue. The fundamental part of this approach is entanglement distribution via travelling photons emitted by matter qubits. However, randomness of the spontaneous emission in the matter qubits limits both the entanglement fidelity and the generation rate. In this paper, by numerical and analytical methods, we investigate the relationship between the entanglement affected by the spontaneous emission and the waveform of the pump pulse used in the photon generation. We confirm and analyze a rate-fidelity trade-off in the entanglement swapping with Gaussian pump pulses and show that a simple extension to non-Gaussian pump pulses improves the trade-off in a certain parameter region. Furthermore we extend our analysis to entanglement distribution in the general multipartite setting and show that the analysis of the bipartite entanglement can be straightforwardly applied in this case as well.
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# ニューラルネットワークによる最適化のための自己改善: 置き換えせずに、改善されたサンプル

Self-Improvement for Neural Combinatorial Optimization: Sample without Replacement, but Improvement ( http://arxiv.org/abs/2403.15180v1 )

ライセンス: Link先を確認
Jonathan Pirnay, Dominik G. Grimm, (参考訳) エンドツーエンド構築型ニューラルネットワーク最適化の現在の手法は、通常、専門家ソリューションからの行動クローニングや強化学習からのポリシー勾配手法を用いてポリシーを訓練する。 行動クローニングは単純であるが、高価な専門家のソリューションが必要であり、ポリシー勾配法は計算的に要求され、微調整が複雑であることが多い。 本研究では、各エポックにおける現在のモデルを用いてランダムなインスタンスに対する複数のソリューションをサンプリングし、その後、教師付き模倣学習の専門的軌跡として最適解を選択することにより、これら2つを橋渡しし、トレーニングプロセスを簡素化する。 最小限のサンプリングで徐々に改善する手法を実現するため,提案手法では,ラウンドワイド・確率的ビームサーチと,証明可能なポリシー改善から得られた更新戦略を組み合わせた手法を提案する。 この戦略は、ほとんど計算オーバーヘッドのないサンプルシーケンスの利点を利用して、ラウンド間のポリシーを洗練させる。 我々は,トラベリングセールスマン問題とキャパシタントカールーティング問題に対する我々のアプローチを評価する。 本手法で訓練したモデルでは,専門家データと同等の性能と一般化を実現している。 さらに,この手法をトランスフォーマーアーキテクチャを用いてジョブショップスケジューリング問題に適用し,既存の最先端手法よりも広いマージンで性能を向上する。

Current methods for end-to-end constructive neural combinatorial optimization usually train a policy using behavior cloning from expert solutions or policy gradient methods from reinforcement learning. While behavior cloning is straightforward, it requires expensive expert solutions, and policy gradient methods are often computationally demanding and complex to fine-tune. In this work, we bridge the two and simplify the training process by sampling multiple solutions for random instances using the current model in each epoch and then selecting the best solution as an expert trajectory for supervised imitation learning. To achieve progressively improving solutions with minimal sampling, we introduce a method that combines round-wise Stochastic Beam Search with an update strategy derived from a provable policy improvement. This strategy refines the policy between rounds by utilizing the advantage of the sampled sequences with almost no computational overhead. We evaluate our approach on the Traveling Salesman Problem and the Capacitated Vehicle Routing Problem. The models trained with our method achieve comparable performance and generalization to those trained with expert data. Additionally, we apply our method to the Job Shop Scheduling Problem using a transformer-based architecture and outperform existing state-of-the-art methods by a wide margin.
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# PDE-CNN: 軸論的導出と応用

PDE-CNNs: Axiomatic Derivations and Applications ( http://arxiv.org/abs/2403.15182v1 )

ライセンス: Link先を確認
Gijs Bellaard, Sei Sakata, Bart M. N. Smets, Remco Duits, (参考訳) PDEに基づくグループ畳み込みニューラルネットワーク (Group Convolutional Neural Networks, PDE-G-CNNs) は、幾何学的に意味のある進化PDEの解法を、G-CNNの従来のコンポーネントの代用として利用する。 PDE-G-CNNは、パラメータの削減、固有の等価性、より良い性能、データ効率、幾何学的解釈可能性など、いくつかの重要な利点を同時に提供する。 本稿では, ユークリッド同変 PDE-G-CNN に焦点をあてる。 私たちはこのフレームワークをPDE-CNNと呼んでいる。 PDE は PDE-CNN で用いられるべきである。 ここでは、PDEによる幾何学的学習へのアプローチは、半場評価信号を導入して一般化した古典線形および形態的スケール空間理論の公理に着想を得たものである。 さらに、PDE-CNNがCNNと比較して少ないパラメータ、優れた性能、データ効率を提供する小さなネットワークを実験的に確認する。 また、異なるセミフィールドの使用がモデルの性能に与える影響についても検討する。

PDE-based Group Convolutional Neural Networks (PDE-G-CNNs) utilize solvers of geometrically meaningful evolution PDEs as substitutes for the conventional components in G-CNNs. PDE-G-CNNs offer several key benefits all at once: fewer parameters, inherent equivariance, better performance, data efficiency, and geometric interpretability. In this article we focus on Euclidean equivariant PDE-G-CNNs where the feature maps are two dimensional throughout. We call this variant of the framework a PDE-CNN. We list several practically desirable axioms and derive from these which PDEs should be used in a PDE-CNN. Here our approach to geometric learning via PDEs is inspired by the axioms of classical linear and morphological scale-space theory, which we generalize by introducing semifield-valued signals. Furthermore, we experimentally confirm for small networks that PDE-CNNs offer fewer parameters, better performance, and data efficiency in comparison to CNNs. We also investigate what effect the use of different semifields has on the performance of the models.
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# 関数型プログラミング言語におけるコード補完のための言語モデルの性能調査:Haskellケーススタディ

Investigating the Performance of Language Models for Completing Code in Functional Programming Languages: a Haskell Case Study ( http://arxiv.org/abs/2403.15185v1 )

ライセンス: Link先を確認
Tim van Dam, Frank van der Heijden, Philippe de Bekker, Berend Nieuwschepen, Marc Otten, Maliheh Izadi, (参考訳) 言語モデルに基づくコード補完モデルは急速に普及し、何千人もの開発者が様々なプログラミング言語でコードを書くのを助ける。 しかし、コード補完モデルの研究は通常、PythonやJavaScriptのような命令型言語に焦点を当てており、関数型プログラミング言語の表現が不足している。 その結果、これらのモデルはHaskellのような関数型言語ではよく機能しない。 本研究は,コードに対する2つの言語モデルであるCodeGPTとUniXcoderの性能を,関数型プログラミング言語Haskell上で評価する。 HuggingFace上で公開されているHaskellデータセットから得られたHaskell関数のモデルを微調整し、評価する。 さらに,新たに翻訳したHumanEvalデータセットを用いて,手動でモデルの評価を行った。 我々の自動評価では,LLMの事前学習における命令型プログラミング言語の知識は関数型言語にうまく伝達されないが,関数型言語上でのコード補完は実現可能である。 これにより、より高品質なHaskellデータセットの必要性が示される。 HumanEval-Haskellのマニュアル評価では、CodeGPTは空の予測や追加のコメントを頻繁に生成するが、UniXcoderは不完全または誤った予測を生成することが多い。 最後に、HumanEval-Haskellと微調整されたモデル、そしてGitHubで実験を再現するために必要なすべてのコードをリリースします(https://github.com/AISE-TUDelft/HaskellCCEval)。

Language model-based code completion models have quickly grown in use, helping thousands of developers write code in many different programming languages. However, research on code completion models typically focuses on imperative languages such as Python and JavaScript, which results in a lack of representation for functional programming languages. Consequently, these models often perform poorly on functional languages such as Haskell. To investigate whether this can be alleviated, we evaluate the performance of two language models for code, CodeGPT and UniXcoder, on the functional programming language Haskell. We fine-tune and evaluate the models on Haskell functions sourced from a publicly accessible Haskell dataset on HuggingFace. Additionally, we manually evaluate the models using our novel translated HumanEval dataset. Our automatic evaluation shows that knowledge of imperative programming languages in the pre-training of LLMs may not transfer well to functional languages, but that code completion on functional languages is feasible. Consequently, this shows the need for more high-quality Haskell datasets. A manual evaluation on HumanEval-Haskell indicates CodeGPT frequently generates empty predictions and extra comments, while UniXcoder more often produces incomplete or incorrect predictions. Finally, we release HumanEval-Haskell, along with the fine-tuned models and all code required to reproduce our experiments on GitHub (https://github.com/AISE-TUDelft/HaskellCCEval).
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# 単一温度計による2つの温度測定

Measuring two temperatures using a single thermometer ( http://arxiv.org/abs/2403.15186v1 )

ライセンス: Link先を確認
Harshit Verma, Magdalena Zych, Fabio Costa, (参考訳) 一つの温度計で2つの温度を同時に測定することは可能か? 一般的な状況では、温度計が一度に1つの浴のみと相互作用し、相互作用によって完全な熱化がもたらされるが、温度計の最終状態が最初の浴の温度から独立しているため、これは明らかに不可能である。 本研究では,この課題が量子制御の助けを借りて実現可能であることを示す。 特に、複数の量子自由度(DoF)を持つ複合粒子を温度センサとみなし、内部のDoFと呼ばれるDoFの1つが局所的な温度に影響を受け、温度計として機能する一方、外部のDoFと呼ばれる別のDoFは量子制御される。 合成粒子中の上記DoF間の絡み合いを2温度温度測定に利用し、外部のDoFを量子的重ね合わせで調製し、内部のDoFを2つの局所温度に曝露した。 我々は、マッハ・ツェンダー型干渉計や量子チャネルの適用順序を量子的に制御できる量子スイッチで用いられる粒子を同時に2つの温度を推定できることを示す。 これらの設定のそれぞれについて,マルチパラメータClam\'er-Rao境界による推定温度のばらつきを求め,推定した2つの温度の総変動範囲に基づいてそれらの性能を比較した。 推定温度の総変動に基づいて全ての設定をベンチマークすると、quditプローブを用いた量子スイッチが他の設定より優れていることが分かる。 プローブを量子ビットに制限すると、量子スイッチはマッハ・ツェンダー型干渉計と同等に機能する。

We consider the question: Is it possible to measure two temperatures simultaneously using a single thermometer? Under common circumstances, where the thermometer can interact with only one bath at a time and the interaction leads to complete thermalization, this is clearly impossible because the final state of the thermometer would be independent of the temperature of the first bath. In this work, we show that this task can indeed be accomplished with the assistance of quantum control. In particular, we consider a composite particle with multiple quantum degrees of freedom (DoF) as a temperature sensor, where one of the DoF -- termed as internal DoF -- is susceptible to the local temperature, thereby functioning as a thermometer, whereas another DoF -- termed external DoF -- is quantum-controlled. We leverage the entanglement between the aforementioned DoF in a composite particle for two-temperature thermometry by preparing the external DoF in a quantum superposition, exposing the internal DoF to two local temperatures. We show that such a particle used in a Mach-Zehnder type interferometer, or a quantum switch -- which allows quantum control over the order of application of quantum channels -- can be used to estimate two temperatures simultaneously, thus affirming our main proposition. For each of these setups, we obtain the variance in the estimated temperatures through the multi-parameter Cram\'er-Rao bound, and compare their performances based on the range of total variance of the two temperatures estimated. On benchmarking all the setups based on the total variance of the estimated temperatures, we find that a quantum switch with a qudit probe outperforms other setups. On restricting our probe to be a qubit, we find that quantum switch performs equally well as a Mach-Zehnder type interferometer.
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# ECHO: 暗号通貨のオフチェーン支払いとクロスチェーンスワップ

ECHO: Efficient Off-Chain Payments and Cross-Chain Swaps for Cryptocurrencies ( http://arxiv.org/abs/2403.15191v1 )

ライセンス: Link先を確認
Di Wu, Jian Liu, Zhengwei Hou, Wu Wen, Kui Ren, (参考訳) 本稿では、オフチェーン決済とクロスチェーンスワップの2つの重要な課題に対処する、TEEベースのレイヤ2ソリューションであるECHOを提案する。 チャンネルなしのオフチェーン支払い: オンチェーン関係や仲介チャネルを必要とせずに、誰にでも直接支払いができる。 - リアルタイムだが分散化されたクロスチェーンスワップ: 中央サーバに頼ることなく、リアルタイムのクロスチェーンスワップを可能にする、最初の既知のソリューションである。 この新機能は、画期的な公正な交換プロトコルによって実現されている。 TEEクラッシュ耐性: TEEクラッシュを処理するための2つのソリューションを提供する。 我々は1000ノードからなるネットワーク上でECHOを評価し,その評価結果から,ECHOが7000TPSを達成することを示す。

In this paper, we present ECHO, a TEE-based layer-2 solution that tackles two crucial challenges in the realm of cryptocurrencies: off-chain payments and cross-chain swaps. It offers three notable features: - Channel-free off-chain payments: it allows a payer to make direct payments to anyone without requiring any on-chain relationship or intermediary channels. - Real-time yet decentralized cross-chain swaps: it is the first known solution that enables real-time cross-chain swaps without relying on a central server. This novel feature is made possible through a ground-breaking fair exchange protocol. - TEE crash-tolerance: it offers two solutions to handle TEE crashes, one of which involves an innovative application of time-lock puzzles in this context. We evaluate ECHO on a network consists of 1000 nodes and the evaluation results show that ECHO can achieve 7000 TPS
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# SFOD:Spking Fusion Object Detector

SFOD: Spiking Fusion Object Detector ( http://arxiv.org/abs/2403.15192v1 )

ライセンス: Link先を確認
Yimeng Fan, Wei Zhang, Changsong Liu, Mingyang Li, Wenrui Lu, (参考訳) イベントカメラは、高時間分解能、高ダイナミックレンジ、低消費電力、高ピクセル帯域で特徴付けられる。 これらの利点にもかかわらず、イベントデータの本質的にの疎さと非同期性は、既存のオブジェクト検出アルゴリズムに課題をもたらす。 人間の脳が情報をコードし処理する方法に触発されたスパイキングニューラルネットワーク(SNN)は、これらの困難に対する潜在的な解決策を提供する。 しかし、イベントカメラを用いたオブジェクト検出の性能は、現在の実装では制限されている。 本稿では,SNNを用いたオブジェクト検出のための簡易かつ効率的な手法であるSpking Fusion Object Detector (SFOD)を提案する。 具体的には、イベントカメラに適用されたSNNにおいて、異なるスケールのフィーチャーマップを初めて融合させるSpking Fusion Moduleを設計する。 さらに、NCARデータセット上でバックボーンネットワークの事前トレーニング中に実施した分析と実験を統合することにより、スパイキングデコード戦略と損失関数がモデル性能に与える影響を深く掘り下げる。 これにより、SNNに基づいて最先端の分類結果を確立し、NCARデータセット上で93.7%の精度を達成する。 GEN1検出データセットの実験結果は、SFODが32.1\%の最先端のmAPを達成し、既存のSNNベースのアプローチより優れていることを示している。 我々の研究は、イベントカメラによる物体検出におけるSNNの可能性だけでなく、SNNの進歩も示している。 コードはhttps://github.com/yimeng-fan/SFOD.comで入手できる。

Event cameras, characterized by high temporal resolution, high dynamic range, low power consumption, and high pixel bandwidth, offer unique capabilities for object detection in specialized contexts. Despite these advantages, the inherent sparsity and asynchrony of event data pose challenges to existing object detection algorithms. Spiking Neural Networks (SNNs), inspired by the way the human brain codes and processes information, offer a potential solution to these difficulties. However, their performance in object detection using event cameras is limited in current implementations. In this paper, we propose the Spiking Fusion Object Detector (SFOD), a simple and efficient approach to SNN-based object detection. Specifically, we design a Spiking Fusion Module, achieving the first-time fusion of feature maps from different scales in SNNs applied to event cameras. Additionally, through integrating our analysis and experiments conducted during the pretraining of the backbone network on the NCAR dataset, we delve deeply into the impact of spiking decoding strategies and loss functions on model performance. Thereby, we establish state-of-the-art classification results based on SNNs, achieving 93.7\% accuracy on the NCAR dataset. Experimental results on the GEN1 detection dataset demonstrate that the SFOD achieves a state-of-the-art mAP of 32.1\%, outperforming existing SNN-based approaches. Our research not only underscores the potential of SNNs in object detection with event cameras but also propels the advancement of SNNs. Code is available at https://github.com/yimeng-fan/SFOD.
翻訳日:2024-03-25 17:29:06 公開日:2024-03-22
# 中程度の高強度レーザー場における双極子-双極子相互作用

Dipole-dipole interacting two-level emitters in a moderately intense laser field ( http://arxiv.org/abs/2403.15193v1 )

ライセンス: Link先を確認
Profirie Bardetski, Mihai A. Macovei, (参考訳) 共振器の共振特性について検討し, 共振器内での2レベルエミッタの共振特性について検討した。 任意の2レベルラジエーター間の平均距離は対応する発光波長よりも小さく、双極子-双極子相互作用は無視できない。 世俗近似の下では、集団共鳴蛍光スペクトルは2N+1スペクトル線から構成されており、Nは試料からの放射体の数である。 レーザー周波数における中心線に対して、一般化されたラビ周波数の周囲に対称に位置する2Nスペクトルバンドは、双極子-双極子結合強度が集団自然崩壊速度よりも大きい場合、区別可能である。 これにより、自然に散乱した集団共鳴蛍光スペクトルを測定することで、アンサンブル内の放射体番号を抽出することができる。 対照的に、双極子-双極子カップリングが共振自在崩壊速度よりも順に小さいが、それでも無視できない場合、スペクトルはモローのような蛍光スペクトルとなり、2つのスペクトル線がそれぞれ双極子-双極子カップリング強度に比例する。

We investigate the resonance fluorescence features of a small ensemble of closely packed and moderately laser pumped two-level emitters at resonance. The mean distance between any two-level radiators is smaller than the corresponding emission wavelength, such that the dipole-dipole interactions are not negligible. We have found that under the secular approximation, the collective resonance fluorescence spectrum consists of 2N+1 spectral lines, where N is the number of emitters from the sample. The 2N lateral spectral-bands, symmetrically located around the generalized Rabi frequency with respect to the central line at the laser frequency, are distinguishable if the dipole-dipole coupling strength is larger than the collective spontaneous decay rate. This way, one can extract the radiators number within the ensemble via measuring of the spontaneously scattered collective resonance fluorescence spectrum. Contrary, if the dipole-dipole coupling is of the order of or smaller than the cooperative spontaneous decay rate, but still non-negligible, the spectrum turns into a Mollow-like fluorescence spectrum, where the two lateral spectral lines broadens, proportional to the dipole-dipole coupling strength, respectively.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# イメージ・トゥ・ビデオによる自動拡張と融合で受容界を再構築する「My Video」

Your Image is My Video: Reshaping the Receptive Field via Image-To-Video Differentiable AutoAugmentation and Fusion ( http://arxiv.org/abs/2403.15194v1 )

ライセンス: Link先を確認
Sofia Casarin, Cynthia I. Ugwu, Sergio Escalera, Oswald Lanz, (参考訳) ディープラーニング研究の展望は、データの真の可能性を活用する革新的な戦略に向かっている。 従来、モデルアーキテクチャのスケーリングに重点を置いていたため、大規模で複雑なニューラルネットワークが生まれ、限られた計算リソースでトレーニングすることは困難だった。 しかし、モデルのサイズとは独立に、データ品質(量と可変性)はモデル一般化に影響を及ぼす主要な要因である。 本研究では,画像分類とセマンティックセグメンテーションのタスクに自動データ拡張を用いることにより,利用可能なデータを活用する新しい手法を提案する。 本稿では,ビデオとして処理可能な画像のバリエーションを生成するために,最初の微分可能拡張探索法(DAS)を提案する。 従来のアプローチと比較して、DASは非常に高速で柔軟性があり、1日以内で非常に大きな検索スペースを検索できる。 我々の直感は、DASが提供する時間的次元における受容野の増加は、空間的受容野にも利益をもたらす可能性があるということである。 より具体的には、DASを利用して、タスク依存変換を選択することにより、空間受容場の再構成を誘導する。 その結果、標準的な拡張代替手段と比較して、異なる軽量ビデオバックボーンにDASを差し込むと、ImageNet、Cifar10、Cifar100、Tiny-ImageNet、Pascal-VOC-2012、CityScapesのデータセットの精度が向上する。

The landscape of deep learning research is moving towards innovative strategies to harness the true potential of data. Traditionally, emphasis has been on scaling model architectures, resulting in large and complex neural networks, which can be difficult to train with limited computational resources. However, independently of the model size, data quality (i.e. amount and variability) is still a major factor that affects model generalization. In this work, we propose a novel technique to exploit available data through the use of automatic data augmentation for the tasks of image classification and semantic segmentation. We introduce the first Differentiable Augmentation Search method (DAS) to generate variations of images that can be processed as videos. Compared to previous approaches, DAS is extremely fast and flexible, allowing the search on very large search spaces in less than a GPU day. Our intuition is that the increased receptive field in the temporal dimension provided by DAS could lead to benefits also to the spatial receptive field. More specifically, we leverage DAS to guide the reshaping of the spatial receptive field by selecting task-dependant transformations. As a result, compared to standard augmentation alternatives, we improve in terms of accuracy on ImageNet, Cifar10, Cifar100, Tiny-ImageNet, Pascal-VOC-2012 and CityScapes datasets when plugging-in our DAS over different light-weight video backbones.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# FSD推論: スケーラブルなクラウド通信を備えたフルサーバレス分散推論

FSD-Inference: Fully Serverless Distributed Inference with Scalable Cloud Communication ( http://arxiv.org/abs/2403.15195v1 )

ライセンス: Link先を確認
Joe Oakley, Hakan Ferhatosmanoglu, (参考訳) サーバレスコンピューティングは、魅力的なスケーラビリティ、弾力性、コスト効率を提供する。 しかし、メモリ、CPU、関数ランタイムの制約により、データ集約型アプリケーションや機械学習(ML)ワークロードへの採用が妨げられている。 従来の'サーバフル'プラットフォームは、高速ネットワークを介した分散計算と、MPIや共有メモリなどの確立されたプロセス間通信(IPC)機構を実現する。 サーバーレスドメインにそのようなソリューションがない場合、重要なIPC要求を伴う並列計算は困難である。 FSD-Inferenceは、分散ML推論のための、初めて完全にサーバレスで高度にスケーラブルなシステムである。 本稿では、FaaS(Function-as-a-Service)計算と組み合わせて、サーバレスデータ集約コンピューティングのコンテキスト内で分散MLのための最先端ソリューションを設計する潜在的な通信チャネルについて検討する。 我々は、クラウドベースのパブリッシュ/サブスクライブ/キューとオブジェクトストレージの両方を活用する、ML推論ワークロードのための、新しい完全なサーバレス通信スキームを紹介します。 我々は、オブジェクトストレージと同等の性能を持つFaaS IPCに対して、パブリッシュ/サブスクライブ/キューサービスをどのように適用できるかを示し、高い並列性レベルでコストを大幅に削減する。 様々な大きさのベンチマークDNNについて詳細な実験を行う。 その結果、サーバベースの代替品と比較して、FSD-Inferenceはコスト効率が著しく高く、スケーラブルであり、最適化されたHPCソリューションと競合する性能を達成できることを示した。 サーバレスソリューションが大規模な分散ワークロードを処理し、高いレベルのFaaS並列性を活用することも、試験によって確認できます。

Serverless computing offers attractive scalability, elasticity and cost-effectiveness. However, constraints on memory, CPU and function runtime have hindered its adoption for data-intensive applications and machine learning (ML) workloads. Traditional 'server-ful' platforms enable distributed computation via fast networks and well-established inter-process communication (IPC) mechanisms such as MPI and shared memory. In the absence of such solutions in the serverless domain, parallel computation with significant IPC requirements is challenging. We present FSD-Inference, the first fully serverless and highly scalable system for distributed ML inference. We explore potential communication channels, in conjunction with Function-as-a-Service (FaaS) compute, to design a state-of-the-art solution for distributed ML within the context of serverless data-intensive computing. We introduce novel fully serverless communication schemes for ML inference workloads, leveraging both cloud-based publish-subscribe/queueing and object storage offerings. We demonstrate how publish-subscribe/queueing services can be adapted for FaaS IPC with comparable performance to object storage, while offering significantly reduced cost at high parallelism levels. We conduct in-depth experiments on benchmark DNNs of various sizes. The results show that when compared to server-based alternatives, FSD-Inference is significantly more cost-effective and scalable, and can even achieve competitive performance against optimized HPC solutions. Experiments also confirm that our serverless solution can handle large distributed workloads and leverage high degrees of FaaS parallelism.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# Cryptic Bytes: 暗号ジャック検出をエスケープするためのWebAssemblyの難読化

Cryptic Bytes: WebAssembly Obfuscation for Evading Cryptojacking Detection ( http://arxiv.org/abs/2403.15197v1 )

ライセンス: Link先を確認
Håkon Harnes, Donn Morrison, (参考訳) WebAssemblyは、Web以降の高性能でセキュアでポータブルなコンパイルターゲットとして、大きな注目を集めている。 しかし、その普及は新たなセキュリティ課題ももたらした。 このような脅威のひとつとして、WebサイトがWebAssemblyを使用して、知識や同意なしに、訪問者のデバイスに暗号通貨をマイニングする、暗号鍵(crypterjacking)がある。 検出方法が提案されているが、その回避に関する研究は限られている。 本稿では,WebAssemblyのコードの難読化手法をこれまでで最も包括的に評価し,その有効性,検出性,オーバーヘッドを複数の抽象化レベルにわたって評価する。 Tigressやwasm-mutateといった最先端の難読化ツールや、私たちの新しいツールであるemcc-obfを使って、ユーティリティやゲーム、暗号マイニングなど、さまざまなアプリケーションを難読化しています。 以上の結果から,難治化は異型WebAssemblyバイナリを効果的に生成し,Tigressは最も有効であり,ecc-obfとwasm-mutateが続くことが示唆された。 結果のネイティブコードへの影響も大きいが、V8エンジンのTurboFanオプティマイザは、ネイティブコードのサイズを平均で30\%削減できる。 特に、難読化は最先端の暗号鍵検出装置を避けることに成功している。 難読化にはかなりの性能上のオーバーヘッドが伴うが、現実のシナリオにおいて、戦略的に変換を適用することによって、最小限のオーバーヘッドで検出を回避するために難読化がいかに有効かを示す。 これらの知見は研究者にとって価値があり、より堅牢な検出方法の開発の基礎となる。 さらに、20,000以上の難読化されたWebAssemblyバイナリのデータセットと、さらなる研究を促進するためにEcc-obfツールを公開しています。

WebAssembly has gained significant traction as a high-performance, secure, and portable compilation target for the Web and beyond. However, its growing adoption has also introduced new security challenges. One such threat is cryptojacking, where websites mine cryptocurrencies on visitors' devices without their knowledge or consent, often through the use of WebAssembly. While detection methods have been proposed, research on circumventing them remains limited. In this paper, we present the most comprehensive evaluation of code obfuscation techniques for WebAssembly to date, assessing their effectiveness, detectability, and overhead across multiple abstraction levels. We obfuscate a diverse set of applications, including utilities, games, and crypto miners, using state-of-the-art obfuscation tools like Tigress and wasm-mutate, as well as our novel tool, emcc-obf. Our findings suggest that obfuscation can effectively produce dissimilar WebAssembly binaries, with Tigress proving most effective, followed by emcc-obf and wasm-mutate. The impact on the resulting native code is also significant, although the V8 engine's TurboFan optimizer can reduce native code size by 30\% on average. Notably, we find that obfuscation can successfully evade state-of-the-art cryptojacking detectors. Although obfuscation can introduce substantial performance overheads, we demonstrate how obfuscation can be used for evading detection with minimal overhead in real-world scenarios by strategically applying transformations. These insights are valuable for researchers, providing a foundation for developing more robust detection methods. Additionally, we make our dataset of over 20,000 obfuscated WebAssembly binaries and the emcc-obf tool publicly available to stimulate further research.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# DITTO:軌道変換による実証模倣

DITTO: Demonstration Imitation by Trajectory Transformation ( http://arxiv.org/abs/2403.15203v1 )

ライセンス: Link先を確認
Nick Heppert, Max Argus, Tim Welschehold, Thomas Brox, Abhinav Valada, (参考訳) ロボットに新しいスキルを迅速かつ便利に教えることは、ロボットシステムの普及に不可欠である。 本研究では,RGB-D映像を2段階のプロセスで記録することで,人間1人の実演から1発の模倣の問題を解消する。 オフラインの第1段階では、実演の軌跡を抽出する。 これは、操作されたオブジェクトのセグメンテーションと、コンテナのような二次的なオブジェクトに対する相対的な動きを決定する。 その後、ライブオンライントラジェクトリ生成段階では、まずすべてのオブジェクトを\mbox{re-detect} し、次にデモトラジェクトリを現在のシーンにワープし、最後に、ロボットによるトラジェクトリをトレースする。 これらのステップを完了するために,本手法では,セグメンテーション,相対オブジェクトのポーズ推定,把握予測など,いくつかの補助モデルを利用する。 多様なタスクにまたがって設計決定を検証するために,対応手法と再検出手法の異なる組み合わせを体系的に評価する。 具体的には、ピック・アンド・プレイス・タスクを含む10種類のタスクのデモンストレーションと、オブジェクト操作の明瞭化のデモを収集する。 最後に,現実のシナリオにおけるアプローチの有効性と有用性を示すために,実際のロボットシステム上で広範囲な評価を行う。 コードはhttp://ditto.cs.uni-freiburg.deで公開しています。

Teaching robots new skills quickly and conveniently is crucial for the broader adoption of robotic systems. In this work, we address the problem of one-shot imitation from a single human demonstration, given by an RGB-D video recording through a two-stage process. In the first stage which is offline, we extract the trajectory of the demonstration. This entails segmenting manipulated objects and determining their relative motion in relation to secondary objects such as containers. Subsequently, in the live online trajectory generation stage, we first \mbox{re-detect} all objects, then we warp the demonstration trajectory to the current scene, and finally, we trace the trajectory with the robot. To complete these steps, our method makes leverages several ancillary models, including those for segmentation, relative object pose estimation, and grasp prediction. We systematically evaluate different combinations of correspondence and re-detection methods to validate our design decision across a diverse range of tasks. Specifically, we collect demonstrations of ten different tasks including pick-and-place tasks as well as articulated object manipulation. Finally, we perform extensive evaluations on a real robot system to demonstrate the effectiveness and utility of our approach in real-world scenarios. We make the code publicly available at http://ditto.cs.uni-freiburg.de.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# Scattering matrix approach to dynamical Sauter-Schwinger process: Spin- and Helicity-resolved momentum distributions

Scattering matrix approach to dynamical Sauter-Schwinger process: Spin- and helicity-resolved momentum distributions ( http://arxiv.org/abs/2403.15206v1 )

ライセンス: Link先を確認
M. M. Majczak, K. Krajewska, J. Z. Kamiński, A. Bechler, (参考訳) 時間依存電界パルスによる電子-陽電子対生成の動的ソーター・シュウィンガー機構は、$S$-matrix法と還元式を用いて検討する。 それらは、ファインマン境界条件あるいは反ファインマン境界条件によるディラック方程式の解に基づくフレームワークの開発に繋がる。 それらの漸近的性質は、生成されたペアのスピン分解された確率振幅と結びついている。 ヘリシティ分解振幅も同様である。 最も重要なことは、上記のスピンまたはヘリシティ分解振幅は、スピンまたはヘリシティ構成に要約されるとき、この文脈で一般的に用いられる他の方法で計算された生成粒子の運動量分布を再現する。 これは現在のアプローチを検証する。 また, 生成粒子の運動量分布の渦構造を解析し, 確率振幅の位相にアクセスできるようにする。 数値的にも説明するように、この方法は楕円偏極を持つ任意の時間依存電場に適用できる。 これはその大きな柔軟性を証明している。

Dynamical Sauter-Schwinger mechanism of electron-positron pair creation by a time-dependent electric field pulses is considered using the $S$-matrix approach and reduction formulas. They lead to the development of framework based on the solutions of the Dirac equation with the Feynman- or anti-Feynman boundary conditions. Their asymptotic properties are linked to the spin-resolved probability amplitudes of created pairs. The same concerns the helicity-resolved amplitudes. Most importantly, the aforementioned spin- or helicity-resolved amplitudes, when summed over spin or helicity configurations, reproduce the momentum distributions of created particles calculated with other methods that are typically used in this context. This does validate the current approach. It also allows us to investigate the vortex structures in momentum distributions of produced particles, as the method provides an access to the phase of the probability amplitude. As we also illustrate numerically, the method is applicable to arbitrary time-dependent electric fields with, in general, elliptical polarization. This proves its great flexibility.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# 有限標本複雑度保証付き対数学習におけるロバスト最適化

Robust optimization for adversarial learning with finite sample complexity guarantees ( http://arxiv.org/abs/2403.15207v1 )

ライセンス: Link先を確認
André Bertolace, Konstatinos Gatsis, Kostas Margellos, (参考訳) 不確実性の存在下での意思決定と学習は、堅牢で信頼性の高い運用を実現する必要性が高まる中で大きな注目を集めている。 不確実性が敵攻撃の存在から生じる場合、このニーズはより顕著になってきている。 本稿では,線形および非線形の分類問題に着目し,SVMマージンに着想を得たロバストな分類器に対する新しい逆学習法を提案する。 データ駆動型レンズの下ではロバスト性があり、線形および非線形の分類器の2進および複数クラスシナリオにおける有限標本複雑性境界を導出する。 特に、我々の境界は自然分類器の複雑さと一致する。 線形および非線形モデルに対する線形計画法 (LP) と2次コーン計画法 (SOCP) を用いて, 最悪のサロゲート損失を最小限に抑えるアルゴリズムを提案する。 ベンチマークMNISTとCIFAR10データセットの数値実験により、我々のアプローチが最先端の手法に匹敵する性能を示した。 我々の研究は、線形および非線形分類器の堅牢性を高めるための包括的なフレームワークを提供し、敵の存在下での学習の堅牢性を埋め込む。

Decision making and learning in the presence of uncertainty has attracted significant attention in view of the increasing need to achieve robust and reliable operations. In the case where uncertainty stems from the presence of adversarial attacks this need is becoming more prominent. In this paper we focus on linear and nonlinear classification problems and propose a novel adversarial training method for robust classifiers, inspired by Support Vector Machine (SVM) margins. We view robustness under a data driven lens, and derive finite sample complexity bounds for both linear and non-linear classifiers in binary and multi-class scenarios. Notably, our bounds match natural classifiers' complexity. Our algorithm minimizes a worst-case surrogate loss using Linear Programming (LP) and Second Order Cone Programming (SOCP) for linear and non-linear models. Numerical experiments on the benchmark MNIST and CIFAR10 datasets show our approach's comparable performance to state-of-the-art methods, without needing adversarial examples during training. Our work offers a comprehensive framework for enhancing binary linear and non-linear classifier robustness, embedding robustness in learning under the presence of adversaries.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# VPAS: 分散データセットに関する公開検証とプライバシ保護統計

VPAS: Publicly Verifiable and Privacy-Preserving Aggregate Statistics on Distributed Datasets ( http://arxiv.org/abs/2403.15208v1 )

ライセンス: Link先を確認
Mohammed Alghazwi, Dewi Davies-Batista, Dimka Karastoyanova, Fatih Turkmen, (参考訳) 集約統計は、プライバシを保持しながら、分散データから意味のある洞察を抽出する上で重要な役割を果たす。 医療などのアプリケーションドメインの増加は、研究の進展と患者ケアの改善にこれらの統計を活用している。 本研究では,プライバシ保護アグリゲーションプロトコルにおける入力検証と公開検証の課題について検討する。 我々は,複数のソースからデータを受け取る場合のシナリオに対処し,このデータに対する計算の入力と正当性を監査人などの第三者に検証し,入力データのプライバシを確保する必要がある。 そこで我々は,これらの要件を満たすVPASプロトコルを提案する。 データプライバシには同型暗号化を使用し,Zero-Knowledge Proofs(ZKP)とブロックチェーンシステムを用いて入力検証と公開検証を行う。 我々は,既存の検証可能な暗号化スキームをセキュアなプロトコルに拡張してVPASを構築した。 我々は、暗号化コスト、証明生成、検証に関してVPASを実装し、実験的に評価した。 以上の結果から,従来のzkSNARKを用いた場合に比べて,プロトコルの妥当性に関するオーバーヘッドが10倍低いことが示唆された。 この強化された効率により、より広い範囲のアプリケーションや、証明生成に関連する適度な計算オーバーヘッドを許容できるユースケースに対して、パブリックな検証性を備えた入力検証を適用することが可能となる。

Aggregate statistics play an important role in extracting meaningful insights from distributed data while preserving privacy. A growing number of application domains, such as healthcare, utilize these statistics in advancing research and improving patient care. In this work, we explore the challenge of input validation and public verifiability within privacy-preserving aggregation protocols. We address the scenario in which a party receives data from multiple sources and must verify the validity of the input and correctness of the computations over this data to third parties, such as auditors, while ensuring input data privacy. To achieve this, we propose the "VPAS" protocol, which satisfies these requirements. Our protocol utilizes homomorphic encryption for data privacy, and employs Zero-Knowledge Proofs (ZKP) and a blockchain system for input validation and public verifiability. We constructed VPAS by extending existing verifiable encryption schemes into secure protocols that enable N clients to encrypt, aggregate, and subsequently release the final result to a collector in a verifiable manner. We implemented and experimentally evaluated VPAS with regard to encryption costs, proof generation, and verification. The findings indicate that the overhead associated with verifiability in our protocol is 10x lower than that incurred by simply using conventional zkSNARKs. This enhanced efficiency makes it feasible to apply input validation with public verifiability across a wider range of applications or use cases that can tolerate moderate computational overhead associated with proof generation.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# MSCoTDet:マルチスペクトルペデストリアン検出のための言語駆動型マルチモーダルフュージョン

MSCoTDet: Language-driven Multi-modal Fusion for Improved Multispectral Pedestrian Detection ( http://arxiv.org/abs/2403.15209v1 )

ライセンス: Link先を確認
Taeheon Kim, Sangyun Chung, Damin Yeom, Youngjoon Yu, Hak Gu Kim, Yong Man Ro, (参考訳) RGBと熱モダリティの相補的な情報により, マルチスペクトル歩行者検出は, 概日適用にとって魅力的である。 しかし、現在のモデルは、特に統計的に偏ったデータセットから得られたモダリティバイアスのために、明らかなケースで歩行者を検出することができないことが多い。 これらの問題から、補完的な情報自体を理解することは、視覚のみのモデルから達成することが難しいと予測される。 そこで本稿では,Large Language Models (LLM) を組み込んだMSCoTDet(Multispectral Chain-of-Thought Detection)フレームワークを提案する。 具体的には、各RGBにおける歩行者のテキスト記述と熱モダリティを生成し、ステップ・バイ・ステップのプロセスで意味レベルでの横断的推論を促進し、正確な検出を行うマルチスペクトル・チェーン・オブ・ソート(MSCoT)プロンプトを設計する。 さらに,言語駆動型マルチモーダルフュージョン(LMF)戦略を設計し,視覚駆動型および言語駆動型検出の融合を実現する。 大規模な実験により、MSCoTDetはマルチスペクトル歩行者検出を改善した。

Multispectral pedestrian detection is attractive for around-the-clock applications due to the complementary information between RGB and thermal modalities. However, current models often fail to detect pedestrians in obvious cases, especially due to the modality bias learned from statistically biased datasets. From these problems, we anticipate that maybe understanding the complementary information itself is difficult to achieve from vision-only models. Accordingly, we propose a novel Multispectral Chain-of-Thought Detection (MSCoTDet) framework, which incorporates Large Language Models (LLMs) to understand the complementary information at the semantic level and further enhance the fusion process. Specifically, we generate text descriptions of the pedestrian in each RGB and thermal modality and design a Multispectral Chain-of-Thought (MSCoT) prompting, which models a step-by-step process to facilitate cross-modal reasoning at the semantic level and perform accurate detection. Moreover, we design a Language-driven Multi-modal Fusion (LMF) strategy that enables fusing vision-driven and language-driven detections. Extensive experiments validate that MSCoTDet improves multispectral pedestrian detection.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# 教育の初期段階はアウト・オブ・ディストリビューションの一般化に影響を及ぼす

Early Period of Training Impacts Out-of-Distribution Generalization ( http://arxiv.org/abs/2403.15210v1 )

ライセンス: Link先を確認
Chen Cecilia Liu, Iryna Gurevych, (参考訳) これまでの研究では、ニューラルネットワークトレーニングの初期の期間の違いが、分散処理(ID)タスクのパフォーマンスに大きく影響していることがわかった。 しかし、ニューラルネットワークは、しばしばオフ・オブ・ディストリビューション(OOD)データに敏感であり、下流アプリケーションでは信頼性が低い。 しかし、OODの一般化に対する初期の訓練期間の影響は、その複雑さと効果的な分析手法の欠如により、いまだに検討されていない。 本研究では,ニューラルネットワーク学習の初期における学習力学とOOD一般化の関係について検討する。 本研究では, 魚介類情報と鋭さの痕跡を, 段階的無凍化(訓練中の段階的無凍化パラメータ)に着目し, 調査手法として活用する。 一連の経験的な実験を通して 1)訓練中に異なる時間にトレーニング可能なパラメータ数を選択すること、すなわち、段階的凍結により実現されることは、ID結果に極端に影響を及ぼすが、OODデータへの一般化に大きな影響を与える。 2 訓練初期における水産情報の鋭さ及び痕跡の絶対値は、OODの一般化の指標ではなく、相対値である。 3) 魚介類情報と鋭さの痕跡は, 早期訓練における介入の除去とOODの一般化の促進の指標として用いることができる。

Prior research has found that differences in the early period of neural network training significantly impact the performance of in-distribution (ID) tasks. However, neural networks are often sensitive to out-of-distribution (OOD) data, making them less reliable in downstream applications. Yet, the impact of the early training period on OOD generalization remains understudied due to its complexity and lack of effective analytical methodologies. In this work, we investigate the relationship between learning dynamics and OOD generalization during the early period of neural network training. We utilize the trace of Fisher Information and sharpness, with a focus on gradual unfreezing (i.e. progressively unfreezing parameters during training) as the methodology for investigation. Through a series of empirical experiments, we show that 1) selecting the number of trainable parameters at different times during training, i.e. realized by gradual unfreezing -- has a minuscule impact on ID results, but greatly affects the generalization to OOD data; 2) the absolute values of sharpness and trace of Fisher Information at the initial period of training are not indicative for OOD generalization, but the relative values could be; 3) the trace of Fisher Information and sharpness may be used as indicators for the removal of interventions during early period of training for better OOD generalization.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# GCN-DevLSTM:骨格に基づく行動認識のためのパス開発

GCN-DevLSTM: Path Development for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2403.15212v1 )

ライセンス: Link先を確認
Lei Jiang, Weixin Yang, Xin Zhang, Hao Ni, (参考訳) ビデオにおける骨格に基づく行動認識(SAR)はコンピュータビジョンにおいて重要な課題であるが難しい課題である。 SARの最近の最先端モデルは、主に、骨格データの空間情報抽出に強力なグラフ畳み込みニューラルネットワーク(GCN)に基づいている。 しかし、このようなGCNベースのモデルが人間の行動系列の時間的ダイナミクスを効果的に捉えることは、まだ明らかではない。 この目的のために我々は,Lieグループ構造を利用して,シーケンシャルデータに対する原則的かつ同義的な表現である経路開発を利用するDevLSTMモジュールを提案する。 経路展開はRoughパス理論から導かれるもので,高次元ストリームデータ中の事象の順序を次元を小さくすることで効果的に把握し,LSTMモジュールを大幅に拡張することができる。 提案するG-DevLSTMモジュールは,既存のGCNベースモデルを補完し,時間グラフに都合よくプラグインすることができる。 NTU60,NTU120およびChalearn2013データセットに関する実証研究により、提案したハイブリッドモデルが、SARタスクにおける現在の最高のパフォーマンス手法を大幅に上回っていることを示す。 コードはhttps://github.com/DeepIntoStreams/GCN-DevLSTMで公開されている。

Skeleton-based action recognition (SAR) in videos is an important but challenging task in computer vision. The recent state-of-the-art models for SAR are primarily based on graph convolutional neural networks (GCNs), which are powerful in extracting the spatial information of skeleton data. However, it is yet clear that such GCN-based models can effectively capture the temporal dynamics of human action sequences. To this end, we propose the DevLSTM module, which exploits the path development -- a principled and parsimonious representation for sequential data by leveraging the Lie group structure. The path development, originated from Rough path theory, can effectively capture the order of events in high-dimensional stream data with massive dimension reduction and consequently enhance the LSTM module substantially. Our proposed G-DevLSTM module can be conveniently plugged into the temporal graph, complementing existing advanced GCN-based models. Our empirical studies on the NTU60, NTU120 and Chalearn2013 datasets demonstrate that our proposed hybrid model significantly outperforms the current best-performing methods in SAR tasks. The code is available at https://github.com/DeepIntoStreams/GCN-DevLSTM.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# InstaSynth: スポンサーコンテンツ検出のためのChatGPTによる合成Instagramデータ生成の可能性と課題

InstaSynth: Opportunities and Challenges in Generating Synthetic Instagram Data with ChatGPT for Sponsored Content Detection ( http://arxiv.org/abs/2403.15214v1 )

ライセンス: Link先を確認
Thales Bertaglia, Lily Heisig, Rishabh Kaushal, Adriana Iamnitchi, (参考訳) 大規模言語モデル(LLM)は、特にソーシャルメディアにおいて非倫理的または違法な目的に使用できるテキストの生成コストを下げるという懸念を提起する。 本稿では,オンライン上でのスポンサードコンテンツの開示に関する法的要件の実施を支援するため,そのようなモデルが約束されているかを検討する。 合成Instagramキャプション生成にLLMを用いることを,2つの目的により検討した。 そこで我々は,合成キャプションが現実的かどうかを評価するために,コンテンツレベルとネットワークレベルのメトリクスを実装した。 2つ目の目的(ユーティリティ)は、スポンサー付きコンテンツ検出に有用な合成データを作成することである。 そこで本研究では,Instagram上の未公開広告を識別する訓練分類器の合成データの有効性を評価する。 我々の調査は、忠実さと実用性は相反する可能性があり、迅速なエンジニアリングは有用だが不十分な戦略であることを示している。 さらに、個々の合成投稿は現実的に見えるが、全体として多様性、トピック接続性、および現実的なユーザーインタラクションパターンが欠如していることが分かる。

Large Language Models (LLMs) raise concerns about lowering the cost of generating texts that could be used for unethical or illegal purposes, especially on social media. This paper investigates the promise of such models to help enforce legal requirements related to the disclosure of sponsored content online. We investigate the use of LLMs for generating synthetic Instagram captions with two objectives: The first objective (fidelity) is to produce realistic synthetic datasets. For this, we implement content-level and network-level metrics to assess whether synthetic captions are realistic. The second objective (utility) is to create synthetic data that is useful for sponsored content detection. For this, we evaluate the effectiveness of the generated synthetic data for training classifiers to identify undisclosed advertisements on Instagram. Our investigations show that the objectives of fidelity and utility may conflict and that prompt engineering is a useful but insufficient strategy. Additionally, we find that while individual synthetic posts may appear realistic, collectively they lack diversity, topic connectivity, and realistic user interaction patterns.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# ユニメイキングAIマジック:デザイン分類学

(Un)making AI Magic: a Design Taxonomy ( http://arxiv.org/abs/2403.15216v1 )

ライセンス: Link先を確認
Maria Luce Lupetti, Dave Murray-Rust, (参考訳) 本稿では,魔法や魔法の知覚を増大または減少させるデザインアプローチの分類を構築することにより,AIモノの設計においてエンタテインメントが果たす役割について考察する。 我々は、AI技術の最近の発展を取り巻くデザイン談話から始まり、アルゴリズムの不確実性やエラーのような特定の相互作用の質を強調し、魔法や超自然的思考の修辞との関係を明確にする。 デザインとAIにおけるマスターコースの2つの版から52人の学生のデザインプロジェクトを解析し、反映することにより、7つのデザイン原則を特定し、それぞれの効果をエンハンスメントと非エンハンスメントの観点から解き放つ。 我々は,この分類を設計/HCI実践者,特に探索と反射性を支援するために,アプローチし,適切な方法で結論付ける。

This paper examines the role that enchantment plays in the design of AI things by constructing a taxonomy of design approaches that increase or decrease the perception of magic and enchantment. We start from the design discourse surrounding recent developments in AI technologies, highlighting specific interaction qualities such as algorithmic uncertainties and errors and articulating relations to the rhetoric of magic and supernatural thinking. Through analyzing and reflecting upon 52 students' design projects from two editions of a Master course in design and AI, we identify seven design principles and unpack the effects of each in terms of enchantment and disenchantment. We conclude by articulating ways in which this taxonomy can be approached and appropriated by design/HCI practitioners, especially to support exploration and reflexivity.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# いつでも、どこでも、誰でも、クラウドソーシング・メディカル・イメージ・アノテーションのためのセグメンテーション・モデルの可能性を探る

Anytime, Anywhere, Anyone: Investigating the Feasibility of Segment Anything Model for Crowd-Sourcing Medical Image Annotations ( http://arxiv.org/abs/2403.15218v1 )

ライセンス: Link先を確認
Pranav Kulkarni, Adway Kanhere, Dharmam Savani, Andrew Chan, Devina Chatterjee, Paul H. Yi, Vishwa S. Parekh, (参考訳) 医用画像セグメンテーションのためのアノテーションのキュレーションは、ドメインの専門知識を必要とする労働集約的かつ時間を要するタスクであり、結果として翻訳ユーティリティに制限のある"狭い"集中型ディープラーニング(DL)モデルが生まれる。 最近、SAM(Segment Anything Model)のような基盤モデルは、医療画像を含む様々な領域で例外的なゼロショットの一般化性を持つセマンティックセグメンテーションに革命をもたらし、アノテーションプロセスの合理化を約束している。 しかし、SAMは3D DLセグメンテーションモデルをトレーニングするためのアノテーションをキュレートするためのクラウドソース設定ではまだ評価されていない。 本研究では,最新のDLセグメンテーションモデルである3D nnU-Netモデルをトレーニングするための"dense"セグメンテーションマスクを生成するために,非専門家から"sparse"アノテーションをクラウドソーシングするSAMの可能性を探る。 その結果, SAM生成アノテーションは, 接地真実アノテーションと比較してDiceスコアが高いが, SAM生成アノテーションで訓練したnnU-Netモデルは, 接地真実アノテーションで訓練したnnU-Netモデル(p<0.001$, all。

Curating annotations for medical image segmentation is a labor-intensive and time-consuming task that requires domain expertise, resulting in "narrowly" focused deep learning (DL) models with limited translational utility. Recently, foundation models like the Segment Anything Model (SAM) have revolutionized semantic segmentation with exceptional zero-shot generalizability across various domains, including medical imaging, and hold a lot of promise for streamlining the annotation process. However, SAM has yet to be evaluated in a crowd-sourced setting to curate annotations for training 3D DL segmentation models. In this work, we explore the potential of SAM for crowd-sourcing "sparse" annotations from non-experts to generate "dense" segmentation masks for training 3D nnU-Net models, a state-of-the-art DL segmentation model. Our results indicate that while SAM-generated annotations exhibit high mean Dice scores compared to ground-truth annotations, nnU-Net models trained on SAM-generated annotations perform significantly worse than nnU-Net models trained on ground-truth annotations ($p<0.001$, all).
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# Differentially Private Ad Conversion Measurement

Differentially Private Ad Conversion Measurement ( http://arxiv.org/abs/2403.15224v1 )

ライセンス: Link先を確認
John Delaney, Badih Ghazi, Charlie Harrison, Christina Ilvento, Ravi Kumar, Pasin Manurangsi, Martin Pal, Karthik Prabhakar, Mariana Raykova, (参考訳) 本研究では,広告主が広告主のウェブサイト(あるいはモバイルアプリ)の広告インプレッションに起因して,広告主が広告主のウェブサイト(あるいはモバイルアプリ)の広告インプレッションを推定しようとする,デジタル広告における中心的な機能である広告コンバージョン測定について検討する。 差分プライバシー (DP) は, 数学的な保証が強いことから人気を博した概念であり, プライベート広告変換測定のための形式的枠組みを開発する。 特に, 帰属規則, DP隣接関係, 帰属範囲, 強制点の運用上有効な構成の概念を定義した。 次に、最も一般的に発生する一連の設定に対して、属性とプライバシの間の微妙な相互作用を明らかにする、完全な特徴付けを提供します。

In this work, we study ad conversion measurement, a central functionality in digital advertising, where an advertiser seeks to estimate advertiser website (or mobile app) conversions attributed to ad impressions that users have interacted with on various publisher websites (or mobile apps). Using differential privacy (DP), a notion that has gained in popularity due to its strong mathematical guarantees, we develop a formal framework for private ad conversion measurement. In particular, we define the notion of an operationally valid configuration of the attribution rule, DP adjacency relation, contribution bounding scope and enforcement point. We then provide, for the set of configurations that most commonly arises in practice, a complete characterization, which uncovers a delicate interplay between attribution and privacy.
翻訳日:2024-03-25 17:19:18 公開日:2024-03-22
# すべての注意が必要でない:マルチモーダル大言語モデルのパラメータと計算効率向上学習

Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models ( http://arxiv.org/abs/2403.15226v1 )

ライセンス: Link先を確認
Qiong Wu, Weihao Ye, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji, (参考訳) 本稿では,マルチモーダル大規模言語モデル(MLLM)のための新しいパラメータと計算効率のチューニング手法を提案し,その手法をEAS(Efficient Attention Skipping)と呼ぶ。 具体的には、MLLMの主な計算オーバーヘッドであるマルチヘッドアテンション(MHA)が、ダウンストリームタスクに冗長であることを明らかにする。 この観測に基づいて、EASは注意冗長性を評価し、重要でないMHAをスキップして推論を高速化する。 また,新しい情報伝達アダプタ (PIA) を提案し,EASの注意スキップとパラメータ効率の維持を実現し,フィードフォワードネットワーク (FFN) に再パラメータ化することで,遅延をゼロにする。 EASを検証するために、最近提案されたLaVINと呼ばれるMLLMと、METERと呼ばれる古典的なVL事前学習モデルに適用し、一連のベンチマークで広範な実験を行う。 実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。 例えば、LaVIN-EASはScineceQA上で89.98\%の精度を得ることができ、推論をLaVINに2.2倍速めることができる。

In this paper, we propose a novel parameter and computation efficient tuning method for Multi-modal Large Language Models (MLLMs), termed Efficient Attention Skipping (EAS). Concretely, we first reveal that multi-head attentions (MHAs), the main computational overhead of MLLMs, are often redundant to downstream tasks. Based on this observation, EAS evaluates the attention redundancy and skips the less important MHAs to speed up inference. Besides, we also propose a novel propagation-of-information adapter (PIA) to serve the attention skipping of EAS and keep parameter efficiency, which can be further re-parameterized into feed-forward networks (FFNs) for zero-extra latency. To validate EAS, we apply it to a recently proposed MLLM called LaVIN and a classic VL pre-trained model called METER, and conduct extensive experiments on a set of benchmarks. The experiments show that EAS not only retains high performance and parameter efficiency, but also greatly speeds up inference speed. For instance, LaVIN-EAS can obtain 89.98\% accuracy on ScineceQA while speeding up inference by 2.2 times to LaVIN
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# LeGO: Animatable Stylized Face Generationのための表面変形ネットワークの一例

LeGO: Leveraging a Surface Deformation Network for Animatable Stylized Face Generation with One Example ( http://arxiv.org/abs/2403.15227v1 )

ライセンス: Link先を確認
Soyeon Yoon, Kwan Yun, Kwanggyoon Seo, Sihun Cha, Jung Eun Yoo, Junyong Noh, (参考訳) 近年の3D顔のスタイリングの進歩は、ほとんどゼロショット設定では顕著な進歩を遂げている。 しかし,従来の手法によるスタイリゼーションの程度は,統計的3次元モーフィブルモデル(3DMM)に基づく場合が多いため,実用的応用には不十分であることが多い。 そこで本研究では,所望のトポロジを持つ高度にスタイリングされた3次元顔モデルを作成する方法を提案する。 提案手法は3DMMを用いて表面変形ネットワークをトレーニングし,その領域を対の例を用いて対象に翻訳する。 このネットワークは、差別化可能なレンダラーと指向性CLIP損失を用いて、ターゲットのスタイルを模倣することにより、3Dフェイスメッシュのスタイリングを実現する。 さらに, 提案手法では, 変形対象を抽出するメッシュアグノスティックエンコーダ (MAGE) を用い, 様々なトポロジのメッシュをスタイリングプロセスに入力し, その形状を潜在空間にエンコードする。 結果として得られるスタイリングされた顔モデルは、一般的に使用される3DMMブレンド形状によってアニメーションすることができる。 定量的および定性的な評価のセットは,提案手法が与えられたスタイルに応じて高度にスタイリングされた顔メッシュを生成し,所望の位相で出力できることを実証する。 また,画像に基づくスタイリングアバター生成,幾何スタイルの線形補間,およびスタイリングアバターの顔アニメーションなどの応用例を示した。

Recent advances in 3D face stylization have made significant strides in few to zero-shot settings. However, the degree of stylization achieved by existing methods is often not sufficient for practical applications because they are mostly based on statistical 3D Morphable Models (3DMM) with limited variations. To this end, we propose a method that can produce a highly stylized 3D face model with desired topology. Our methods train a surface deformation network with 3DMM and translate its domain to the target style using a paired exemplar. The network achieves stylization of the 3D face mesh by mimicking the style of the target using a differentiable renderer and directional CLIP losses. Additionally, during the inference process, we utilize a Mesh Agnostic Encoder (MAGE) that takes deformation target, a mesh of diverse topologies as input to the stylization process and encodes its shape into our latent space. The resulting stylized face model can be animated by commonly used 3DMM blend shapes. A set of quantitative and qualitative evaluations demonstrate that our method can produce highly stylized face meshes according to a given style and output them in a desired topology. We also demonstrate example applications of our method including image-based stylized avatar generation, linear interpolation of geometric styles, and facial animation of stylized avatars.
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# 大規模言語モデル学習データセットにおけるライセンス侵害の探索的研究

An Exploratory Investigation into Code License Infringements in Large Language Model Training Datasets ( http://arxiv.org/abs/2403.15230v1 )

ライセンス: Link先を確認
Jonathan Katzy, Răzvan-Mihai Popescu, Arie van Deursen, Maliheh Izadi, (参考訳) 大きな言語モデルのトレーニングは、コードライセンスを侵害する可能性があるか? さらに、そのようなライセンスに違反することなく、これらのモデルのトレーニングに安全に使用できるデータセットはありますか? 本研究では,この分野における現状と,大規模言語モデルの学習にコードを導入することの重要性を評価する。 さらに、これらのモデルが将来法的問題を起こすことなくトレーニングできるかどうかを、公開データセットで検証する。 これを実現するために、ファイルレベルのコードでトレーニングされた53の大規模言語モデルのリストをコンパイルした。 その後、データセットを抽出し、強力なコピーレフトコードのみで構成されたデータセットと重複する頻度を分析しました。 分析の結果,すべてのデータセットには,関連するリポジトリライセンスに基づいて選択されたにもかかわらず,ライセンスの不整合が含まれていることがわかった。 私たちは5億1400万のコードファイルを分析し、強いコピーレフトデータセットに3800万の正確な複製を発見しました。 さらに、我々は1億7100万のファイル主導のコメントを調べ、強力なコピーレフトライセンスを持つ1600万のコメントと、ライセンスを明示的に言及することなくコピーを禁止した1100万のコメントを特定した。 コードでトレーニングされた大規模言語モデルにおいて,ライセンスの不整合が広範囲に及んでいることを踏まえ,研究者とコミュニティの双方に対して,データセット作成と管理のためのベストプラクティスの開発と導入を優先することが推奨されている。

Does the training of large language models potentially infringe upon code licenses? Furthermore, are there any datasets available that can be safely used for training these models without violating such licenses? In our study, we assess the current trends in the field and the importance of incorporating code into the training of large language models. Additionally, we examine publicly available datasets to see whether these models can be trained on them without the risk of legal issues in the future. To accomplish this, we compiled a list of 53 large language models trained on file-level code. We then extracted their datasets and analyzed how much they overlap with a dataset we created, consisting exclusively of strong copyleft code. Our analysis revealed that every dataset we examined contained license inconsistencies, despite being selected based on their associated repository licenses. We analyzed a total of 514 million code files, discovering 38 million exact duplicates present in our strong copyleft dataset. Additionally, we examined 171 million file-leading comments, identifying 16 million with strong copyleft licenses and another 11 million comments that discouraged copying without explicitly mentioning a license. Based on the findings of our study, which highlights the pervasive issue of license inconsistencies in large language models trained on code, our recommendation for both researchers and the community is to prioritize the development and adoption of best practices for dataset creation and management.
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# DNSリゾルバのCPUを悪用できる「非存在の証明」で低レートの洪水

Attacking with Something That Does Not Exist: Low-Rate Flood with 'Proof of Non-Existence' Can Exhaust DNS Resolver CPU ( http://arxiv.org/abs/2403.15233v1 )

ライセンス: Link先を確認
Olivia Gruza, Elias Heftrig, Oliver Jacobsen, Haya Schulmann, Niklas Vogel, Michael Waidner, (参考訳) NSEC3はDNSSECに存在しないことの証明であり、クエリされたリソースがターゲットドメインに存在しないという認証された主張を提供する。 NSEC3は、検索されたホスト名の前と後をアルファベット順にソートしたハッシュネームで構成されている。 辞書攻撃を困難にするため、ハッシュ関数を複数回繰り返し適用することは可能であるが、NSEC3レコードのSHA-1ハッシュの計算においてDNSリゾルバの負荷も増大する。 DNSリゾルバ上の NSEC3 レコードの計算によって発生する負荷に関する懸念はすでに NSEC3 仕様 RFC5155 と RFC9276 で検討されている。 2024年2月、NSEC3がDNSリゾルバのリソースを消費する可能性があり、CVE-2023-50868が割り当てられた。 しかし,攻撃評価は公表されておらず,リゾルバに対する攻撃の影響は明らかにされていない。 本研究では,DNSリゾルバの実装に対する NSEC3-encloser 攻撃の最初の評価を行い, RFC5155 の勧告に従えば, NSEC3-encloser 攻撃は 72 倍のCPU命令数を発生させることができることを確認した。 攻撃の影響は、異なるDNSリゾルバによって異なるが、十分な量のDNSパケットがあれば、攻撃はCPU負荷を増大させ、パケットロスを引き起こす可能性があることを示す。 DNSの実装によって、毎秒150の悪意のあるNSEC3レコードのレートで、良質なDNSリクエストの損失率は2.7%から30%の間で異なる。 我々は、NSEC3-encloser攻撃の詳細な説明と実装と、5つの一般的なDNSリゾルバ実装に対する評価を提供する。 また,各NSEC3パラメータがNSEC3-encloser攻撃時の被害者リゾルバの負荷にどのように影響するかを解析した。

NSEC3 is a proof of non-existence in DNSSEC, which provides an authenticated assertion that a queried resource does not exist in the target domain. NSEC3 consists of alphabetically sorted hashed names before and after the queried hostname. To make dictionary attacks harder, the hash function can be applied in multiple iterations, which however also increases the load on the DNS resolver during the computation of the SHA-1 hashes in NSEC3 records. Concerns about the load created by the computation of NSEC3 records on the DNS resolvers were already considered in the NSEC3 specifications RFC5155 and RFC9276. In February 2024, the potential of NSEC3 to exhaust DNS resolvers' resources was assigned a CVE-2023-50868, confirming that extra iterations of NSEC3 created substantial load. However, there is no published evaluation of the attack and the impact of the attack on the resolvers was not clarified. In this work we perform the first evaluation of the NSEC3-encloser attack against DNS resolver implementations and find that the NSEC3-encloser attack can still create a 72x increase in CPU instruction count, despite the victim resolver following RFC5155 recommendations in limiting hash iteration counts. The impact of the attack varies across the different DNS resolvers, but we show that with a sufficient volume of DNS packets the attack can increase CPU load and cause packet loss. We find that at a rate of 150 malicious NSEC3 records per second, depending on the DNS implementation, the loss rate of benign DNS requests varies between 2.7% and 30%. We provide a detailed description and implementation the NSEC3-encloser attack along with evaluation against five popular DNS resolver implementations. We also develop the first analysis how each NSEC3 parameter impacts the load inflicted on the victim resolver during NSEC3-encloser attack.
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# 拡散モデルを用いた複合画像の影生成

Shadow Generation for Composite Image Using Diffusion model ( http://arxiv.org/abs/2403.15234v1 )

ライセンス: Link先を確認
Qingyang Liu, Junqi You, Jianting Wang, Xinhao Tao, Bo Zhang, Li Niu, (参考訳) 画像合成の領域では、挿入された前景の現実的な影を生成することは、依然として恐ろしい課題である。 従来の研究は、ペア化されたトレーニングデータに基づいて訓練された画像から画像への変換モデルを開発した。 しかし、データ不足と固有のタスクの複雑さによって妨げられ、正確な形状と強度の影を生成するのに苦労しています。 本稿では,自然影画像の知識が豊富な基礎モデルを用いる。 具体的には、まずControlNetをタスクに適応させ、次にシャドーインテンシティを改善するためにインテンシティ変調モジュールを提案する。 さらに、新しいデータ取得パイプラインを用いて、小型のDESOBAデータセットをDESOBAv2に拡張する。 DESOBAとDESOBAv2データセットと実合成画像の両方の実験結果から,影生成タスクにおけるモデルの有効性が示された。 データセット、コード、モデルはhttps://github.com/bcmi/Object-Shadow-Generation-Dataset-DESOBAv2でリリースされる。

In the realm of image composition, generating realistic shadow for the inserted foreground remains a formidable challenge. Previous works have developed image-to-image translation models which are trained on paired training data. However, they are struggling to generate shadows with accurate shapes and intensities, hindered by data scarcity and inherent task complexity. In this paper, we resort to foundation model with rich prior knowledge of natural shadow images. Specifically, we first adapt ControlNet to our task and then propose intensity modulation modules to improve the shadow intensity. Moreover, we extend the small-scale DESOBA dataset to DESOBAv2 using a novel data acquisition pipeline. Experimental results on both DESOBA and DESOBAv2 datasets as well as real composite images demonstrate the superior capability of our model for shadow generation task. The dataset, code, and model are released at https://github.com/bcmi/Object-Shadow-Generation-Dataset-DESOBAv2.
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# ソーシャルネットワークにおけるキーノード識別のためのマルチパースペクティブメモリ拡張ネットワーク

Multi-perspective Memory Enhanced Network for Identifying Key Nodes in Social Networks ( http://arxiv.org/abs/2403.15235v1 )

ライセンス: Link先を確認
Qiang Zhang, Jiawei Liu, Fanrui Zhang, Xiaoling Zhu, Zheng-Jun Zha, (参考訳) ソーシャルネットワークにおけるキーノードの特定は、偽情報をタイムリーにブロックする上で重要な役割を果たす。 既存のキーノード識別手法は、通常、伝播構造の観点からのみノードの影響を考慮し、未知のシナリオに対する一般化能力が不十分である。 本稿では,複数の視点からキーノードをマイニングし,メモリネットワークを用いて履歴情報を格納する,ソーシャルネットワーク内のキーノードを識別する新しいマルチパースペクティブメモリ拡張ネットワーク(MMEN)を提案する。 具体的には、まず、ユーザ属性と伝搬構造の観点から2つの伝搬ネットワークを構築し、グラフアテンションネットワークを用いてノードの特徴表現を更新する。 一方、メモリネットワークは類似のサブグラフの情報を保存するために使われ、未知のシナリオにおけるモデルの一般化性能を高める。 最後に、MMENは2つの伝搬ネットワークのノードの影響を組み合わせるために適応重みを適用し、究極のキーノードを選択する。 大規模な実験により,本手法は従来手法よりも大幅に優れていたことが実証された。

Identifying key nodes in social networks plays a crucial role in timely blocking false information. Existing key node identification methods usually consider node influence only from the propagation structure perspective and have insufficient generalization ability to unknown scenarios. In this paper, we propose a novel Multi-perspective Memory Enhanced Network (MMEN) for identifying key nodes in social networks, which mines key nodes from multiple perspectives and utilizes memory networks to store historical information. Specifically, MMEN first constructs two propagation networks from the perspectives of user attributes and propagation structure and updates node feature representations using graph attention networks. Meanwhile, the memory network is employed to store information of similar subgraphs, enhancing the model's generalization performance in unknown scenarios. Finally, MMEN applies adaptive weights to combine the node influence of the two propagation networks to select the ultimate key nodes. Extensive experiments demonstrate that our method significantly outperforms previous methods.
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# ACCESS:安全クリティカルシステムの保証事例中心技術

ACCESS: Assurance Case Centric Engineering of Safety-critical Systems ( http://arxiv.org/abs/2403.15236v1 )

ライセンス: Link先を確認
Ran Wei, Simon Foster, Haitao Mei, Fang Yan, Ruizhe Yang, Ibrahim Habli, Colin O'Halloran, Nick Tudor, Tim Kelly, (参考訳) 保証ケースは、安全性やセキュリティなどの重要なシステム特性について、コミュニケーションし、信頼性を評価するために使用されます。 歴史的に、保証ケースは手作業で作成され、長く複雑なプロセスを通じてシステムステークホルダーによって評価される。 近年,システム保証活動の効率化と品質向上のために,モデルに基づくシステム保証アプローチが普及している。 システムが複雑化するにつれて、開発・検証・検証活動の調整や、相互接続されたシステム保証アーティファクトにおける影響分析の変更など、開発ライフサイクルの管理が課題となる。 さらに、ロボット・自律システム(RAS)が社会に採用されているため、システムの運用期間中の進化を支援するための保証ケースも必要である。 本稿では,安全クリティカルシステムのための技術方法論であるACCESS - Assurance Case Centric Engineering of Safety- critical Systemsを,そのツールサポートとともに,モデルベースの保証ケースの進化に伴う安全クリティカルシステムの開発に貢献する。 モデルベースのシステム保証ケースが異質なエンジニアリングアーティファクト(例えば、システムアーキテクチャモデル、システム安全性分析、システム行動モデルなど)にどのように辿り着くか、そして開発プロセス中に形式的なメソッドをどのように統合するかを示す。 開発と実行の両方で保証ケースを自動的に評価する方法を実証する。 本稿では,AUV(Autonomous Underwater Vehicle)に基づくケーススタディに適用する。

Assurance cases are used to communicate and assess confidence in critical system properties such as safety and security. Historically, assurance cases have been manually created documents, which are evaluated by system stakeholders through lengthy and complicated processes. In recent years, model-based system assurance approaches have gained popularity to improve the efficiency and quality of system assurance activities. This becomes increasingly important, as systems becomes more complex, it is a challenge to manage their development life-cycles, including coordination of development, verification and validation activities, and change impact analysis in inter-connected system assurance artifacts. Moreover, there is a need for assurance cases that support evolution during the operational life of the system, to enable continuous assurance in the face of an uncertain environment, as Robotics and Autonomous Systems (RAS) are adopted into society. In this paper, we contribute ACCESS - Assurance Case Centric Engineering of Safety-critical Systems, an engineering methodology, together with its tool support, for the development of safety critical systems around evolving model-based assurance cases. We show how model-based system assurance cases can trace to heterogeneous engineering artifacts (e.g. system architectural models, system safety analysis, system behaviour models, etc.), and how formal methods can be integrated during the development process. We demonstrate how assurance cases can be automatically evaluated both at development and runtime. We apply our approach to a case study based on an Autonomous Underwater Vehicle (AUV).
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# 自由空間原子アンサンブルにおける駆動散逸相分離

Driven-dissipative phase separation in free-space atomic ensembles ( http://arxiv.org/abs/2403.15237v1 )

ライセンス: Link先を確認
Daniel Goncalves, Lisa Bombieri, Giovanni Ferioli, Sara Pancaldi, Igor Ferrier-Barbut, Antoine Browaeys, Ephraim Shahmoon, Darrick E. Chang, (参考訳) 駆動ディックモデル(英: driven Dicke model)は、原子の集合体が外部磁場によって駆動され、漏れキャビティモードとの結合による一括自然放出を受けるモデルであり、駆動強度の関数として駆動散逸相転移を示すシステムのパラダイム的な例である。 最近、同様の現象が実験で観測され、空洞環境でではなく、自由空間の原子アンサンブルで観測された。 系が光伝搬効果を符号化する光モードの連続体と相互作用するため、同様の挙動が自由空間に現れる理由は明らかではない。 ここでは、一次元のマクスウェル・ブロッホ方程式に基づいて、自由空間系の振る舞いを説明するための簡単なモデルを提案し、解決する。 一方,光深度が低い自由空間アンサンブルは空間伝搬効果が無視できるため,空洞系と同様の挙動を示す。 一方, 大きな原子数の熱力学的限界では, 透過率や原子励起率などの観測物は, 相転移を想起する駆動強度の関数として非解析的挙動を示す。 しかし、より密な分析により、原子の性質は空間において非常に不均一であることが示され、このことから自由空間系は相転移ではなく、概して飽和領域と不飽和領域の間の「相分離」であると主張する。

The driven Dicke model, wherein an ensemble of atoms is driven by an external field and undergoes collective spontaneous emission due to coupling to a leaky cavity mode, is a paradigmatic example of a system exhibiting a driven-dissipative phase transition as a function of driving strength. Recently, a similar phenomenon was experimentally observed, not in a cavity setting, but rather in a free-space atomic ensemble. The reason why similar behavior should emerge in free space is not obvious, as the system interacts with a continuum of optical modes, which encodes light propagation effects. Here, we present and solve a simple model to explain the behavior of the free-space system, based on the one-dimensional Maxwell-Bloch equations. On one hand, we show that a free-space ensemble at a low optical depth can exhibit similar behavior as the cavity system, as spatial propagation effects are negligible. On the other hand, in the thermodynamic limit of large atom number, we show that certain observables such as the transmittance or the atomic excited population exhibit non-analytic behavior as a function of the driving intensity, reminiscent of a phase transition. However, a closer analysis reveals that the atomic properties are highly inhomogeneous in space, and based on this we argue that the free-space system does not undergo a phase transition but rather a ``phase separation", roughly speaking, between saturated and unsaturated regions.
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# WEEP:計算病理学における弱教師付きCNNモデルの空間的解釈法

WEEP: A method for spatial interpretation of weakly supervised CNN models in computational pathology ( http://arxiv.org/abs/2403.15238v1 )

ライセンス: Link先を確認
Abhinav Sharma, Bojing Liu, Mattias Rantalainen, (参考訳) ディープラーニングは、高解像度の病理組織像(WSI)のモデリングを可能にする。 タイルレベルのデータの弱教師付き学習は、典型的には、患者またはWSIレベルにのみラベルが存在するタスク(例えば、患者の結果や組織学的評価)に適用される。 この文脈では、そのようなモデルからの予測の空間的解釈可能性を改善する必要がある。 モデル解釈のための新しい方法 Wsi rEgion sElection aPproach (WEEP) を提案する。 これは、特定の予測ラベルを割り当てるために必要なWSIの空間領域を確立するための原則的かつ直接的な方法を提供する。 乳がん計算病理領域における二分分類課題におけるWEEPについて検討した。 WEEPは実装が容易で、モデルベースの意思決定プロセスに直接接続され、研究アプリケーションと診断アプリケーションの両方に関連する情報を提供する。

Deep learning enables the modelling of high-resolution histopathology whole-slide images (WSI). Weakly supervised learning of tile-level data is typically applied for tasks where labels only exist on the patient or WSI level (e.g. patient outcomes or histological grading). In this context, there is a need for improved spatial interpretability of predictions from such models. We propose a novel method, Wsi rEgion sElection aPproach (WEEP), for model interpretation. It provides a principled yet straightforward way to establish the spatial area of WSI required for assigning a particular prediction label. We demonstrate WEEP on a binary classification task in the area of breast cancer computational pathology. WEEP is easy to implement, is directly connected to the model-based decision process, and offers information relevant to both research and diagnostic applications.
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# ロボット運動生成と適応のためのガイドデコード

Guided Decoding for Robot Motion Generation and Adaption ( http://arxiv.org/abs/2403.15239v1 )

ライセンス: Link先を確認
Nutan Chen, Elie Aljalbout, Botond Cseke, Patrick van der Smagt, (参考訳) 障害のある複雑な環境でのハイDoFロボットアームの動作生成,ポイント経由などについて検討する。 この領域の大幅な進歩は、LfD(Learning from Demonstration)をモーション生成プロセスに統合することで達成される。 この統合は、新しいタスクへの迅速な適応を促進し、実証された軌道からロボットが学習し、一般化できるようにすることで、蓄積された専門知識の利用を最適化する。 シミュレーショントラジェクトリの大規模なデータセット上にトランスフォーマーアーキテクチャをトレーニングする。 このアーキテクチャは、条件付き変分オートエンコーダ変換器に基づいて、必須動作生成スキルを学び、これらを補助的なタスクや制約に適合させる。 我々の自己回帰的アプローチは、物理システムからのフィードバックをリアルタイムに統合し、運動生成の適応性と効率を高める。 このモデルでは,初期点と目標点から運動を生成できるだけでなく,障害物回避,地点経由の障害物回避,プラットフォーム間の速度と加速度の制約といった複雑なタスクに軌道を適応できることを示す。

We address motion generation for high-DoF robot arms in complex settings with obstacles, via points, etc. A significant advancement in this domain is achieved by integrating Learning from Demonstration (LfD) into the motion generation process. This integration facilitates rapid adaptation to new tasks and optimizes the utilization of accumulated expertise by allowing robots to learn and generalize from demonstrated trajectories. We train a transformer architecture on a large dataset of simulated trajectories. This architecture, based on a conditional variational autoencoder transformer, learns essential motion generation skills and adapts these to meet auxiliary tasks and constraints. Our auto-regressive approach enables real-time integration of feedback from the physical system, enhancing the adaptability and efficiency of motion generation. We show that our model can generate motion from initial and target points, but also that it can adapt trajectories in navigating complex tasks, including obstacle avoidance, via points, and meeting velocity and acceleration constraints, across platforms.
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# IS-Fusion:マルチモーダル3次元物体検出のためのインスタンスシーン協調融合

IS-Fusion: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection ( http://arxiv.org/abs/2403.15241v1 )

ライセンス: Link先を確認
Junbo Yin, Jianbing Shen, Runnan Chen, Wei Li, Ruigang Yang, Pascal Frossard, Wenguan Wang, (参考訳) Bird's Eye View (BEV)表現は、自律運転シナリオにおける3D空間を記述するための支配的なソリューションとして登場した。 しかし、BEV表現のオブジェクトは通常小さなサイズであり、関連する点のクラウドコンテキストは本質的に疎外であり、信頼性の高い3D知覚において大きな課題をもたらす。 本稿では,イノベーティブなマルチモーダル融合フレームワークであるIS-Fusionを提案する。 IS-Fusionは、インスタンスレベルのマルチモーダル情報を明示的に組み込むことで、BEVシーンレベルの融合のみに焦点を当てる既存のアプローチと本質的に異なるため、3Dオブジェクト検出のようなインスタンス中心のタスクを容易にする。 Hierarchical Scene Fusion (HSF) モジュールと Instance-Guided Fusion (IGF) モジュールで構成される。 HSFは、様々な粒度でマルチモーダルシーンコンテキストをキャプチャするために、Point-to-GridおよびGrid-to-Region変換器を適用している。 IGFはインスタンス候補をマイニングし、それらの関係を調べ、各インスタンスのローカルなマルチモーダルコンテキストを集約する。 これらのインスタンスは、シーン機能を強化し、インスタンス対応のBEV表現を生成するためのガイダンスとして機能する。 難易度の高いnuScenesベンチマークでは、IS-Fusionは、これまで公開されたすべてのマルチモーダルワークを上回っている。 コードは、https://github.com/yinjunbo/IS-Fusion.comで入手できる。

Bird's eye view (BEV) representation has emerged as a dominant solution for describing 3D space in autonomous driving scenarios. However, objects in the BEV representation typically exhibit small sizes, and the associated point cloud context is inherently sparse, which leads to great challenges for reliable 3D perception. In this paper, we propose IS-Fusion, an innovative multimodal fusion framework that jointly captures the Instance- and Scene-level contextual information. IS-Fusion essentially differs from existing approaches that only focus on the BEV scene-level fusion by explicitly incorporating instance-level multimodal information, thus facilitating the instance-centric tasks like 3D object detection. It comprises a Hierarchical Scene Fusion (HSF) module and an Instance-Guided Fusion (IGF) module. HSF applies Point-to-Grid and Grid-to-Region transformers to capture the multimodal scene context at different granularities. IGF mines instance candidates, explores their relationships, and aggregates the local multimodal context for each instance. These instances then serve as guidance to enhance the scene feature and yield an instance-aware BEV representation. On the challenging nuScenes benchmark, IS-Fusion outperforms all the published multimodal works to date. Code is available at: https://github.com/yinjunbo/IS-Fusion.
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# GANアプローチによるロバストなユーティリティ最適化

Robust Utility Optimization via a GAN Approach ( http://arxiv.org/abs/2403.15243v1 )

ライセンス: Link先を確認
Florian Krach, Josef Teichmann, Hanna Wutte, (参考訳) ロバストなユーティリティ最適化により、投資家は最悪の結果の最大化を目標として、構造化された方法で市場の不確実性に対処できる。 本研究では,GAN(Generative Adversarial Network)アプローチを用いて,汎用的かつ現実的な設定において,堅牢なユーティリティ最適化問題を(ほぼ)解決する手法を提案する。 特に、投資家と市場の両方をニューラルネットワーク(NN)でモデル化し、ミニマックスゼロサムゲームでトレーニングする。 このアプローチは、継続的なユーティリティ機能や、市場の可観測情報のみを使用する取引コストを伴う現実的な市場設定に適用できる。 大規模な実証実験により,本手法の汎用性を示した。 最適な参照戦略が利用可能であればいつでも,メソッドはそれと同等に動作し,かつ,既知の最適戦略のない(多くの)設定では,他の参照戦略よりも優れています。 さらに,本研究から,訓練された経路依存戦略がマルコフ戦略を上回るものではないと結論付けることができる。 最後に、取引コストに対する(非)ロバストな投資を最適に学習するための我々の生成的アプローチが、理想化された設定のよく知られた漸近的戦略に対して、普遍的に適用可能な代替手段を生み出していることを明らかにする。

Robust utility optimization enables an investor to deal with market uncertainty in a structured way, with the goal of maximizing the worst-case outcome. In this work, we propose a generative adversarial network (GAN) approach to (approximately) solve robust utility optimization problems in general and realistic settings. In particular, we model both the investor and the market by neural networks (NN) and train them in a mini-max zero-sum game. This approach is applicable for any continuous utility function and in realistic market settings with trading costs, where only observable information of the market can be used. A large empirical study shows the versatile usability of our method. Whenever an optimal reference strategy is available, our method performs on par with it and in the (many) settings without known optimal strategy, our method outperforms all other reference strategies. Moreover, we can conclude from our study that the trained path-dependent strategies do not outperform Markovian ones. Lastly, we uncover that our generative approach for learning optimal, (non-) robust investments under trading costs generates universally applicable alternatives to well known asymptotic strategies of idealized settings.
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# 非一様滑らかな非凸最適化のための確率的準ニュートン法

A Stochastic Quasi-Newton Method for Non-convex Optimization with Non-uniform Smoothness ( http://arxiv.org/abs/2403.15244v1 )

ライセンス: Link先を確認
Zhenyu Sun, Ermin Wei, (参考訳) 最適化アルゴリズムの古典的な収束解析は、広く適応された均一な滑らかさの仮定に依存する。 しかし、最近の実験では、多くの機械学習問題が不均一な滑らかさを示しており、つまり滑らかさ係数は普遍定数ではなくモデルパラメータの関数である。 特に、トレーニング軌道に沿った勾配ノルムに対して滑らかさが増加することが観察されている。 この現象に触発され、最近導入された$(L_0, L_1)$-smoothnessは、従来の$-L$-smoothnessと比較してより一般的な概念であり、滑らかさと勾配ノルムの間のそのような正の関係を捉えている。 このタイプの非一様滑らか性の下で、既存の文献は勾配クリッピング法を利用して確率的一階法を設計し、最適な$\mathcal{O}(\epsilon^{-3})$サンプル複雑性を求め、$\epsilon$-approximate 1階定常解を求める。 しかし、準ニュートン法の研究はいまだに不足している。 本稿では, 準ニュートン法について, より精度が高く, より堅牢性が高いことを考慮し, 滑らか性に非均一性が存在する場合の高速確率的準ニュートン法を提案する。 勾配のクリッピングとばらつきの低減を利用して、我々のアルゴリズムは最もよく知られた$\mathcal{O}(\epsilon^{-3})$サンプルの複雑さを達成でき、単純なハイパーパラメータチューニングで収束速度を上げることができる。 我々の数値実験により,提案アルゴリズムは最先端の手法よりも優れていることが示された。

Classical convergence analyses for optimization algorithms rely on the widely-adopted uniform smoothness assumption. However, recent experimental studies have demonstrated that many machine learning problems exhibit non-uniform smoothness, meaning the smoothness factor is a function of the model parameter instead of a universal constant. In particular, it has been observed that the smoothness grows with respect to the gradient norm along the training trajectory. Motivated by this phenomenon, the recently introduced $(L_0, L_1)$-smoothness is a more general notion, compared to traditional $L$-smoothness, that captures such positive relationship between smoothness and gradient norm. Under this type of non-uniform smoothness, existing literature has designed stochastic first-order algorithms by utilizing gradient clipping techniques to obtain the optimal $\mathcal{O}(\epsilon^{-3})$ sample complexity for finding an $\epsilon$-approximate first-order stationary solution. Nevertheless, the studies of quasi-Newton methods are still lacking. Considering higher accuracy and more robustness for quasi-Newton methods, in this paper we propose a fast stochastic quasi-Newton method when there exists non-uniformity in smoothness. Leveraging gradient clipping and variance reduction, our algorithm can achieve the best-known $\mathcal{O}(\epsilon^{-3})$ sample complexity and enjoys convergence speedup with simple hyperparameter tuning. Our numerical experiments show that our proposed algorithm outperforms the state-of-the-art approaches.
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# ビデオのための推論強化型オブジェクト中心学習

Reasoning-Enhanced Object-Centric Learning for Videos ( http://arxiv.org/abs/2403.15245v1 )

ライセンス: Link先を確認
Jian Li, Pu Ren, Yang Liu, Hao Sun, (参考訳) オブジェクト中心学習は、複雑な視覚シーンをより管理可能なオブジェクト表現に分解し、物理的な世界に向けて機械学習システムの理解と推論能力を強化することを目的としている。 近年,スロットベースビデオモデルでは,オブジェクトのセグメンテーションや追跡に顕著な習熟度が示されているが,効果的な推論モジュールの重要性は無視されている。 現実世界では、推論と予測能力は人間の知覚や物体追跡において重要な役割を担っている。 そこで我々は,Slotベースの Time-Space Transformer with Memory buffer (STATM) と呼ばれる新しい推論モジュールを設計し,複雑なシーンにおけるモデルの知覚能力を向上した。 メモリバッファは、主に上流モジュールからのスロット情報のストレージとして機能し、スロットベースの時空間変換器はスロットベースの時空間注意計算と融合によって予測を行う。 実験の結果,STATMはスロットベースビデオモデルのオブジェクト中心学習能力を著しく向上させることができることがわかった。

Object-centric learning aims to break down complex visual scenes into more manageable object representations, enhancing the understanding and reasoning abilities of machine learning systems toward the physical world. Recently, slot-based video models have demonstrated remarkable proficiency in segmenting and tracking objects, but they overlook the importance of the effective reasoning module. In the real world, reasoning and predictive abilities play a crucial role in human perception and object tracking; in particular, these abilities are closely related to human intuitive physics. Inspired by this, we designed a novel reasoning module called the Slot-based Time-Space Transformer with Memory buffer (STATM) to enhance the model's perception ability in complex scenes. The memory buffer primarily serves as storage for slot information from upstream modules, the Slot-based Time-Space Transformer makes predictions through slot-based spatiotemporal attention computations and fusion. Our experiment results on various datasets show that STATM can significantly enhance object-centric learning capabilities of slot-based video models.
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# FollowIR: 情報検索モデルの評価と指導

FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions ( http://arxiv.org/abs/2403.15246v1 )

ライセンス: Link先を確認
Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, Luca Soldaini, (参考訳) 現代の大規模言語モデル(LLM)は、多種多様なユーザタスクを可能にする長く複雑な命令に従うことができる。 しかしながら、アーキテクチャのバックボーンとしてLLMを使用したInformation Retrieval (IR)モデルにもかかわらず、ほとんどすべてのアーキテクチャは、命令なしでクエリを入力としてのみ取り込んでいる。 命令を取る最近のモデルでは、どのように使うのかは定かではありません。 このデータセットには厳密なインストラクション評価ベンチマークと、IRモデルによる実世界のインストラクションの学習を支援するトレーニングセットが含まれています。 TRECは人間のアノテータに文書の関連性を決定する命令(物語とも呼ばれる)を提供するので、IRモデルはこれらの詳細な指示に基づいて関連性を理解して決定することができる。 評価ベンチマークでは,3つのTRECコレクションから開始し,アノテータ命令を変更し,関連文書を再注釈する。 このプロセスを通じて、新しいペアワイズ評価フレームワークにより、IRモデルがどのように命令に従うかを測定することができる。 この結果から,既存の検索モデルでは命令を正しく使用できず,基本キーワードとして使用し,長文情報の理解に苦慮していることが示唆された。 我々の新しいFollowIR-7Bモデルは、トレーニングセットを微調整した後、13%以上で大幅に改善されている。

Modern Large Language Models (LLMs) are capable of following long and complex instructions that enable a diverse amount of user tasks. However, despite Information Retrieval (IR) models using LLMs as the backbone of their architectures, nearly all of them still only take queries as input, with no instructions. For the handful of recent models that do take instructions, it's unclear how they use them. We introduce our dataset FollowIR, which contains a rigorous instruction evaluation benchmark as well as a training set for helping IR models learn to better follow real-world instructions. FollowIR builds off the long history of the TREC conferences: as TREC provides human annotators with instructions (also known as narratives) to determine document relevance, so should IR models be able to understand and decide relevance based on these detailed instructions. Our evaluation benchmark starts with three deeply judged TREC collections and alters the annotator instructions, re-annotating relevant documents. Through this process, we can measure how well IR models follow instructions, through a new pairwise evaluation framework. Our results indicate that existing retrieval models fail to correctly use instructions, using them for basic keywords and struggling to understand long-form information. However, we show that it is possible for IR models to learn to follow complex instructions: our new FollowIR-7B model has significant improvements (over 13%) after fine-tuning on our training set.
翻訳日:2024-03-25 17:09:34 公開日:2024-03-22
# 多様な農業ビジョンタスクのための自己監督型バックボーンフレームワーク

Self-Supervised Backbone Framework for Diverse Agricultural Vision Tasks ( http://arxiv.org/abs/2403.15248v1 )

ライセンス: Link先を確認
Sudhir Sornapudi, Rajhans Singh, (参考訳) 農業におけるコンピュータビジョンは、農業をデータ駆動で正確で持続可能な産業に変える能力によって、ゲームを変える。 ディープラーニングは農業のビジョンに力を与えて、膨大な複雑な視覚データを分析するが、大きな注釈付きデータセットの可用性に大きく依存している。 手動のラベリングはエラーを起こしやすく、時間がかかり、コストがかかるため、これはボトルネックのままである。 効率的なラベル付けアプローチの欠如は、自己指導型学習をパラダイムシフトと考え、生の農業画像データから有意義な特徴表現を学習するきっかけとなった。 本研究では,大規模アノテートデータセットの必要性を排除し,自己指導型表現学習が多様な農業ビジョンタスクに適用可能性を高める方法について検討する。 本研究では,ResNet-50のバックボーンを実世界の農地画像の大規模データセット上に事前学習するための,コントラスト学習手法であるSimCLRを用いた軽量フレームワークを提案する。 実験結果から,本モデルが下流農業の幅広い課題に適用可能なロバストな特徴を学習できることが示唆された。 さらに、注釈付きデータへの依存度を下げることで、我々のアプローチはより費用効率が高くアクセスしやすくなり、農業におけるコンピュータビジョンの広範な採用の道を開くことができる。

Computer vision in agriculture is game-changing with its ability to transform farming into a data-driven, precise, and sustainable industry. Deep learning has empowered agriculture vision to analyze vast, complex visual data, but heavily rely on the availability of large annotated datasets. This remains a bottleneck as manual labeling is error-prone, time-consuming, and expensive. The lack of efficient labeling approaches inspired us to consider self-supervised learning as a paradigm shift, learning meaningful feature representations from raw agricultural image data. In this work, we explore how self-supervised representation learning unlocks the potential applicability to diverse agriculture vision tasks by eliminating the need for large-scale annotated datasets. We propose a lightweight framework utilizing SimCLR, a contrastive learning approach, to pre-train a ResNet-50 backbone on a large, unannotated dataset of real-world agriculture field images. Our experimental analysis and results indicate that the model learns robust features applicable to a broad range of downstream agriculture tasks discussed in the paper. Additionally, the reduced reliance on annotated data makes our approach more cost-effective and accessible, paving the way for broader adoption of computer vision in agriculture.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# 拡散モデルを用いた映像移動のためのスペクトル運動アライメント

Spectral Motion Alignment for Video Motion Transfer using Diffusion Models ( http://arxiv.org/abs/2403.15249v1 )

ライセンス: Link先を確認
Geon Yeong Park, Hyeonho Jeong, Sang Wan Lee, Jong Chul Ye, (参考訳) 拡散モデルの進化はビデオ生成と理解に大きな影響を与えた。 特に、テキスト・ビデオ拡散モデル(VDM)は、ターゲットの外観や動きなどの入力ビデオのカスタマイズを著しく促進している。 これらの進歩にもかかわらず、ビデオフレームから運動情報を正確に蒸留することは困難である。 既存の研究では、連続したフレーム残差を目標運動ベクトルとして利用しているが、本質的にはグローバルな動きコンテキストが欠如しており、フレームの歪みに弱い。 これを解決するために、フーリエ変換とウェーブレット変換を用いて動きベクトルを洗練・整列する新しいフレームワークであるスペクトル運動アライメント(SMA)を提案する。 SMAは、周波数領域の正規化を導入し、全フレームのグローバルな運動力学の学習を容易にし、空間的アーティファクトを緩和することで、動きパターンを学習する。 大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。

The evolution of diffusion models has greatly impacted video generation and understanding. Particularly, text-to-video diffusion models (VDMs) have significantly facilitated the customization of input video with target appearance, motion, etc. Despite these advances, challenges persist in accurately distilling motion information from video frames. While existing works leverage the consecutive frame residual as the target motion vector, they inherently lack global motion context and are vulnerable to frame-wise distortions. To address this, we present Spectral Motion Alignment (SMA), a novel framework that refines and aligns motion vectors using Fourier and wavelet transforms. SMA learns motion patterns by incorporating frequency-domain regularization, facilitating the learning of whole-frame global motion dynamics, and mitigating spatial artifacts. Extensive experiments demonstrate SMA's efficacy in improving motion transfer while maintaining computational efficiency and compatibility across various video customization frameworks.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# LLMにおける大規模評価結果の総合的再評価:多面的統計的アプローチ

Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach ( http://arxiv.org/abs/2403.15250v1 )

ライセンス: Link先を確認
Kun Sun, Rong Wang, Haitao Liu, Anders Søgaard, (参考訳) LLMの急速な進化の中で、これらのモデルを前進させ、推進する際の評価の重要性はますます高まっている。 評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。 しかしながら、これらの影響の程度と性質は、ほとんどの評価が限られた数のモデルとデータポイントに限定されているため、議論の対象となっている。 これらの要因がパフォーマンススコアに与える影響を明らかにすることは、統計レンズによりより効果的に達成できる。 本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。 本研究は,一様評価フレームワークの出現に伴い,広範な評価結果のデータセットを活用し,包括的統計手法を導入する。 これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術の適用が含まれており、LLMパフォーマンスデータを解読するための堅牢で透明なアプローチを提供する。 一方,本研究の結果は,LLMにおける創発的能力の仮定や,与えられたトレーニングタイプやアーキテクチャの影響に疑問を呈している。 これらの知見は, LLMの特性, 内在性, 発達軌跡に新たな視点をもたらした。 本研究は, LLMの性能データを精査・再評価するための簡便で信頼性の高い手法を提供することにより, LLMの効率とポテンシャルに関する微妙な視点に寄与する。

Amidst the rapid evolution of LLMs, the significance of evaluation in comprehending and propelling these models forward is increasingly paramount. Evaluations have revealed that factors such as scaling, training types, architectures and other factors profoundly impact the performance of LLMs. However, the extent and nature of these impacts continue to be subjects of debate because most assessments have been restricted to a limited number of models and data points. Clarifying the effects of these factors on performance scores can be more effectively achieved through a statistical lens. Our study embarks on a thorough re-examination of these LLMs, targeting the inadequacies in current evaluation methods. With the advent of a uniform evaluation framework, our research leverages an expansive dataset of evaluation results, introducing a comprehensive statistical methodology. This includes the application of ANOVA, Tukey HSD tests, GAMM, and clustering technique, offering a robust and transparent approach to deciphering LLM performance data. Contrary to prevailing findings, our results challenge assumptions about emergent abilities and the influence of given training types and architectures in LLMs. These findings furnish new perspectives on the characteristics, intrinsic nature, and developmental trajectories of LLMs. By providing straightforward and reliable methods to scrutinize and reassess LLM performance data, this study contributes a nuanced perspective on LLM efficiency and potentials.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# 条件付きPDDLドメインの安全な学習 -- 拡張バージョン

Safe Learning of PDDL Domains with Conditional Effects -- Extended Version ( http://arxiv.org/abs/2403.15251v1 )

ライセンス: Link先を確認
Argaman Mordoch, Enrico Scala, Roni Stern, Brendan Juba, (参考訳) ドメインに依存しない強力なプランナーが開発され,様々な計画課題が解決されている。 これらのプランナーは、いくつかの計画ドメイン記述言語で与えられる、エージェントのアクションのモデルを必要とすることが多い。 このようなアクションモデルを手作業で設計するのは、非常に難しい作業です。 別の方法は、観察からアクションモデルを自動的に学習することです。 このようなアクションモデルは、実際の未知のアクションモデルと一貫性のあるすべての計画が作成された場合、セーフと呼ばれる。 このような安全な行動モデルを学ぶアルゴリズムは存在するが、多くの計画問題において一般的な構成である条件付きあるいは普遍的な効果を持つ領域を扱うことはできない。 条件付効果を持つ非自明な安全な行動モデルを学ぶには指数的なサンプル数が必要であることを実証する。 そこで我々は,そのような学習が抽出可能な合理的な仮定を特定し,それを実現するアルゴリズムであるSAMラーニング・オブ・コンディショナル・エフェクト(Conditional-SAM)を提案する。 Conditional-SAMを理論的に分析し,実験的に評価する。 この結果から,Conditional-SAMで学習したアクションモデルを用いて,実験された領域のほとんどにおいて,テストセット問題を完全に解決できることが示唆された。

Powerful domain-independent planners have been developed to solve various types of planning problems. These planners often require a model of the acting agent's actions, given in some planning domain description language. Manually designing such an action model is a notoriously challenging task. An alternative is to automatically learn action models from observation. Such an action model is called safe if every plan created with it is consistent with the real, unknown action model. Algorithms for learning such safe action models exist, yet they cannot handle domains with conditional or universal effects, which are common constructs in many planning problems. We prove that learning non-trivial safe action models with conditional effects may require an exponential number of samples. Then, we identify reasonable assumptions under which such learning is tractable and propose SAM Learning of Conditional Effects (Conditional-SAM), the first algorithm capable of doing so. We analyze Conditional-SAM theoretically and evaluate it experimentally. Our results show that the action models learned by Conditional-SAM can be used to solve perfectly most of the test set problems in most of the experimented domains.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# ソーシャルネットワークにおけるカスケード予測のための階層型情報強調ネットワーク

Hierarchical Information Enhancement Network for Cascade Prediction in Social Networks ( http://arxiv.org/abs/2403.15257v1 )

ライセンス: Link先を確認
Fanrui Zhang, Jiawei Liu, Qiang Zhang, Xiaoling Zhu, Zheng-Jun Zha, (参考訳) ネットワークにおける情報カスケードの理解は多くのアプリケーションにおいて基本的な問題である。 現在の研究では、カスケード情報をいくつかの独立したパスやサブグラフにサンプリングして、単純なカスケード表現を学ぶことがしばしばある。 しかし、これらのアプローチは異なるモダリティ間の階層的セマンティックアソシエーションを利用することができず、予測性能を制限している。 本研究では,カスケード予測のための階層型情報拡張ネットワーク(HIENet)を提案する。 本手法では,基本カスケードシーケンス,ユーザソーシャルグラフ,サブカスケードグラフを統合フレームワークに統合する。 具体的には、HIENetはDeepWalkを使用してカスケード情報を一連のシーケンスにサンプリングする。 そして、ユーザ間の経路情報を収集し、プロパゲータの社会的関係を抽出する。 さらに、時間スタンプ付きグラフ畳み込みネットワークを用いて、サブカスケードグラフ情報を効果的に集約する。 最終的に、これらのヒントを効果的に融合させるマルチモーダルカスケード変換器を導入し、カスケードプロセスの包括的理解を提供する。 提案手法の有効性を実験により実証した。

Understanding information cascades in networks is a fundamental issue in numerous applications. Current researches often sample cascade information into several independent paths or subgraphs to learn a simple cascade representation. However, these approaches fail to exploit the hierarchical semantic associations between different modalities, limiting their predictive performance. In this work, we propose a novel Hierarchical Information Enhancement Network (HIENet) for cascade prediction. Our approach integrates fundamental cascade sequence, user social graphs, and sub-cascade graph into a unified framework. Specifically, HIENet utilizes DeepWalk to sample cascades information into a series of sequences. It then gathers path information between users to extract the social relationships of propagators. Additionally, we employ a time-stamped graph convolutional network to aggregate sub-cascade graph information effectively. Ultimately, we introduce a Multi-modal Cascade Transformer to powerfully fuse these clues, providing a comprehensive understanding of cascading process. Extensive experiments have demonstrated the effectiveness of the proposed method.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# 視覚外乱検出のためのハイパーボリック・メトリック・ラーニング

Hyperbolic Metric Learning for Visual Outlier Detection ( http://arxiv.org/abs/2403.15260v1 )

ライセンス: Link先を確認
Alvaro Gonzalez-Jimenez, Simone Lionetti, Dena Bazazian, Philippe Gottfrois, Fabian Gröger, Marc Pouly, Alexander Navarini, (参考訳) Out-Of-Distribution (OOD)検出は、ディープラーニングモデルを安全クリティカルなアプリケーションにデプロイするために重要である。 しかし、OOD検出に有効な視覚データの固有階層的概念構造は、ユークリッド幾何学に基づく従来の手法では、しばしば不十分である。 本研究は,OOD検出における双曲幾何学の強みを利用する計量フレームワークを提案する。 OODデータの決定境界を合成外れ値で洗練する以前の研究から着想を得て,この手法をハイパーボリック空間に拡張する。 興味深いことに、人工外乱器はユークリッド空間のように双曲空間におけるOOD検出の恩恵を受けない。 さらに,OOD検出性能とハイパーボリック埋込み寸法の関係を考察し,資源制約環境における実用上の懸念に対処する。 CIFAR-10 と CIFAR-100 でそれぞれ 22 % から 15 % に,CIFAR-10 と CIFAR-100 では 49% から 28% に改善した。

Out-Of-Distribution (OOD) detection is critical to deploy deep learning models in safety-critical applications. However, the inherent hierarchical concept structure of visual data, which is instrumental to OOD detection, is often poorly captured by conventional methods based on Euclidean geometry. This work proposes a metric framework that leverages the strengths of Hyperbolic geometry for OOD detection. Inspired by previous works that refine the decision boundary for OOD data with synthetic outliers, we extend this method to Hyperbolic space. Interestingly, we find that synthetic outliers do not benefit OOD detection in Hyperbolic space as they do in Euclidean space. Furthermore we explore the relationship between OOD detection performance and Hyperbolic embedding dimension, addressing practical concerns in resource-constrained environments. Extensive experiments show that our framework improves the FPR95 for OOD detection from 22\% to 15\% and from 49% to 28% on CIFAR-10 and CIFAR-100 respectively compared to Euclidean methods.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# Federated Bayesian Deep Learning: 統計的集約法のベイズモデルへの応用

Federated Bayesian Deep Learning: The Application of Statistical Aggregation Methods to Bayesian Models ( http://arxiv.org/abs/2403.15263v1 )

ライセンス: Link先を確認
John Fischer, Marko Orescanin, Justin Loomis, Patrick McClure, (参考訳) フェデレーション・ラーニング(FL)は、複数の分散データセットを活用しながらデータのプライバシを維持し、ローカルデータセットの共有に関連する通信コストを低減する機械学習モデルをトレーニングするアプローチである。 分散決定論的モデルの重みとバイアスをプールまたはフューズするために集約戦略が開発されたが、現代の決定論的深層学習(DL)モデルは、しばしば調整が不十分であり、リモートセンシングプラットフォームや安全クリティカルなアプリケーションに望ましい、予測における疫学的不確実性の尺度を伝える能力が欠如している。 逆に、ベイジアンDLモデルはよく校正され、競合予測精度とともにててんかんの不確実性の尺度を定量化し、伝達することができる。 残念なことに、ベイズDLモデルの重みとバイアスは確率分布によって定義されるため、決定論的モデルに対するFLスキームに付随するアグリゲーション手法の単純な適用は不可能か、あるいは準最適性能をもたらす。 本研究では,CIFAR-10データセットの独立分散IIDおよび非IIDパーティションとResNet-20アーキテクチャを用いて,ベイジアンDLモデルの6つの異なる集約戦略を解析する。 さらに,ベイジアンモンテカルロのドロップアウトモデルに適用された従来のフェデレーション平均化手法を,FLにおけるより複雑な変分推論手法の軽量な代替手段として解析した。 ベイズ型FLシステムの設計における集約戦略は, 精度, 校正, 不確実性定量化, トレーニング安定性, クライアントの計算要求に影響を及ぼす重要なパラメータであることを示す。

Federated learning (FL) is an approach to training machine learning models that takes advantage of multiple distributed datasets while maintaining data privacy and reducing communication costs associated with sharing local datasets. Aggregation strategies have been developed to pool or fuse the weights and biases of distributed deterministic models; however, modern deterministic deep learning (DL) models are often poorly calibrated and lack the ability to communicate a measure of epistemic uncertainty in prediction, which is desirable for remote sensing platforms and safety-critical applications. Conversely, Bayesian DL models are often well calibrated and capable of quantifying and communicating a measure of epistemic uncertainty along with a competitive prediction accuracy. Unfortunately, because the weights and biases in Bayesian DL models are defined by a probability distribution, simple application of the aggregation methods associated with FL schemes for deterministic models is either impossible or results in sub-optimal performance. In this work, we use independent and identically distributed (IID) and non-IID partitions of the CIFAR-10 dataset and a fully variational ResNet-20 architecture to analyze six different aggregation strategies for Bayesian DL models. Additionally, we analyze the traditional federated averaging approach applied to an approximate Bayesian Monte Carlo dropout model as a lightweight alternative to more complex variational inference methods in FL. We show that aggregation strategy is a key hyperparameter in the design of a Bayesian FL system with downstream effects on accuracy, calibration, uncertainty quantification, training stability, and client compute requirements.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# 深部強化学習によるパラメトリックPDE制御と微分可能なL0スパース多項式

Parametric PDE Control with Deep Reinforcement Learning and Differentiable L0-Sparse Polynomial Policies ( http://arxiv.org/abs/2403.15267v1 )

ライセンス: Link先を確認
Nicolò Botteghi, Urban Fasel, (参考訳) パラメトリック偏微分方程式(PDE)の最適制御は、工学や科学における多くの応用において重要である。 近年、科学機械学習の進歩により、パラメトリックPDEの制御のための新たなフロンティアが開かれた。 特に、深部強化学習(DRL)は、多種多様なアプリケーションにおいて高次元かつ複雑な制御問題を解く可能性がある。 ほとんどのDRLメソッドはディープニューラルネットワーク(DNN)制御ポリシーに依存している。 しかし、多くの動的システムでは、DNNベースの制御ポリシーは過度にパラメータ化されがちである。 本研究では,パラメトリックPDEのスパース,ロバスト,解釈可能な制御ポリシを学習するために,辞書学習と微分可能なL$_0$正規化を活用する。 我々のスパースポリシーアーキテクチャはDRL法に非依存であり、ポリシー最適化手順を変更することなく、異なるポリシー勾配およびアクタークリティカルなDRLアルゴリズムで使用することができる。 我々は,パラメトリックな倉本・シヴァシンスキーと対流拡散反応PDEの制御という課題に対して,我々のアプローチを検証した。 提案手法は,(1)ベースラインDNNに基づくDRLポリシーを上回り,(2)学習された最適制御法則の解釈可能な方程式の導出を可能にし,(3)ポリシーを再学習することなくPDEの未確認パラメータに一般化できることを示す。

Optimal control of parametric partial differential equations (PDEs) is crucial in many applications in engineering and science. In recent years, the progress in scientific machine learning has opened up new frontiers for the control of parametric PDEs. In particular, deep reinforcement learning (DRL) has the potential to solve high-dimensional and complex control problems in a large variety of applications. Most DRL methods rely on deep neural network (DNN) control policies. However, for many dynamical systems, DNN-based control policies tend to be over-parametrized, which means they need large amounts of training data, show limited robustness, and lack interpretability. In this work, we leverage dictionary learning and differentiable L$_0$ regularization to learn sparse, robust, and interpretable control policies for parametric PDEs. Our sparse policy architecture is agnostic to the DRL method and can be used in different policy-gradient and actor-critic DRL algorithms without changing their policy-optimization procedure. We test our approach on the challenging tasks of controlling parametric Kuramoto-Sivashinsky and convection-diffusion-reaction PDEs. We show that our method (1) outperforms baseline DNN-based DRL policies, (2) allows for the derivation of interpretable equations of the learned optimal control laws, and (3) generalizes to unseen parameters of the PDE without retraining the policies.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# Imagination Augmented Generation:大規模言語モデルに対する質問応答のためのよりリッチなコンテキストを想像する学習

Imagination Augmented Generation: Learning to Imagine Richer Context for Question Answering over Large Language Models ( http://arxiv.org/abs/2403.15268v1 )

ライセンス: Link先を確認
Huanxuan Liao, Shizhu He, Yao Xu, Yuanzhe Zhang, Kang Liu, Shengping Liu, Jun Zhao, (参考訳) 大規模言語モデル(LLM)上での質問応答に必要な知識を高めるために,検索・拡張・ジェネレーションとジェネレーション・拡張・ジェネレーションを提案する。 しかし、前者は外部リソースに依存しており、どちらも明示的な文書をコンテキストに組み込む必要があり、結果としてより長いコンテキストがリソース消費につながる。 最近の研究は、LLMが豊かな知識をモデル化したことを示している。 そこで本研究では,知識不足を補うための人的能力を模擬する新たな知識増強フレームワークImagination-Augmented-Generation(IAG)を提案する。 IAG が指導する質問応答のためのよりリッチな文脈解法 (IMcQA) を提案する。この手法は,長文圧縮による短いダミー文書の生成と,適応重みを生成するHyperNetwork による暗黙的な想像力によって,以下の2つのモジュールを通してよりリッチな文脈を求める。 3つのデータセットの実験結果から、IMcQAは、オープンドメインとクローズドブックの両方で大きな利点を示し、また、分布内性能と分布外一般化の両方で有益であることが示された。 私たちのコードはhttps://github.com/Xnhyacinth/IAG.comで公開されます。

Retrieval-Augmented-Generation and Gener-ation-Augmented-Generation have been proposed to enhance the knowledge required for question answering over Large Language Models (LLMs). However, the former depends on external resources, and both require incorporating the explicit documents into the context, which results in longer contexts that lead to more resource consumption. Recent works indicate that LLMs have modeled rich knowledge, albeit not effectively triggered or activated. Inspired by this, we propose a novel knowledge-augmented framework, Imagination-Augmented-Generation (IAG), which simulates the human capacity to compensate for knowledge deficits while answering questions solely through imagination, without relying on external resources. Guided by IAG, we propose an imagine richer context method for question answering (IMcQA), which obtains richer context through the following two modules: explicit imagination by generating a short dummy document with long context compress and implicit imagination with HyperNetwork for generating adapter weights. Experimental results on three datasets demonstrate that IMcQA exhibits significant advantages in both open-domain and closed-book settings, as well as in both in-distribution performance and out-of-distribution generalizations. Our code will be available at https://github.com/Xnhyacinth/IAG.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# ハードウェアフィンガープリントからアクセストークンへ - IoTデバイスの認証を強化する

From Hardware Fingerprint to Access Token: Enhancing the Authentication on IoT Devices ( http://arxiv.org/abs/2403.15271v1 )

ライセンス: Link先を確認
Yue Xiao, Yi He, Xiaoli Zhang, Qian Wang, Renjie Xie, Kun Sun, Ke Xu, Qi Li, (参考訳) 当社の日常生活におけるIoT製品の普及は、セキュアなデバイス認証とアクセス制御の必要性を高めました。 残念ながら、これらのリソース制限されたデバイスは通常、トークンベースの認証を使用する。これは、攻撃者がデバイスを偽装し、アクセストークンを盗んで悪意ある操作を実行できる、トークンの侵入攻撃に対して脆弱である。 ハードウェア指紋を使って認証を保護することは、これらの脅威を軽減するための有望な方法だ。 しかし、攻撃者がいくつかのハードウェア指紋(たとえばMitM攻撃)を盗んだら、機械学習モデルを訓練して指紋を模倣したり、それらの指紋を再利用して偽造要求を発生させることで、ハードウェア認証を回避できる。 本稿では,MCUベースのIoTデバイスを対象としたセキュアなハードウェアフィンガープリントフレームワークであるMCU-Tokenを提案する。 MCU-Tokenは、既存のペイロードに短いハードウェア指紋ベースのトークンを追加するだけで、さまざまなIoTデバイスと簡単に統合できる。 このトークンの再利用を防止するために,要求ペイロードに基づいてハードウェア指紋を生成することにより,トークンを特定の要求にバインドするメッセージマッピング手法を提案する。 機械学習攻撃を倒すため、有効な指紋と有毒データとを混合し、攻撃者が漏洩したトークンで使用可能なモデルをトレーニングできないようにする。 MCU-Tokenは、MitM経由で要求をリプレイ、クラフト、オフロードしたり、ハードウェア(例えば同一デバイスを使用する)とソフトウェア(例えば機械学習攻撃)の両方を使って指紋を模倣する装甲敵に対して防御することができる。 システム評価によると、MCU-Tokenは、さまざまなIoTデバイスやアプリケーションシナリオのオーバーヘッドを低くして、高い精度(97%以上)を達成することができる。

The proliferation of consumer IoT products in our daily lives has raised the need for secure device authentication and access control. Unfortunately, these resource-constrained devices typically use token-based authentication, which is vulnerable to token compromise attacks that allow attackers to impersonate the devices and perform malicious operations by stealing the access token. Using hardware fingerprints to secure their authentication is a promising way to mitigate these threats. However, once attackers have stolen some hardware fingerprints (e.g., via MitM attacks), they can bypass the hardware authentication by training a machine learning model to mimic fingerprints or reusing these fingerprints to craft forge requests. In this paper, we present MCU-Token, a secure hardware fingerprinting framework for MCU-based IoT devices even if the cryptographic mechanisms (e.g., private keys) are compromised. MCU-Token can be easily integrated with various IoT devices by simply adding a short hardware fingerprint-based token to the existing payload. To prevent the reuse of this token, we propose a message mapping approach that binds the token to a specific request via generating the hardware fingerprints based on the request payload. To defeat the machine learning attacks, we mix the valid fingerprints with poisoning data so that attackers cannot train a usable model with the leaked tokens. MCU-Token can defend against armored adversary who may replay, craft, and offload the requests via MitM or use both hardware (e.g., use identical devices) and software (e.g., machine learning attacks) strategies to mimic the fingerprints. The system evaluation shows that MCU-Token can achieve high accuracy (over 97%) with a low overhead across various IoT devices and application scenarios.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# WSCLOC:スパークビューカメラのリローカライズ

WSCLoc: Weakly-Supervised Sparse-View Camera Relocalization ( http://arxiv.org/abs/2403.15272v1 )

ライセンス: Link先を確認
Jialu Wang, Kaichen Zhou, Andrew Markham, Niki Trigoni, (参考訳) カメラ再ローカライゼーションタスクにおけるディープラーニングの進歩にもかかわらず、トレーニングプロセスに必要な基礎的な真実のポーズラベルを取得することは、依然としてコストがかかる作業である。 現在の弱い教師付き手法は軽量なラベル生成に優れているが、その性能はスパースビューのシナリオで顕著に低下している。 この課題に対応するために,WSCLocを導入した。WSCLocは様々な深層学習に基づく再ローカライゼーションモデルにカスタマイズ可能なシステムで,弱教師付き・疎視条件下での性能を向上させる。 これは2段階で実現される。 初期段階では、WSCLocはWFT-NeRFと呼ばれる多層パーセプトロン構造を用いて、画像再構成の品質と初期ポーズ情報の共同最適化を行う。 安定した学習プロセスを確保するため、時間情報を入力として組み込む。 さらに、SE(3)を最適化する代わりに、スケール制約を明示的に強制するために$\mathfrak{sim}(3)$最適化を選択する。 第2段階では,事前学習したWFT-NeRFとWFT-Poseを併用する。 この最適化は、時間エンコーディングに基づくランダムビュー合成によって強化され、ポーズ、深さ、RGB情報を考慮したフレーム間幾何学的制約によって監督される。 我々は,屋外と屋内の2つの公開データセットに対して,我々のアプローチを検証する。 実験により,我々の弱教師付き再局在化ソリューションはスパースビューのシナリオにおいて,最先端のカメラ再局在法に匹敵する優れたポーズ推定精度が得られることが示された。 コードを公開します。

Despite the advancements in deep learning for camera relocalization tasks, obtaining ground truth pose labels required for the training process remains a costly endeavor. While current weakly supervised methods excel in lightweight label generation, their performance notably declines in scenarios with sparse views. In response to this challenge, we introduce WSCLoc, a system capable of being customized to various deep learning-based relocalization models to enhance their performance under weakly-supervised and sparse view conditions. This is realized with two stages. In the initial stage, WSCLoc employs a multilayer perceptron-based structure called WFT-NeRF to co-optimize image reconstruction quality and initial pose information. To ensure a stable learning process, we incorporate temporal information as input. Furthermore, instead of optimizing SE(3), we opt for $\mathfrak{sim}(3)$ optimization to explicitly enforce a scale constraint. In the second stage, we co-optimize the pre-trained WFT-NeRF and WFT-Pose. This optimization is enhanced by Time-Encoding based Random View Synthesis and supervised by inter-frame geometric constraints that consider pose, depth, and RGB information. We validate our approaches on two publicly available datasets, one outdoor and one indoor. Our experimental results demonstrate that our weakly-supervised relocalization solutions achieve superior pose estimation accuracy in sparse-view scenarios, comparable to state-of-the-art camera relocalization methods. We will make our code publicly available.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# LLMを用いた検索に基づく事象時間関係抽出

Event Temporal Relation Extraction based on Retrieval-Augmented on LLMs ( http://arxiv.org/abs/2403.15273v1 )

ライセンス: Link先を確認
Xiaobin Zhang, Liangjun Zang, Qianwen Liu, Shuchong Wei, Songlin Hu, (参考訳) イベント時間関係(TempRel)は、イベント関係抽出タスクの主テーマである。 しかし、TempRelの本質的な曖昧さはタスクの難しさを増す。 プロンプトエンジニアリングの興隆に伴い、効果的なプロンプトテンプレートや言語化ツールを設計し、関連する知識を抽出することが重要である。 伝統的な手作業でデザインされたテンプレートは、正確な時間的知識を引き出すのに苦労する。 本稿では,大規模言語モデル (LLM) から抽出した知識を活用して,テンプレートや動詞のプロンプトを強化した検索強化型TempRel抽出手法を提案する。 提案手法は,多種多様なLLMの多種多様な機能を活用して,テンプレートおよび言語化器設計のための多種多様なアイデアを生成する。 提案手法は,LLMが生成タスクにもたらす可能性を完全に活用し,設計により多くの知識を提供する。 広く認識されている3つのデータセットに対する実証評価は,事象時空間関係抽出タスクの性能向上に有効であることを示す。

Event temporal relation (TempRel) is a primary subject of the event relation extraction task. However, the inherent ambiguity of TempRel increases the difficulty of the task. With the rise of prompt engineering, it is important to design effective prompt templates and verbalizers to extract relevant knowledge. The traditional manually designed templates struggle to extract precise temporal knowledge. This paper introduces a novel retrieval-augmented TempRel extraction approach, leveraging knowledge retrieved from large language models (LLMs) to enhance prompt templates and verbalizers. Our method capitalizes on the diverse capabilities of various LLMs to generate a wide array of ideas for template and verbalizer design. Our proposed method fully exploits the potential of LLMs for generation tasks and contributes more knowledge to our design. Empirical evaluations across three widely recognized datasets demonstrate the efficacy of our method in improving the performance of event temporal relation extraction tasks.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# ChatGPTを用いたバイオインフォマティクスとバイオメディカルインフォマティクス

Bioinformatics and Biomedical Informatics with ChatGPT: Year One Review ( http://arxiv.org/abs/2403.15274v1 )

ライセンス: Link先を確認
Jinge Wang, Zien Cheng, Qiuming Yao, Li Liu, Dong Xu, Gangqing Hu, (参考訳) 2023年は、様々な分野にわたる大規模言語モデル(LLM)チャットボット、特にChatGPTの適用に関する調査において、大きな急上昇を見せた。 バイオインフォマティクス, バイオインフォマティクス, バイオインフォマティクス教育, バイオインフォマティクス教育, バイオインフォマティクス教育, バイオインフォマティクス教育, バイオインフォマティクス教育, バイオインフォマティクス教育, バイオインフォマティクス, バイオインフォマティクス, バイオインフォマティクス教育, バイオインフォマティクス, バイオインフォマティクス, バイオインフォマティクス, バイオインフォマティクス, バイオインフォマティクス, バイオインフォマティクスの様々な分野におけるChatGPTの適用について調査を行った。 バイオインフォマティクスにおけるこのチャットボットの現在の強みと限界を概説し、今後の発展への道のりについて考察する。

The year 2023 marked a significant surge in the exploration of applying large language model (LLM) chatbots, notably ChatGPT, across various disciplines. We surveyed the applications of ChatGPT in various sectors of bioinformatics and biomedical informatics throughout the year, covering omics, genetics, biomedical text mining, drug discovery, biomedical image understanding, bioinformatics programming, and bioinformatics education. Our survey delineates the current strengths and limitations of this chatbot in bioinformatics and offers insights into potential avenues for future development.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# Bell-CHSH不等式とユニタリ作用素

Bell-CHSH inequality and unitary operators ( http://arxiv.org/abs/2403.15276v1 )

ライセンス: Link先を確認
M. S. Guimaraes, I. Roditi, S. P. Sorella, (参考訳) 単位演算子はベル-CHSH不平等の違反を調べるために使用される。 古典的境界と量子的境界の両方に影響を及ぼす変化が解明される。 期待値が実数である特定の種類のユニタリ作用素の関連性が指摘される。 これらの作用素に対して、古典的および量子的境界はそれぞれ 2$ と $2\sqrt{2}$ で与えられる。 例えば、相対論的量子場論における実スカラー場に対するワイルユニタリ作用素について論じる。

Unitary operators are employed to investigate the violation of the Bell-CHSH inequality. The ensuing modifications affecting both classical and quantum bounds are elucidated. The relevance of a particular class of unitary operators whose expectation values are real is pointed out. For these operators, the classical and quantum bounds remain unaltered, being given, respectively, by $2$ and $2\sqrt{2}$. As an example, the Weyl unitary operators for a real scalar field in relativistic Quantum Field Theory are discussed.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# 包括性と抽象性によるジェネリティーの特定

Specifying Genericity through Inclusiveness and Abstractness Continuous Scales ( http://arxiv.org/abs/2403.15278v1 )

ライセンス: Link先を確認
Claudia Collacciani, Andrea Amelio Ravelli, Marianna Marcella Bolognesi, (参考訳) 本稿では,自然言語における名詞句(NP)の詳細なモデリングのための新しいアノテーションフレームワークを提案する。 このフレームワークはシンプルで直感的に設計されており、専門家でないアノテータにもアクセスでき、クラウドソースのタスクに適している。 一般性に関する理論的・認知的な文献から、この枠組みは確立された言語理論に根ざしている。 パイロットスタディを通じて、324文の小さなが重要な注釈付きデータセットを作成し、将来の研究の基盤となった。 提案手法の有効性を検証するため,同データセット上の既存のバイナリアノテーションと連続アノテーションを比較した。 我々の研究は、言語学者のための実践的なリソースを提供し、汎用性のセマンティクスの研究に使用可能な、最初の注釈付きデータセットと実際のデータセットを構築するためのアノテーションスキームを提供し、様々なNLPアプリケーションの拡張に有用なコモンセンス知識リポジトリの開発に寄与している。

This paper introduces a novel annotation framework for the fine-grained modeling of Noun Phrases' (NPs) genericity in natural language. The framework is designed to be simple and intuitive, making it accessible to non-expert annotators and suitable for crowd-sourced tasks. Drawing from theoretical and cognitive literature on genericity, this framework is grounded in established linguistic theory. Through a pilot study, we created a small but crucial annotated dataset of 324 sentences, serving as a foundation for future research. To validate our approach, we conducted an evaluation comparing our continuous annotations with existing binary annotations on the same dataset, demonstrating the framework's effectiveness in capturing nuanced aspects of genericity. Our work offers a practical resource for linguists, providing a first annotated dataset and an annotation scheme designed to build real-language datasets that can be used in studies on the semantics of genericity, and NLP practitioners, contributing to the development of commonsense knowledge repositories valuable in enhancing various NLP applications.
翻訳日:2024-03-25 16:59:49 公開日:2024-03-22
# Fundus: 高品質抽出に最適化されたシンプルで使いやすいニューススクラッパー

Fundus: A Simple-to-Use News Scraper Optimized for High Quality Extractions ( http://arxiv.org/abs/2403.15279v1 )

ライセンス: Link先を確認
Max Dallabetta, Conrad Dobberstein, Adrian Breiding, Alan Akbik, (参考訳) 本稿では,ユーザフレンドリーなニューススクレイパーであるFundusを紹介する。 既存のニューススクレイパーとは異なり、我々は、サポート対象のオンライン新聞のフォーマットガイドラインに合わせて特別に調整された手作りのコンテンツ抽出機を使用します。 これにより、検索したニュース記事がテキストで完結し、HTMLアーティファクトがないような品質のために、スクラップを最適化できます。 さらに,本フレームワークでは,クローリング(WebからHTMLを取り出す,あるいは大規模なWebアーカイブからHTMLを取り出す)とコンテンツ抽出をひとつのパイプラインにまとめる。 予め定義された新聞の集合体に統一されたインターフェースを提供することで、Fundusを非技術ユーザでも広く使えるようにすることを目指している。 本稿では,本フレームワークの概要と設計選択について考察し,他の人気ニューススクレイパーとの比較評価を行う。 評価の結果,Fundusは従来よりも品質の高い記事(完全かつアーティファクトフリーのニュース記事)を得られることがわかった。 このフレームワークはGitHubでhttps://github.com/flairNLP/fundusで入手できる。

This paper introduces Fundus, a user-friendly news scraper that enables users to obtain millions of high-quality news articles with just a few lines of code. Unlike existing news scrapers, we use manually crafted, bespoke content extractors that are specifically tailored to the formatting guidelines of each supported online newspaper. This allows us to optimize our scraping for quality such that retrieved news articles are textually complete and without HTML artifacts. Further, our framework combines both crawling (retrieving HTML from the web or large web archives) and content extraction into a single pipeline. By providing a unified interface for a predefined collection of newspapers, we aim to make Fundus broadly usable even for non-technical users. This paper gives an overview of the framework, discusses our design choices, and presents a comparative evaluation against other popular news scrapers. Our evaluation shows that Fundus yields significantly higher quality extractions (complete and artifact-free news articles) than prior work. The framework is available on GitHub under https://github.com/flairNLP/fundus and can be simply installed using pip.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# ブロックチェーンを用いた車両双極子移行の擬似管理

Blockchain-based Pseudonym Management for Vehicle Twin Migrations in Vehicular Edge Metaverse ( http://arxiv.org/abs/2403.15285v1 )

ライセンス: Link先を確認
Jiawen Kang, Xiaofeng Luo, Jiangtian Nie, Tianhao Wu, Haibo Zhou, Yonghua Wang, Dusit Niyato, Shiwen Mao, Shengli Xie, (参考訳) メタバースとエッジコンピューティング技術の進歩により、車両のエッジメタバースは、現在のインテリジェントトランスポートシステムのパラダイムを破壊することが期待されている。 Vehicular Metaverse Users (VMUs) の高度にコンピュータ化されたアバターとして、エッジサーバにデプロイされたVTは、VMUの運転安全性と車載満足度を改善するための貴重なメタバースサービスを提供することができる。 中断しないメタバース体験を維持するためには、VTは車両の動きに従ってエッジサーバ間で移動する必要がある。 これにより、車両のエッジメタバース間の動的通信中にプライバシー侵害が懸念される可能性がある。 これらの懸念に対処し、位置情報のプライバシを保護するために、一時的な識別子としての偽名は、VMUとVTの両方によって活用され、物理空間と仮想空間における匿名通信を実現する。 しかし、既存の偽名管理手法は、車両のエッジメタバースにおける広範囲な偽名要求を満たすに足りず、プライバシー保護の性能が劇的に低下する。 この目的のために,クロス・ミータバース方式の2つの擬似語管理フレームワークを提案する。 我々はクロスチェーン技術を利用して、偽名の管理効率とデータセキュリティを向上させる。 さらに、プライバシーレベルを評価するための指標を提案し、マルチエージェント深層強化学習(MADRL)アプローチを用いて最適な擬名生成戦略を得る。 数値計算の結果,提案手法は高効率で費用対効果が高く,車両のエッジメタバースにおける有望な応用を実証している。

Driven by the great advances in metaverse and edge computing technologies, vehicular edge metaverses are expected to disrupt the current paradigm of intelligent transportation systems. As highly computerized avatars of Vehicular Metaverse Users (VMUs), the Vehicle Twins (VTs) deployed in edge servers can provide valuable metaverse services to improve driving safety and on-board satisfaction for their VMUs throughout journeys. To maintain uninterrupted metaverse experiences, VTs must be migrated among edge servers following the movements of vehicles. This can raise concerns about privacy breaches during the dynamic communications among vehicular edge metaverses. To address these concerns and safeguard location privacy, pseudonyms as temporary identifiers can be leveraged by both VMUs and VTs to realize anonymous communications in the physical space and virtual spaces. However, existing pseudonym management methods fall short in meeting the extensive pseudonym demands in vehicular edge metaverses, thus dramatically diminishing the performance of privacy preservation. To this end, we present a cross-metaverse empowered dual pseudonym management framework. We utilize cross-chain technology to enhance management efficiency and data security for pseudonyms. Furthermore, we propose a metric to assess the privacy level and employ a Multi-Agent Deep Reinforcement Learning (MADRL) approach to obtain an optimal pseudonym generating strategy. Numerical results demonstrate that our proposed schemes are high-efficiency and cost-effective, showcasing their promising applications in vehicular edge metaverses.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# 接触相互作用、自己共役拡張、低エネルギー散乱

Contact interactions, self-adjoint extensions, and low-energy scattering ( http://arxiv.org/abs/2403.15290v1 )

ライセンス: Link先を確認
Daniel R. DeSena, Brian C. Tiburzi, (参考訳) 低エネルギー散乱は有効範囲展開によってよく説明される。 量子力学において、接触相互作用の塔は再正規化後のこの展開において項を生成することができる。 散乱パラメータはハミルトニアンの自己随伴拡大にもエンコードされる。 我々は、このよく知られた結果について、調和に閉じ込められた2粒子状態を含む、不透明な自己共役拡張を用いたs波相互作用を持つ2粒子について、簡単なレビューを行った。 対照的に、1次元散乱問題は驚くほど複雑である。 自己随伴拡大の族は、混合と相対位相を考慮に入れたSU(2)変換によって対角化される対称および反対称の外部波の結合系に対応することを示す。 これは、4つのエネルギー非依存の接触相互作用を含む効果的な理論計算によって裏付けられる。 種々の一次元接触相互作用の等価性について, 再正規化の観点から検討・検討した。 応用として、調和トラップとの一般点相互作用のスペクトルを1次元で解く。

Low-energy scattering is well described by the effective-range expansion. In quantum mechanics, a tower of contact interactions can generate terms in this expansion after renormalization. Scattering parameters are also encoded in the self-adjoint extension of the Hamiltonian. We briefly review this well-known result for two particles with s-wave interactions using impenetrable self-adjoint extensions, including the case of harmonically trapped two-particle states. By contrast, the one-dimensional scattering problem is surprisingly intricate. We show that the families of self-adjoint extensions correspond to a coupled system of symmetric and antisymmetric outgoing waves, which is diagonalized by an SU(2) transformation that accounts for mixing and a relative phase. This is corroborated by an effective theory computation that includes all four energy-independent contact interactions. The equivalence of various one-dimensional contact interactions is discussed and scrutinized from the perspective of renormalization. As an application, the spectrum of a general point interaction with a harmonic trap is solved in one dimension.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# LENSによる人間の行動:言語コンテンツが感情やノルムを誘発し、戦略選択を決定する方法

Human behaviour through a LENS: How Linguistic content triggers Emotions and Norms and determines Strategy choices ( http://arxiv.org/abs/2403.15293v1 )

ライセンス: Link先を確認
Valerio Capraro, (参考訳) 過去20年にわたって、言語的枠組みが経済ゲームにおける人間の行動に影響を与えているという証拠は、利用可能な行動の経済的結果を超えた。 本稿では、結果に基づく嗜好モデルの伝統的な制限を超越する、新しいフレームワークを提案する。 LENSモデルによれば、決定問題の言語学的記述は感情的な反応を誘発し、行動のノルムを示唆し、個人の戦略的選択を形成するために相互作用する。 この記事では、LENSモデルの各パスをサポートする実験的なエビデンスについてレビューする。 さらに、このモデルから生じるいくつかの重要な研究課題を特定し、議論し、今後の調査への道を示す。

Over the last two decades, a growing body of experimental research has provided evidence that linguistic frames influence human behaviour in economic games, beyond the economic consequences of the available actions. This article proposes a novel framework that transcends the traditional confines of outcome-based preference models. According to the LENS model, the Linguistic description of the decision problem triggers Emotional responses and suggests potential Norms of behaviour, which then interact to shape an individual's Strategic choice. The article reviews experimental evidence that supports each path of the LENS model. Furthermore, it identifies and discusses several critical research questions that arise from this model, pointing towards avenues for future inquiry.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# 位相制御されたラマン遷移による軌道量子ビットの完全量子制御

Complete quantum control of orbital qubits by phase-controlled stimulated Raman transitions ( http://arxiv.org/abs/2403.15295v1 )

ライセンス: Link先を確認
Jun-Yong Yan, Liang Zhai, Hans-Georg Babin, Yuanzhen Li, Si-Hui Pei, Moritz Cygorek, Wei Fang, Fei Gao, Andreas D. Wieck, Arne Ludwig, Chao-Yuan Jin, Da-Wei Wang, Feng Liu, (参考訳) 量子エミッタに埋め込まれた定常量子ビットの完全な量子制御は、フォトニック量子情報技術にとって不可欠である。 近年、光学活性半導体量子ドットの軌道自由度が有望な候補として浮上した。 しかし、軌道量子ビット上で任意の回転を行う重要な能力は、いまだ解明されていない。 ここでは、量子ドット内のホール軌道状態の完全な制御を実証する。 これは、放射型オーガー転移を介して接続された$\Lambda$システム内で、刺激されたラマン遷移をうまく誘導することで実現される。 この新しい機能は、それぞれRabi振動とRamsey干渉によって証明されたように、ブロッホベクトルの極角と方位角の操作を可能にする。 両方のパラメータの同時制御は、ピコ秒ラマンパルスの振幅と位相を同時に変化させることで達成される。 その結果, 固体量子エミッタの軌道状態は, 量子情報処理や量子通信への応用において, 潜在的に有効な資源として確立された。

Complete quantum control of a stationary quantum bit embedded in a quantum emitter is crucial for photonic quantum information technologies. Recently, the orbital degree of freedom in optically active semiconductor quantum dots emerged as a promising candidate. However, the crucial ability to perform arbitrary rotation on orbital qubits remains elusive. Here, we demonstrate complete control of hole orbital states in a quantum dot. This is enabled by successfully inducing stimulated Raman transitions within $\Lambda$ systems connected via radiative Auger transitions. This new capability allows manipulations of polar and azimuth angles of the Bloch vector, as evidenced by Rabi oscillations and Ramsey interference, respectively. Simultaneous control of both parameters is achieved by concurrently varying the amplitude and phase of picosecond Raman pulses, enabling arbitrary unitary rotation of the Bloch vector. Our results establish the orbital states in solid-state quantum emitters as a potentially viable resource for applications in quantum information processing and quantum communication.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# 合理的推論のための球ニューラルネット

Sphere Neural-Networks for Rational Reasoning ( http://arxiv.org/abs/2403.15297v1 )

ライセンス: Link先を確認
Tiansi Dong, Mateja Jamnik, Pietro Liò, (参考訳) LLM(Large Language Models)の成功、例えばChatGPTは、その惑星的人気、人間のような質問応答能力、そして着実に改善された推論性能によって見られている。 しかし、LSMの理由は不明である。 従来のニューラルネットワークを定性的に拡張して、統計パラダイムを越えてハイレベルな認知を実現することは、オープンな問題である。 ここでは、ベクトルから球面への計算ビルディングブロックを一般化することにより、最小限の定性拡張を示す。 モデル構築と検査を通して人間のような推論のための球ニューラルネット(SphNN)を提案し,人間の合理性のマイクロスコープであるシロジック推論のためのSphNNを開発した。 トレーニングデータの代わりに、SphNNは近傍空間関係のニューロシンボリック・トランジションマップを使用して、現在の球面構成からターゲットへの変換を誘導する。 SphNNは、Euler図として球配置を構築することで、1つのエポックにおける長鎖のシロジカル推論の妥当性を決定できる最初のニューラルモデルであり、O(N^2)の最悪の計算複雑性を持つ。 SphNNは、時空間推論、否定と解離を伴う論理的推論、事象推論、ニューロシンボリック推論、ユーモア理解(最高レベルの認知)など、様々なタイプの推論へと進化することができる。 これらはすべて、ハーバート・サイモンの2本の神経刃を持つ新しい種類のハサミを示唆している。 SphNNは、2つの神経刃を開発するための学際的コラボレーションを大幅に強化し、決定論的神経推論と人間に縛られた合理性を実現し、LLMを信頼できる心理学的AIに高める。 この研究は、球の非ゼロ半径は、従来のディープラーニングシステムが合理的な推論の領域に到達し、LLMを幻覚の湿地の中に閉じ込めるのを防ぐ欠落成分であることを示している。

The success of Large Language Models (LLMs), e.g., ChatGPT, is witnessed by their planetary popularity, their capability of human-like question-answering, and also by their steadily improved reasoning performance. However, it remains unclear whether LLMs reason. It is an open problem how traditional neural networks can be qualitatively extended to go beyond the statistic paradigm and achieve high-level cognition. Here, we present a minimalist qualitative extension by generalising computational building blocks from vectors to spheres. We propose Sphere Neural Networks (SphNNs) for human-like reasoning through model construction and inspection, and develop SphNN for syllogistic reasoning, a microcosm of human rationality. Instead of training data, SphNN uses a neuro-symbolic transition map of neighbourhood spatial relations to guide transformations from the current sphere configuration towards the target. SphNN is the first neural model that can determine the validity of long-chained syllogistic reasoning in one epoch by constructing sphere configurations as Euler diagrams, with the worst computational complexity of O(N^2). SphNN can evolve into various types of reasoning, such as spatio-temporal reasoning, logical reasoning with negation and disjunction, event reasoning, neuro-symbolic reasoning, and humour understanding (the highest level of cognition). All these suggest a new kind of Herbert A. Simon's scissors with two neural blades. SphNNs will tremendously enhance interdisciplinary collaborations to develop the two neural blades and realise deterministic neural reasoning and human-bounded rationality and elevate LLMs to reliable psychological AI. This work suggests that the non-zero radii of spheres are the missing components that prevent traditional deep-learning systems from reaching the realm of rational reasoning and cause LLMs to be trapped in the swamp of hallucination.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# 複雑な課題を最適に解決するための学習的政策ベースによる計画

Planning with a Learned Policy Basis to Optimally Solve Complex Tasks ( http://arxiv.org/abs/2403.15301v1 )

ライセンス: Link先を確認
Guillermo Infante, David Kuric, Anders Jonsson, Vicenç Gómez, Herke van Hoof, (参考訳) 従来の強化学習 (RL) 法は, 広範囲な逐次的決定問題の解決に成功している。 しかし、非マルコフ報酬仕様の設定において、複数のタスクに対して予測可能で一般化できる学習ポリシーは難しい問題である。 本稿では,後継機能を用いて政策ベースを学習し,その中の各(サブ)政治が明確に定義されたサブプロブレムを解決することを提案する。 同じサブプロブレムの集合を含む有限状態オートマトン(FSA)によって記述されるタスクでは、これらの(サブ)ポリケーションの組み合わせを使用して、追加の学習なしに最適な解を生成することができる。 計画を通じて(サブ)ポリティシを結合する他の手法とは対照的に,我々の手法は,確率的環境においても,漸近的にグローバルな最適性を達成する。

Conventional reinforcement learning (RL) methods can successfully solve a wide range of sequential decision problems. However, learning policies that can generalize predictably across multiple tasks in a setting with non-Markovian reward specifications is a challenging problem. We propose to use successor features to learn a policy basis so that each (sub)policy in it solves a well-defined subproblem. In a task described by a finite state automaton (FSA) that involves the same set of subproblems, the combination of these (sub)policies can then be used to generate an optimal solution without additional learning. In contrast to other methods that combine (sub)policies via planning, our method asymptotically attains global optimality, even in stochastic environments.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# KTbench: 知識追跡のための新しいデータ漏洩フリーフレームワーク

KTbench: A Novel Data Leakage-Free Framework for Knowledge Tracing ( http://arxiv.org/abs/2403.15304v1 )

ライセンス: Link先を確認
Yahya Badran, Christine Preisach, (参考訳) KT(Knowledge Tracing)は、知的学習システムにおける学習項目の将来のパフォーマンスを予測することを目的としている。 学習項目は知識概念(KC)と呼ばれるスキルラベルでタグ付けされる。 多くのKTモデルは、学習項目をその構成するKCに置き換えることで、アイテムと学生の相互作用のシーケンスをKC-学生の相互作用へと拡張する。 これは多くの場合、長いシーケンス長をもたらす。 提案手法は,スパースアイテム-学生間相互作用とモデルパラメータの最小化の問題に対処する。 しかし、そのようなモデルでは2つの問題が特定されている。 第一の問題は、モデルが同一項目に属するKC間の相関関係を学習する能力である。 この問題は、アイテムあたりのKC数がより多いデータセットのパフォーマンスを著しく低下させる可能性がある。 第二の問題は、利用可能なベンチマーク実装が、KCを拡大する際のシーケンス長の変化を考慮せず、異なるモデルが異なるシーケンス長でテストされているが、同じベンチマークと比較されていることである。 これらの問題に対処するために、我々は、最初の問題を緩和し、重要な変更を伴わずにオリジナルのモデルアーキテクチャを保ちながら、そのようなKTモデルの性能を向上する一般的なマスキングフレームワークを導入する。 さらに、第2の問題を緩和しつつ、この作業の再現性を確保するために設計されたオープンソースのベンチマークライブラリであるKTbenchを紹介する。

Knowledge Tracing (KT) is concerned with predicting students' future performance on learning items in intelligent tutoring systems. Learning items are tagged with skill labels called knowledge concepts (KCs). Many KT models expand the sequence of item-student interactions into KC-student interactions by replacing learning items with their constituting KCs. This often results in a longer sequence length. This approach addresses the issue of sparse item-student interactions and minimises model parameters. However, two problems have been identified with such models. The first problem is the model's ability to learn correlations between KCs belonging to the same item, which can result in the leakage of ground truth labels and hinder performance. This problem can lead to a significant decrease in performance on datasets with a higher number of KCs per item. The second problem is that the available benchmark implementations ignore accounting for changes in sequence length when expanding KCs, leading to different models being tested with varying sequence lengths but still compared against the same benchmark. To address these problems, we introduce a general masking framework that mitigates the first problem and enhances the performance of such KT models while preserving the original model architecture without significant alterations. Additionally, we introduce KTbench, an open-source benchmark library designed to ensure the reproducibility of this work while mitigating the second problem.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# ヘルストロム測定の効率的なシミュレーションによる量子インスパイアされた分類

Quantum-inspired classification via efficient simulation of Helstrom measurement ( http://arxiv.org/abs/2403.15308v1 )

ライセンス: Link先を確認
Wooseop Hwang, Daniel K. Park, Israel F. Araujo, Carsten Blank, (参考訳) ヘルストロム測定(HM)は、最小誤差で非直交量子状態を識別するための最適戦略として知られている。 従来,HMの古典シミュレーションに基づくバイナリ分類器が提案されてきた。 サンプルデータの複数コピーを用いて分類誤差を低減した。 それでも、シミュレーションランタイムの指数的な成長は、コピー数と分類性能の関係を包括的に調査する妨げとなった。 本稿では,HMと状態忠実度の関係を利用して,任意のコピー数の効率的なシミュレーション手法を提案する。 本手法は,データコピー数に応じて分類性能が単調に向上しないことを示す。 代わりに、最適化対象のハイパーパラメータとして扱われる必要があり、この研究で提案された方法によってのみ達成できる。 本稿では、8つのデータセットをベンチマークし、13のハイパーパラメータ最適化標準分類器と比較することにより、優れた性能を持つ量子インスパイアされた機械学習バイナリ分類器を提案する。

The Helstrom measurement (HM) is known to be the optimal strategy for distinguishing non-orthogonal quantum states with minimum error. Previously, a binary classifier based on classical simulation of the HM has been proposed. It was observed that using multiple copies of the sample data reduced the classification error. Nevertheless, the exponential growth in simulation runtime hindered a comprehensive investigation of the relationship between the number of copies and classification performance. We present an efficient simulation method for an arbitrary number of copies by utilizing the relationship between HM and state fidelity. Our method reveals that the classification performance does not improve monotonically with the number of data copies. Instead, it needs to be treated as a hyperparameter subject to optimization, achievable only through the method proposed in this work. We present a Quantum-Inspired Machine Learning binary classifier with excellent performance, providing such empirical evidence by benchmarking on eight datasets and comparing it with 13 hyperparameter optimized standard classifiers.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# 拡散モデルによる学習データ生成制御

Controlled Training Data Generation with Diffusion Models ( http://arxiv.org/abs/2403.15309v1 )

ライセンス: Link先を確認
Teresa Yeo, Andrei Atanov, Harold Benoit, Aleksandr Alekseev, Ruchira Ray, Pooya Esmaeil Akhoondi, Amir Zamir, (参考訳) 本研究では,教師あり学習のための訓練データを生成するために,テキスト・画像生成モデルを制御する手法を提案する。 オープンループ方式と事前定義方式を採用した従来の研究とは異なり、我々は2つのフィードバック機構を含む自動クローズドループシステムを開発した。 最初のメカニズムは、与えられた教師付きモデルからのフィードバックを使用し、モデル損失を最大化する画像生成をもたらす敵のプロンプトを見つける。 これらの逆方向のプロンプトは、モデルから情報を得る多様なデータをもたらすが、ターゲットの分布を知らせることはない。 そこで本研究では,生成過程を特定の目標分布へ導く第2のフィードバック機構を提案する。 これら2つのメカニズムを組み合わせた手法をガイド・ディバイサル・プロンプトと呼ぶ。 我々は,異なるタスク,データセット,アーキテクチャに対して,異なるタイプの分散シフト(相互相関データ,未知領域)を用いて評価を行い,オープンループアプローチと比較して提案したフィードバック機構の有効性を実証する。

In this work, we present a method to control a text-to-image generative model to produce training data specifically "useful" for supervised learning. Unlike previous works that employ an open-loop approach and pre-define prompts to generate new data using either a language model or human expertise, we develop an automated closed-loop system which involves two feedback mechanisms. The first mechanism uses feedback from a given supervised model and finds adversarial prompts that result in image generations that maximize the model loss. While these adversarial prompts result in diverse data informed by the model, they are not informed of the target distribution, which can be inefficient. Therefore, we introduce the second feedback mechanism that guides the generation process towards a certain target distribution. We call the method combining these two mechanisms Guided Adversarial Prompts. We perform our evaluations on different tasks, datasets and architectures, with different types of distribution shifts (spuriously correlated data, unseen domains) and demonstrate the efficiency of the proposed feedback mechanisms compared to open-loop approaches.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# 駆動散逸性シュレーディンガー猫量子ビットにおける準粒子誘起誤差の理論

Theory of quasiparticle-induced errors in driven-dissipative Schrödinger cat qubits ( http://arxiv.org/abs/2403.15310v1 )

ライセンス: Link先を確認
Kirill Dubovitskii, Denis M. Basko, Julia S. Meyer, Manuel Houzet, (参考訳) キュービットデコヒーレンスのメカニズムを理解することは、キュービット性能を改善するための重要な前提条件である。 本研究は,Schr\"odinger cat qubitsにおける残存ボゴリューボフ準粒子の効果について論じる。 超伝導量子ビットにおける準粒子の以前の研究との大きな違いは、Schr\"odinger cat qubits が非平衡条件下で動作していることである。実際、外部マイクロ波駆動は、回転フレーム内の有効定常リンドブレディアンのコヒーレント縮退固有状態の重畳である「キャット状態」を安定化するために必要である。 キャット量子ビットに対するマスター方程式の顕微鏡的導出を行い, キャット量子ビットの密度行列に作用する散逸剤として準粒子の効果を表現した。 これにより、準粒子がクォービット誤差に実質的な寄与を与える条件を決定することができる。

Understanding the mechanisms of qubit decoherence is a crucial prerequisite for improving the qubit performance. In this work we discuss the effects of residual Bogolyubov quasiparticles in Schr\"odinger cat qubits, either of the dissipative or Kerr type. The major difference from previous studies of quasiparticles in superconducting qubits is that the Schr\"odinger cat qubits are operated under non-equilibrium conditions. Indeed, an external microwave drive is needed to stabilize "cat states", which are superpositions of coherent degenerate eigenstates of an effective stationary Lindbladian in the rotating frame. We present a microscopic derivation of the master equation for cat qubits and express the effect of the quasiparticles as dissipators acting on the density matrix of the cat qubit. This enables us to determine the conditions under which the quasiparticles give a substantial contribution to the qubit errors.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# バニラ・ガンのワッサーシュタイン観

A Wasserstein perspective of Vanilla GANs ( http://arxiv.org/abs/2403.15312v1 )

ライセンス: Link先を確認
Lea Kunkel, Mathias Trabs, (参考訳) GAN(Generative Adversarial Networks)の実証的な成功により、理論研究への関心が高まった。 統計学は主にワッサーシュタイン GAN とその一般化に焦点が当てられており、特に良好な次元還元特性が可能である。 元の最適化問題であるヴァニラ GAN の統計結果は依然としてかなり制限されており、滑らかな活性化関数や潜在空間と周囲空間の等次元といった仮定を必要とする。 このギャップを埋めるために、バニラ・ガンからワッサーシュタイン距離に接続する。 これにより、ワッサーシュタイン GAN の既存の結果がヴァニラ GAN にまで拡張できる。 特に、ワッサーシュタイン距離におけるバニラ GAN のオラクル不等式を得る。 このオラクルの不等式の仮定は、フィードフォワードReLUネットワークなど、実際に一般的に使用されるネットワークアーキテクチャによって満たされるように設計されている。 有界なH\"古いノルムを持つフィードフォワードReLUネットワークによるリプシッツ関数の近似の定量的結果を提供することで、ヴァニラ GAN とワッサーシュタイン GAN の収束率を未知の確率分布の推定子として結論付ける。

The empirical success of Generative Adversarial Networks (GANs) caused an increasing interest in theoretical research. The statistical literature is mainly focused on Wasserstein GANs and generalizations thereof, which especially allow for good dimension reduction properties. Statistical results for Vanilla GANs, the original optimization problem, are still rather limited and require assumptions such as smooth activation functions and equal dimensions of the latent space and the ambient space. To bridge this gap, we draw a connection from Vanilla GANs to the Wasserstein distance. By doing so, existing results for Wasserstein GANs can be extended to Vanilla GANs. In particular, we obtain an oracle inequality for Vanilla GANs in Wasserstein distance. The assumptions of this oracle inequality are designed to be satisfied by network architectures commonly used in practice, such as feedforward ReLU networks. By providing a quantitative result for the approximation of a Lipschitz function by a feedforward ReLU network with bounded H\"older norm, we conclude a rate of convergence for Vanilla GANs as well as Wasserstein GANs as estimators of the unknown probability distribution.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# CR3DT:3D検出・追跡のためのカメラ・レーダー融合

CR3DT: Camera-RADAR Fusion for 3D Detection and Tracking ( http://arxiv.org/abs/2403.15313v1 )

ライセンス: Link先を確認
Nicolas Baumann, Michael Baumgartner, Edoardo Ghignone, Jonas Kühne, Tobias Fischer, Yung-Hsu Yang, Marc Pollefeys, Michele Magno, (参考訳) 自動運転車を実現するためには、周囲の物体の正確な検出と追跡が不可欠である。 Light Detection and Ranging (LiDAR)センサーは、高性能のベンチマークを設定しているが、カメラのみのソリューションの魅力はそのコスト効率にある。 特に、自動車システムでRadio Detection and Ranging(RADAR)センサーが広く使われているにもかかわらず、その3D検出と追跡の可能性は、データ空間と測定ノイズのために無視されている。 近年、RADARとカメラの組み合わせが、将来性のあるソリューションとして浮上している。 本稿では,3次元物体検出のためのカメラ・レーダ融合モデルであるカメラ・レーダ3D検出・追跡(CR3DT)とマルチオブジェクト追跡(MOT)について述べる。 State-of-the-Art (SotA)カメラのみのBEVDetアーキテクチャの基礎の上に構築されたCR3DTは、RADARセンサの空間情報と速度情報を組み込むことで、検出と追跡の両方の能力を大幅に改善した。 実験により,平均精度(mAP)が5.3%,平均多物体追跡精度(AMOTA)が14.9%向上した。 CR3DTは、自動車応用におけるRADARのユビキタスな存在に乗じることで、自動運転における高性能と費用効率の高い認識システム間のギャップを埋める。

Accurate detection and tracking of surrounding objects is essential to enable self-driving vehicles. While Light Detection and Ranging (LiDAR) sensors have set the benchmark for high performance, the appeal of camera-only solutions lies in their cost-effectiveness. Notably, despite the prevalent use of Radio Detection and Ranging (RADAR) sensors in automotive systems, their potential in 3D detection and tracking has been largely disregarded due to data sparsity and measurement noise. As a recent development, the combination of RADARs and cameras is emerging as a promising solution. This paper presents Camera-RADAR 3D Detection and Tracking (CR3DT), a camera-RADAR fusion model for 3D object detection, and Multi-Object Tracking (MOT). Building upon the foundations of the State-of-the-Art (SotA) camera-only BEVDet architecture, CR3DT demonstrates substantial improvements in both detection and tracking capabilities, by incorporating the spatial and velocity information of the RADAR sensor. Experimental results demonstrate an absolute improvement in detection performance of 5.3% in mean Average Precision (mAP) and a 14.9% increase in Average Multi-Object Tracking Accuracy (AMOTA) on the nuScenes dataset when leveraging both modalities. CR3DT bridges the gap between high-performance and cost-effective perception systems in autonomous driving, by capitalizing on the ubiquitous presence of RADAR in automotive applications.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# 局所SO(3)-等変スケール不変容器セグメンテーションのグローバル制御

Global Control for Local SO(3)-Equivariant Scale-Invariant Vessel Segmentation ( http://arxiv.org/abs/2403.15314v1 )

ライセンス: Link先を確認
Patryk Rygiel, Dieuwertje Alblas, Christoph Brune, Kak Khee Yeung, Jelmer M. Wolterink, (参考訳) パーソナライズされた3D血管モデルは、心臓血管疾患の管理に関連する様々な診断、予後、治療計画のタスクに役立つ。 ディープラーニングは、そのようなモデルを自動的に取得する手段を提供する。 理想的には、ユーザーは、血管モデルに含まれる正確な関心領域(ROI)を制御できなければならない。 そこで本研究では,ボクセルマスクのセグメンテーションを利用した大域的制御器の組み合わせにより,興味のある容器の境界条件を局所的反復的容器セグメンテーションモデルに提示する。 局所分断モデルにおけるスケール対称性と回転対称性の保存を導入し、目に見えない大きさと向きの容器に一般化する。 グローバルコントローラと組み合わせることで、フレキシブルな3D血管モデル構築が可能になる。 腹部大動脈瘤 (AAA) を含むデータセットに対する本法の有用性について検討した。 本手法は,AAA,腸骨動脈,腎動脈のセグメンテーションにおける最先端のセグメンテーションモデルと同等に動作し,水密で滑らかな表面セグメンテーションを提供する。 さらに,グローバルコントローラを適応させることで,3次元モデルの容器断面を容易に拡張できることが実証された。

Personalized 3D vascular models can aid in a range of diagnostic, prognostic, and treatment-planning tasks relevant to cardiovascular disease management. Deep learning provides a means to automatically obtain such models. Ideally, a user should have control over the exact region of interest (ROI) to be included in a vascular model, and the model should be watertight and highly accurate. To this end, we propose a combination of a global controller leveraging voxel mask segmentations to provide boundary conditions for vessels of interest to a local, iterative vessel segmentation model. We introduce the preservation of scale- and rotational symmetries in the local segmentation model, leading to generalisation to vessels of unseen sizes and orientations. Combined with the global controller, this enables flexible 3D vascular model building, without additional retraining. We demonstrate the potential of our method on a dataset containing abdominal aortic aneurysms (AAAs). Our method performs on par with a state-of-the-art segmentation model in the segmentation of AAAs, iliac arteries and renal arteries, while providing a watertight, smooth surface segmentation. Moreover, we demonstrate that by adapting the global controller, we can easily extend vessel sections in the 3D model.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# BaCo$_2$(AsO$_4$)$_2$の臨界場を抑制する量子ゆらぎ

Quantum Fluctuations Suppress the Critical Fields in BaCo$_2$(AsO$_4$)$_2$ ( http://arxiv.org/abs/2403.15315v1 )

ライセンス: Link先を確認
Shiva Safari, William Bateman-Hemphill, Asimpunya Mitra, Félix Desrochers, Emily Z. Zhang, Lubuna Shafeek, Austin Ferrenti, Tyrel M. McQueen, Arkady Shekhter, Zoltán Köllö, Yong Baek Kim, B. J. Ramshaw, K. A. Modic, (参考訳) フラストレーション磁石におけるエキゾチックな量子基底状態の実現に向けた初期の試みは、格子幾何学だけで生じるフラストレーションに焦点を当てていた。 注意は結合依存的な異方性相互作用、さらに隣同士の相互作用に移行した。 ハニカム磁石BaCo$_2$(AsO$_4$)$_2$は最近、結合依存(eg Kitaev)と第3隣の(J_3$)相互作用の候補ホストとして出現し、比較的低レベルの障害のためにモデル実験システムとなった。 異なる交換相互作用の相対的重要性を理解することは、量子スピン液体のような新しい基底状態を達成する鍵となる。 ここでは、BaCo$_2$(AsO$_4$)$_2$の中間および高磁場相図を、T = 1.6$Kの面外磁場方向の関数としてマッピングし、実験データが、小さな北エフと非対角交換結合を含むXXZ-$J_1$-$J_3$モデルの古典的モンテカルロ結果と質的に整合していることを示す。 しかし、計算された臨界場は実験値よりも体系的に大きい。 量子モデル上の無限DMRG計算により、近傍の強磁性状態からの量子補正が抑制された臨界場に寄与する可能性が示されている。 実験と理論分析により、量子揺らぎは相図を決定する上で重要な役割を果たすが、BaCo$_2$(AsO$_4$)$_2$の物理学のほとんどは、長距離秩序状態の古典力学で理解でき、量子スピン液体の可能性の余地はほとんど残っていないことが示されている。

Early efforts to realize exotic quantum ground states in frustrated magnets focused on frustration arising from the lattice geometry alone. Attention has shifted to bond-dependent anisotropic interactions, as well as further-neighbor interactions, on non-geometrically-frustrated lattices due to their greater versatility. The honeycomb magnet BaCo$_2$(AsO$_4$)$_2$ recently emerged as a candidate host for both bond-dependent (e.g. Kitaev) and third-neighbor ($J_3$) interactions, and has become a model experimental system due to its relatively low levels of disorder. Understanding the relative importance of different exchange interactions holds the key to achieving novel ground states, such as quantum spin liquids. Here, we use the magnetotropic susceptibility to map out the intermediate and high-field phase diagram of BaCo$_2$(AsO$_4$)$_2$ as a function of the out-of-plane magnetic field direction at $T = 1.6$ K. We show that the experimental data are qualitatively consistent with classical Monte Carlo results of the XXZ-$J_1$-$J_3$ model with small Kitaev and off-diagonal exchange couplings included. However, the calculated critical fields are systematically larger than the experimental values. Infinite-DMRG computations on the quantum model reveal that quantum corrections from a nearby ferromagnetic state are likely responsible for the suppressed critical fields. Together, our experiment and theory analyses demonstrate that, while quantum fluctuations play an important role in determining the phase diagram, most of the physics of BaCo$_2$(AsO$_4$)$_2$ can be understood in terms of the classical dynamics of long-range ordered states, leaving little room for the possibility of a quantum spin liquid.
翻訳日:2024-03-25 16:50:04 公開日:2024-03-22
# 拡散復元モデルに基づく超音波イメージング

Ultrasound Imaging based on the Variance of a Diffusion Restoration Model ( http://arxiv.org/abs/2403.15316v1 )

ライセンス: Link先を確認
Yuxin Zhang, Clément Huneau, Jérôme Idier, Diana Mateus, (参考訳) 今日の医学における超音波画像の流行にもかかわらず、超音波信号とノイズの比率は、いくつかのノイズや人工物の影響を受けている。 さらに、超音波画像品質の向上には、コントラスト、解像度、スペックル保存といった同時的な要因のバランスが伴う。 近年,超音波画像再構成の問題に対処するモデルベースと学習ベースの両方のアプローチが進展している。 両世界から最善を享受し, 生成的デノナイジング拡散モデルから得られた学習に基づく先行学習モデルと, 超音波線形直接モデルを組み合わせたハイブリッド再構成手法を提案する。 より具体的には、事前訓練されたDDRM(Denoising Diffusion Restoration Model)の教師なし微調整に頼る。 本稿では,超音波固有の乗法ノイズの性質を考慮し,超音波画像の拡散再構成の確率性を特徴付ける実験モデルを提案する。 本研究では, 合成, 生体内, 生体内データに関する実験を行い, 単一平面波取得による高画質画像再構成および最先端手法との比較において, 分散イメージング手法の有効性を実証した。

Despite today's prevalence of ultrasound imaging in medicine, ultrasound signal-to-noise ratio is still affected by several sources of noise and artefacts. Moreover, enhancing ultrasound image quality involves balancing concurrent factors like contrast, resolution, and speckle preservation. Recently, there has been progress in both model-based and learning-based approaches addressing the problem of ultrasound image reconstruction. Bringing the best from both worlds, we propose a hybrid reconstruction method combining an ultrasound linear direct model with a learning-based prior coming from a generative Denoising Diffusion model. More specifically, we rely on the unsupervised fine-tuning of a pre-trained Denoising Diffusion Restoration Model (DDRM). Given the nature of multiplicative noise inherent to ultrasound, this paper proposes an empirical model to characterize the stochasticity of diffusion reconstruction of ultrasound images, and shows the interest of its variance as an echogenicity map estimator. We conduct experiments on synthetic, in-vitro, and in-vivo data, demonstrating the efficacy of our variance imaging approach in achieving high-quality image reconstructions from single plane-wave acquisitions and in comparison to state-of-the-art methods.
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# 点DETR3D:弱半教師付き3次元物体検出に先立って空間点を用いた画像データを活用する

Point-DETR3D: Leveraging Imagery Data with Spatial Point Prior for Weakly Semi-supervised 3D Object Detection ( http://arxiv.org/abs/2403.15317v1 )

ライセンス: Link先を確認
Hongzhi Gao, Zheng Chen, Zehui Chen, Lin Chen, Jiaming Liu, Shanghang Zhang, Feng Zhao, (参考訳) 高精度な3D検出器の訓練には、大量のラベル付き3Dアノテーションと7度の自由度を必要とする。 そこで, ポイントアノテーションの形式は, よりアクセシビリティが高く, 安価であるとともに, 物体位置定位のための強力な空間情報を提供するとともに, ポイント・DETRを単に3D形式に適応させるのが簡単ではないことを実証的に発見し, 主なボトルネックに遭遇する。 1) モデルに前もって強靭な3Dの符号化に失敗し、 2) LiDAR 点の極端に間隔があるため, 遠隔地で低品質な擬似ラベルを生成する。 これらの課題を克服するために、制約されたインスタンス単位のアノテーション予算内でポイント単位の監視をフルに活用するために設計された弱半教師付き3D検出のための教師主導のフレームワークであるPoint-DETR3Dを紹介し、ポイントエンコーダを介してのみ3D位置情報を符号化するPoint-DETRとは違い、位置の事前性を高めるための明示的な位置クエリ初期化戦略を提案する。 教師モデルによる遠隔地における擬似ラベルの品質の低さを考慮し,新しいクロスモーダル変形型RoI核融合(D-RoI)を通じて高密度画像データを統合することにより,検出者の知覚を高める。 さらに,学生モデルにおいても,先進点を十分に活用するために,革新的なポイント誘導型自己教師学習手法が提案されている。 特に、ラベル付きデータの5%しか持たないPoint-DETR3Dは、完全な教師付きデータのパフォーマンスを90%以上達成している。

Training high-accuracy 3D detectors necessitates massive labeled 3D annotations with 7 degree-of-freedom, which is laborious and time-consuming. Therefore, the form of point annotations is proposed to offer significant prospects for practical applications in 3D detection, which is not only more accessible and less expensive but also provides strong spatial information for object localization.In this paper, we empirically discover that it is non-trivial to merely adapt Point-DETR to its 3D form, encountering two main bottlenecks: 1) it fails to encode strong 3D prior into the model, and 2) it generates low-quality pseudo labels in distant regions due to the extreme sparsity of LiDAR points. To overcome these challenges, we introduce Point-DETR3D, a teacher-student framework for weakly semi-supervised 3D detection, designed to fully capitalize on point-wise supervision within a constrained instance-wise annotation budget.Different from Point-DETR which encodes 3D positional information solely through a point encoder, we propose an explicit positional query initialization strategy to enhance the positional prior. Considering the low quality of pseudo labels at distant regions produced by the teacher model, we enhance the detector's perception by incorporating dense imagery data through a novel Cross-Modal Deformable RoI Fusion (D-RoI).Moreover, an innovative point-guided self-supervised learning technique is proposed to allow for fully exploiting point priors, even in student models.Extensive experiments on representative nuScenes dataset demonstrate our Point-DETR3D obtains significant improvements compared to previous works. Notably, with only 5% of labeled data, Point-DETR3D achieves over 90% performance of its fully supervised counterpart.
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# CO-Fun: 名前付きエンティティ認識と関係抽出のための資金提供におけるアウトソーシングに関するドイツのデータセット

CO-Fun: A German Dataset on Company Outsourcing in Fund Prospectuses for Named Entity Recognition and Relation Extraction ( http://arxiv.org/abs/2403.15322v1 )

ライセンス: Link先を確認
Neda Foroutan, Markus Schröder, Andreas Dengel, (参考訳) サイバーマッピングのプロセスは、金融機関とサービス提供者の間の関係を洞察する。 ドイツにおけるファンド・プロポース内の企業のアウトソーシングの実践を中心に、名前付きエンティティ認識と関係抽出タスクに特化したデータセットを導入する。 948文のラベル付け処理は,4つのエンティティタイプ(アウトソーシング,企業,場所,ソフトウェア)に対して5,969のアノテーション,4,102の関連アノテーション(アウトソーシング,企業-ロケーション)の3つの専門家によって実施された。 最先端のディープラーニングモデルは、エンティティを認識し、最初の有望な結果を示す関係を抽出するために訓練された。 データセットの匿名化バージョンと、モデルトレーニングに使用されるガイドラインとコードは、https://www.dfki.uni-kl.de/cybermapping/data/CO-Fun-1.0-anonymized.zipで公開されている。

The process of cyber mapping gives insights in relationships among financial entities and service providers. Centered around the outsourcing practices of companies within fund prospectuses in Germany, we introduce a dataset specifically designed for named entity recognition and relation extraction tasks. The labeling process on 948 sentences was carried out by three experts which yields to 5,969 annotations for four entity types (Outsourcing, Company, Location and Software) and 4,102 relation annotations (Outsourcing-Company, Company-Location). State-of-the-art deep learning models were trained to recognize entities and extract relations showing first promising results. An anonymized version of the dataset, along with guidelines and the code used for model training, are publicly available at https://www.dfki.uni-kl.de/cybermapping/data/CO-Fun-1.0-anonymized.zip.
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# 利用可能なAIの誤用に関する技術展望

A Technological Perspective on Misuse of Available AI ( http://arxiv.org/abs/2403.15325v1 )

ライセンス: Link先を確認
Lukas Pöhler, Valentin Schrader, Alexander Ladwein, Florian von Keller, (参考訳) 民間人工知能(AI)の悪意ある誤用は、国家や国際レベルでのセキュリティに深刻な脅威をもたらす可能性がある。 技術的観点から自律的なシステムを定義し、AI開発の特徴を説明することに加えて、既存のオープンなAI技術がいかに誤用されているかを示す。 これを強化するために、政治的、デジタル的、物理的セキュリティを脅かす、潜在的に誤用されたAIの3つの模範的なユースケースを開発しました。 ユースケースは、既存のAIテクノロジと、学術、民間セクター、開発者コミュニティのコンポーネントから構築することができる。 これは、AIが自律兵器システムにどのように組み合わさることができるかを示している。 使用事例に基づいて、誤用されたAIによる潜在的な脅威を防止するための制御ポイントとさらなる対策を導出する。 さらに、我々は、自律兵器システム(AWS)に関する議論において、民間AIシステムの悪意ある誤用について考察する。

Potential malicious misuse of civilian artificial intelligence (AI) poses serious threats to security on a national and international level. Besides defining autonomous systems from a technological viewpoint and explaining how AI development is characterized, we show how already existing and openly available AI technology could be misused. To underline this, we developed three exemplary use cases of potentially misused AI that threaten political, digital and physical security. The use cases can be built from existing AI technologies and components from academia, the private sector and the developer-community. This shows how freely available AI can be combined into autonomous weapon systems. Based on the use cases, we deduce points of control and further measures to prevent the potential threat through misused AI. Further, we promote the consideration of malicious misuse of civilian AI systems in the discussion on autonomous weapon systems (AWS).
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# テキストと画像のパーソナライズにおける非望ましくないエンタングルの選択的インフォームティブ記述

Selectively Informative Description can Reduce Undesired Embedding Entanglements in Text-to-Image Personalization ( http://arxiv.org/abs/2403.15330v1 )

ライセンス: Link先を確認
Jimyeong Kim, Jungwon Park, Wonjong Rhee, (参考訳) テキスト・ツー・イメージのパーソナライゼーションにおいて、タイムリーかつ重要な課題は、参照画像に存在するバイアスに過度に適合する生成画像の傾向である。 我々は, 偏見を背景, 近傍対象, 結束対象, 物質(スタイルの再コンテキスト化)に包括的に分類し, 偏見を呈する。 これらのバイアスは、被写体への絡み合いによって生成された画像に現れる。 この望ましくない埋め込み絡みは、参照画像からのバイアスを生成画像に反映させるだけでなく、生成画像と所定の生成プロンプトとのアライメントを著しく低下させる。 この課題に対処するために,SID~(Selectively Informative Description)というテキスト記述戦略を提案する。 SIDはマルチモーダル GPT-4 を利用して生成され、最適化モデルにシームレスに統合できる。 本研究は,クロスアテンションマップ,主観的アライメント,非対象的アライメント,テキストアライメントの分析とともに,総合的な実験結果を示す。

In text-to-image personalization, a timely and crucial challenge is the tendency of generated images overfitting to the biases present in the reference images. We initiate our study with a comprehensive categorization of the biases into background, nearby-object, tied-object, substance (in style re-contextualization), and pose biases. These biases manifest in the generated images due to their entanglement into the subject embedding. This undesired embedding entanglement not only results in the reflection of biases from the reference images into the generated images but also notably diminishes the alignment of the generated images with the given generation prompt. To address this challenge, we propose SID~(Selectively Informative Description), a text description strategy that deviates from the prevalent approach of only characterizing the subject's class identification. SID is generated utilizing multimodal GPT-4 and can be seamlessly integrated into optimization-based models. We present comprehensive experimental results along with analyses of cross-attention maps, subject-alignment, non-subject-disentanglement, and text-alignment.
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# 静的因果順序の局所分数

Local fraction in Static Causal Orders ( http://arxiv.org/abs/2403.15331v1 )

ライセンス: Link先を確認
Stefano Gogioso, Nicola Pinzani, (参考訳) このレターでは、任意の静的因果的背景に対して行われる実験の局所分数の概念を導入し、非シグナリングのシナリオに関する以前の結果を大幅に一般化し、この量を計算するために線形プログラムを明示的に定式化する。 具体的な計算を行うのに必要な行列を効率的に構築できる因果関数のフリーな特徴付けを導出する。 本手法は,2つのベル試験を含む新規な事例の局所的な分画をインターリーブされた因果順序で解析することにより実証する。

In this Letter, we introduce a notion of local fraction for experiments taking place against arbitrary static causal backgrounds -- greatly generalising previous results on no-signalling scenarios -- and we explicitly formulate a linear program to compute this quantity. We derive a free characterisation of causal functions which allows us to efficiently construct the matrices required to perform concrete calculations. We demonstrate our techniques by analysing the local fraction of a novel example involving two Bell tests in interleaved causal order.
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# ブライトスクイーズ真空による高調波発生

High Harmonic Generation by Bright Squeezed Vacuum ( http://arxiv.org/abs/2403.15337v1 )

ライセンス: Link先を確認
Andrei Rasputnyi, Zhaopin Chen, Michael Birk, Oren Cohen, Ido Kaminer, Michael Krüger, Denis Seletskiy, Maria Chekhova, Francesco Tani, (参考訳) 我々は, 単一時空間モードで発生する光励起真空(BSV)のマクロ量子状態によって励起される固体の非摂動高調波発生を観測した。 広い光子数分布、0ドルから2ドルまでの状態、パルス当たりの光子10^{13}$光子、および$\pm1\hbox{V}/\hbox{\r{A}}$のサブサイクル電場変動により、BSVはコヒーレント光によってアクセスされるよりもはるかに広いピーク強度の範囲で自由キャリアダイナミクスへのアクセスを提供する。 また、同じ平均強度のコヒーレント光よりも高調波発生においてかなり効率的である。

We observe non-perturbative high harmonic generation in solids pumped by a macroscopic quantum state of light, bright squeezed vacuum (BSV), which we generate in a single spatiotemporal mode. Due to its broad photon-number distribution, covering states from $0$ to $2 \times 10^{13}$ photons per pulse, and sub-cycle electric field fluctuations over $\pm1\hbox{V}/\hbox{\r{A}}$, BSV provides access to free carrier dynamics within a much broader range of peak intensities than accessible with coherent light. It is also considerably more efficient in the generation of high harmonics than coherent light of the same mean intensity.
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# ガウスボソンサンプリングにおける量子計算優位性の線形クロスエントロピー証明

Linear cross-entropy certification of quantum computational advantage in Gaussian Boson Sampling ( http://arxiv.org/abs/2403.15339v1 )

ライセンス: Link先を確認
Javier Martínez-Cifuentes, Hubert de Guise, Nicolás Quesada, (参考訳) ガウスボソンサンプリング(GBS)の文脈における量子優位性主張の検証は、現在、実験サンプルが真に対応する基底真理に従う証拠、すなわち実験者が説明できる全ての損失を含む実験の理論的モデルを提供することに依存している。 この検証へのアプローチには重要な欠点がある: 基底の真理分布が標本化が困難である、すなわち、理想的、損失のない実験の分布に十分近いと仮定する必要がある。 この仮定は容易には確認できないが、基底の真実のノイズを利用して実験を効率的にシミュレートする古典的なアルゴリズムの扉を開くことで、量子上の有利な主張を損なう。 本研究では,GBS の実装を,対応する理想分布を用いて直接検証することで,この問題を回避することができると論じる。 我々は、LXEスコアと呼ばれる線形クロスエントロピーの修正版を用いて、与えられたGBS実装が対応する理想モデルにどの程度近いかを評価するのに役立つ基準値を求める。 最後に、損失のないGBS実装で得られるスコアを解析的に計算する。

Validation of quantum advantage claims in the context of Gaussian Boson Sampling (GBS) currently relies on providing evidence that the experimental samples genuinely follow their corresponding ground truth, i.e., the theoretical model of the experiment that includes all the possible losses that the experimenters can account for. This approach to verification has an important drawback: it is necessary to assume that the ground truth distributions are computationally hard to sample, that is, that they are sufficiently close to the distribution of the ideal, lossless experiment, for which there is evidence that sampling, either exactly or approximately, is a computationally hard task. This assumption, which cannot be easily confirmed, opens the door to classical algorithms that exploit the noise in the ground truth to efficiently simulate the experiments, thus undermining any quantum advantage claim. In this work, we argue that one can avoid this issue by validating GBS implementations using their corresponding ideal distributions directly. We explain how to use a modified version of the linear cross-entropy, a measure that we call the LXE score, to find reference values that help us assess how close a given GBS implementation is to its corresponding ideal model. Finally, we analytically compute the score that would be obtained by a lossless GBS implementation.
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# 能動ゴール推論による未知環境における協調型AIチームの構築

Collaborative AI Teaming in Unknown Environments via Active Goal Deduction ( http://arxiv.org/abs/2403.15341v1 )

ライセンス: Link先を確認
Zuyuan Zhang, Hanhan Zhou, Mahdi Imani, Taeyoung Lee, Tian Lan, (参考訳) 人工知能(AI)の進歩により、AIが他のエージェントと密接に連携する必要のあるシナリオが増えています。 しかし、協調エージェントを訓練するための既存のアプローチは、しばしば定義され既知の報酬信号を必要とし、しばしば潜在目標/回帰を持つ未知のエージェントとのコラボレーションの問題に対処することができない。 この課題に対応するために、カーネル密度ベイズ逆学習法をアクティブゴール推論に活用し、事前訓練された目標条件付きポリシーを用いてゼロショットポリシー適応を可能にする未知エージェントフレームワークとの連携を提案する。 我々のフレームワークにおける不偏報酬推定は、未知のエージェントと最適なチームを作るのに十分であることを示す。 さらに,異なる振る舞い/逆の多様な未知のエージェントを用いて,再設計されたマルチエージェント粒子とStarCraft IIマイクロマネジメント環境の枠組みを評価する。 実験の結果、我々のフレームワークは、広範囲の協調シナリオにおいて、AIと未知エージェントのチーム化性能を大幅に向上することが示された。

With the advancements of artificial intelligence (AI), we're seeing more scenarios that require AI to work closely with other agents, whose goals and strategies might not be known beforehand. However, existing approaches for training collaborative agents often require defined and known reward signals and cannot address the problem of teaming with unknown agents that often have latent objectives/rewards. In response to this challenge, we propose teaming with unknown agents framework, which leverages kernel density Bayesian inverse learning method for active goal deduction and utilizes pre-trained, goal-conditioned policies to enable zero-shot policy adaptation. We prove that unbiased reward estimates in our framework are sufficient for optimal teaming with unknown agents. We further evaluate the framework of redesigned multi-agent particle and StarCraft II micromanagement environments with diverse unknown agents of different behaviors/rewards. Empirical results demonstrate that our framework significantly advances the teaming performance of AI and unknown agents in a wide range of collaborative scenarios.
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# 結合振動子に対する回転波近似の有効性について

On the validity of the rotating wave approximation for coupled harmonic oscillators ( http://arxiv.org/abs/2403.15342v1 )

ライセンス: Link先を確認
Tim Heib, Paul Lageyre, Alessandro Ferreri, Frank K. Wilhelm, G. S. Paraoanu, Daniel Burgarth, Andreas Wolfgang Schell, David Edward Bruschi, (参考訳) 本研究では、2つの調和振動子からなる理想系の回転波近似の有効性を2次ハミルトニアンと任意に強い相互作用で検証する。 我々は、シンプレクティック幾何の道具を用いて解析的に力学を解く。 我々は初期ガウス状態を持つ系に注目し、回転近似によって得られる状態と完全な進化を通じて得られる状態との偏差を正確に定量化し、結合のすべての値に対する答えを与える。 フルハミルトニアンと初期状態に存在するスクイージングは、近似された進化からの偏差を支配している。 さらに、共振周波数と周波数比との結合を解消し、回転波近似を復元することを示した。 最後に、回転波近似の一般的な証明を与え、フォック状態への収束を推定する。 応用と潜在的な物理実装についても論じる。

In this work we study the validity of the rotating wave approximation of an ideal system composed of two harmonic oscillators evolving with a quadratic Hamiltonian and arbitrarily strong interaction. We solve the dynamics analytically by employing tools from symplectic geometry. We focus on systems with initial Gaussian states and quantify exactly the deviation between the state obtained through the rotating approximation and the state obtained through the full evolution, therefore providing an answer for all values of the coupling. We find that the squeezing present in the full Hamiltonian and in the initial state governs the deviation from the approximated evolution. Furthermore, we also show that the rotating wave approximation is recovered for resonant frequencies and vanishing coupling to frequency ratio. Finally, we give a general proof of the rotating wave approximation and estimate its convergence on Fock states. Applications and potential physical implementations are also discussed.
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# 量子スクイーズ光を用いた電子ホットスポットの高感度イメージング

Enhanced Imaging of Electronic Hot Spots Using Quantum Squeezed Light ( http://arxiv.org/abs/2403.15345v1 )

ライセンス: Link先を確認
Haechan An, Ali Najjar Amiri, Dominic P. Goronzy, David A. Garcia Wetten, Michael J. Bedzyk, Ali Shakouri, Mark C. Hersam, Mahdi Hosseini, (参考訳) 電子ホットスポットの検出は、電子・半導体デバイスの放熱と熱管理を理解する上で重要である。 光熱反射イメージングは、ワイヤや半導体材料の熱の正確な時間的・空間的イメージングに使われている。 我々は、古典的アプローチのショットノイズ限界を超越して、マイクロワイヤ上で熱反射イメージングを行うために量子圧縮光を適用した。 平均50ミリ秒後の遠距離場温度感知精度は42mKであり,256\times256$ピクセル画像が10分で構築可能であることを示す。 さらに,10ドル以上で1.6Kの単発温度検出が可能となり,放熱の動的研究が可能となった。 量子画像は、熱分布に関する正確な時空間情報を提供するだけでなく、量子相関の測度は、古典的な手法ではアクセスできない追加情報を提供する。 本手法をAlおよびNbマイクロワイヤの両方に適用し,低温での電子動力学研究への応用について検討する。

Detecting electronic hot spots is important for understanding the heat dissipation and thermal management of electronic and semiconductor devices. Optical thermoreflective imaging is being used to perform precise temporal and spatial imaging of heat on wires and semiconductor materials. We apply quantum squeezed light to perform thermoreflective imaging on micro-wires, surpassing the shot-noise limit of classical approaches. We obtain a far-field temperature sensing accuracy of 42 mK after 50 ms of averaging and show that a $256\times256$ pixel image can be constructed with such sensitivity in 10 minutes. We can further obtain single-shot temperature sensing of 1.6 K after only 10 $\mathrm{\mu s}$ of averaging enabling dynamical study of heat dissipation. Not only do the quantum images provide accurate spatio-temporal information about heat distribution, but the measure of quantum correlation provides additional information, inaccessible by classical techniques, that can lead to a better understanding of the dynamics. We apply the technique to both Al and Nb microwires and discuss the applications of the technique in studying electron dynamics at low temperatures.
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# マルチレビューフュージョン・イン・コンテクスト

Multi-Review Fusion-in-Context ( http://arxiv.org/abs/2403.15351v1 )

ライセンス: Link先を確認
Aviv Slobodkin, Ori Shapira, Ran Levy, Ido Dagan, (参考訳) 長文質問回答や要約などのタスクを含む接地テキスト生成は、コンテンツ選択とコンテンツ統合の両方を必要とする。 現在のエンドツーエンドの手法は不透明さのために制御や解釈が困難である。 そのため、最近の研究で、各ステップごとに別々のコンポーネントを持つモジュラーアプローチが提案されている。 具体的には、複数文書設定であらかじめ選択されたコンテンツに対してコヒーレントなテキストを生成する2番目のサブタスクに焦点を当てる。 具体的には,対象コンテンツが強調表示されたソーステキストからなるスタンドアロンタスクとして,<textit{Fusion-in-Context} (FiC) を形式化する。 モデルが対象情報すべてと対象情報のみを含むコヒーレントパスを生成する必要がある。 我々の研究には、レビュー領域における1000インスタンスのキュレートされたデータセットの開発と、人間の判断に強く相関するハイライトの忠実さとカバレッジを評価するための新しい評価フレームワークが含まれています。 いくつかのベースラインモデルは有望な結果を示し、洞察に富んだ分析を提供する。 本研究は,マルチドキュメント・セッティングにおけるモジュール・テキスト・ジェネレーションのさらなる探索の基盤を築き,生成したコンテンツの品質と信頼性の潜在的な改善を提供する。 データセット、評価フレームワーク、指定されたリーダボードを含むFuseReviewsのベンチマークは、 \url{https://fusereviews.github.io/}で見ることができる。 ※

Grounded text generation, encompassing tasks such as long-form question-answering and summarization, necessitates both content selection and content consolidation. Current end-to-end methods are difficult to control and interpret due to their opaqueness. Accordingly, recent works have proposed a modular approach, with separate components for each step. Specifically, we focus on the second subtask, of generating coherent text given pre-selected content in a multi-document setting. Concretely, we formalize \textit{Fusion-in-Context} (FiC) as a standalone task, whose input consists of source texts with highlighted spans of targeted content. A model then needs to generate a coherent passage that includes all and only the target information. Our work includes the development of a curated dataset of 1000 instances in the reviews domain, alongside a novel evaluation framework for assessing the faithfulness and coverage of highlights, which strongly correlate to human judgment. Several baseline models exhibit promising outcomes and provide insightful analyses. This study lays the groundwork for further exploration of modular text generation in the multi-document setting, offering potential improvements in the quality and reliability of generated content. \footnote{Our benchmark, FuseReviews, including the dataset, evaluation framework and designated leaderboard, can be found at \url{https://fusereviews.github.io/}.}
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# 人工膝関節置換術への応用

Fully automated workflow for the design of patient-specific orthopaedic implants: application to total knee arthroplasty ( http://arxiv.org/abs/2403.15353v1 )

ライセンス: Link先を確認
Aziliz Guezou-Philippe, Arnaud Clavé, Ehouarn Maguet, Ludivine Maintier, Charles Garraud, Jean-Rassaire Fouefack, Valérie Burdin, Eric Stindel, Guillaume Dardenne, (参考訳) 関節形成術は関節症を治療し、痛みを軽減し、移動性を改善するために一般的に行われている。 関節形成術はいくつかの技術的改善が知られているが、多くの患者はまだ手術に満足していない。 パーソナライズされた関節形成術は手術成績を改善するが、現在の解決策には遅延が必要であり、臨床ルーチンへの統合が困難である。 人工膝関節置換術における人工膝関節全置換術(人工膝関節全置換術)の適応について検討した。 提案したパイプラインは、まず、人工ニューラルネットワークを使用して大腿骨と大腿骨の近位部と遠位部を分割する。 次に、全骨を拡張統計形状モデルを用いて再構築し、形状とランドマーク情報を組み合わせる。 最後に、77の形態パラメータを計算し、患者固有のインプラントを設計する。 開発されたワークフローは、下肢の91個のCTスキャンを用いてトレーニングされ、精度と実行時間の観点から、41個のCTスキャンを手動でセグメント化して評価されている。 ワークフローの精度はセグメンテーションで0.4\pm0.2mm$、全骨再建で1.2\pm0.4mm$、解剖学的ランドマークの決定で2.8\pm2.2mm$であった。 カスタムインプラントは患者の解剖学を0.6\pm0.2mm$の精度で適合させた。 セグメンテーションからインプラントの設計までの全工程は約5分続いた。 提案したワークフローにより、手動による介入を必要とせずに、患者のCT画像から直接、高速で信頼性の高い膝インプラントのパーソナライズが可能になる。 TKAの患者固有の事前手術計画を極めて短期間で確立し、すべての患者に容易に利用できるようにする。 効率的なインプラント製造技術と組み合わせることで、合併症を減らし、患者の満足度を向上させることができる。

Arthroplasty is commonly performed to treat joint osteoarthritis, reducing pain and improving mobility. While arthroplasty has known several technical improvements, a significant share of patients are still unsatisfied with their surgery. Personalised arthroplasty improves surgical outcomes however current solutions require delays, making it difficult to integrate in clinical routine. We propose a fully automated workflow to design patient-specific implants, presented for total knee arthroplasty, the most widely performed arthroplasty in the world nowadays. The proposed pipeline first uses artificial neural networks to segment the proximal and distal extremities of the femur and tibia. Then the full bones are reconstructed using augmented statistical shape models, combining shape and landmarks information. Finally, 77 morphological parameters are computed to design patient-specific implants. The developed workflow has been trained using 91 CT scans of lower limb and evaluated on 41 CT scans manually segmented, in terms of accuracy and execution time. The workflow accuracy was $0.4\pm0.2mm$ for the segmentation, $1.2\pm0.4mm$ for the full bones reconstruction, and $2.8\pm2.2mm$ for the anatomical landmarks determination. The custom implants fitted the patients' anatomy with $0.6\pm0.2mm$ accuracy. The whole process from segmentation to implants' design lasted about 5 minutes. The proposed workflow allows for a fast and reliable personalisation of knee implants, directly from the patient CT image without requiring any manual intervention. It establishes a patient-specific pre-operative planning for TKA in a very short time making it easily available for all patients. Combined with efficient implant manufacturing techniques, this solution could help answer the growing number of arthroplasties while reducing complications and improving the patients' satisfaction.
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# ニューラル・プラスティック・インスパイアされた地球横断モーダリティ観測の基礎モデル

Neural Plasticity-Inspired Foundation Model for Observing the Earth Crossing Modalities ( http://arxiv.org/abs/2403.15356v1 )

ライセンス: Link先を確認
Zhitong Xiong, Yi Wang, Fahong Zhang, Adam J. Stewart, Joëlle Hanna, Damian Borth, Ioannis Papoutsis, Bertrand Le Saux, Gustau Camps-Valls, Xiao Xiang Zhu, (参考訳) 基礎モデルの開発は、衛星観測データを用いて地球表面を解釈する我々の能力に革命をもたらした。 従来のモデルはサイロ化され、特定のセンサーや光学、レーダー、ハイパースペクトルといったデータタイプに合わせて調整され、それぞれ独自の特性を持つ。 この特殊化は、これらの多様なデータソースの組合せの強みから恩恵を受けることができる全体論的分析の可能性を妨げている。 我々の新しいアプローチでは、脳科学における神経可塑性の概念を活用して、様々なデータモダリティを適応的に単一のフレームワークに統合する、ダイナミックワンフォーオール(DOFA)モデルを導入しています。 このダイナミックなハイパーネットワークは、異なる波長に調整されるため、5つのセンサーのデータに基づいて1つの多目的トランスフォーマーを共同で訓練し、事前トレーニング中に見たことのないセンサーを含む12の異なる地球観測タスクを遂行することができる。 DOFAの革新的な設計は、より正確で効率的で統一された地球観測分析に向けて、有望な飛躍をもたらし、マルチモーダル地球観測データの可能性を活用するための顕著な適応性と性能を示している。

The development of foundation models has revolutionized our ability to interpret the Earth's surface using satellite observational data. Traditional models have been siloed, tailored to specific sensors or data types like optical, radar, and hyperspectral, each with its own unique characteristics. This specialization hinders the potential for a holistic analysis that could benefit from the combined strengths of these diverse data sources. Our novel approach introduces the Dynamic One-For-All (DOFA) model, leveraging the concept of neural plasticity in brain science to integrate various data modalities into a single framework adaptively. This dynamic hypernetwork, adjusting to different wavelengths, enables a single versatile Transformer jointly trained on data from five sensors to excel across 12 distinct Earth observation tasks, including sensors never seen during pretraining. DOFA's innovative design offers a promising leap towards more accurate, efficient, and unified Earth observation analysis, showcasing remarkable adaptability and performance in harnessing the potential of multimodal Earth observation data.
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# SiMBA: 視覚と多変量時系列のためのシンプルマンバベースアーキテクチャ

SiMBA: Simplified Mamba-Based Architecture for Vision and Multivariate Time series ( http://arxiv.org/abs/2403.15360v1 )

ライセンス: Link先を確認
Badri N. Patro, Vijay S. Agneeswaran, (参考訳) トランスフォーマーは、シーケンスミキシングのための注意ネットワークとチャネルミキシングのためのMDPを広く採用しており、ドメイン間のブレークスルーを達成する上で重要な役割を担っている。 しかし、近年の文献では、低い帰納バイアスや入力シーケンス長に関する二次的複雑さなど、注意ネットワークの問題が強調されている。 S4などの状態空間モデル(Hippo、Global Convolutions、Liquid S4、LRU、Mega、Mamba)は、長いシーケンス長を扱うために上記の問題に対処するために登場した。 Mambaは最先端のSSMだが、コンピュータビジョンデータセットの大規模ネットワークにスケールする場合、安定性に問題がある。 我々は,特定の固有値計算によるチャネルモデリングのためのEinstein FFT(EinFFT)を導入し,シーケンスモデリングにMambaブロックを用いる新しいアーキテクチャであるSiMBAを提案する。 画像と時系列のベンチマークによる大規模なパフォーマンス調査は、SiMBAが既存のSSMよりも優れており、最先端のトランスフォーマーとパフォーマンスギャップを埋めていることを示している。 特に、SiMBAは、ImageNetとStanford CarやFlowerなどのトランスファーラーニングベンチマーク、タスクラーニングベンチマーク、および7つの時系列ベンチマークデータセットにおいて、最先端のSSMとしての地位を確立している。 プロジェクトページは ~\url{https://github.com/badripatro/Simba} で公開されている。

Transformers have widely adopted attention networks for sequence mixing and MLPs for channel mixing, playing a pivotal role in achieving breakthroughs across domains. However, recent literature highlights issues with attention networks, including low inductive bias and quadratic complexity concerning input sequence length. State Space Models (SSMs) like S4 and others (Hippo, Global Convolutions, liquid S4, LRU, Mega, and Mamba), have emerged to address the above issues to help handle longer sequence lengths. Mamba, while being the state-of-the-art SSM, has a stability issue when scaled to large networks for computer vision datasets. We propose SiMBA, a new architecture that introduces Einstein FFT (EinFFT) for channel modeling by specific eigenvalue computations and uses the Mamba block for sequence modeling. Extensive performance studies across image and time-series benchmarks demonstrate that SiMBA outperforms existing SSMs, bridging the performance gap with state-of-the-art transformers. Notably, SiMBA establishes itself as the new state-of-the-art SSM on ImageNet and transfer learning benchmarks such as Stanford Car and Flower as well as task learning benchmarks as well as seven time series benchmark datasets. The project page is available on this website ~\url{https://github.com/badripatro/Simba}.
翻訳日:2024-03-25 16:40:19 公開日:2024-03-22
# 深層画像理解のためのトポロジ的表現の学習

Learning Topological Representations for Deep Image Understanding ( http://arxiv.org/abs/2403.15361v1 )

ライセンス: Link先を確認
Xiaoling Hu, (参考訳) 多くのシナリオ、特にバイオメディカルな応用において、ニューロン、組織、血管といった複雑な微細構造を正しく記述することは下流分析に不可欠である。 ディープラーニング手法の強い予測力にもかかわらず、これらの構造を満足できる表現を提供していないため、スケーラブルなアノテーションや下流分析において大きな障壁が生じる。 この論文では,これらのトポロジ的構造の新たな表現を深層学習フレームワークで提案することで,このような課題に対処する。 我々は、トポロジカルデータ解析、すなわち永続ホモロジーと離散モース理論から数学的ツールを活用し、より優れたセグメンテーションと不確実性推定のための原則的手法を開発し、スケーラブルなアノテーションのための強力なツールとなる。

In many scenarios, especially biomedical applications, the correct delineation of complex fine-scaled structures such as neurons, tissues, and vessels is critical for downstream analysis. Despite the strong predictive power of deep learning methods, they do not provide a satisfactory representation of these structures, thus creating significant barriers in scalable annotation and downstream analysis. In this dissertation, we tackle such challenges by proposing novel representations of these topological structures in a deep learning framework. We leverage the mathematical tools from topological data analysis, i.e., persistent homology and discrete Morse theory, to develop principled methods for better segmentation and uncertainty estimation, which will become powerful tools for scalable annotation.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# CoLLEGe: 大規模言語モデルのための概念埋め込み生成

CoLLEGe: Concept Embedding Generation for Large Language Models ( http://arxiv.org/abs/2403.15362v1 )

ライセンス: Link先を確認
Ryan Teehan, Brenden Lake, Mengye Ren, (参考訳) 現在の言語モデルは、すぐに新しい概念を学習することができず、しばしば堅牢に学習するためにより複雑な微調整プロセスを必要とします。 コンテキスト内でのプロンプティングはコンテキストの混乱に対して堅牢ではなく、新しい概念に関する多くの情報を提供するのに失敗することが多い。 グローバルなワードベクトルに依存するNLPにおける数ショットワード学習の古典的手法は、大規模言語モデルには適用できない。 本稿では,CoLLEGe(Concept Learning with Language Embedding Generation)という新しいアプローチを導入する。 CoLLEGeはメタラーニングフレームワークであり、少数の例文や定義を使って新しい概念の柔軟な埋め込みを生成することができる。 我々の主なメタ学習目的は、単に言語モデルが次の文で次の単語を予測できるようにし、言語モデル事前学習と互換性を持たせることである。 我々は,新しい単語獲得,定義推論,言語推論など,現実のシナリオに挑戦する上で,新しい概念学習をテストするための一連のタスクを設計し,タスク固有のトレーニングを使わずに各設定でメソッドが成功することを示す。

Current language models are unable to quickly learn new concepts on the fly, often requiring a more involved finetuning process to learn robustly. Prompting in-context is not robust to context distractions, and often fails to confer much information about the new concepts. Classic methods for few-shot word learning in NLP, relying on global word vectors, are less applicable to large language models. In this paper, we introduce a novel approach named CoLLEGe (Concept Learning with Language Embedding Generation) to modernize few-shot concept learning. CoLLEGe is a meta-learning framework capable of generating flexible embeddings for new concepts using a small number of example sentences or definitions. Our primary meta-learning objective is simply to facilitate a language model to make next word predictions in forthcoming sentences, making it compatible with language model pretraining. We design a series of tasks to test new concept learning in challenging real-world scenarios, including new word acquisition, definition inference, and verbal reasoning, and demonstrate that our method succeeds in each setting without task-specific training.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# 統計的に拡張されたグラフニューラルネットワークによるカスケードブラックアウトの重症度予測

Cascading Blackout Severity Prediction with Statistically-Augmented Graph Neural Networks ( http://arxiv.org/abs/2403.15363v1 )

ライセンス: Link先を確認
Joe Gorka, Tim Hsu, Wenting Li, Yury Maximov, Line Roald, (参考訳) グリッド条件の変動性は、再生可能量の増大と極度の気象事象の発生の増加によるものであり、破滅的なカスケード障害を引き起こすシナリオのスクリーニングの難しさを増している。 スケールするブラックアウトリスクを評価する従来のパワーフローベースのツールは、障害やロード/ジェネレーションパターンの空間を適切に調査するには遅すぎる。 我々は,高速グラフニューラルネット技術(GNN)を基盤として,初期グリッド条件からブラックアウト等級を推定する2つの新しい手法を開発した。 まず、大小推定に先立って、安全な「非ブラックアウト」シナリオをフィルタリングするために、初期分類ステップを利用するいくつかの方法を提案する。 第2に,カスケードブラックアウトの統計特性から得られた知見を用いて,GNNモデルにおける非局所的メッセージパッシングを容易にする手法を提案する。 これらの2つのアプローチを大規模なシミュレーションデータセット上で検証し、ブラックアウトサイズ推定性能を向上させる可能性を示す。

Higher variability in grid conditions, resulting from growing renewable penetration and increased incidence of extreme weather events, has increased the difficulty of screening for scenarios that may lead to catastrophic cascading failures. Traditional power-flow-based tools for assessing cascading blackout risk are too slow to properly explore the space of possible failures and load/generation patterns. We add to the growing literature of faster graph-neural-network (GNN)-based techniques, developing two novel techniques for the estimation of blackout magnitude from initial grid conditions. First we propose several methods for employing an initial classification step to filter out safe "non blackout" scenarios prior to magnitude estimation. Second, using insights from the statistical properties of cascading blackouts, we propose a method for facilitating non-local message passing in our GNN models. We validate these two approaches on a large simulated dataset, and show the potential of both to increase blackout size estimation performance.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# 知識を包括した自然言語理解・生成に向けて

Towards Knowledge-Grounded Natural Language Understanding and Generation ( http://arxiv.org/abs/2403.15364v1 )

ライセンス: Link先を確認
Chenxi Whitehouse, (参考訳) この論文は、トランスフォーマーモデルによる自然言語の理解と生成が、モデルに知識表現を基礎づけることの利点について研究し、以下の重要な研究課題に対処する。 i)エンティティの知識は、エンティティリンクのようなエンティティ中心のタスクを超えて、そのメリットを拡張できますか? (二)原文、特に騒々しいウェブテキストからそのような構造化知識を忠実かつ効果的に抽出する方法 三 構造化知識以外の知識は、NLPタスクの改善にどのように貢献するか。 この論文では、エンティティの関連知識と最新の知識を組み込むことは偽ニュースの検出に役立ち、エンティティ中心のコードスイッチングはエンティティ中心のタスクにおけるゼロショットのクロスランガル転送を大幅に促進する。 構造的知識を抽出するための効果的で忠実なアプローチは、否定的な例と学習とエンティティプランニングを統合することで、性能が著しく向上することが観察された。 また,パラメトリックな知識や蒸留された知識などの一般的な知識は,多言語・多言語的な知識集約的なタスクを強化することが確認された。 この研究は、多様な知識の統合の具体的な利点を示し、この方向のさらなる探索を動機付けている。

This thesis investigates how natural language understanding and generation with transformer models can benefit from grounding the models with knowledge representations and addresses the following key research questions: (i) Can knowledge of entities extend its benefits beyond entity-centric tasks, such as entity linking? (ii) How can we faithfully and effectively extract such structured knowledge from raw text, especially noisy web text? (iii) How do other types of knowledge, beyond structured knowledge, contribute to improving NLP tasks? Studies in this thesis find that incorporating relevant and up-to-date knowledge of entities benefits fake news detection, and entity-focused code-switching significantly enhances zero-shot cross-lingual transfer on entity-centric tasks. In terms of effective and faithful approaches to extracting structured knowledge, it is observed that integrating negative examples and training with entity planning significantly improves performance. Additionally, it is established that other general forms of knowledge, such as parametric and distilled knowledge, enhance multimodal and multilingual knowledge-intensive tasks. This research shows the tangible benefits of diverse knowledge integration and motivates further exploration in this direction.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# 画像透かしへの移動攻撃

A Transfer Attack to Image Watermarks ( http://arxiv.org/abs/2403.15365v1 )

ライセンス: Link先を確認
Yuepeng Hu, Zhengyuan Jiang, Moyang Guo, Neil Gong, (参考訳) Watermarkは、AI生成画像を検出するために、業界によって広くデプロイされている。 ホワイトボックスやブラックボックスの設定における回避攻撃に対するウォーターマークベースの検出器の堅牢性は文献でよく理解されている。 しかし、no-box設定の堅牢性はあまり理解されていない。 特に、複数の研究は、画像透かしはそのような環境では堅牢であると主張した。 本研究では,Non-box設定における画像透かしに対する新しい転送回避攻撃を提案する。 我々の転送攻撃は、攻撃者自身が訓練した複数のサロゲート透かしモデルを回避するために透かし画像に摂動を加え、摂動透かし画像も目標透かしモデルを回避する。 我々の主な貢献は、理論的にも経験的にも、透かしベースのAI生成画像検出器は、攻撃者が透かしモデルや検出APIにアクセスできない場合でも、回避攻撃に対して堅牢ではないことを示すことである。

Watermark has been widely deployed by industry to detect AI-generated images. The robustness of such watermark-based detector against evasion attacks in the white-box and black-box settings is well understood in the literature. However, the robustness in the no-box setting is much less understood. In particular, multiple studies claimed that image watermark is robust in such setting. In this work, we propose a new transfer evasion attack to image watermark in the no-box setting. Our transfer attack adds a perturbation to a watermarked image to evade multiple surrogate watermarking models trained by the attacker itself, and the perturbed watermarked image also evades the target watermarking model. Our major contribution is to show that, both theoretically and empirically, watermark-based AI-generated image detector is not robust to evasion attacks even if the attacker does not have access to the watermarking model nor the detection API.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# AV知覚ネットワークのための多視点整合性を有する拡張現実に基づくARSim

Augmented Reality based Simulated Data (ARSim) with multi-view consistency for AV perception networks ( http://arxiv.org/abs/2403.15370v1 )

ライセンス: Link先を確認
Aqeel Anwar, Tae Eun Choe, Zian Wang, Sanja Fidler, Minwoo Park, (参考訳) 様々な運転シナリオ下で多様な物体を検出することは、自律運転システムの有効性に不可欠である。 しかし、収集された実世界のデータは、長い尾の分布を示すために必要な多様性を欠いていることが多い。 合成データは仮想シーンを生成することでこの問題を克服するために利用されてきたが、3Dアーティストが現実的な環境を作るために必要な大きな領域ギャップやかなりの努力といったハードルに直面している。 これらの課題を克服するために,我々は,3次元合成オブジェクトを用いた実写多視点画像データの拡張を目的とした,完全に自動化され,包括的でモジュール化されたフレームワークであるARSimを提案する。 提案手法は、実データから本質的な領域属性を推定し、他の属性にシミュレーションに基づくランダム化を適用することにより、実データと模擬データの共変に対処するドメイン適応とランダム化戦略を統合する。 実データを用いて簡易な仮想シーンを構築し,その内部に戦略的に3D合成資産を配置する。 照明は、車両の周囲を撮影する複数の画像から光の分布を推定することで達成される。 実データからのカメラパラメータは、各フレームに合成資産をレンダリングするために使用される。 結果として得られたマルチビュー一貫性のあるデータセットは、自動運転車のためのマルチカメラ知覚ネットワークのトレーニングに使用される。 各種AV知覚タスクの実験結果から、拡張データセットでトレーニングしたネットワークの優れた性能が示された。

Detecting a diverse range of objects under various driving scenarios is essential for the effectiveness of autonomous driving systems. However, the real-world data collected often lacks the necessary diversity presenting a long-tail distribution. Although synthetic data has been utilized to overcome this issue by generating virtual scenes, it faces hurdles such as a significant domain gap and the substantial efforts required from 3D artists to create realistic environments. To overcome these challenges, we present ARSim, a fully automated, comprehensive, modular framework designed to enhance real multi-view image data with 3D synthetic objects of interest. The proposed method integrates domain adaptation and randomization strategies to address covariate shift between real and simulated data by inferring essential domain attributes from real data and employing simulation-based randomization for other attributes. We construct a simplified virtual scene using real data and strategically place 3D synthetic assets within it. Illumination is achieved by estimating light distribution from multiple images capturing the surroundings of the vehicle. Camera parameters from real data are employed to render synthetic assets in each frame. The resulting augmented multi-view consistent dataset is used to train a multi-camera perception network for autonomous vehicles. Experimental results on various AV perception tasks demonstrate the superior performance of networks trained on the augmented dataset.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# 大規模言語モデルはコンテキスト内を探索できるのか?

Can large language models explore in-context? ( http://arxiv.org/abs/2403.15371v1 )

ライセンス: Link先を確認
Akshay Krishnamurthy, Keegan Harris, Dylan J. Foster, Cyril Zhang, Aleksandrs Slivkins, (参考訳) 本稿では,現代における大規模言語モデル(LLM)が,強化学習と意思決定における中核的能力である探索にどの程度関与できるかを考察する。 既存のLLMのネイティブパフォーマンスをトレーニングの介入なしに重視する。 簡単なマルチアームバンディット環境において, LLMをエージェントとしてデプロイし, LLMプロンプト内で環境記述とインタラクション履歴を完全にコンテキスト内で指定する。 GPT-3.5, GPT-4, および Llama2 を各種のプロンプト設計を用いて実験した結果, モデルが実質的な介入なしには探索に強く関与しないことが判明した。 一 すべての実験において、十分な統計として提示されたチェーン・オブ・ソート推論と外部要約された相互作用履歴を備えたGPT-4の1つの構成だけで十分な探索行動が得られた。 ii)他のすべての構成は、チェーン・オブ・シークレットの推論を行うが、未熟な歴史を持つものを含め、堅牢な探索行動には至らなかった。 これらの知見は肯定的に解釈できるが、より複雑な環境では不可能かもしれない外部の要約は、LSMエージェントから望ましい行動を得るために重要であることを示唆している。 我々は,LLMに基づく意思決定エージェントを複雑な設定で強化するために,微調整やデータセットキュレーションなどの非自明なアルゴリズム介入が必要であると結論付けている。

We investigate the extent to which contemporary Large Language Models (LLMs) can engage in exploration, a core capability in reinforcement learning and decision making. We focus on native performance of existing LLMs, without training interventions. We deploy LLMs as agents in simple multi-armed bandit environments, specifying the environment description and interaction history entirely in-context, i.e., within the LLM prompt. We experiment with GPT-3.5, GPT-4, and Llama2, using a variety of prompt designs, and find that the models do not robustly engage in exploration without substantial interventions: i) Across all of our experiments, only one configuration resulted in satisfactory exploratory behavior: GPT-4 with chain-of-thought reasoning and an externally summarized interaction history, presented as sufficient statistics; ii) All other configurations did not result in robust exploratory behavior, including those with chain-of-thought reasoning but unsummarized history. Although these findings can be interpreted positively, they suggest that external summarization -- which may not be possible in more complex settings -- is important for obtaining desirable behavior from LLM agents. We conclude that non-trivial algorithmic interventions, such as fine-tuning or dataset curation, may be required to empower LLM-based decision making agents in complex settings.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# Rich-State Simulated Populationsによるメタテストの強化

Enhancing Testing at Meta with Rich-State Simulated Populations ( http://arxiv.org/abs/2403.15374v1 )

ライセンス: Link先を確認
Nadia Alshahwan, Arianna Blasi, Kinga Bojarczuk, Andrea Ciancone, Natalija Gucevska, Mark Harman, Simon Schellaert, Inna Harper, Yue Jia, Michał Królikowski, Will Lewis, Dragos Martac, Rubmary Rojas, Kate Ustiuzhanina, (参考訳) 本稿では,自動および手動テストのためのMetaにおけるRich-State Simulated Populationsの展開結果について報告する。 ユーザインタラクションを模倣し、実際のユーザアカウントが状態を取得するのと同じように、状態を取得するために、シミュレートされたユーザ(別名テストユーザ)を使用します。 自動テストでは、Facebook、Messenger、iOSおよびAndroidプラットフォーム向けのInstagramアプリへのデプロイによる経験的な結果を提示します。 これらのアプリは数千万行のコードで構成され、数億行のバックエンドコードと通信し、毎日20億人以上の人々が使っている。 その結果、リッチな状態は平均コードカバレッジを38 %、エンドポイントカバレッジを61 %増加させます。 さらに重要なのは、自動テストで見つかった欠陥の115\%が平均的に増加することだ。 リッチステートテストのユーザ人口は,2022年11月のデプロイ以来,21,000人を越えるMetaエンジニアが使用している,プライバシセーフな手動テストのためのWeb対応シミュレーションプラットフォームであるTest Universeにもデプロイされている(継続的に進化している)。

This paper reports the results of the deployment of Rich-State Simulated Populations at Meta for both automated and manual testing. We use simulated users (aka test users) to mimic user interactions and acquire state in much the same way that real user accounts acquire state. For automated testing, we present empirical results from deployment on the Facebook, Messenger, and Instagram apps for iOS and Android Platforms. These apps consist of tens of millions of lines of code, communicating with hundreds of millions of lines of backend code, and are used by over 2 billion people every day. Our results reveal that rich state increases average code coverage by 38\%, and endpoint coverage by 61\%. More importantly, it also yields an average increase of 115\% in the faults found by automated testing. The rich-state test user populations are also deployed in a (continually evolving) Test Universe; a web-enabled simulation platform for privacy-safe manual testing, which has been used by over 21,000 Meta engineers since its deployment in November 2022.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# InternVideo2:マルチモーダルビデオ理解のためのビデオファンデーションモデルのスケーリング

InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding ( http://arxiv.org/abs/2403.15377v1 )

ライセンス: Link先を確認
Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Guo Chen, Baoqi Pei, Rongkun Zheng, Jilan Xu, Zun Wang, Yansong Shi, Tianxiang Jiang, Songze Li, Hongjie Zhang, Yifei Huang, Yu Qiao, Yali Wang, Limin Wang, (参考訳) InternVideo2は、アクション認識、ビデオテキストタスク、ビデオ中心対話における最先端のパフォーマンスを実現する、新しいビデオファンデーションモデル(ViFM)である。 当社のアプローチでは,マスク付きビデオトークン再構成,クロスモーダルコントラスト学習,次のトークン予測といった,自己あるいは弱教師付き学習フレームワークを統一する,プログレッシブトレーニングパラダイムを採用している。 異なるトレーニングステージは、異なるプレテキストタスクを通じて異なるレベルの構造と意味情報をキャプチャするために、私たちのモデルを導くでしょう。 データレベルでは、ビデオのセグメンテーションと音声・音声のキャプションの生成により、時空間の一貫性を優先する。 これにより、ビデオとテキストのアライメントが改善される。 InternVideo2では、データとモデルサイズの両方をスケールしています。 広範にわたる実験を通じて、60以上のビデオおよびオーディオタスクにおいて、我々の設計を検証し、最先端のパフォーマンスを実証する。 特に,ビデオ関連キャプション,対話,長いビデオ理解のベンチマークでは,時間的文脈の解釈や理解能力に優れていた。 コードとモデルはhttps://github.com/OpenGVLab/InternVideo2/.comで公開されている。

We introduce InternVideo2, a new video foundation model (ViFM) that achieves the state-of-the-art performance in action recognition, video-text tasks, and video-centric dialogue. Our approach employs a progressive training paradigm that unifies the different self- or weakly-supervised learning frameworks of masked video token reconstruction, cross-modal contrastive learning, and next token prediction. Different training stages would guide our model to capture different levels of structure and semantic information through different pretext tasks. At the data level, we prioritize the spatiotemporal consistency by semantically segmenting videos and generating video-audio-speech captions. This improves the alignment between video and text. We scale both data and model size for our InternVideo2. Through extensive experiments, we validate our designs and demonstrate the state-of-the-art performance on over 60 video and audio tasks. Notably, our model outperforms others on various video-related captioning, dialogue, and long video understanding benchmarks, highlighting its ability to reason and comprehend long temporal contexts. Code and models are available at https://github.com/OpenGVLab/InternVideo2/.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# Long-CLIP: CLIPの長文機能をアンロックする

Long-CLIP: Unlocking the Long-Text Capability of CLIP ( http://arxiv.org/abs/2403.15378v1 )

ライセンス: Link先を確認
Beichen Zhang, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Jiaqi Wang, (参考訳) コントラスト言語-画像事前学習(CLIP)はゼロショット分類、テキスト画像検索、画像とテキストのモダリティの整列によるテキスト画像生成の基盤となっている。 広く採用されているにもかかわらず、CLIPの大幅な制限はテキスト入力の不十分な長さにある。 テキストトークンの長さは77に制限され、実証的研究により実際の有効長が20未満であることが示されている。 これにより、CLIPは詳細な記述を処理できなくなり、画像検索やテキスト・ツー・イメージ生成への応用を広範囲の前提条件で制限する。 この目的のために、Long-CLIPは、長文入力をサポートし、ゼロショットの一般化性を維持し、CLIPの潜在空間を調整し、下流フレームワークにさらなる適応なしにCLIPを置き換えることのできる、CLIPのプラグアンドプレイ代替品として提案する。 それでもこの目標を達成するのは簡単ではない。単純化された微調整によってCLIPのパフォーマンスが大幅に低下する可能性があるからだ。 さらに、長いコンテキストをサポートする言語モデルでテキストエンコーダを置換するには、大量のデータで事前学習する必要があるため、かなりの費用がかかる。 そこでLong-CLIPは,(1)位置埋め込みの知識保存型ストレッチング,(2)CLIP機能の主成分マッチング,という2つの新しい手法により,CLIP上の効率的な微調整ソリューションを導入している。 わずか100万の長文画像ペアを活用することで、Long-CLIPは、長文画像検索で約20%、従来のテキスト画像検索タスクで6%、例えば、COCO、Flickr30kでCLIPよりも優れていることを示した。 さらに、Long-CLIPはCLIPをプラグアンドプレイで置き換えることで、詳細なテキスト記述から画像を生成する機能を強化している。

Contrastive Language-Image Pre-training (CLIP) has been the cornerstone for zero-shot classification, text-image retrieval, and text-image generation by aligning image and text modalities. Despite its widespread adoption, a significant limitation of CLIP lies in the inadequate length of text input. The length of the text token is restricted to 77, and an empirical study shows the actual effective length is even less than 20. This prevents CLIP from handling detailed descriptions, limiting its applications for image retrieval and text-to-image generation with extensive prerequisites. To this end, we propose Long-CLIP as a plug-and-play alternative to CLIP that supports long-text input, retains or even surpasses its zero-shot generalizability, and aligns the CLIP latent space, making it readily replace CLIP without any further adaptation in downstream frameworks. Nevertheless, achieving this goal is far from straightforward, as simplistic fine-tuning can result in a significant degradation of CLIP's performance. Moreover, substituting the text encoder with a language model supporting longer contexts necessitates pretraining with vast amounts of data, incurring significant expenses. Accordingly, Long-CLIP introduces an efficient fine-tuning solution on CLIP with two novel strategies designed to maintain the original capabilities, including (1) a knowledge-preserved stretching of positional embedding and (2) a primary component matching of CLIP features. With leveraging just one million extra long text-image pairs, Long-CLIP has shown the superiority to CLIP for about 20% in long caption text-image retrieval and 6% in traditional text-image retrieval tasks, e.g., COCO and Flickr30k. Furthermore, Long-CLIP offers enhanced capabilities for generating images from detailed text descriptions by replacing CLIP in a plug-and-play manner.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# DragAPart: 人工物体に先立つ部分レベル運動の学習

DragAPart: Learning a Part-Level Motion Prior for Articulated Objects ( http://arxiv.org/abs/2403.15382v1 )

ライセンス: Link先を確認
Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi, (参考訳) DragAPartは、画像と一連のドラッグを入力として与えることで、ドラッグの動作と互換性のある、同じオブジェクトの新たなイメージを新しい状態に生成できる手法である。 DragAPartは、オブジェクトの再配置に焦点を当てた以前の作業とは異なり、引き出しの開閉のような部分レベルのインタラクションを予測します。 本研究では,この問題を,特定の運動構造や対象カテゴリーに限定されない一般運動モデル学習のプロキシとして研究する。 この目的のために、トレーニング済みの画像生成から始めて、新しい合成データセットであるDrag-a-Moveに微調整します。 ドラッグとデータセットのランダム化のための新しいエンコーディングと組み合わせて、新しいモデルは実際の画像と異なるカテゴリによく一般化される。 従来の動作制御ジェネレータと比較して、より優れた部分レベルの動作理解を示す。

We introduce DragAPart, a method that, given an image and a set of drags as input, can generate a new image of the same object in a new state, compatible with the action of the drags. Differently from prior works that focused on repositioning objects, DragAPart predicts part-level interactions, such as opening and closing a drawer. We study this problem as a proxy for learning a generalist motion model, not restricted to a specific kinematic structure or object category. To this end, we start from a pre-trained image generator and fine-tune it on a new synthetic dataset, Drag-a-Move, which we introduce. Combined with a new encoding for the drags and dataset randomization, the new model generalizes well to real images and different categories. Compared to prior motion-controlled generators, we demonstrate much better part-level motion understanding.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# ThemeStation: ごく一部の経験から、テーマを意識した3Dアセットを生成する

ThemeStation: Generating Theme-Aware 3D Assets from Few Exemplars ( http://arxiv.org/abs/2403.15383v1 )

ライセンス: Link先を確認
Zhenwei Wang, Tengfei Wang, Gerhard Hancke, Ziwei Liu, Rynson W. H. Lau, (参考訳) 現実世界のアプリケーションは、一貫したテーマを共有する3Dアセットの大規模なギャラリーを必要とすることが多い。 テキストや画像から一般的な3Dコンテンツ作成において顕著な進歩が見られたが、入力3D例題の共有テーマに従ってカスタマイズされた3Dアセットを合成することは、オープンで困難な問題である。 本稿では,テーマを意識した3D-to-3D生成のための新しいアプローチであるThemeStationを紹介する。 ThemeStationは、2つの目標を持つ少数の模範に基づいてカスタマイズされた3Dアセットを合成する。 1 所定の模範と数学的に整合した3D資産を創出するための統一 2)高度にバリエーションのある3Dアセットを生成するための多様性。 この目的のために、まず概念画像を描画する2段階のフレームワークを設計し、次に参照インフォームド3Dモデリングステージを設計する。 そこで本稿では,入力例と合成概念画像の両方から先行情報を共同で活用するために,新たな二重スコア蒸留(DSD)の損失を提案する。 大規模な実験とユーザスタディにより、ThemeStationは、様々なテーマを意識した3Dモデルを印象的な品質で製造する以前の作業を上回ることが確認された。 ThemeStationは、制御可能な3D-to-3D生成など、さまざまなアプリケーションを可能にする。

Real-world applications often require a large gallery of 3D assets that share a consistent theme. While remarkable advances have been made in general 3D content creation from text or image, synthesizing customized 3D assets following the shared theme of input 3D exemplars remains an open and challenging problem. In this work, we present ThemeStation, a novel approach for theme-aware 3D-to-3D generation. ThemeStation synthesizes customized 3D assets based on given few exemplars with two goals: 1) unity for generating 3D assets that thematically align with the given exemplars and 2) diversity for generating 3D assets with a high degree of variations. To this end, we design a two-stage framework that draws a concept image first, followed by a reference-informed 3D modeling stage. We propose a novel dual score distillation (DSD) loss to jointly leverage priors from both the input exemplars and the synthesized concept image. Extensive experiments and user studies confirm that ThemeStation surpasses prior works in producing diverse theme-aware 3D models with impressive quality. ThemeStation also enables various applications such as controllable 3D-to-3D generation.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# LATTE3D:大規模アモルタイズされたテキスト・ツー・エンハンスド3D合成

LATTE3D: Large-scale Amortized Text-To-Enhanced3D Synthesis ( http://arxiv.org/abs/2403.15385v1 )

ライセンス: Link先を確認
Kevin Xie, Jonathan Lorraine, Tianshi Cao, Jun Gao, James Lucas, Antonio Torralba, Sanja Fidler, Xiaohui Zeng, (参考訳) 最近のテキストから3D生成アプローチは印象的な3D結果を生成するが、プロンプト毎に最大1時間を要する時間を要する。 ATT3Dのような償却手法は複数のプロンプトを同時に最適化して効率を向上し、高速なテキストから3D合成を可能にする。 しかし、それらは高周波幾何学やテクスチャの詳細を捉えることができず、大きなプロンプトセットにスケールするのに苦労しているため、一般化は不十分である。 LATTE3Dを導入し、これらの制限に対処し、より大きなプロンプトセット上で高速で高品質な生成を実現する。 私たちの方法の鍵は 1)スケーラブルなアーキテクチャの構築 2) 3次元拡散前処理, 形状規則化, モデル初期化による最適化における3次元データの利用により, 多様な複雑な訓練プロンプトに対する堅牢性を実現する。 LATTE3Dは、ニューラルネットワークとテクスチャサーフェス生成の両方を改善し、単一のフォワードパスで高度に詳細なテクスチャメッシュを生成する。 LATTE3Dは400msで3Dオブジェクトを生成し、高速なテストタイム最適化でさらに拡張することができる。

Recent text-to-3D generation approaches produce impressive 3D results but require time-consuming optimization that can take up to an hour per prompt. Amortized methods like ATT3D optimize multiple prompts simultaneously to improve efficiency, enabling fast text-to-3D synthesis. However, they cannot capture high-frequency geometry and texture details and struggle to scale to large prompt sets, so they generalize poorly. We introduce LATTE3D, addressing these limitations to achieve fast, high-quality generation on a significantly larger prompt set. Key to our method is 1) building a scalable architecture and 2) leveraging 3D data during optimization through 3D-aware diffusion priors, shape regularization, and model initialization to achieve robustness to diverse and complex training prompts. LATTE3D amortizes both neural field and textured surface generation to produce highly detailed textured meshes in a single forward pass. LATTE3D generates 3D objects in 400ms, and can be further enhanced with fast test-time optimization.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# LLaVA-PruMerge: 効率的な大規模マルチモーダルモデルのための適応的トークン削減

LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models ( http://arxiv.org/abs/2403.15388v1 )

ライセンス: Link先を確認
Yuzhang Shang, Mu Cai, Bingxin Xu, Yong Jae Lee, Yan Yan, (参考訳) 大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大規模言語モデルとを接続することで、重要な推論能力を示している。 LMMは通常、プレフィックスの内容としてCLIPビジュアルエンコーダのペナルティ層機能など、一定量のビジュアルトークンを使用する。 近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。 しかし、Transformerアーキテクチャの設計により、これらのモデルに関連する計算コストは入力トークンの数によって2次的に増加する傾向にある。 この問題に対処するため,トークン低減機構を探索し,多くの視覚的トークンが空間的に冗長であることを示す。 そこで我々はPruMergeを提案する。PruMergeは適応型ビジュアルトークン削減手法で、比較モデルの性能を維持しながら、視覚トークンの数を大幅に削減する。 まず、クラストークンと空間トークンとの類似性に基づいて、未実行の視覚トークンを選択する。 次に、キーの類似性に基づいてプルーンドトークンをクラスタ化し、クラスタ化されたトークンと未実行トークンをマージして、情報を補完します。 経験的に、LLaVA-1.5に適用すると、我々の手法は視覚トークンを平均14.4倍圧縮し、多様な視覚的質問応答および推論タスクで同等の性能を達成することができる。 コードとチェックポイントはhttps://llava-prumerge.github.io/にある。

Large Multimodal Models (LMMs) have shown significant reasoning capabilities by connecting a visual encoder and a large language model. LMMs typically use a fixed amount of visual tokens, such as the penultimate layer features in the CLIP visual encoder, as the prefix content. Recent LMMs incorporate more complex visual inputs, such as high-resolution images and videos, which increase the number of visual tokens significantly. However, due to the design of the Transformer architecture, computational costs associated with these models tend to increase quadratically with the number of input tokens. To tackle this problem, we explore a token reduction mechanism and find, similar to prior work, that many visual tokens are spatially redundant. Based on this, we propose PruMerge, a novel adaptive visual token reduction approach, which largely reduces the number of visual tokens while maintaining comparable model performance. We first select the unpruned visual tokens based on their similarity to class tokens and spatial tokens. We then cluster the pruned tokens based on key similarity and merge the clustered tokens with the unpruned tokens to supplement their information. Empirically, when applied to LLaVA-1.5, our approach can compress the visual tokens by 14.4 times on average, and achieve comparable performance across diverse visual question-answering and reasoning tasks. Code and checkpoints are at https://llava-prumerge.github.io/.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# DiffusionMTL:部分注釈付きデータからマルチタスクの拡散モデルを学習する

DiffusionMTL: Learning Multi-Task Denoising Diffusion Model from Partially Annotated Data ( http://arxiv.org/abs/2403.15389v1 )

ライセンス: Link先を確認
Hanrong Ye, Dan Xu, (参考訳) 近年,複数の濃密なシーン理解タスクを部分的に注釈付きデータから学習する実践的問題への関心が高まっており,各トレーニングサンプルはタスクのサブセットにのみラベル付けされている。 トレーニングにおけるタスクラベルの欠如は、最先端の手法で見られるように、低品質でノイズの多い予測につながる。 この問題に対処するため,部分ラベル付きマルチタスク密度予測を画素レベルのデノナイジング問題として再検討し,DiffusionMTLと呼ばれる新しいマルチタスクデノナイジング拡散フレームワークを提案する。 タスク予測や特徴マップの潜在的なノイズ分布をモデル化し、異なるタスクに対して修正された出力を生成するために、共同拡散および雑音発生パラダイムを設計する。 マルチタスク・コンディショニングにおけるマルチタスクの一貫性を活用するために,タスクの補完的な性質を暗黙的に活用して,ラベルのないタスクの学習を支援するマルチタスク・コンディショニング戦略を導入する。 広汎な定量的および定性的実験により,提案したマルチタスクデノイング拡散モデルがマルチタスク予測マップを著しく改善し,2つの異なる部分ラベル評価設定の下で,3つの挑戦的マルチタスクベンチマーク上で最先端の手法より優れていることが示された。 コードはhttps://prismformore.github.io/diffusionmtl/で公開されている。

Recently, there has been an increased interest in the practical problem of learning multiple dense scene understanding tasks from partially annotated data, where each training sample is only labeled for a subset of the tasks. The missing of task labels in training leads to low-quality and noisy predictions, as can be observed from state-of-the-art methods. To tackle this issue, we reformulate the partially-labeled multi-task dense prediction as a pixel-level denoising problem, and propose a novel multi-task denoising diffusion framework coined as DiffusionMTL. It designs a joint diffusion and denoising paradigm to model a potential noisy distribution in the task prediction or feature maps and generate rectified outputs for different tasks. To exploit multi-task consistency in denoising, we further introduce a Multi-Task Conditioning strategy, which can implicitly utilize the complementary nature of the tasks to help learn the unlabeled tasks, leading to an improvement in the denoising performance of the different tasks. Extensive quantitative and qualitative experiments demonstrate that the proposed multi-task denoising diffusion model can significantly improve multi-task prediction maps, and outperform the state-of-the-art methods on three challenging multi-task benchmarks, under two different partial-labeling evaluation settings. The code is available at https://prismformore.github.io/diffusionmtl/.
翻訳日:2024-03-25 16:30:34 公開日:2024-03-22
# SoK:WebAssemblyの分析テクニック

SoK: Analysis techniques for WebAssembly ( http://arxiv.org/abs/2401.05943v1 )

ライセンス: Link先を確認
Håkon Harnes, Donn Morrison, (参考訳) WebAssemblyは低レベルのバイトコード言語で、C、C++、Rustといった高レベルの言語を、ネイティブに近いパフォーマンスでブラウザで実行できる。 近年、WebAssemblyは広く採用されており、現在のすべてのブラウザでネイティブにサポートされている。 しかし、CやC++のようなメモリ不安全な言語の脆弱性はWebAssemblyバイナリの脆弱性に変換できる。 残念なことに、ほとんどのWebAssemblyバイナリはそのようなメモリアンセーフな言語からコンパイルされており、これらの脆弱性は現実のシナリオで実用的であることが示されている。 WebAssemblyスマートコントラクトも脆弱性があることが判明した。 さらにWebAssemblyは、暗号ジャッキングのような悪意ある目的で使用されています。 これらの問題に対処するために、WebAssemblyバイナリの分析テクニックがいくつか提案されている。 本稿では,これらの手法の総合的な文献レビューを行い,その分析戦略と目的に基づいて分類する。 さらに,定量的データを用いた手法の比較と評価を行い,その強みと弱さを強調した。 また,本論文の主な貢献の1つは,詳細な文献レビューに基づく今後の研究方向性の同定である。

WebAssembly is a low-level bytecode language that allows high-level languages like C, C++, and Rust to be executed in the browser at near-native performance. In recent years, WebAssembly has gained widespread adoption is now natively supported by all modern browsers. However, vulnerabilities in memory-unsafe languages, like C and C++, can translate into vulnerabilities in WebAssembly binaries. Unfortunately, most WebAssembly binaries are compiled from such memory-unsafe languages, and these vulnerabilities have been shown to be practical in real-world scenarios. WebAssembly smart contracts have also been found to be vulnerable, causing significant financial loss. Additionally, WebAssembly has been used for malicious purposes like cryptojacking. To address these issues, several analysis techniques for WebAssembly binaries have been proposed. In this paper, we conduct a comprehensive literature review of these techniques and categorize them based on their analysis strategy and objectives. Furthermore, we compare and evaluate the techniques using quantitative data, highlighting their strengths and weaknesses. In addition, one of the main contributions of this paper is the identification of future research directions based on the thorough literature review conducted.
翻訳日:2024-03-25 12:47:21 公開日:2024-03-22
# 画像ゴールナビゲーションのためのインスタンス対応探索-検証-探索

Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation ( http://arxiv.org/abs/2402.17587v3 )

ライセンス: Link先を確認
Xiaohan Lei, Min Wang, Wengang Zhou, Li Li, Houqiang Li, (参考訳) 新しい具体的視覚タスクとして、インスタンスイメージゴールナビゲーション(IIN)は、探索されていない環境でゴールイメージによって表現された特定のオブジェクトにナビゲートすることを目的としている。 このタスクの主な課題は、異なる視点からターゲットオブジェクトを識別すると同時に、同様の注意散らしを拒絶することである。 既存のImageGoal Navigationメソッドは通常、単純なExploration-Exploitationフレームワークを採用し、ナビゲーション中に特定のインスタンスの識別を無視する。 本研究では,物体を距離から区別する際の「確認に近づいた」人間の動作を模倣することを提案する。 具体的には、インスタンスレベルの画像目標ナビゲーションのための新しいモジュール型ナビゲーションフレームワーク、Exploration-Verification-Exploitation (IEVE) を設計する。 本手法は,探索,検証,搾取行動の活発な切り替えを可能にし,エージェントが異なる状況下で合理的な意思決定を行うのを容易にする。 挑戦的なHabitatMatterport 3D semantic(HM3D-SEM)データセットでは,従来の最先端技術よりも,古典的セグメンテーションモデル(0.684 対 0.561 成功)やロバストモデル(0.702 対 0.561 成功)が優れている。

As a new embodied vision task, Instance ImageGoal Navigation (IIN) aims to navigate to a specified object depicted by a goal image in an unexplored environment. The main challenge of this task lies in identifying the target object from different viewpoints while rejecting similar distractors. Existing ImageGoal Navigation methods usually adopt the simple Exploration-Exploitation framework and ignore the identification of specific instance during navigation. In this work, we propose to imitate the human behaviour of ``getting closer to confirm" when distinguishing objects from a distance. Specifically, we design a new modular navigation framework named Instance-aware Exploration-Verification-Exploitation (IEVE) for instance-level image goal navigation. Our method allows for active switching among the exploration, verification, and exploitation actions, thereby facilitating the agent in making reasonable decisions under different situations. On the challenging HabitatMatterport 3D semantic (HM3D-SEM) dataset, our method surpasses previous state-of-the-art work, with a classical segmentation model (0.684 vs. 0.561 success) or a robust model (0.702 vs. 0.561 success)
翻訳日:2024-03-25 11:48:40 公開日:2024-03-22
# BiTT:2方向のテクスチャ再構築

BiTT: Bi-directional Texture Reconstruction of Interacting Two Hands from a Single Image ( http://arxiv.org/abs/2403.08262v3 )

ライセンス: Link先を確認
Minje Kim, Tae-Kyun Kim, (参考訳) パーソナライズされたハンドアバターを作ることは、AR/VRプラットフォーム上のユーザに現実的な体験を提供することが重要です。 従来の研究は3次元手形状の再構築に重点を置いていたが、近年の研究では形状上の手形状の再構築に取り組んできた。 しかし、これらの手法は手の見える側のピクセルを捉えることに制限されることが多く、ビデオや複数の画像を入力として手の動きを多様に見る必要がある。 本稿では,1枚のRGB画像のみを取り入れた2つのインタラクションハンドの2つのテクスチャ再構築を,3つの新しいコンポーネントで実現した,最初のエンドツーエンドのトレーニング可能な手法であるBiTT(Bi-directional Texture Restruction of Two Hand)を提案する。 1)左右手のテクスチャ対称性を用いた双方向(左$\leftrightarrow$ right)テクスチャ再構成 2手触覚回復のためのテクスチャパラメトリックモデルの利用、及び 3)2つの相互作用する手のテクスチャをパーソナライズする全体的粗大なステージパイプライン。 BiTTは、まず、入力画像からシーン光条件とアルベド画像を推定し、その後、テクスチャパラメトリックモデルと双方向テクスチャコンストラクタを通して両手のテクスチャを再構成する。 In experiment using InterHand2.6M and RGB2Hands datasets, we method significantlyforms state-of-the-the-art hand texture reconstruction methods quantitatively and qualitatively。 コードはhttps://github.com/yunminjin2/BiTTで入手できる。

Creating personalized hand avatars is important to offer a realistic experience to users on AR / VR platforms. While most prior studies focused on reconstructing 3D hand shapes, some recent work has tackled the reconstruction of hand textures on top of shapes. However, these methods are often limited to capturing pixels on the visible side of a hand, requiring diverse views of the hand in a video or multiple images as input. In this paper, we propose a novel method, BiTT(Bi-directional Texture reconstruction of Two hands), which is the first end-to-end trainable method for relightable, pose-free texture reconstruction of two interacting hands taking only a single RGB image, by three novel components: 1) bi-directional (left $\leftrightarrow$ right) texture reconstruction using the texture symmetry of left / right hands, 2) utilizing a texture parametric model for hand texture recovery, and 3) the overall coarse-to-fine stage pipeline for reconstructing personalized texture of two interacting hands. BiTT first estimates the scene light condition and albedo image from an input image, then reconstructs the texture of both hands through the texture parametric model and bi-directional texture reconstructor. In experiments using InterHand2.6M and RGB2Hands datasets, our method significantly outperforms state-of-the-art hand texture reconstruction methods quantitatively and qualitatively. The code is available at https://github.com/yunminjin2/BiTT
翻訳日:2024-03-25 11:48:40 公開日:2024-03-22
# ShapeFormer: Visible-to-Amodal Transformer-based Amodal Instance Segmentation

ShapeFormer: Shape Prior Visible-to-Amodal Transformer-based Amodal Instance Segmentation ( http://arxiv.org/abs/2403.11376v2 )

ライセンス: Link先を確認
Minh Tran, Winston Bounsavy, Khoa Vo, Anh Nguyen, Tri Nguyen, Ngan Le, (参考訳) Amodal Instance Segmentation (AIS)は、画像内のオブジェクトの可視部分と隠蔽部分の両方を予測するため、困難なタスクを提示する。 既存のAIS手法は、アモーダル特徴から可視的特徴(可視的特徴)への移行と、可視的特徴から可視的特徴(可視的特徴から可視的特徴(可視的特徴)への移行の両方を含む、双方向アプローチに依存している。 観察の結果,アモーダル・ツー・ヴィジュアブルによるアモーダルな特徴の活用は,視覚ディスプレイに表示されない隠蔽/隠蔽セグメントの余分な情報により,可視的特徴を混乱させる可能性が示唆された。 その結果、その後の可視的・非可視的遷移における可視的特徴の質を損なうことになった。 この問題に対処するために、私たちは、可視からアモーダルへの遷移を持つ、分離されたTransformerベースのモデルであるShapeFormerを紹介します。 これは出力セグメンテーション間の明示的な関係を促進し、アモーダル-可視遷移の必要性を回避する。 ShapeFormerは3つの重要なモジュールから構成される。 一 隠蔽認識による可視的セグメンテーション予測のための可視性マスクヘッド (二)アモーダルマスク及び隠蔽マスク予測用形状プリア・アモーダルマスクヘッド及び 三 カテゴリー比形形先取先取先取先取先取先取先取先取先取先取先取先取 様々なAISベンチマークにおける総合的な実験と広範囲なアブレーション研究は、ShapeFormerの有効性を実証している。 コードは、https://github.com/UARK-AICV/ShapeFormerで入手できる。

Amodal Instance Segmentation (AIS) presents a challenging task as it involves predicting both visible and occluded parts of objects within images. Existing AIS methods rely on a bidirectional approach, encompassing both the transition from amodal features to visible features (amodal-to-visible) and from visible features to amodal features (visible-to-amodal). Our observation shows that the utilization of amodal features through the amodal-to-visible can confuse the visible features due to the extra information of occluded/hidden segments not presented in visible display. Consequently, this compromised quality of visible features during the subsequent visible-to-amodal transition. To tackle this issue, we introduce ShapeFormer, a decoupled Transformer-based model with a visible-to-amodal transition. It facilitates the explicit relationship between output segmentations and avoids the need for amodal-to-visible transitions. ShapeFormer comprises three key modules: (i) Visible-Occluding Mask Head for predicting visible segmentation with occlusion awareness, (ii) Shape-Prior Amodal Mask Head for predicting amodal and occluded masks, and (iii) Category-Specific Shape Prior Retriever aims to provide shape prior knowledge. Comprehensive experiments and extensive ablation studies across various AIS benchmarks demonstrate the effectiveness of our ShapeFormer. The code is available at: https://github.com/UARK-AICV/ShapeFormer
翻訳日:2024-03-25 11:48:40 公開日:2024-03-22
# LOOPer: 多面体コンパイラのための学習済みコード最適化ツール

LOOPer: A Learned Automatic Code Optimizer For Polyhedral Compilers ( http://arxiv.org/abs/2403.11522v2 )

ライセンス: Link先を確認
Massinissa Merouani, Khaled Afif Boudaoud, Iheb Nassim Aouadj, Nassim Tchoulak, Islem Kara Bernou, Hamza Benyamina, Fatima Benbouzid-Si Tayeb, Karima Benatchba, Hugh Leather, Riyadh Baghdadi, (参考訳) 多面体コンパイラは高度なコード変換の実装に成功しているが、最高のスピードアップにつながる最も利益の高い変換を選択する上ではまだ課題がある。 これは、多面体最適化の探索をガイドするコストモデルを構築するための機械学習の使用を動機付けている。 最先端の多面体コンパイラは、このアプローチの現実的な概念実証を実証している。 このような概念実証は将来性を示しているが、依然として大きな制限がある。 ディープラーニングのコストモデルを使用する最先端の多面体コンパイラは、アフィン変換の小さなサブセットのみをサポートし、複雑なコード変換を適用する能力を制限する。 また、単一のループネストと長方形のイテレーションドメインを持つ単純なプログラムのみをサポートし、多くのプログラムに適用性を制限する。 これらの制限は、そのようなコンパイラやオートスケジューラの一般性に大きな影響を与え、アプローチ全体に疑問を投げかけた。 本稿では,深層学習に基づくコストモデルを用いた最初の多面体自動スケジューリングシステムである LOOPer について紹介する。 大規模なアフィン変換の探索をサポートし、多面体変換の複雑な配列を適用できる。 また、複数のループネストと長方形および非矩形反復領域を持つプログラムの最適化をサポートし、プログラムの広範なセットの最適化を可能にする。 我々は LOOPer の実装と評価を行い,それが最先端技術上での高速化を実現することを示す。 Polybenchベンチマークでは、LOOPerはTiramisu上で1.59倍の幾何平均スピードアップを達成する。 LOOPerはまた、機械学習ベースのコストモデルを使用しない最先端の多面体コンパイラであるPluto上での幾何学平均速度1.34倍の競合的なスピードアップも達成している。

While polyhedral compilers have shown success in implementing advanced code transformations, they still have challenges in selecting the most profitable transformations that lead to the best speedups. This has motivated the use of machine learning to build cost models to guide the search for polyhedral optimizations. State-of-the-art polyhedral compilers have demonstrated a viable proof-of-concept of this approach. While such a proof-of-concept has shown promise, it still has significant limitations. State-of-the-art polyhedral compilers that use a deep-learning cost model only support a small subset of affine transformations, limiting their ability to apply complex code transformations. They also only support simple programs that have a single loop nest and a rectangular iteration domain, limiting their applicability to many programs. These limitations significantly impact the generality of such compilers and autoschedulers and put into question the whole approach. In this paper, we introduce LOOPer, the first polyhedral autoscheduler that uses a deep-learning based cost model and covers a large set of affine transformations and programs. It supports the exploration of a large set of affine transformations, allowing the application of complex sequences of polyhedral transformations. It also supports the optimization of programs with multiple loop nests and with rectangular and non-rectangular iteration domains, allowing the optimization of an extensive set of programs. We implement and evaluate LOOPer and show that it achieves speedups over the state-of-the-art. On the Polybench benchmark, LOOPer achieves a geometric mean speedup of 1.59x over Tiramisu. LOOPer also achieves competitive speedups with a geometric mean speedup of 1.34x over Pluto, a state-of-the-art polyhedral compiler that does not use a machine-learning based cost model.
翻訳日:2024-03-25 11:48:40 公開日:2024-03-22
# LSKNet: リモートセンシングのための基礎的な軽量バックボーン

LSKNet: A Foundation Lightweight Backbone for Remote Sensing ( http://arxiv.org/abs/2403.11735v2 )

ライセンス: Link先を確認
Yuxuan Li, Xiang Li, Yimain Dai, Qibin Hou, Li Liu, Yongxiang Liu, Ming-Ming Cheng, Jian Yang, (参考訳) リモートセンシング画像は、その固有の複雑さのために、下流のタスクに対して異なる課題を生じさせる。 リモートセンシング分類、オブジェクト検出、セマンティックセグメンテーションに多くの研究がなされているが、これらの研究の多くは、リモートセンシングシナリオに埋め込まれた貴重な事前知識を見落としている。 このような事前知識は、遠隔センシングオブジェクトが十分に長い範囲のコンテキストを参照せずに誤って認識され、異なるオブジェクトに対して異なる可能性があるため、有用である。 本稿では,これらの前提を考察し,軽量なLarge Selective Kernel Network(LSKNet)のバックボーンを提案する。 LSKNetはその大きな空間受容場を動的に調整し、リモートセンシングシナリオにおける様々なオブジェクトの範囲をモデル化する。 我々の知る限り、大規模で選択的なカーネル機構は、これまでリモートセンシング画像では研究されていない。 我々の軽量LSKNetは、標準リモートセンシング分類、オブジェクト検出、セマンティックセグメンテーションベンチマークに基づいて、最先端のスコアを設定しています。 包括的分析により、同定された事前の意義とLSKNetの有効性がさらに検証された。 コードはhttps://github.com/zcablii/LSKNetで公開されている。

Remote sensing images pose distinct challenges for downstream tasks due to their inherent complexity. While a considerable amount of research has been dedicated to remote sensing classification, object detection and semantic segmentation, most of these studies have overlooked the valuable prior knowledge embedded within remote sensing scenarios. Such prior knowledge can be useful because remote sensing objects may be mistakenly recognized without referencing a sufficiently long-range context, which can vary for different objects. This paper considers these priors and proposes a lightweight Large Selective Kernel Network (LSKNet) backbone. LSKNet can dynamically adjust its large spatial receptive field to better model the ranging context of various objects in remote sensing scenarios. To our knowledge, large and selective kernel mechanisms have not been previously explored in remote sensing images. Without bells and whistles, our lightweight LSKNet sets new state-of-the-art scores on standard remote sensing classification, object detection and semantic segmentation benchmarks. Our comprehensive analysis further validated the significance of the identified priors and the effectiveness of LSKNet. The code is available at https://github.com/zcablii/LSKNet.
翻訳日:2024-03-25 11:48:40 公開日:2024-03-22
# 感情的ミミリー予測のための一様マルチタスクフュージョン

Unimodal Multi-Task Fusion for Emotional Mimicry Prediction ( http://arxiv.org/abs/2403.11879v3 )

ライセンス: Link先を確認
Tobias Hallmen, Fabian Deuser, Norbert Oswald, Elisabeth André, (参考訳) 本研究では,第6回ワークショップおよび感情行動分析コンペティションにおける情緒的不安度(EMI)推定の方法論を提案する。 提案手法では,包括的ポッドキャストデータセットで事前学習したWav2Vec 2.0フレームワークを利用して,言語的およびパラ言語的要素を含む幅広い音声特徴を抽出する。 我々は,グローバルな平均ベクトルと個々の特徴を統合する融合手法により特徴表現を強化し,分析にグローバルな文脈的洞察を導入する。 さらに,Wav2Vec 2.0モデルから,事前学習したVAD(valence-arousal-dominance)モジュールを組み込んだ。 我々の融合では、音声データの時間的効率的な分析にLong Short-Term Memory (LSTM) アーキテクチャを採用している。 提案手法は,提供された音声データのみを利用することで,確立されたベースラインよりも大幅に改善されたことを示す。

In this study, we propose a methodology for the Emotional Mimicry Intensity (EMI) Estimation task within the context of the 6th Workshop and Competition on Affective Behavior Analysis in-the-wild. Our approach leverages the Wav2Vec 2.0 framework, pre-trained on a comprehensive podcast dataset, to extract a broad range of audio features encompassing both linguistic and paralinguistic elements. We enhance feature representation through a fusion technique that integrates individual features with a global mean vector, introducing global contextual insights into our analysis. Additionally, we incorporate a pre-trained valence-arousal-dominance (VAD) module from the Wav2Vec 2.0 model. Our fusion employs a Long Short-Term Memory (LSTM) architecture for efficient temporal analysis of audio data. Utilizing only the provided audio data, our approach demonstrates significant improvements over the established baseline.
翻訳日:2024-03-25 11:48:40 公開日:2024-03-22
# 欠損を伴う縦型マルチモーダル・マルチビュー予測のための統一モデル

A Unified Model for Longitudinal Multi-Modal Multi-View Prediction with Missingness ( http://arxiv.org/abs/2403.12211v2 )

ライセンス: Link先を確認
Boqi Chen, Junier Oliva, Marc Niethammer, (参考訳) 医療記録は、画像、テキスト、表情報など、様々なモダリティから構成されることが多い。 すべてのモダリティを統合することは、患者の状態の全体像を提供すると同時に、それらを縦に分析することで、疾患の進行をよりよく理解する。 しかし、現実世界の経時的医療記録には課題がある。 1)患者は特定の時点のデータの一部または全部を欠くことがあり、 2) ある期間にすべての患者に特定のモダリティや見解が欠如している可能性がある。 本研究では,長手マルチモーダルマルチビュー予測のための統一モデルを提案する。 提案手法は,入力に希望する時間ポイントを最大で確保し,利用可能なデータをすべて活用することを目的としている。 変形性膝関節症とKellgren-Lawrenceグレード予測による膝関節症データセットに関する広範な実験を行った。 我々は,本手法の有効性を,トレーニングと評価において同一のモダリティとビューの組み合わせを使用する特定のモデルと比較することによって示す。 また、時間的データの拡張による利点を示し、異なるタスクにおける各モダリティ/ビューの重要性をより深く理解するためのポストホック分析を提供する。

Medical records often consist of different modalities, such as images, text, and tabular information. Integrating all modalities offers a holistic view of a patient's condition, while analyzing them longitudinally provides a better understanding of disease progression. However, real-world longitudinal medical records present challenges: 1) patients may lack some or all of the data for a specific timepoint, and 2) certain modalities or views might be absent for all patients during a particular period. In this work, we introduce a unified model for longitudinal multi-modal multi-view prediction with missingness. Our method allows as many timepoints as desired for input, and aims to leverage all available data, regardless of their availability. We conduct extensive experiments on the knee osteoarthritis dataset from the Osteoarthritis Initiative for pain and Kellgren-Lawrence grade prediction at a future timepoint. We demonstrate the effectiveness of our method by comparing results from our unified model to specific models that use the same modality and view combinations during training and evaluation. We also show the benefit of having extended temporal data and provide post-hoc analysis for a deeper understanding of each modality/view's importance for different tasks.
翻訳日:2024-03-25 11:48:40 公開日:2024-03-22
# RankPrompt: 言語モデルにおけるステップバイステップの比較

RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners ( http://arxiv.org/abs/2403.12373v3 )

ライセンス: Link先を確認
Chi Hu, Yuan Ge, Xiangnan Ma, Hang Cao, Qiang Li, Yonghua Yang, Tong Xiao, Jingbo Zhu, (参考訳) 大きな言語モデル(LLM)は、様々な推論タスクで素晴らしいパフォーマンスを実現しています。 しかし、ChatGPTのような最先端のLCMでさえ、推論プロセス中に論理的な誤りを犯しやすい。 タスク固有のバリデーションのデプロイや、複数の推論パスに対する投票といった既存のソリューションでは、広範なヒューマンアノテーションが必要か、一貫性のないレスポンスのシナリオで失敗する。 これらの課題に対処するために, LLMが追加資源を使わずに応答を自己ランクできる新しいプロンプト手法である RankPrompt を導入する。 RankPromptは、ランキング問題を様々な応答の一連の比較に分解し、LLMの本質的な能力を活用して、文脈的な例えとして比較の連鎖を生成する。 11の算術的および常識的推論タスクを対象とした実験により,RangePromptはChatGPTとGPT-4の推論性能を大幅に向上し,最大13%の改善が得られた。 さらに、RopPromptは、AlpacaEvalデータセットにおける人間の判断の74%と整合して、オープンなタスクに対するLLMベースの自動評価に優れています。 また、応答順序と一貫性の変動に対して堅牢性を示す。 本研究の結果は,言語モデルから高品質なフィードバックを抽出する有効な手法として,RopPromptを評価した。

Large Language Models (LLMs) have achieved impressive performance across various reasoning tasks. However, even state-of-the-art LLMs such as ChatGPT are prone to logical errors during their reasoning processes. Existing solutions, such as deploying task-specific verifiers or voting over multiple reasoning paths, either require extensive human annotations or fail in scenarios with inconsistent responses. To address these challenges, we introduce RankPrompt, a new prompting method that enables LLMs to self-rank their responses without additional resources. RankPrompt breaks down the ranking problem into a series of comparisons among diverse responses, leveraging the inherent capabilities of LLMs to generate chains of comparison as contextual exemplars. Our experiments across 11 arithmetic and commonsense reasoning tasks show that RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4, with improvements of up to 13%. Moreover, RankPrompt excels in LLM-based automatic evaluations for open-ended tasks, aligning with human judgments 74% of the time in the AlpacaEval dataset. It also exhibits robustness to variations in response order and consistency. Collectively, our results validate RankPrompt as an effective method for eliciting high-quality feedback from language models.
翻訳日:2024-03-25 11:48:40 公開日:2024-03-22
# セマンティックス, 歪み, スタイル項目:パノラマセグメンテーションのためのソースフリーUDAを目指して

Semantics, Distortion, and Style Matter: Towards Source-free UDA for Panoramic Segmentation ( http://arxiv.org/abs/2403.12505v2 )

ライセンス: Link先を確認
Xu Zheng, Pengyuan Zhou, Athanasios V. Vasilakos, Lin Wang, (参考訳) 本稿では、ピンホール画像訓練モデル(ソース)と未ラベルパノラマ画像(ターゲット)のみを前提とした、ピンホールからパノラマ的セマンティックセマンティックセマンティックセグメンテーションのための、ソースフリーな教師なしドメイン適応(SFUDA)という興味深い課題に対処する。 この問題に取り組むことは、意味的ミスマッチ、スタイルの相違、パノラマ画像の避けられない歪みのため、簡単ではない。 そこで本研究では,Tangent Projection (TP) を用いて歪みを小さくし,固定されたFoVで正方形投影(ERP)をスリットしてピンホール画像を模倣する手法を提案する。 どちらのプロジェクションも、ソースモデルから知識を抽出するのに効果的である。 しかし、ソースドメインとターゲットドメインの差は直接知識伝達を妨げるため、抽出した知識からパノラマプロトタイプを統合するためのパノラマプロトタイプ適応モジュール(PPAM)を提案する。 そこで我々は, 予測とプロトタイプの両方に損失制約を課し, ドメインとプロジェクション間の空間特性とチャネル特性の整合性を改善するために, 機能レベルでの相互注意モジュール (CDAM) を提案する。 知識抽出と転送プロセスは同期的に更新され、最高のパフォーマンスを得る。 室内・屋外のシナリオを含む,合成および実世界のベンチマーク実験により,本手法は従来のSFUDA法に比べてピンホール・パノラマ適応法よりも有意に優れた性能を示した。

This paper addresses an interesting yet challenging problem -- source-free unsupervised domain adaptation (SFUDA) for pinhole-to-panoramic semantic segmentation -- given only a pinhole image-trained model (i.e., source) and unlabeled panoramic images (i.e., target). Tackling this problem is nontrivial due to the semantic mismatches, style discrepancies, and inevitable distortion of panoramic images. To this end, we propose a novel method that utilizes Tangent Projection (TP) as it has less distortion and meanwhile slits the equirectangular projection (ERP) with a fixed FoV to mimic the pinhole images. Both projections are shown effective in extracting knowledge from the source model. However, the distinct projection discrepancies between source and target domains impede the direct knowledge transfer; thus, we propose a panoramic prototype adaptation module (PPAM) to integrate panoramic prototypes from the extracted knowledge for adaptation. We then impose the loss constraints on both predictions and prototypes and propose a cross-dual attention module (CDAM) at the feature level to better align the spatial and channel characteristics across the domains and projections. Both knowledge extraction and transfer processes are synchronously updated to reach the best performance. Extensive experiments on the synthetic and real-world benchmarks, including outdoor and indoor scenarios, demonstrate that our method achieves significantly better performance than prior SFUDA methods for pinhole-to-panoramic adaptation.
翻訳日:2024-03-25 11:48:40 公開日:2024-03-22
# RGBD GS-ICP SLAM

RGBD GS-ICP SLAM ( http://arxiv.org/abs/2403.12550v2 )

ライセンス: Link先を確認
Seongbo Ha, Jiung Yeon, Hyeonwoo Yu, (参考訳) 濃密な表現を伴う同時局在マッピング(SLAM)は、ロボット工学、仮想現実(VR)、拡張現実(AR)アプリケーションにおいて重要な役割を果たす。 密度表現SLAMの最近の進歩は、高忠実度空間表現にニューラルシーン表現と3次元ガウス表現を活用する可能性を強調している。 本稿では,G-ICP(Generalized Iterative Closest Point)と3D Gaussian Splatting(3DGS)を融合した新しい高密度表現SLAM手法を提案する。 既存の手法とは対照的に、トラッキングとマッピングの両方に単一のガウス写像を使用し、相互に利益をもたらす。 追跡処理とマッピング処理との共分散をスケールアライメント技術と交換することで、冗長な計算を最小化し、効率的なシステムを実現する。 さらに,キーフレーム選択手法により追跡精度とマッピング品質を向上させる。 提案手法の有効性を実験的に示し,107 FPS (システム全体) の超高速化と再建地図の高品質化を実証した。

Simultaneous Localization and Mapping (SLAM) with dense representation plays a key role in robotics, Virtual Reality (VR), and Augmented Reality (AR) applications. Recent advancements in dense representation SLAM have highlighted the potential of leveraging neural scene representation and 3D Gaussian representation for high-fidelity spatial representation. In this paper, we propose a novel dense representation SLAM approach with a fusion of Generalized Iterative Closest Point (G-ICP) and 3D Gaussian Splatting (3DGS). In contrast to existing methods, we utilize a single Gaussian map for both tracking and mapping, resulting in mutual benefits. Through the exchange of covariances between tracking and mapping processes with scale alignment techniques, we minimize redundant computations and achieve an efficient system. Additionally, we enhance tracking accuracy and mapping quality through our keyframe selection methods. Experimental results demonstrate the effectiveness of our approach, showing an incredibly fast speed up to 107 FPS (for the entire system) and superior quality of the reconstructed map.
翻訳日:2024-03-25 11:48:40 公開日:2024-03-22
# Mora: マルチエージェントフレームワークによるジェネラリストビデオ生成の実現

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework ( http://arxiv.org/abs/2403.13248v2 )

ライセンス: Link先を確認
Zhengqing Yuan, Ruoxi Chen, Zhaoxu Li, Haolong Jia, Lifang He, Chi Wang, Lichao Sun, (参考訳) Soraは、社会全体で大きな注目を集めた最初の大規模ジェネラリストビデオ生成モデルである。 2024年2月にOpenAIによってローンチされて以来、他のビデオ生成モデルは、Sora}のパフォーマンスや、幅広いビデオ生成タスクをサポートする能力に並列化していない。 さらに、完全に公開されたビデオ生成モデルがいくつかあるだけで、大半はクローズドソースである。 このギャップに対処するために、Soraがデモしたジェネラリストビデオ生成を再現するために、いくつかの高度なビジュアルAIエージェントを組み込んだ新しいマルチエージェントフレームワークであるMoraを提案する。 特に、モラは複数の視覚エージェントを利用し、(1)テキスト・ツー・ビデオ生成、(2)テキスト・コンディショナル・イメージ・トゥ・ビデオ生成、(3)拡張ビデオ、(4)ビデオ・トゥ・ビデオ編集、(5)ビデオ接続、(6)デジタル世界をシミュレートするといった様々なタスクにおいて、ソラのビデオ生成機能をうまく模倣することができる。 大規模な実験結果から,モラは様々なタスクにおいて,ソラのそれに近い性能を達成できることが示唆された。 しかしながら、私たちの仕事とSoraの間には明らかにパフォーマンスのギャップがあります。 要約すると、このプロジェクトが、協力的なAIエージェントを通じて、ビデオ生成の将来の軌跡を導いてくれることを願っている。

Sora is the first large-scale generalist video generation model that garnered significant attention across society. Since its launch by OpenAI in February 2024, no other video generation models have paralleled {Sora}'s performance or its capacity to support a broad spectrum of video generation tasks. Additionally, there are only a few fully published video generation models, with the majority being closed-source. To address this gap, this paper proposes a new multi-agent framework Mora, which incorporates several advanced visual AI agents to replicate generalist video generation demonstrated by Sora. In particular, Mora can utilize multiple visual agents and successfully mimic Sora's video generation capabilities in various tasks, such as (1) text-to-video generation, (2) text-conditional image-to-video generation, (3) extend generated videos, (4) video-to-video editing, (5) connect videos and (6) simulate digital worlds. Our extensive experimental results show that Mora achieves performance that is proximate to that of Sora in various tasks. However, there exists an obvious performance gap between our work and Sora when assessed holistically. In summary, we hope this project can guide the future trajectory of video generation through collaborative AI agents.
翻訳日:2024-03-25 11:48:40 公開日:2024-03-22
# S2DM:ビデオ生成のためのセクタ形状拡散モデル

S2DM: Sector-Shaped Diffusion Models for Video Generation ( http://arxiv.org/abs/2403.13408v2 )

ライセンス: Link先を確認
Haoran Lang, Yuxuan Ge, Zheng Tian, (参考訳) 拡散モデルは画像生成において大きな成功を収めた。 しかし、このアイデアをビデオ生成に活用する際には、ビデオフレーム間の一貫性と連続性を維持する上で大きな課題に直面している。 これは主に、一貫した意味的特徴と確率的特徴を保持しながら、ビデオのフレームを望ましい時間的特徴と整合させる効果的なフレームワークが欠如していることに起因する。 本研究では,同じ雑音点から始まる線状逆拡散過程の集合によってセクター形状の拡散領域が形成される新しいセクター形状拡散モデル(S2DM)を提案する。 S2DMは、時間的特徴を適切な誘導条件で変化させながら、同じ意味的特徴と確率的特徴を共有する本質的な関連データ群を生成することができる。 本稿では,映像生成タスクにS2DMを適用し,時間的条件として光フローを利用する方法について検討する。 実験結果から,S2DMは時間モデルモジュールを使わずに,ビデオ生成作業において多くの既存手法より優れることがわかった。 時間的条件を明示しないテキスト・ビデオ生成タスクに対しては,時間的特徴と意味的特徴を分離可能な2段階生成戦略を提案する。 追加のトレーニングなしに、我々のモデルは、他の時間的条件と統合され、生成モデルは、既存の作業と同等のパフォーマンスを達成できることを示す。 我々の結果はhttps://s2dm.github.io/S2DM/で見ることができる。

Diffusion models have achieved great success in image generation. However, when leveraging this idea for video generation, we face significant challenges in maintaining the consistency and continuity across video frames. This is mainly caused by the lack of an effective framework to align frames of videos with desired temporal features while preserving consistent semantic and stochastic features. In this work, we propose a novel Sector-Shaped Diffusion Model (S2DM) whose sector-shaped diffusion region is formed by a set of ray-shaped reverse diffusion processes starting at the same noise point. S2DM can generate a group of intrinsically related data sharing the same semantic and stochastic features while varying on temporal features with appropriate guided conditions. We apply S2DM to video generation tasks, and explore the use of optical flow as temporal conditions. Our experimental results show that S2DM outperforms many existing methods in the task of video generation without any temporal-feature modelling modules. For text-to-video generation tasks where temporal conditions are not explicitly given, we propose a two-stage generation strategy which can decouple the generation of temporal features from semantic-content features. We show that, without additional training, our model integrated with another temporal conditions generative model can still achieve comparable performance with existing works. Our results can be viewd at https://s2dm.github.io/S2DM/.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22
# LLMのレンズで欧州の政治スペクトルを調査

Llama meets EU: Investigating the European Political Spectrum through the Lens of LLMs ( http://arxiv.org/abs/2403.13592v2 )

ライセンス: Link先を確認
Ilias Chalkidis, Stephanie Brandl, (参考訳) 指示に精通した大規模言語モデルは、下流のタスクのパフォーマンスに影響を与えることが示されている明確な政治的傾向を継承する。 我々は、米国の二党体制を超えてこの研究の行を拡大し、Llama ChatをEU政治の文脈で様々な環境で監査し、モデルの政治的知識と文脈における推論能力を分析する。 我々は、欧州議会での議論から、EUとIのアンケートに基づいてその政治的傾向を再評価するために、個別のユーロ党の演説に、さらに微調整のラマ・チャット(Llama Chat)を適用する。 ラマ・チャットは国民党の立場についてかなりの知識を示し、文脈で推論できる。 適応された、パーティー特有のモデルは、それぞれのポジションに向けて実質的に再構成され、私たちは、政治科学の研究を支援するために、データ駆動の会話エンジンとしてチャットベースのLLMを使用する出発点と見なしています。

Instruction-finetuned Large Language Models inherit clear political leanings that have been shown to influence downstream task performance. We expand this line of research beyond the two-party system in the US and audit Llama Chat in the context of EU politics in various settings to analyze the model's political knowledge and its ability to reason in context. We adapt, i.e., further fine-tune, Llama Chat on speeches of individual euro-parties from debates in the European Parliament to reevaluate its political leaning based on the EUandI questionnaire. Llama Chat shows considerable knowledge of national parties' positions and is capable of reasoning in context. The adapted, party-specific, models are substantially re-aligned towards respective positions which we see as a starting point for using chat-based LLMs as data-driven conversational engines to assist research in political science.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22
# Role Interact:ロールプレイングエージェントの社会的相互作用の評価

RoleInteract: Evaluating the Social Interaction of Role-Playing Agents ( http://arxiv.org/abs/2403.13679v3 )

ライセンス: Link先を確認
Hongzhan Chen, Hehong Chen, Ming Yan, Wenshen Xu, Xing Gao, Weizhou Shen, Xiaojun Quan, Chenliang Li, Ji Zhang, Fei Huang, Jingren Zhou, (参考訳) 大型言語モデル(LLM)は、さまざまなキャラクターや人間の振る舞いを模倣するロールプレイングな会話エージェントを含む、さまざまなAI会話エージェントの開発を進めてきた。 これまでの研究では、会話能力、役割固有の知識、そしてこれらのエージェントのスタイル的特性の強化に主に焦点が当てられていたが、社会的知性を評価することには顕著なギャップがあった。 本稿では,ロールプレイング対話エージェントのソーシャル性を,個人レベルとグループレベルで体系的に評価するための最初のベンチマークであるRoleInteractを紹介する。 ベンチマークは様々なソースから構築され、500文字、6000以上の質問プロンプト、30,800のマルチターンロールプレイング発話をカバーする。 本ベンチマークでは,主要なオープンソースおよびクローズドソース LLM を用いて総合評価を行う。 個人レベルで優れたエージェントは,集団レベルでの熟練度を示唆しない。 さらに、グループ内の他のエージェントによる影響の結果、個人の行動が漂流する可能性がある。 RoleInteractの実験結果から、ロールプレイング会話エージェントの社会的相互作用を評価するテストベッドとしての重要性が確認された。 ベンチマークはhttps://github.com/X-PLUG/RoleInteract.comで公開されている。

Large language models (LLMs) have advanced the development of various AI conversational agents, including role-playing conversational agents that mimic diverse characters and human behaviors. While prior research has predominantly focused on enhancing the conversational capability, role-specific knowledge, and stylistic attributes of these agents, there has been a noticeable gap in assessing their social intelligence. In this paper, we introduce RoleInteract, the first benchmark designed to systematically evaluate the sociality of role-playing conversational agents at both individual and group levels of social interactions. The benchmark is constructed from a variety of sources and covers a wide range of 500 characters and over 6,000 question prompts and 30,800 multi-turn role-playing utterances. We conduct comprehensive evaluations on this benchmark using mainstream open-source and closed-source LLMs. We find that agents excelling in individual level does not imply their proficiency in group level. Moreover, the behavior of individuals may drift as a result of the influence exerted by other agents within the group. Experimental results on RoleInteract confirm its significance as a testbed for assessing the social interaction of role-playing conversational agents. The benchmark is publicly accessible at https://github.com/X-PLUG/RoleInteract.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22
# エネルギー保存によるネコ状態の阻止における非線形項の選択について

On the choice of non-linear terms in blocking cat states by energy conservation ( http://arxiv.org/abs/2403.13699v2 )

ライセンス: Link先を確認
Leonardo De Carlo, (参考訳) エントロピー25, 564 (2023) ではスピンモデルの波動関数アンサンブルの問題を検討した。 有限温度で磁化を観察するためには、エネルギー保存によってマクロな重ね合わせをブロックするマクロな非線形項を加える必要があった。 非線形項は[W.D. Wick, arXiv:1710.03278 (2017)]で導入されたもので、測定問題の解法としてエネルギー保存によって空間猫をブロックする。 W.D. Wick, arXiv:1710.03278 (2017), arXiv:1908.02352 (2019)] から理論をレビューし、これらの非線形項が許容されなければならないという可換関係を導き、[W.D. Wick, arXiv:1710.03278 (2017), arXiv:2008.08663 (2020)] という用語がそのような関係を満たす空間の波動関数を制限することを示す。 非純スピンモデルに対する[エントロピー 25, 564 (2023)] の項を一般化し、それらが制約を満たすかどうかを負の答えで結論付ける。 最後に [W.D. Wick, arXiv:1710.03278 (2017)] の提案を検証するための実験的見積もりについて述べる。

In [Entropy 25, 564 (2023)] I considered the problem of wavefunction ensembles for spin models. To observe magnetization at finite temperature, I had to add macroscopic nonlinear terms blocking macroscopic superpositions by energy conservation. The nonlinear terms were of the kind introduced in [W.D. Wick, arXiv:1710.03278 (2017)] to block spatial cats by energy conservation as solution to the Measurement Problem. Reviewing the theory from [W.D. Wick, arXiv:1710.03278 (2017), arXiv:1908.02352 (2019)], I derive a commutation relation that these nonlinear terms have to satisfy to be admitted and show that the terms of [W.D. Wick, arXiv:1710.03278 (2017), arXiv:2008.08663 (2020)] restricting the wavefunctions in space satisfies such relations. I generalize the terms of [Entropy 25, 564 (2023)] for non-pure spin models and check if they also satisfy the constraints, concluding with a negative answer. An experimental estimate to test the proposal of [W.D. Wick, arXiv:1710.03278 (2017)] is described at the end.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22
# インテリジェントシステムにおける安全臨界イベントの正確な予測可能性

Accurately Predicting Probabilities of Safety-Critical Rare Events for Intelligent Systems ( http://arxiv.org/abs/2403.13869v2 )

ライセンス: Link先を確認
Ruoxuan Bai, Jingxuan Yang, Weiduo Gong, Yi Zhang, Qiujing Lu, Shuo Feng, (参考訳) インテリジェントなシステムは私たちの日常生活にますます不可欠なものになっていますが、安全クリティカルな出来事は実践的な展開に重大な脅威をもたらします。 この課題に対処するためには、現在の状態から与えられた時間ステップ内で発生する安全クリティカル事象の確率を正確に予測する。 臨界の予測の複雑さは、希少事象に関連する高次元変数における希少事象による極端なデータ不均衡から生じる。 既存の方法は、過度に保守的であるか、安全クリティカルな出来事を見渡す傾向があるため、高い精度とリコール率の両方を達成するのに苦労し、適用性を著しく制限する傾向にある。 本研究は,安全クリティカルな自律システムの臨界度を評価するために,精度とリコール率を両立させる臨界予測モデルを開発することを目的とする。 本稿では,データセットを段階的に密度化するために設計された多段階学習フレームワークを提案する。 アプローチを検証するために,月面着陸機と二足歩行機という2つの事例で評価を行った。 その結果,本手法は従来の手法を超越し,知的システムにおける臨界度をより正確かつ信頼性の高い評価を行うことができた。

Intelligent systems are increasingly integral to our daily lives, yet rare safety-critical events present significant latent threats to their practical deployment. Addressing this challenge hinges on accurately predicting the probability of safety-critical events occurring within a given time step from the current state, a metric we define as 'criticality'. The complexity of predicting criticality arises from the extreme data imbalance caused by rare events in high dimensional variables associated with the rare events, a challenge we refer to as the curse of rarity. Existing methods tend to be either overly conservative or prone to overlooking safety-critical events, thus struggling to achieve both high precision and recall rates, which severely limits their applicability. This study endeavors to develop a criticality prediction model that excels in both precision and recall rates for evaluating the criticality of safety-critical autonomous systems. We propose a multi-stage learning framework designed to progressively densify the dataset, mitigating the curse of rarity across stages. To validate our approach, we evaluate it in two cases: lunar lander and bipedal walker scenarios. The results demonstrate that our method surpasses traditional approaches, providing a more accurate and dependable assessment of criticality in intelligent systems.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22
# 内在混合位相秩序に対する雑音的アプローチ

A Noisy Approach to Intrinsically Mixed-State Topological Order ( http://arxiv.org/abs/2403.13879v2 )

ライセンス: Link先を確認
Ramanjit Sohal, Abhinav Prem, (参考訳) 局所相関誤差を受ける2次元(2次元)位相秩序状態の研究のための一般的な枠組みを提案し,その混合状態が2次元局所ギャップハミルトンの基底状態では起こり得ないような内在混合状態位相秩序(imTO)を示すことを示す。 具体的には、以前は二重ヒルベルト空間の任意の凝縮と解釈されていたデコヒーレンス(decoherence)がより自然に言い換えられ、元のヒルベルト空間の任意の電子を「ゲージアウト」するための物理的なメカニズムを提供することを示す。 我々は、ある異常な1-形式対称性の下でデコヒートされた混合状態が強い対称性を持つ、イムト(ImTO)を総称的にガグアウトすることは、イムト(ImTO)をもたらすことを見出した。 このフレームワークは、デコヒード密度行列とトポロジカルサブシステム符号の間の顕著な接続をほとんど含んでおり、3次元トポロジカル秩序の異常な表面状態として現れる。 一連の例を通して、デコヒーレント状態は古典的なメモリを表示し、論理量子ビットを符号化し(量子メモリを表示する)、キラルあるいは非モジュラー位相秩序をホストすることさえできることを示した。 我々は、デコヒード状態は物質の真の混合状態量子相を表し、ImTOの部分的な分類は、ブレイド融合のカテゴリによって与えられると論じる。

We propose a general framework for studying two-dimensional (2D) topologically ordered states subject to local correlated errors and show that the resulting mixed-state can display intrinsically mixed-state topological order (imTO) -- topological order which is not expected to occur in the ground state of 2D local gapped Hamiltonians. Specifically, we show that decoherence, previously interpreted as anyon condensation in a doubled Hilbert space, is more naturally phrased as, and provides a physical mechanism for, "gauging out" anyons in the original Hilbert space. We find that gauging out anyons generically results in imTO, with the decohered mixed-state strongly symmetric under certain anomalous 1-form symmetries. This framework lays bare a striking connection between the decohered density matrix and topological subsystem codes, which can appear as anomalous surface states of 3D topological orders. Through a series of examples, we show that the decohered state can display a classical memory, encode logical qubits (i.e., exhibit a quantum memory), and even host chiral or non-modular topological order. We argue that the decohered states represent genuine mixed-state quantum phases of matter and that a partial classification of imTO is given in terms of braided fusion categories.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22
# 「これはデータ問題ではない」カナダにおける公立高等教育におけるアルゴリズムと力

"This is not a data problem": Algorithms and Power in Public Higher Education in Canada ( http://arxiv.org/abs/2403.13969v2 )

ライセンス: Link先を確認
Kelly McConvey, Shion Guha, (参考訳) アルゴリズムによる意思決定は、公立高等教育においてますます採用されている。 ポストセカンダリ機関によるデータ駆動の実践の拡大は、新自由主義政権によるニュー・パブリック・マネジメントのアプローチの採用と並行して起こっている。 本研究では,カナダのオンタリオ州にある公立大学におけるデータとアルゴリズムの詳細なエスノグラフィーケーススタディについて質的分析を行った。 大学で使われているデータ、アルゴリズム、結果を特定します。 我々は,大学のプロセスと関係が,これらの成果と,大学のデータ駆動システムに対する異なる利害関係者の認識をどのように支えているかを評価する。 さらに,アルゴリズム決定への依存度の増加は,学生の監視の向上,既存不平等の悪化,教員-学生関係の自動化につながることがわかった。 最後に,アルゴリズムによる意思決定によって持続する制度的力の増大のサイクルを特定し,金融持続可能性への推進によって推し進める。

Algorithmic decision-making is increasingly being adopted across public higher education. The expansion of data-driven practices by post-secondary institutions has occurred in parallel with the adoption of New Public Management approaches by neoliberal administrations. In this study, we conduct a qualitative analysis of an in-depth ethnographic case study of data and algorithms in use at a public college in Ontario, Canada. We identify the data, algorithms, and outcomes in use at the college. We assess how the college's processes and relationships support those outcomes and the different stakeholders' perceptions of the college's data-driven systems. In addition, we find that the growing reliance on algorithmic decisions leads to increased student surveillance, exacerbation of existing inequities, and the automation of the faculty-student relationship. Finally, we identify a cycle of increased institutional power perpetuated by algorithmic decision-making, and driven by a push towards financial sustainability.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22
# 一貫性アライメントによる大規模言語モデルのロバスト性向上

Improving the Robustness of Large Language Models via Consistency Alignment ( http://arxiv.org/abs/2403.14221v2 )

ライセンス: Link先を確認
Yukun Zhao, Lingyong Yan, Weiwei Sun, Guoliang Xing, Shuaiqiang Wang, Chong Meng, Zhicong Cheng, Zhaochun Ren, Dawei Yin, (参考訳) 大規模言語モデル(LLM)は、ユーザ命令に従い、有用な応答を生成することで大きな成功を収めている。 それでも、その頑健さは、言語化された指示の微妙な変化により、非常に矛盾する応答を生じる可能性があるため、まだ最適には程遠い。 近年の文献では、この不整合問題を探求し、応答生成の堅牢性に対する継続的な改善の重要性を強調している。 しかし、体系的な分析と解決策はまだ不足している。 本稿では,不整合問題を定量的に定義し,インストラクション強化された教師付き微調整と整合性アライメントトレーニングからなる2段階のトレーニングフレームワークを提案する。 第1段階は、モデルが同様の命令拡張を通じて次の命令を一般化するのを手助けする。 第2段階では、多様性を改善し、類似した反応の微妙な違いを区別することにより、どの反応が人間の期待に合致しているかをモデルが理解できるようにする。 トレーニングプロセスは、外部の人間の嗜好資源を参照することなく、トレーニングされたモデルから第一段階で推論された自己回帰によって達成される。 我々は、最近公開されているLLMの指導追従タスクに関する広範な実験を行い、トレーニングフレームワークの有効性を実証した。

Large language models (LLMs) have shown tremendous success in following user instructions and generating helpful responses. Nevertheless, their robustness is still far from optimal, as they may generate significantly inconsistent responses due to minor changes in the verbalized instructions. Recent literature has explored this inconsistency issue, highlighting the importance of continued improvement in the robustness of response generation. However, systematic analysis and solutions are still lacking. In this paper, we quantitatively define the inconsistency problem and propose a two-stage training framework consisting of instruction-augmented supervised fine-tuning and consistency alignment training. The first stage helps a model generalize on following instructions via similar instruction augmentations. In the second stage, we improve the diversity and help the model understand which responses are more aligned with human expectations by differentiating subtle differences in similar responses. The training process is accomplished by self-rewards inferred from the trained model at the first stage without referring to external human preference resources. We conduct extensive experiments on recent publicly available LLMs on instruction-following tasks and demonstrate the effectiveness of our training framework.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22
# 多状態連鎖同期パルス法による超低温ディープバウンド分子の形成

Formation of ultracold deeply-bound molecules via multi-state chainwise coincident pulses technique ( http://arxiv.org/abs/2403.14288v2 )

ライセンス: Link先を確認
Jiahui Zhang, (参考訳) 本稿では, 3-state $\Lambda$-type および 5-state M-type 分子系における分子の効率的な生成と検出のための理論的手法を提案する。 本手法は,3状態一致パルス法と一般化5状態一致パルス法に基づく。 3状態系では、この手法は、励起状態の過渡的な集団を無視して、共鳴と共振ポンプとストークスパルスの2組の列車により、フェシュバッハ状態から深い境界状態へ効率的に人口を移動させることができる。 5状態系では、このM型システムは4つのインシデントパルス間の関係の要求とともに大きな1光子デチューニングを仮定して、最も単純な共振結合を持つ$\Lambda$-type構造に一般化できる。 その後、この一般化されたモデルにより、縮小された3状態プロパゲータを用いて、4つの共振パルスを設計し、所望の人口移動を実現することができる。 数値実験では、$^{87}$Rb$_2$を考慮し、弱結合のフェシュバッハ分子は強いレーザーパルスを使わずに、その深い結合状態に効率的に移動でき、全ての中間状態の個体群を適切に抑制できることを示した。

In this paper, a theoretical method for the efficient creation and detection of deeply bound molecules in three-state $\Lambda$-type and five-state M-type molecular systems is proposed. The method is based on the three-state coincident pulses technique and the generalized five-state coincident pulses technique. For the three-state system, the technique can efficiently transfer the populations from the Feshbach state to the deeply-bound state via a train of $N$ pairs of resonant and coincident pump and Stokes pulses, with negligible transient populations of excited states. For the five-state system, it is found that this M-type system can be generalized into a $\Lambda$-type structure with the simplest resonant coupling under the assumption of large one-photon detuning together with a requirement of the relation among the four incident pulses. Thereafter, this generalized model permits us to employ the reduced three-state propagator to design four coincident pulses to achieve the desired population transfer. For the numerical study, $^{87}$Rb$_2$ is considered and, it is shown that the weakly-bound Feshbach molecules can be efficiently transferred to their deeply-bound states without strong laser pulses, and the populations of all intermediate states can be well suppressed.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22
# SyncTweedies: 同期拡散に基づく一般的な生成フレームワーク

SyncTweedies: A General Generative Framework Based on Synchronized Diffusions ( http://arxiv.org/abs/2403.14370v2 )

ライセンス: Link先を確認
Jaihoon Kim, Juil Koo, Kyeongmin Yeo, Minhyuk Sung, (参考訳) 複数の拡散過程を同期させることにより、あいまいな画像、パノラマ画像、メッシュテクスチャ、ガウススプレートテクスチャを含む多様な視覚コンテンツを生成するための一般的なフレームワークを導入する。 本稿では,複数の拡散過程を標準空間で同期化するためのすべてのシナリオを網羅的に検討し,その特性をアプリケーション間で解析する。 そのような場合、探索されていないケースとして、Tweedieの公式の出力を平均化しながら、複数のインスタンス空間で denoising を行う。 このケースは、ダウンストリームタスクに最も適用可能な、最高の品質も提供します。 このケースをSyncTweediesと名付けます。 上述したビジュアルコンテンツを生成する実験では、SyncTweediesが他の同期法、最適化法、反復更新法と比較して優れた生成品質を示す。

We introduce a general framework for generating diverse visual content, including ambiguous images, panorama images, mesh textures, and Gaussian splat textures, by synchronizing multiple diffusion processes. We present exhaustive investigation into all possible scenarios for synchronizing multiple diffusion processes through a canonical space and analyze their characteristics across applications. In doing so, we reveal a previously unexplored case: averaging the outputs of Tweedie's formula while conducting denoising in multiple instance spaces. This case also provides the best quality with the widest applicability to downstream tasks. We name this case SyncTweedies. In our experiments generating visual content aforementioned, we demonstrate the superior quality of generation by SyncTweedies compared to other synchronization methods, optimization-based and iterative-update-based methods.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22
# 進化的最適化とベイズ最適化におけるモデル不確かさの比較分析

Model Uncertainty in Evolutionary Optimization and Bayesian Optimization: A Comparative Analysis ( http://arxiv.org/abs/2403.14413v2 )

ライセンス: Link先を確認
Hao Hao, Xiaoqun Zhang, Aimin Zhou, (参考訳) 多くの実世界のアプリケーションで一般的なブラックボックス最適化問題は、内部動作にアクセスせずに入出力相互作用を通じて最適化する必要がある。 これはしばしばシミュレーションのために消費される重要な計算資源に繋がる。 Bayesian Optimization (BO) と Surrogate-Assisted Evolutionary Algorithm (SAEA) は、そのような問題に対処するために広く使われている勾配のない最適化手法である。 どちらのアプローチも、探索プロセスを導くために代理モデルに依存する同様の反復手順に従う。 本稿では,これらの2つの手法間のモデル不確かさの類似点と相違点の解明と,モデル不正確さがアルゴリズム性能に与える影響について述べる。 未評価のソリューションを利用して子孫を生成する新しいモデル支援戦略を導入し、モデル支援最適化の有効性を高めるために、進化的アルゴリズムの集団に基づく探索機能を活用する。 実験結果から,提案手法はベイズ最適化アルゴリズムよりも精度と効率の点で優れていることが示された。

Black-box optimization problems, which are common in many real-world applications, require optimization through input-output interactions without access to internal workings. This often leads to significant computational resources being consumed for simulations. Bayesian Optimization (BO) and Surrogate-Assisted Evolutionary Algorithm (SAEA) are two widely used gradient-free optimization techniques employed to address such challenges. Both approaches follow a similar iterative procedure that relies on surrogate models to guide the search process. This paper aims to elucidate the similarities and differences in the utilization of model uncertainty between these two methods, as well as the impact of model inaccuracies on algorithmic performance. A novel model-assisted strategy is introduced, which utilizes unevaluated solutions to generate offspring, leveraging the population-based search capabilities of evolutionary algorithm to enhance the effectiveness of model-assisted optimization. Experimental results demonstrate that the proposed approach outperforms mainstream Bayesian optimization algorithms in terms of accuracy and efficiency.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22
# AnyV2V:あらゆるビデオ編集タスクのためのプラグイン・アンド・プレイフレームワーク

AnyV2V: A Plug-and-Play Framework For Any Video-to-Video Editing Tasks ( http://arxiv.org/abs/2403.14468v2 )

ライセンス: Link先を確認
Max Ku, Cong Wei, Weiming Ren, Harry Yang, Wenhu Chen, (参考訳) ビデオ対ビデオ編集は、ソースビデオと提供されたコントロールに合わせる新しいビデオを生成するために、追加の制御(テキストプロンプト、主題、スタイルなど)と共にソースビデオを編集する。 従来のメソッドは特定の編集タイプに制限されており、幅広いユーザ要求を満たす能力に制限されている。 本稿では,(1)既製の画像編集モデル(例:InstructPix2Pix,InstantIDなど)を用いて第1フレームを編集し,(2)既存の画像から映像への生成モデル(例:I2VGen-XL)を用いてDDIMのインバージョンと特徴注入を行う。 最初の段階では、AnyV2Vは既存の画像編集ツールをプラグインして、幅広いビデオ編集タスクをサポートすることができる。 従来のプロンプトベースの編集方法以外にも、AnyV2Vは参照ベースのスタイル転送、主題駆動編集、アイデンティティ操作などの新しいビデオ編集タスクもサポートできる。 第2段階では、AnyV2Vは既存の画像間モデルをプラグインしてDDIMインバージョンと中間機能注入を実行し、ソースビデオとの外観と動きの整合性を維持する。 プロンプトベースの編集では、AnyV2Vは、プロンプトアライメントで35倍、人選好で25倍の速さで過去のベストアプローチを上回り得ることを示す。 3つの新しいタスクにおいて、AnyV2Vは高い成功率を達成することを示す。 我々は、高速進化する画像編集手法をシームレスに統合する能力により、AnyV2Vは今後も成長を続けると信じている。 このような互換性は、AnyV2Vの汎用性を高め、多様なユーザー要求に対応するのに役立つ。

Video-to-video editing involves editing a source video along with additional control (such as text prompts, subjects, or styles) to generate a new video that aligns with the source video and the provided control. Traditional methods have been constrained to certain editing types, limiting their ability to meet the wide range of user demands. In this paper, we introduce AnyV2V, a novel training-free framework designed to simplify video editing into two primary steps: (1) employing an off-the-shelf image editing model (e.g. InstructPix2Pix, InstantID, etc) to modify the first frame, (2) utilizing an existing image-to-video generation model (e.g. I2VGen-XL) for DDIM inversion and feature injection. In the first stage, AnyV2V can plug in any existing image editing tools to support an extensive array of video editing tasks. Beyond the traditional prompt-based editing methods, AnyV2V also can support novel video editing tasks, including reference-based style transfer, subject-driven editing, and identity manipulation, which were unattainable by previous methods. In the second stage, AnyV2V can plug in any existing image-to-video models to perform DDIM inversion and intermediate feature injection to maintain the appearance and motion consistency with the source video. On the prompt-based editing, we show that AnyV2V can outperform the previous best approach by 35\% on prompt alignment, and 25\% on human preference. On the three novel tasks, we show that AnyV2V also achieves a high success rate. We believe AnyV2V will continue to thrive due to its ability to seamlessly integrate the fast-evolving image editing methods. Such compatibility can help AnyV2V to increase its versatility to cater to diverse user demands.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22
# Cobra: 効率的な推論のためのマルチモーダル大言語モデルへのMambaの拡張

Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference ( http://arxiv.org/abs/2403.14520v2 )

ライセンス: Link先を確認
Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang, (参考訳) 近年,多モーダル大規模言語モデル (MLLM) の様々な分野への応用が目覚ましい成功を収めている。 しかし、多くの下流タスクの基礎モデルとして、現在のMLLMは2次計算の複雑さの少ないよく知られたトランスフォーマーネットワークで構成されている。 このような基本モデルの効率を改善するために,線形計算複雑性MLLMであるCobraを提案する。 特に、Cobraは効率的なMamba言語モデルを視覚的モダリティに統合する。 さらに,効率的なマルチモーダルマンバを作成するための様々なモーダル融合スキームを探索し,検討する。 大規模実験により,(1)コブラの線形逐次モデルにより,コブラの高速な性能が向上し,計算効率が向上した現状,例えば,LLaVA-Phi,TinyLLaVA,MobileVLM v2が得られた。 2) 視覚錯覚や空間的関係判断を克服する上で, クローズドセットの課題予測ベンチマークの結果は良好であった。 (3) 特に、Cobraはパラメータの約43%でLLaVAに匹敵するパフォーマンスを実現している。 我々は,Cobraのすべてのコードをオープンソースにし,提案手法がMLLMにおける複雑性問題の今後の研究を促進することを期待する。 プロジェクトページは、https://sites.google.com/view/cobravlm.com/com/com/cobravlm.comで公開されている。

In recent years, the application of multimodal large language models (MLLM) in various fields has achieved remarkable success. However, as the foundation model for many downstream tasks, current MLLMs are composed of the well-known Transformer network, which has a less efficient quadratic computation complexity. To improve the efficiency of such basic models, we propose Cobra, a linear computational complexity MLLM. Specifically, Cobra integrates the efficient Mamba language model into the visual modality. Moreover, we explore and study various modal fusion schemes to create an effective multi-modal Mamba. Extensive experiments demonstrate that (1) Cobra achieves extremely competitive performance with current computationally efficient state-of-the-art methods, e.g., LLaVA-Phi, TinyLLaVA, and MobileVLM v2, and has faster speed due to Cobra's linear sequential modeling. (2) Interestingly, the results of closed-set challenging prediction benchmarks show that Cobra performs well in overcoming visual illusions and spatial relationship judgments. (3) Notably, Cobra even achieves comparable performance to LLaVA with about 43% of the number of parameters. We will make all codes of Cobra open-source and hope that the proposed method can facilitate future research on complexity problems in MLLM. Our project page is available at: https://sites.google.com/view/cobravlm.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22
# Videoshop:ノイズ抽出拡散インバージョンによる局所的なセマンティックビデオ編集

Videoshop: Localized Semantic Video Editing with Noise-Extrapolated Diffusion Inversion ( http://arxiv.org/abs/2403.14617v2 )

ライセンス: Link先を確認
Xiang Fan, Anand Bhattad, Ranjay Krishna, (参考訳) 本稿では,局所的なセマンティック編集のためのトレーニング不要なビデオ編集アルゴリズムであるVideoshopを紹介する。 Videoshopを使えば、Photoshopやジェネレーティブ・インペイントなどの編集ソフトを使って最初のフレームを修正できる。 不正確なテキスト命令でしか編集できない既存の方法とは違って、Videoshopでは、ユーザーはオブジェクトの追加や削除、オブジェクトの意味的な変更、ストック写真をビデオに挿入したり、場所や外観を細かく制御したりできる。 ノイズ外挿で潜伏者を反転させることで、画像ベースの映像編集によりこれを実現し、編集画像に条件付き映像を生成する。 Videoshopは、評価基準10を用いて、2つの編集ベンチマークで6つのベースラインに対して高い品質の編集を行う。

We introduce Videoshop, a training-free video editing algorithm for localized semantic edits. Videoshop allows users to use any editing software, including Photoshop and generative inpainting, to modify the first frame; it automatically propagates those changes, with semantic, spatial, and temporally consistent motion, to the remaining frames. Unlike existing methods that enable edits only through imprecise textual instructions, Videoshop allows users to add or remove objects, semantically change objects, insert stock photos into videos, etc. with fine-grained control over locations and appearance. We achieve this through image-based video editing by inverting latents with noise extrapolation, from which we generate videos conditioned on the edited image. Videoshop produces higher quality edits against 6 baselines on 2 editing benchmarks using 10 evaluation metrics.
翻訳日:2024-03-25 11:38:56 公開日:2024-03-22