このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240825となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# StockTime: 株価予測のための大規模言語モデルアーキテクチャ
StockTime: A Time Series Specialized Large Language Model Architecture for Stock Price Prediction ( http://arxiv.org/abs/2409.08281v1 ) ライセンス: Link先を確認 | Shengkun Wang, Taoran Ji, Linhan Wang, Yanshen Sun, Shang-Ching Liu, Amit Kumar, Chang-Tien Lu, | (参考訳) 株価予測タスクは金融分野で重要な役割を担い、長い間研究されてきた。
近年、大きな言語モデル(LLM)がこれらの予測を改善する新しい方法をもたらしている。
最近の金融大規模言語モデル (FinLLMs) は、より小さな事前学習型言語モデル (PLMs) と比較して、財政的NLPタスクのかなりの進歩を示しているが、株価予測では課題が続いている。
第一に、これらの機能を完全に活用するために時系列データと自然言語のモダリティを効果的に統合することは、依然として複雑である。
第二に、FinLLMsは分析と解釈可能性に重点を置いており、時系列データの本質的な特徴を見落としることができる。
さらに、金融市場では誤情報や冗長な情報が豊富にあるため、そのような入力データに直面した場合、モデルは精度の低い予測を行うことが多い。
本稿では,株価データに特化して設計された新しいLCMアーキテクチャであるStockTimeを紹介する。
最近のFinLLMとは異なり、StockTimeは特に株価時系列データのために設計されている。
LLMの自然な能力を活用して、株価を連続したトークンとして扱い、これらの株価から直接ストック相関、統計トレンド、タイムスタンプなどのテキスト情報を抽出することで、次のトークンを予測する。
StockTimeはテキストデータと時系列データを埋め込み空間に統合する。
このマルチモーダルデータを融合させることで、StockTimeは任意の見返り期間の株価を効果的に予測する。
実験の結果,StockTimeはメモリ使用量や実行時コストを削減しつつ,より正確な予測を可能にするため,最近のLCMよりも優れていることがわかった。
The stock price prediction task holds a significant role in the financial domain and has been studied for a long time. Recently, large language models (LLMs) have brought new ways to improve these predictions. While recent financial large language models (FinLLMs) have shown considerable progress in financial NLP tasks compared to smaller pre-trained language models (PLMs), challenges persist in stock price forecasting. Firstly, effectively integrating the modalities of time series data and natural language to fully leverage these capabilities remains complex. Secondly, FinLLMs focus more on analysis and interpretability, which can overlook the essential features of time series data. Moreover, due to the abundance of false and redundant information in financial markets, models often produce less accurate predictions when faced with such input data. In this paper, we introduce StockTime, a novel LLM-based architecture designed specifically for stock price data. Unlike recent FinLLMs, StockTime is specifically designed for stock price time series data. It leverages the natural ability of LLMs to predict the next token by treating stock prices as consecutive tokens, extracting textual information such as stock correlations, statistical trends and timestamps directly from these stock prices. StockTime then integrates both textual and time series data into the embedding space. By fusing this multimodal data, StockTime effectively predicts stock prices across arbitrary look-back periods. Our experiments demonstrate that StockTime outperforms recent LLMs, as it gives more accurate predictions while reducing memory usage and runtime costs. | 翻訳日:2024-09-22 21:50:24 公開日:2024-08-25 |
# ポリプセグメンテーションのためのトランスフォーマー強化反復フィードバック機構
Transformer-Enhanced Iterative Feedback Mechanism for Polyp Segmentation ( http://arxiv.org/abs/2409.05875v1 ) ライセンス: Link先を確認 | Nikhil Kumar Tomar, Debesh Jha, Koushik Biswas, Tyler M. Berzin, Rajesh Keswani, Michael Wallace, Ulas Bagci, | (参考訳) 大腸癌 (CRC) はアメリカ合衆国で診断されるがんの3番目に多い原因であり、両方の性別でがん関連死亡の2番目に多い原因である。
特に、CRCは50歳未満の若年男性におけるがんの主要な原因である。
大腸内視鏡はCRCの早期診断における金の基準であると考えられている。
内科医の間ではスキルが著しく異なり、ミス率が高いことが報告されている。
自動ポリープセグメンテーションは欠落率を減少させ、早期にタイムリーな治療が可能である。
この課題に対処するために,大腸内視鏡画像からポリプを正確に分割する高度なエンコーダ・デコーダネットワークである \textit{\textbf{\ac{FANetv2}}} を導入する。
FANetv2は、大津しきい値設定によって生成された初期入力マスクを利用して、以前の時代のマスク予測によって通知される新しいフィードバックアテンション機構を通じて、二分分割マスクを反復的に洗練する。
さらに、ポリプの数(1つかそれ以上)とサイズ(小、中、大)に関する重要な情報を統合して、その特徴表現能力をさらに強化するテキスト誘導方式を採用している。
このデュアルタスクアプローチは、正確なポリープセグメンテーションを促進し、ポリープ属性の補助的な分類を支援し、モデルの性能を大幅に向上させる。
一般に公開されているBKAI-IGHとCVC-ClinicDBデータセットの総合的な評価は、FANetv2の優れた性能を示し、それぞれ0.9186と0.9481の高ダイス類似度係数(DSC)と2.83と3.19の低いハウスドルフ距離によって証明されている。
FANetv2のソースコードはhttps://github.com/xxxxx/FANetv2.comから入手できる。
Colorectal cancer (CRC) is the third most common cause of cancer diagnosed in the United States and the second leading cause of cancer-related death among both genders. Notably, CRC is the leading cause of cancer in younger men less than 50 years old. Colonoscopy is considered the gold standard for the early diagnosis of CRC. Skills vary significantly among endoscopists, and a high miss rate is reported. Automated polyp segmentation can reduce the missed rates, and timely treatment is possible in the early stage. To address this challenge, we introduce \textit{\textbf{\ac{FANetv2}}}, an advanced encoder-decoder network designed to accurately segment polyps from colonoscopy images. Leveraging an initial input mask generated by Otsu thresholding, FANetv2 iteratively refines its binary segmentation masks through a novel feedback attention mechanism informed by the mask predictions of previous epochs. Additionally, it employs a text-guided approach that integrates essential information about the number (one or many) and size (small, medium, large) of polyps to further enhance its feature representation capabilities. This dual-task approach facilitates accurate polyp segmentation and aids in the auxiliary classification of polyp attributes, significantly boosting the model's performance. Our comprehensive evaluations on the publicly available BKAI-IGH and CVC-ClinicDB datasets demonstrate the superior performance of FANetv2, evidenced by high dice similarity coefficients (DSC) of 0.9186 and 0.9481, along with low Hausdorff distances of 2.83 and 3.19, respectively. The source code for FANetv2 is available at https://github.com/xxxxx/FANetv2. | 翻訳日:2024-09-15 05:31:27 公開日:2024-08-25 |
# インドにおける新型コロナウイルスのトレンドの探索と可視化 - 脆弱性と緩和戦略
Exploring and Visualizing COVID-19 Trends in India: Vulnerabilities and Mitigation Strategies ( http://arxiv.org/abs/2409.05876v1 ) ライセンス: Link先を確認 | Swayamjit Saha, Kuntal Ghosh, Garga Chatterjee, J. Edward Swan II, | (参考訳) データの可視化は重要な科学的情報を記述する上で重要な役割を果たしている。
したがって、可視化技術は、他の方法では見つからない様々なデータ構造から、関連するグラフィカルな解釈を表示するのに役立つ。
本稿では、2020年におけるインド亜大陸における新型コロナウイルスのパンデミックの影響状況と、インドの公衆衛生部門が、全国にワクチン接種センターを設置することで、新型コロナウイルスの感染拡大を抑えるのにどう貢献したかを考察する。
本論文は,政府ポータルから収集したデータの広範な説明的データ分析を行うことにより,新型ウイルスによる国内への影響を理解するための実証的研究に寄与する。
我々の研究は、データビジュアライゼーションが公衆衛生問題を理解し、既存のパンデミックを抑えるために必要な措置をとることの主役である、という理解に寄与する。
Visualizing data plays a pivotal role in portraying important scientific information. Hence, visualization techniques aid in displaying relevant graphical interpretations from the varied structures of data, which is found otherwise. In this paper, we explore the COVID-19 pandemic influence trends in the subcontinent of India in the context of how far the infection rate spiked in the year 2020 and how the public health division of the country India has helped to curb the spread of the novel virus by installing vaccination centers across the diaspora of the country. The paper contributes to the empirical study of understanding the impact caused by the novel virus to the country by doing extensive explanatory data analysis of the data collected from the official government portal. Our work contributes to the understanding that data visualization is prime in understanding public health problems and beyond and taking necessary measures to curb the existing pandemic. | 翻訳日:2024-09-15 05:31:27 公開日:2024-08-25 |
# オーディオ・ビジュアル・ローカライゼーションベンチマークにおけるビジュアル・バイアスの展開
Unveiling Visual Biases in Audio-Visual Localization Benchmarks ( http://arxiv.org/abs/2409.06709v1 ) ライセンス: Link先を確認 | Liangyu Chen, Zihao Yue, Boshen Xu, Qin Jin, | (参考訳) AVSL(Audio-Visual Source Localization)は、ビデオ内の音源をローカライズすることを目的としている。
本稿では,既存のベンチマークにおいて重要な問題として,聴覚オブジェクトが視覚的バイアスのみに基づいて認識されやすいことを挙げる。
このようなバイアスは、これらのベンチマークがAVSLモデルを効果的に評価することを妨げる。
視覚バイアスに関する我々の仮説をさらに検証するため、視覚のみのモデルが全ての視覚ベースラインを上回り、VGG-SSとEpicSounding-Objectの2つの代表的なAVSLベンチマークを検証した。
以上の結果から,既存のAVSLベンチマークは音声視覚学習を容易にするためにさらなる改良が必要であることが示唆された。
Audio-Visual Source Localization (AVSL) aims to localize the source of sound within a video. In this paper, we identify a significant issue in existing benchmarks: the sounding objects are often easily recognized based solely on visual cues, which we refer to as visual bias. Such biases hinder these benchmarks from effectively evaluating AVSL models. To further validate our hypothesis regarding visual biases, we examine two representative AVSL benchmarks, VGG-SS and EpicSounding-Object, where the vision-only models outperform all audiovisual baselines. Our findings suggest that existing AVSL benchmarks need further refinement to facilitate audio-visual learning. | 翻訳日:2024-09-15 05:21:30 公開日:2024-08-25 |
# McGrids: アイソ面抽出のためのモンテカルロ駆動適応グリッド
McGrids: Monte Carlo-Driven Adaptive Grids for Iso-Surface Extraction ( http://arxiv.org/abs/2409.06710v1 ) ライセンス: Link先を確認 | Daxuan Renınst, Hezi Shiınst, Jianmin Zheng, Jianfei Cai, | (参考訳) 暗黙の場からのイソ表面抽出は、コンピュータビジョンとグラフィックスの様々な応用における基本的なプロセスである。
幾何学的形状を複雑な幾何学的詳細で扱う場合、多くの既存のアルゴリズムは高い計算コストとメモリ使用量に悩まされる。
本稿では,等表面抽出の効率向上のための新しい手法であるMcGridsを提案する。
鍵となる考え方は、先行技術のように単純な一様格子を使うのではなく、等地抽出のための適応格子を構築することである。
具体的には、確率サンプリング問題として適応格子を構成する問題を定式化し、モンテカルロ法により解かれる。
我々は,表面メッシュから計算した解析的 SDF と実マルチビュー画像から暗黙的場を学習した実験により,McGrids の能力を実証した。
実験の結果,我々のMcGridsは暗黙のフィールドクエリの数を著しく減らし,メモリの大幅な削減を図りながら,リッチな幾何学的詳細を持つ高品質メッシュを生成することができた。
Iso-surface extraction from an implicit field is a fundamental process in various applications of computer vision and graphics. When dealing with geometric shapes with complicated geometric details, many existing algorithms suffer from high computational costs and memory usage. This paper proposes McGrids, a novel approach to improve the efficiency of iso-surface extraction. The key idea is to construct adaptive grids for iso-surface extraction rather than using a simple uniform grid as prior art does. Specifically, we formulate the problem of constructing adaptive grids as a probability sampling problem, which is then solved by Monte Carlo process. We demonstrate McGrids' capability with extensive experiments from both analytical SDFs computed from surface meshes and learned implicit fields from real multiview images. The experiment results show that our McGrids can significantly reduce the number of implicit field queries, resulting in significant memory reduction, while producing high-quality meshes with rich geometric details. | 翻訳日:2024-09-15 05:21:30 公開日:2024-08-25 |
# 複素ホログラム生成のための量子ニューラルネットワーク
Quantized neural network for complex hologram generation ( http://arxiv.org/abs/2409.06711v1 ) ライセンス: Link先を確認 | Yutaka Endo, Minoru Oikawa, Timothy D. Wilkinson, Tomoyoshi Shimobaba, Tomoyoshi Ito, | (参考訳) コンピュータ生成ホログラフィー(CGH)は、ヘッドマウントディスプレイやヘッドアップディスプレイなどの拡張現実ディスプレイのための有望な技術である。
しかし、その高い計算要求により、実装には実用的ではない。
ニューラルネットワークをCGHに統合する最近の取り組みは、計算コストと画像品質のトレードオフを克服する可能性を示している。
それでも、計算に制限のある組み込みシステムにニューラルネットワークベースのCGHアルゴリズムをデプロイするには、より効率的な計算コスト、メモリフットプリント、消費電力のモデルが必要である。
本研究では,ニューラルネットワークの量子化を導入し,複雑なホログラム生成のための軽量モデルを開発した。
具体的には、テンソルホログラフィに基づくモデルを構築し、32ビット浮動小数点精度(FP32)から8ビット整数精度(INT8)まで定量化した。
提案したINT8モデルは,FP32モデルに匹敵するホログラム品質を実現し,モデルサイズを約70%削減し,速度を4倍に向上することを示す。
さらに,システム・オン・モジュール上にINT8モデルを実装し,組み込みプラットフォームへのデプロイ性や高電力効率を実証した。
Computer-generated holography (CGH) is a promising technology for augmented reality displays, such as head-mounted or head-up displays. However, its high computational demand makes it impractical for implementation. Recent efforts to integrate neural networks into CGH have successfully accelerated computing speed, demonstrating the potential to overcome the trade-off between computational cost and image quality. Nevertheless, deploying neural network-based CGH algorithms on computationally limited embedded systems requires more efficient models with lower computational cost, memory footprint, and power consumption. In this study, we developed a lightweight model for complex hologram generation by introducing neural network quantization. Specifically, we built a model based on tensor holography and quantized it from 32-bit floating-point precision (FP32) to 8-bit integer precision (INT8). Our performance evaluation shows that the proposed INT8 model achieves hologram quality comparable to that of the FP32 model while reducing the model size by approximately 70% and increasing the speed fourfold. Additionally, we implemented the INT8 model on a system-on-module to demonstrate its deployability on embedded platforms and high power efficiency. | 翻訳日:2024-09-15 05:21:30 公開日:2024-08-25 |
# 生成人工知能を用いた大学生の意図のメタ分析
A Meta-analysis of College Students' Intention to Use Generative Artificial Intelligence ( http://arxiv.org/abs/2409.06712v1 ) ライセンス: Link先を確認 | Yifei Diao, Ziyi Li, Jiateng Zhou, Wei Gao, Xin Gong, | (参考訳) 学習者の学習行動や学術的成果を理解し予測するために、生成的人工知能(GenAI)を使用する学生の意図に影響を与える要因を分析することが重要である。
それにもかかわらず、現在の研究結果には一貫性の欠如が示されている。
そこで本研究では,独立研究の87効果サイズと33,833サンプルデータを含む27種類の実験研究を,統合理論の枠組みの下でメタ分析した。
その結果,主要な変数は学生のGenAI使用に対する行動意図と強く相関していることが判明した。
そのうち、パフォーマンス期待度(r = 0.389)と態度(r = 0.576)は特に重要な役割を担い、努力期待度と習慣は場所的要因によって中和される。
ジェンダーは、特に、学生のGenAIの使用に対する行動意図に対する態度を緩やかにしていただけである。
本研究は、既存の研究でGenAIを使用する学生の意図に関する議論、教育技術の改善、学校における意思決定者や教育者への支援、といった課題に対処するための貴重な知見を提供する。
It is of critical importance to analyse the factors influencing college students' intention to use generative artificial intelligence (GenAI) to understand and predict learners' learning behaviours and academic outcomes. Nevertheless, a lack of congruity has been shown in extant research results. This study, therefore, conducted a meta-analysis of 27 empirical studies under an integrated theoretical framework, including 87 effect sizes of independent research and 33,833 sample data. The results revealed that the main variables are strongly correlated with students' behavioural intention to use GenAI. Among them, performance expectancy (r = 0.389) and attitudes (r = 0.576) play particularly critical roles, and effort expectancy and habit are moderated by locational factors. Gender, notably, only moderated attitudes on students' behavioural intention to use GenAI. This study provides valuable insights for addressing the debate regarding students' intention to use GenAI in existed research, improving educational technology, as well as offering support for school decision-makers and educators to apply GenAI in school settings. | 翻訳日:2024-09-15 05:21:30 公開日:2024-08-25 |
# ゲーム理論深層学習モデルを用いたブロックチェーンへの貢献の証明
A proof of contribution in blockchain using game theoretical deep learning model ( http://arxiv.org/abs/2409.07460v1 ) ライセンス: Link先を確認 | Jin Wang, | (参考訳) 弾力性とスケーラブルなエッジリソースの構築は、プラットフォームベースのスマートシティサービスを提供する上で必然的な前提条件である。
スマートシティサービスはエッジコンピューティングを通じて提供され、低レイテンシアプリケーションを提供する。
しかし、エッジコンピューティングは常に限られたリソースの課題に直面してきた。
単一のエッジデバイスは、スマートシティにおけるさまざまなインテリジェントな計算を実行することができず、エッジリソースプラットフォームを構築するために、さまざまなサービスプロバイダからエッジデバイスを大規模にデプロイすることが不可欠になっている。
異なるサービスプロバイダからコンピューティングパワーを選択することは、ゲーム理論の問題である。
サービス提供者に対して,価値あるリソースを積極的に提供し,低レイテンシな協調コンピューティング能力を提供するための動機付けとして,タスクスケジューリングとリソース提供に関して,サービス提供者間で合意に達するためのゲーム理論のディープラーニングモデルを導入する。
従来の集中型のリソース管理アプローチは非効率で信頼性に欠けるが、ブロックチェーン技術の導入により、分散化されたリソーストレーディングとスケジューリングが可能になる。
本稿では,エッジコンピューティングの低レイテンシサービスを提供するためのコントリビューションベースの証明機構を提案する。
ディープラーニングモデルは、2つのエンコーダと1つのデコーダで構成され、GNN(Graph Neural Network)エンコーダは構造化された決定アクションデータを処理し、RNN(Recurrent Neural Network)エンコーダは時系列タスクスケジューリングデータを処理する。
大規模な実験により、我々のモデルは最先端技術と比較して584%の遅延を減少させることが示された。
Building elastic and scalable edge resources is an inevitable prerequisite for providing platform-based smart city services. Smart city services are delivered through edge computing to provide low-latency applications. However, edge computing has always faced the challenge of limited resources. A single edge device cannot undertake the various intelligent computations in a smart city, and the large-scale deployment of edge devices from different service providers to build an edge resource platform has become a necessity. Selecting computing power from different service providers is a game-theoretic problem. To incentivize service providers to actively contribute their valuable resources and provide low-latency collaborative computing power, we introduce a game-theoretic deep learning model to reach a consensus among service providers on task scheduling and resource provisioning. Traditional centralized resource management approaches are inefficient and lack credibility, while the introduction of blockchain technology can enable decentralized resource trading and scheduling. We propose a contribution-based proof mechanism to provide the low-latency service of edge computing. The deep learning model consists of dual encoders and a single decoder, where the GNN (Graph Neural Network) encoder processes structured decision action data, and the RNN (Recurrent Neural Network) encoder handles time-series task scheduling data. Extensive experiments have demonstrated that our model reduces latency by 584% compared to the state-of-the-art. | 翻訳日:2024-09-15 05:11:34 公開日:2024-08-25 |
# ウェアラブルモータ画像脳-コンピュータインタフェースのための脳波ネットワークのオンデバイス学習
On-device Learning of EEGNet-based Network For Wearable Motor Imagery Brain-Computer Interface ( http://arxiv.org/abs/2409.00083v1 ) ライセンス: Link先を確認 | Sizhen Bian, Pixi Kang, Julian Moosmann, Mengxi Liu, Pietro Bonazzi, Roman Rosipal, Michele Magno, | (参考訳) 脳波(EEG)に基づく脳-コンピュータインタフェース(BCI)は、リハビリテーションやロボティクスなど、様々な領域で大きな関心を集めている。
ニューラルネットワークベースのEEGデコーディングの進歩にもかかわらず、多様なユーザ集団のパフォーマンスを維持することは、機能分散の漂流のため、依然として困難である。
本稿では,ウェアラブルモータ画像認識のための軽量で効率的なデバイス上での学習エンジンを実装することで,この問題に対処する効果的なアプローチを提案する。
提案手法は、確立されたEEGNetアーキテクチャに適用され、登録されていないユーザのEEG信号へのリアルタイムかつ正確な適応を可能にする。
新たにリリースされた低消費電力のRISC-Vベースのプロセッサ、GreeenwavesのGAP9、Phyloonet EEG Motor Imageryデータセットを活用し、メモリフットプリントが15.6KByteのベースラインに対して最大7.31\%の精度向上を示す。
さらに、入力ストリームを最適化することにより、推論精度を損なうことなく、リアルタイムのパフォーマンスを向上させる。
我々の調整されたアプローチは、オンライントレーニング中に1回の推論で14.9ms、0.76mJ、1回の推測で20us、0.83uJの推論時間を示す。
これらの結果から,エッジ脳波デバイスと他の電池駆動型ウェアラブルAIシステムが,主観的な特徴分布ドリフトに悩まされている可能性が示唆された。
Electroencephalogram (EEG)-based Brain-Computer Interfaces (BCIs) have garnered significant interest across various domains, including rehabilitation and robotics. Despite advancements in neural network-based EEG decoding, maintaining performance across diverse user populations remains challenging due to feature distribution drift. This paper presents an effective approach to address this challenge by implementing a lightweight and efficient on-device learning engine for wearable motor imagery recognition. The proposed approach, applied to the well-established EEGNet architecture, enables real-time and accurate adaptation to EEG signals from unregistered users. Leveraging the newly released low-power parallel RISC-V-based processor, GAP9 from Greeenwaves, and the Physionet EEG Motor Imagery dataset, we demonstrate a remarkable accuracy gain of up to 7.31\% with respect to the baseline with a memory footprint of 15.6 KByte. Furthermore, by optimizing the input stream, we achieve enhanced real-time performance without compromising inference accuracy. Our tailored approach exhibits inference time of 14.9 ms and 0.76 mJ per single inference and 20 us and 0.83 uJ per single update during online training. These findings highlight the feasibility of our method for edge EEG devices as well as other battery-powered wearable AI systems suffering from subject-dependant feature distribution drift. | 翻訳日:2024-09-08 15:21:17 公開日:2024-08-25 |
# 遺伝性IRにおける幻覚の緩和への遺伝的アプローチ
Genetic Approach to Mitigate Hallucination in Generative IR ( http://arxiv.org/abs/2409.00085v1 ) ライセンス: Link先を確認 | Hrishikesh Kulkarni, Nazli Goharian, Ophir Frieder, Sean MacAvaney, | (参考訳) 生成言語モデルは幻覚する。
つまり、時にそれらは事実的に欠陥のある応答を生成する。
これらの不正確さは、応答が流動的かつ順応的であるため、特に不正確である。
我々は,検索エンジンから検索した結果に基づいて,ユーザの質問に対する直接的な回答を生成することを目的としたグラウンドドアンサー生成(ジェネレーティブIRの一部)の課題に焦点をあてる。
我々は,既存の遺伝的アプローチを,関連性のためのクロスエンコーダモデルと,グラウンド化を促進するためのn-gram重なりのメトリクスからなる新しい「バランスの取れたフィットネス機能」に適応させることで,幻覚に対処する。
我々のバランスの取れた適合関数アプローチは、高い妥当性を維持しながら、接地された回答の生成精度を4倍にします。
Generative language models hallucinate. That is, at times, they generate factually flawed responses. These inaccuracies are particularly insidious because the responses are fluent and well-articulated. We focus on the task of Grounded Answer Generation (part of Generative IR), which aims to produce direct answers to a user's question based on results retrieved from a search engine. We address hallucination by adapting an existing genetic generation approach with a new 'balanced fitness function' consisting of a cross-encoder model for relevance and an n-gram overlap metric to promote grounding. Our balanced fitness function approach quadruples the grounded answer generation accuracy while maintaining high relevance. | 翻訳日:2024-09-08 15:21:17 公開日:2024-08-25 |
# 経路整合性: LLMにおける効率的な推論のための事前修正
Path-Consistency: Prefix Enhancement for Efficient Inference in LLM ( http://arxiv.org/abs/2409.01281v1 ) ライセンス: Link先を確認 | Jiace Zhu, Yingtao Shen, Jie Zhao, An Zou, | (参考訳) 大規模言語モデル(LLM)の推論能力を高めるために,複数サンプリングと多数投票を組み合わせることで,自己整合性に大きな人気を得た。
しかし、最先端の自己整合性アプローチは、かなりの計算資源を消費し、多重サンプリングによる大幅な追加時間コストをもたらす。
これにより、計算資源が重要となるシナリオにおいて、その潜在能力が実現されない。
推論効率を向上させるために,従来のブランチで生成した回答の信頼性を活用し,最も有望なパスのプレフィックスを特定する手法である「textit{path-consistency」を導入する。
このプレフィックスに基づいて後続のブランチの生成を動的に導くことで、‘textit{path-consistency’は、ランダムまたはあまり役に立たない自己一貫性のサンプリングからエラーと冗長性の両方を緩和する。
結果として、生成されたトークンの数を減らすことで、推論プロセスを大幅に高速化することができる。
我々の広範な経験的評価によると、‘textit{path-consistency’ は 7.8 %$ から 40.5 %$ までの推論遅延の大幅な加速を実現し、数学的推論、常識推論、記号推論、コード生成など、さまざまなデータセットでタスクの精度を維持または改善している。
To enhance the reasoning capabilities of large language models (LLMs), self-consistency has gained significant popularity by combining multiple sampling with majority voting. However, the state-of-the-art self-consistency approaches consume substantial computational resources and lead to significant additional time costs due to the multiple sampling. This prevents its full potential from being realized in scenarios where computational resources are critical. To improve the inference efficiency, this paper introduces \textit{path-consistency}, a method that leverages the confidence of answers generated in earlier branches to identify the prefix of the most promising path. By dynamically guiding the generation of subsequent branches based on this prefix, the \textit{path-consistency} mitigates both the errors and redundancies from random or less useful sampling in self-consistency. As a result, it can significantly accelerate the inference process by reducing the number of tokens generated. Our extensive empirical evaluation shows that the \textit{path-consistency} achieves significant acceleration in inference latency ranging from $7.8\%$ to $40.5\%$, while maintaining or even improving task accuracy across different datasets, including mathematical reasoning, common sense reasoning, symbolic reasoning, and code generation. | 翻訳日:2024-09-08 14:53:30 公開日:2024-08-25 |
# 境界曲率による決定論的部分モジュラー最大化の一考察
A Note On Deterministic Submodular Maximization With Bounded Curvature ( http://arxiv.org/abs/2409.02943v1 ) ライセンス: Link先を確認 | Wenxin Li, | (参考訳) Buchbinder and Feldman, FOCS'24] の最近のブレークスルーの結果は、行列制約の下で曲率$\kappa_{f}$で部分モジュラ函数を最大化するための決定論的 $(1-\kappa_{f}/e-\varepsilon)$-approximate アルゴリズムにさらに繋がることを示した。
We show that the recent breakthrough result of [Buchbinder and Feldman, FOCS'24] could further lead to a deterministic $(1-\kappa_{f}/e-\varepsilon)$-approximate algorithm for maximizing a submodular function with curvature $\kappa_{f}$ under matroid constraint. | 翻訳日:2024-09-08 14:53:30 公開日:2024-08-25 |
# SPICED:LLM検出を用いたA/MS回路の統語バグとトロイの木馬パターン同定
SPICED: Syntactical Bug and Trojan Pattern Identification in A/MS Circuits using LLM-Enhanced Detection ( http://arxiv.org/abs/2408.16018v1 ) ライセンス: Link先を確認 | Jayeeta Chaudhuri, Dhruv Thapar, Arjun Chaudhuri, Farshad Firouzi, Krishnendu Chakrabarty, | (参考訳) アナログと混合信号集積回路(A/MS)は現代のエレクトロニクスにおいて重要であり、信号処理、増幅、センシング、電力管理において重要な役割を果たしている。
多くのIC企業は製造をサードパーティのファウンデーションにアウトソースし、ステルスのアナログトロイの木馬のようなセキュリティリスクを生み出している。
回路の透かしを埋め込んだり、ハードウェアベースの監視を行うといった従来の検出方法は、しばしばかなりの面積と電力のオーバーヘッドを課し、全ての種類のトロイの木馬を効果的に識別するものではない。
これらの欠点に対処するため,ソフトウェア領域内で動作する大規模言語モデル(LLM)ベースのフレームワークであるSPICEDを提案する。
これは、回路網リストにおける構文上のバグやアナログトロイの木馬の検出とローカライズのためのLLM支援技術を使った最初の研究であり、明示的なトレーニングを必要とせず、領域のオーバーヘッドもゼロである。
我々のフレームワークは、LLMに異常検出規則を教えるために、チェーン・オブ・ソートと少数例を用いている。
提案手法により、評価されたアナログベンチマーク回路において、トロイの木馬に衝突したノードの同定において平均93.32%の平均トロイの木馬被覆率と平均真正の93.4%を達成する。
これらの実験結果は、アナログネットリスト内の構文的バグとトロイの木の両方の検出および位置決定におけるLLMの有効性を検証した。
Analog and mixed-signal (A/MS) integrated circuits (ICs) are crucial in modern electronics, playing key roles in signal processing, amplification, sensing, and power management. Many IC companies outsource manufacturing to third-party foundries, creating security risks such as stealthy analog Trojans. Traditional detection methods, including embedding circuit watermarks or conducting hardware-based monitoring, often impose significant area and power overheads, and may not effectively identify all types of Trojans. To address these shortcomings, we propose SPICED, a Large Language Model (LLM)-based framework that operates within the software domain, eliminating the need for hardware modifications for Trojan detection and localization. This is the first work using LLM-aided techniques for detecting and localizing syntactical bugs and analog Trojans in circuit netlists, requiring no explicit training and incurring zero area overhead. Our framework employs chain-of-thought reasoning and few-shot examples to teach anomaly detection rules to LLMs. With the proposed method, we achieve an average Trojan coverage of 93.32% and an average true positive rate of 93.4% in identifying Trojan-impacted nodes for the evaluated analog benchmark circuits. These experimental results validate the effectiveness of LLMs in detecting and locating both syntactical bugs and Trojans within analog netlists. | 翻訳日:2024-08-30 18:04:21 公開日:2024-08-25 |
# 可逆的ロバスト特徴のスペクトルビュー
A Spectral View of Adversarially Robust Features ( http://arxiv.org/abs/1811.06609v2 ) ライセンス: Link先を確認 | Shivam Garg, Vatsal Sharan, Brian Hu Zhang, Gregory Valiant, | (参考訳) 対向的摂動に頑健な学習モデルの難しさを考慮し、対向的頑健な特徴を開発するための単純な問題に取り組むことを提案する。
具体的には、データセットと関心の指標が与えられたら、その目的は、関数(または複数の関数)を返すことである。
1)敵の摂動に頑健で、
2) データポイント間で大きなバリエーションがある。
我々は、逆向きの頑健な特徴と、データセットの幾何学と興味の計量の自然なスペクトル特性とを強く結び付ける。
この接続はロバストな機能と、データセット間で大きなばらつきを持つ関数のロバスト性の両方を提供するために利用することができる。
最後に、このスペクトルアプローチによって得られる逆向きに頑健な特徴が実りよく活用され、頑健な(かつ正確な)モデルを学ぶことができるという実証的な証拠を提供する。
Given the apparent difficulty of learning models that are robust to adversarial perturbations, we propose tackling the simpler problem of developing adversarially robust features. Specifically, given a dataset and metric of interest, the goal is to return a function (or multiple functions) that 1) is robust to adversarial perturbations, and 2) has significant variation across the datapoints. We establish strong connections between adversarially robust features and a natural spectral property of the geometry of the dataset and metric of interest. This connection can be leveraged to provide both robust features, and a lower bound on the robustness of any function that has significant variance across the dataset. Finally, we provide empirical evidence that the adversarially robust features given by this spectral approach can be fruitfully leveraged to learn a robust (and accurate) model. | 翻訳日:2024-08-29 21:54:22 公開日:2024-08-25 |
# 量子パワーのパーソナライズドラーニング
Quantum-Powered Personalized Learning ( http://arxiv.org/abs/2408.15287v1 ) ライセンス: Link先を確認 | Yifan Zhou, Chong Cheng Xu, Mingi Song, Yew Kee Wong, | (参考訳) 本稿では、パーソナライズされた学習領域における量子コンピューティングの変容の可能性について考察する。
従来の機械学習モデルとGPUベースのアプローチは、学生のニーズに合わせて教育経験をカスタマイズするために長い間使われてきた。
しかし、これらの手法は、スケーラビリティ、計算効率、および教育データの動的性質へのリアルタイム適応の観点から、重大な課題に直面している。
本研究は,これらの制約に対処するために量子コンピューティングを活用することを提案する。
我々は、既存のパーソナライズされた学習システム、古典的な機械学習手法、および教育における量子コンピューティングアプリケーションについてレビューする。
次に、量子技術を用いたデータ収集、プライバシ保護、前処理に関するプロトコルを概説し、さらにパーソナライズされた学習用に設計された量子アルゴリズムの開発と実装を行った。
量子アルゴリズムは,古典的手法と比較して,効率,スケーラビリティ,パーソナライズ品質を著しく向上させることが示唆された。
本稿では,量子コンピューティングを教育システムに統合することの意味を論じ,教育方法論,カリキュラム設計,学生体験全般の強化の可能性を明らかにする。
教育における量子コンピューティングの利点を要約し、今後の研究方向性を提案する。
This paper explores the transformative potential of quantum computing in the realm of personalized learning. Traditional machine learning models and GPU-based approaches have long been utilized to tailor educational experiences to individual student needs. However, these methods face significant challenges in terms of scalability, computational efficiency, and real-time adaptation to the dynamic nature of educational data. This study proposes leveraging quantum computing to address these limitations. We review existing personalized learning systems, classical machine learning methods, and emerging quantum computing applications in education. We then outline a protocol for data collection, privacy preservation using quantum techniques, and preprocessing, followed by the development and implementation of quantum algorithms specifically designed for personalized learning. Our findings indicate that quantum algorithms offer substantial improvements in efficiency, scalability, and personalization quality compared to classical methods. This paper discusses the implications of integrating quantum computing into educational systems, highlighting the potential for enhanced teaching methodologies, curriculum design, and overall student experiences. We conclude by summarizing the advantages of quantum computing in education and suggesting future research directions. | 翻訳日:2024-08-29 18:22:33 公開日:2024-08-25 |
# サンプル増幅:学習が不可能な場合でもデータセットのサイズが大きくなる
Sample Amplification: Increasing Dataset Size even when Learning is Impossible ( http://arxiv.org/abs/1904.12053v3 ) ライセンス: Link先を確認 | Brian Axelrod, Shivam Garg, Vatsal Sharan, Gregory Valiant, | (参考訳) 未知のディストリビューションから引き出されたデータである$D$が、このデータセットを ‘amplify’ して、$D$から引き出されたと思われるさらに大きなサンプルセットを出力することは、どの程度まで可能か?
a $(n,m)$ $\text{amplification procedure}$は、未知の分布の$D$からの独立な引き数として$n$とされ、$m > n$ `samples'' の集合を出力する。
増幅手順は、アルゴリズムが増幅器が生成した$m$サンプルのセットと$m$独立引き分けのセットを$D$と区別することができなければ有効であり、確率は2/3$を超える。
おそらく、多くの設定において有効な増幅手順が存在し、入力データセットのサイズが$n$である場合でも、非自明な精度で$D$を学ぶのに必要なものよりもはるかに少ない。
具体的には、$D$が$\le k$元でサポートされている任意の離散分布である場合と、$D$が未知の平均を持つ$d$次元ガウス多様体である場合、固定共分散である。
まず、$\left(n, n + \Theta(\frac{n}{\sqrt{k}})\right)$アンプが存在することを示す。
特に$D$から$n=O(\sqrt{k})$サンプルが与えられた場合、$m=n+1$のデータポイントの集合を出力することができ、$m=i.d.の分布から$D$の総変動距離は小さい定数である。
ガウスの場合、小さな定数全変動距離への分布を学習しても、$\left(n,n+\Theta(\frac{n}{\sqrt{d}} )\right)$アンプが存在することを示す。
離散的条件とガウス的条件の両方において、これらの結果は定数因子に対して厳密であることを示す。
これらの結果以外にも、今後の研究の好奇心をそそる方向を定式化している。
Given data drawn from an unknown distribution, $D$, to what extent is it possible to ``amplify'' this dataset and output an even larger set of samples that appear to have been drawn from $D$? We formalize this question as follows: an $(n,m)$ $\text{amplification procedure}$ takes as input $n$ independent draws from an unknown distribution $D$, and outputs a set of $m > n$ ``samples''. An amplification procedure is valid if no algorithm can distinguish the set of $m$ samples produced by the amplifier from a set of $m$ independent draws from $D$, with probability greater than $2/3$. Perhaps surprisingly, in many settings, a valid amplification procedure exists, even when the size of the input dataset, $n$, is significantly less than what would be necessary to learn $D$ to non-trivial accuracy. Specifically we consider two fundamental settings: the case where $D$ is an arbitrary discrete distribution supported on $\le k$ elements, and the case where $D$ is a $d$-dimensional Gaussian with unknown mean, and fixed covariance. In the first case, we show that an $\left(n, n + \Theta(\frac{n}{\sqrt{k}})\right)$ amplifier exists. In particular, given $n=O(\sqrt{k})$ samples from $D$, one can output a set of $m=n+1$ datapoints, whose total variation distance from the distribution of $m$ i.i.d. draws from $D$ is a small constant, despite the fact that one would need quadratically more data, $n=\Theta(k)$, to learn $D$ up to small constant total variation distance. In the Gaussian case, we show that an $\left(n,n+\Theta(\frac{n}{\sqrt{d}} )\right)$ amplifier exists, even though learning the distribution to small constant total variation distance requires $\Theta(d)$ samples. In both the discrete and Gaussian settings, we show that these results are tight, to constant factors. Beyond these results, we formalize a number of curious directions for future research along this vein. | 翻訳日:2024-08-28 20:36:52 公開日:2024-08-25 |
# 能動的・受動的因果推論学習
Active and Passive Causal Inference Learning ( http://arxiv.org/abs/2308.09248v2 ) ライセンス: Link先を確認 | Daniel Jiwoong Im, Kyunghyun Cho, | (参考訳) 本論文は,因果推論に関心はあるものの,因果推論に精通していない機械学習研究者,技術者,学生の出発点となる。
まずは、交換可能性、肯定性、一貫性、干渉の欠如など、因果的識別に総じて必要とされる重要な仮定のセットを配置することから始めます。
これらの仮定から、我々は重要な因果推論手法のセットを構築し、それらを2つのバケット、アクティブとパッシブのアプローチに分類する。
本研究は, ランダム化比較試験と包括的アプローチを積極的カテゴリーから記述し, 議論する。
次に、受動的カテゴリにおけるマッチングや逆確率重み付けといった古典的アプローチと、より最近のディープラーニングに基づくアルゴリズムについて述べる。
本論文では,コライダーバイアスなどの因果推論の欠如について,論文を仕上げることにより,因果推論と発見のさらなる読解と研究の出発点を読者に提供することを期待する。
This paper serves as a starting point for machine learning researchers, engineers and students who are interested in but not yet familiar with causal inference. We start by laying out an important set of assumptions that are collectively needed for causal identification, such as exchangeability, positivity, consistency and the absence of interference. From these assumptions, we build out a set of important causal inference techniques, which we do so by categorizing them into two buckets; active and passive approaches. We describe and discuss randomized controlled trials and bandit-based approaches from the active category. We then describe classical approaches, such as matching and inverse probability weighting, in the passive category, followed by more recent deep learning based algorithms. By finishing the paper with some of the missing aspects of causal inference from this paper, such as collider biases, we expect this paper to provide readers with a diverse set of starting points for further reading and research in causal inference and discovery. | 翻訳日:2024-08-28 20:18:41 公開日:2024-08-25 |
# チェーン・オブ・サート・プロンプティングの統計的基礎の解明
Unveiling the Statistical Foundations of Chain-of-Thought Prompting Methods ( http://arxiv.org/abs/2408.14511v1 ) ライセンス: Link先を確認 | Xinyang Hu, Fengzhuo Zhang, Siyu Chen, Zhuoran Yang, | (参考訳) CoT(Chain-of-Thought)は、事前訓練された大規模言語モデル(LLM)を用いて、多段階推論問題を解決する効果的な方法として人気を集めている。
本研究では,CoTを統計的推定の観点から解析し,サンプルの複雑さを包括的に評価する。
この目的のために,複数ステップの潜在変数モデルを導入し,その潜在変数がタスク情報をエンコードする推論プロセスをカプセル化する。
この枠組みでは、事前学習データセットが十分に大きい場合、CoTプロンプトによって生成された推定器はベイズ推定器と等価であることを示す。
この推定器は、プロンプトにおける実演例から推定される後部分布を集約することにより、多段階推論問題を効果的に解決する。
さらに,CoT推定器の統計的誤差を2つの主成分に分解できることを示す。
i) CoTプロンプトを用いて真のタスクを推測して発生するプロンプトエラー、及び
(II)事前訓練したLDMの統計的誤差。
適切な仮定の下では、デモの数が増加するにつれて、早送りエラーは指数関数的にゼロに崩壊する。
さらに,事前学習したLLMの近似と一般化誤差を明示的に特徴付ける。
特に,多段階推論問題のターゲット分布を,変圧器ブロック数で指数関数的に減少する誤差で近似する変圧器モデルを構築した。
我々の分析は、CoTの他の変種(Self-Consistent CoT、Tree-of-Thought、Selection-Inferenceなど)にも及んでいる。
また,理論的な結果を検証するための数値実験も行った。
Chain-of-Thought (CoT) prompting and its variants have gained popularity as effective methods for solving multi-step reasoning problems using pretrained large language models (LLMs). In this work, we analyze CoT prompting from a statistical estimation perspective, providing a comprehensive characterization of its sample complexity. To this end, we introduce a multi-step latent variable model that encapsulates the reasoning process, where the latent variable encodes the task information. Under this framework, we demonstrate that when the pretraining dataset is sufficiently large, the estimator formed by CoT prompting is equivalent to a Bayesian estimator. This estimator effectively solves the multi-step reasoning problem by aggregating a posterior distribution inferred from the demonstration examples in the prompt. Moreover, we prove that the statistical error of the CoT estimator can be decomposed into two main components: (i) a prompting error, which arises from inferring the true task using CoT prompts, and (ii) the statistical error of the pretrained LLM. We establish that, under appropriate assumptions, the prompting error decays exponentially to zero as the number of demonstrations increases. Additionally, we explicitly characterize the approximation and generalization errors of the pretrained LLM. Notably, we construct a transformer model that approximates the target distribution of the multi-step reasoning problem with an error that decreases exponentially in the number of transformer blocks. Our analysis extends to other variants of CoT, including Self-Consistent CoT, Tree-of-Thought, and Selection-Inference, offering a broad perspective on the efficacy of these methods. We also provide numerical experiments to validate the theoretical findings. | 翻訳日:2024-08-28 18:01:37 公開日:2024-08-25 |
# ゼロショットグラフ学習者としてのLLM:LLMトークン埋め込みを用いたGNN表現のアライメント
LLMs as Zero-shot Graph Learners: Alignment of GNN Representations with LLM Token Embeddings ( http://arxiv.org/abs/2408.14512v1 ) ライセンス: Link先を確認 | Duo Wang, Yuan Zuo, Fengzhi Li, Junjie Wu, | (参考訳) ゼロショットグラフ機械学習、特にグラフニューラルネットワーク(GNN)では、ラベル付きデータの不足による大きな関心を集めている。
自己教師付き学習やグラフプロンプト学習といった手法は広く研究されているが、多くの場合、タスク固有のラベルによる微調整に依存しており、ゼロショットシナリオでの有効性を制限している。
インストラクションファインダー付き大規模言語モデル(LLM)のゼロショット機能に着想を得て,LLMをグラフ機械学習のためのクロスデータセットおよびクロスタスクゼロショット学習者として活用する,Token Embedding-Aligned Graph Language Model(TEA-GLM)という新しいフレームワークを導入する。
具体的には、GNNを事前訓練し、その表現をLLMのトークン埋め込みと整列させる。
次に、GNNの表現をLLMをチューニングせずに固定数のグラフトークン埋め込みに変換する線形プロジェクタを訓練する。
統一的な命令は、ノード分類(ノードレベル)やリンク予測(エッジレベル)など、さまざまなレベルのグラフタスクのために設計されている。
これらの設計選択は、ゼロショット学習における手法の有効性を総合的に向上させ、既存の手法と区別する。
実験の結果, グラフトークンの埋め込みは, LLMを予測器として使用する他の手法と比較して, LLM予測器が未確認のデータセットやタスクに対して最先端のパフォーマンスを達成するのに役立つことがわかった。
Zero-shot graph machine learning, especially with graph neural networks (GNNs), has garnered significant interest due to the challenge of scarce labeled data. While methods like self-supervised learning and graph prompt learning have been extensively explored, they often rely on fine-tuning with task-specific labels, limiting their effectiveness in zero-shot scenarios. Inspired by the zero-shot capabilities of instruction-fine-tuned large language models (LLMs), we introduce a novel framework named Token Embedding-Aligned Graph Language Model (TEA-GLM) that leverages LLMs as cross-dataset and cross-task zero-shot learners for graph machine learning. Concretely, we pretrain a GNN, aligning its representations with token embeddings of an LLM. We then train a linear projector that transforms the GNN's representations into a fixed number of graph token embeddings without tuning the LLM. A unified instruction is designed for various graph tasks at different levels, such as node classification (node-level) and link prediction (edge-level). These design choices collectively enhance our method's effectiveness in zero-shot learning, setting it apart from existing methods. Experiments show that our graph token embeddings help the LLM predictor achieve state-of-the-art performance on unseen datasets and tasks compared to other methods using LLMs as predictors. | 翻訳日:2024-08-28 18:01:37 公開日:2024-08-25 |
# 変分自己エンコーダに基づくニューラルネットワークモデル圧縮
Variational autoencoder-based neural network model compression ( http://arxiv.org/abs/2408.14513v1 ) ライセンス: Link先を確認 | Liang Cheng, Peiyuan Guan, Amir Taherkordi, Lei Liu, Dapeng Lan, | (参考訳) 近年, 画像生成や異常検出など, 様々な領域において, 可変オートエンコーダ (VAE) が広く用いられている。
本稿では,VAEに基づくニューラルネットワークモデル圧縮手法について検討する。
この実験では、Feedforward Neural Network(FNN)、Convolutional Neural Network(CNN)、Recurrent Neural Network(RNN)、Long Short-Term Memory(LSTM)など、MNISTを圧縮ターゲットとして認識するためのさまざまなニューラルネットワークモデルを使用している。
これらのモデルはディープラーニングにおける最も基本的なモデルであり、他のより複雑で高度なモデルはそれらをベースとするか、機能を継承して進化させる。
実験では、まず上記のモデルをトレーニングし、トレーニングされた各モデルが異なる精度と総パラメータの数を持つようにする。
そして、各モデルのパラメータの変種をVAEのトレーニングデータとして別々に処理し、トレーニングされたVAEを真のモデルパラメータでテストする。
実験の結果, モデル圧縮の表現として潜時空間を用いることで, プルーニングや量子化といった従来の手法と比較して圧縮率を向上できることがわかった。
将来的には、様々な大規模ディープラーニングモデルがより広く使われるようになるので、モデル保存や転送において時間と空間を節約するための様々な方法を探究する必要がある。
Variational Autoencoders (VAEs), as a form of deep generative model, have been widely used in recent years, and shown great great peformance in a number of different domains, including image generation and anomaly detection, etc.. This paper aims to explore neural network model compression method based on VAE. The experiment uses different neural network models for MNIST recognition as compression targets, including Feedforward Neural Network (FNN), Convolutional Neural Network (CNN), Recurrent Neural Network (RNN) and Long Short-Term Memory (LSTM). These models are the most basic models in deep learning, and other more complex and advanced models are based on them or inherit their features and evolve. In the experiment, the first step is to train the models mentioned above, each trained model will have different accuracy and number of total parameters. And then the variants of parameters for each model are processed as training data in VAEs separately, and the trained VAEs are tested by the true model parameters. The experimental results show that using the latent space as a representation of the model compression can improve the compression rate compared to some traditional methods such as pruning and quantization, meanwhile the accuracy is not greatly affected using the model parameters reconstructed based on the latent space. In the future, a variety of different large-scale deep learning models will be used more widely, so exploring different ways to save time and space on saving or transferring models will become necessary, and the use of VAE in this paper can provide a basis for these further explorations. | 翻訳日:2024-08-28 18:01:37 公開日:2024-08-25 |
# 予め訓練された自己エンコーダ埋め込みによる非線形投影ヘッドの改善
Improving Nonlinear Projection Heads using Pretrained Autoencoder Embeddings ( http://arxiv.org/abs/2408.14514v1 ) ライセンス: Link先を確認 | Andreas Schliebitz, Heiko Tapken, Martin Atzmueller, | (参考訳) この実験的な研究は、事前訓練されたオートエンコーダ埋め込みを用いて、SimCLRフレームワークで特徴付けられる標準の2層MLPプロジェクションヘッド$g(\cdot)$の有効性を改善することを目的としている。
ほとんどラベルのない画像分類データセットを用いた対照的な学習タスクを前提として、まず浅いオートエンコーダアーキテクチャをトレーニングし、エンコーダの埋め込み層に含まれる圧縮表現を抽出する。
この事前訓練されたレイヤ内の重みを凍結した後、SimCLRのデフォルトプロジェクタの入力レイヤのドロップイン代替として使用します。
さらに,プロジェクタの幅を小さくし,アクティベーション機能を変化させることで,プロジェクタにさらなるアーキテクチャ変更を加える。
次に、異なるプロジェクションヘッドを使用して、SimCLRプロトコルに従って特徴抽出器$f(\cdot)$を対照的にトレーニングし、評価すると同時に、Zスコア正規化データセットのパフォーマンスへの影響も調べる。
本実験は,プロジェクタに予め訓練したオートエンコーダを組み込むことで,平均で2.9%,1.7%の精度で分類できるだけでなく,プロジェクタ空間の寸法を著しく低減できることを示す。
また,プロジェクタ内のシグモイドとタンの活性化関数を用いることで,ピークおよび平均分類精度においてReLUより優れていることが示唆された。
提案するプロジェクタを適用する場合,データセットにZスコア正規化を適用しない場合には,ピーク性能が向上することが多い。
対照的に、デフォルトのプロジェクションヘッドは正規化の恩恵を受けることができる。
凍結したプロジェクターを用いた実験は, 凍結したプロジェクターを用いた場合と比較して, 凍結したプロジェクターを用いた場合に比べ, いずれの試験結果も有利であることが示唆された。
This empirical study aims at improving the effectiveness of the standard 2-layer MLP projection head $g(\cdot)$ featured in the SimCLR framework through the use of pretrained autoencoder embeddings. Given a contrastive learning task with a largely unlabeled image classification dataset, we first train a shallow autoencoder architecture and extract its compressed representations contained in the encoder's embedding layer. After freezing the weights within this pretrained layer, we use it as a drop-in replacement for the input layer of SimCLR's default projector. Additionally, we also apply further architectural changes to the projector by decreasing its width and changing its activation function. The different projection heads are then used to contrastively train and evaluate a feature extractor $f(\cdot)$ following the SimCLR protocol, while also examining the performance impact of Z-score normalized datasets. Our experiments indicate that using a pretrained autoencoder embedding in the projector can not only increase classification accuracy by up to 2.9% or 1.7% on average but can also significantly decrease the dimensionality of the projection space. Our results also suggest, that using the sigmoid and tanh activation functions within the projector can outperform ReLU in terms of peak and average classification accuracy. When applying our presented projectors, then not applying Z-score normalization to datasets often increases peak performance. In contrast, the default projection head can benefit more from normalization. All experiments involving our pretrained projectors are conducted with frozen embeddings, since our test results indicate an advantage compared to using their non-frozen counterparts. | 翻訳日:2024-08-28 17:51:49 公開日:2024-08-25 |
# 多言語プログラム翻訳のための変分相互作用を伴う共同学習モデル
A Joint Learning Model with Variational Interaction for Multilingual Program Translation ( http://arxiv.org/abs/2408.14515v1 ) ライセンス: Link先を確認 | Yali Du, Hui Sun, Ming Li, | (参考訳) 様々なプログラミング言語で実装されたプログラムは、ソフトウェアアプリケーションの基盤となる。
プログラムマイグレーションの負担を軽減し、ソフトウェアシステムの開発を促進するため、言語間の自動プログラム翻訳が注目されている。
それまでのアプローチは、主に対訳パラダイム、二言語並列データを用いた対言語間の翻訳学習に重点を置いていた。
しかし、並列データはいくつかの言語ペアで収集することは困難であり、言語間のプログラムセマンティクスの分配はシフトし、ペアワイズプログラム翻訳の課題を提起する。
本稿では,複数の言語にまたがってコードを翻訳する統一モデルを共同で学習することが,バイリンガル並列データから個別に学習するよりも優れていることを論じる。
本稿では,複数言語をまたがる多言語プログラム翻訳の統一モデルを共同で訓練する,多言語プログラム翻訳のための変分相互作用~(VIM-PT)を提案する。
VIM-PTは、変分推論と新しい下界との相互作用情報を用いて、コードを言語共有と言語固有の特徴に分解し、条件付き生成を通じてプログラム翻訳を行う。
VIM-PTは以下の4つの利点を示す。
1)様々な実装から言語共有情報をより正確に取得し,多言語プログラム翻訳の質を向上させる。
2)非並列データの機能をマイニングし活用すること。
3)言語間のプログラムセマンティクスの分散シフトに対処する。
統合モデルとして機能し、デプロイメントの複雑さを低減します。
Programs implemented in various programming languages form the foundation of software applications. To alleviate the burden of program migration and facilitate the development of software systems, automated program translation across languages has garnered significant attention. Previous approaches primarily focus on pairwise translation paradigms, learning translation between pairs of languages using bilingual parallel data. However, parallel data is difficult to collect for some language pairs, and the distribution of program semantics across languages can shift, posing challenges for pairwise program translation. In this paper, we argue that jointly learning a unified model to translate code across multiple programming languages is superior to separately learning from bilingual parallel data. We propose Variational Interaction for Multilingual Program Translation~(VIM-PT), a disentanglement-based generative approach that jointly trains a unified model for multilingual program translation across multiple languages. VIM-PT disentangles code into language-shared and language-specific features, using variational inference and interaction information with a novel lower bound, then achieves program translation through conditional generation. VIM-PT demonstrates four advantages: 1) captures language-shared information more accurately from various implementations and improves the quality of multilingual program translation, 2) mines and leverages the capability of non-parallel data, 3) addresses the distribution shift of program semantics across languages, 4) and serves as a unified model, reducing deployment complexity. | 翻訳日:2024-08-28 17:51:48 公開日:2024-08-25 |
# フェデレーショングラフ学習における局所バイアス処理
Tackling the Local Bias in Federated Graph Learning ( http://arxiv.org/abs/2110.12906v3 ) ライセンス: Link先を確認 | Binchi Zhang, Minnan Luo, Shangbin Feng, Ziqi Liu, Jun Zhou, Qinghua Zheng, | (参考訳) FGL(Federated Graph Learning)は,実世界のグラフ構造化データのスケールと分散特性の増大に対応する重要な研究トピックとなっている。
FGLでは、グローバルグラフは異なるクライアントに分散され、各クライアントはサブグラフを保持する。
既存のFGL法は、訓練中に構造情報をなくし、クロスクライアントエッジを効果的に活用できないことが多く、また、局所グラフは大きな分布のばらつきを示すことが多い。
これら2つの問題により、FGLにおける局所モデルの方が、集中型グラフ学習よりも望ましい。
そこで本研究では,FGLフレームワークを新たに提案し,一元的に学習したモデルに類似した局所モデルを作成する。
具体的には、クライアント間のエッジを完全に活用して、他のクライアントからの情報を集約する分散学習方式を設計する。
さらに、不均衡なローカルデータを緩和し、トレーニングのオーバーヘッドを著しく低減するラベル誘導サンプリング手法を提案する。
大規模な実験では、局所バイアスがモデルのパフォーマンスを損なう可能性を示し、トレーニング中の収束を遅くする。
実験の結果、我々のフレームワークは局所バイアスを軽減し、時間とメモリのオーバーヘッドが低い他のベースラインよりも優れたパフォーマンスを実現しています。
Federated graph learning (FGL) has become an important research topic in response to the increasing scale and the distributed nature of graph-structured data in the real world. In FGL, a global graph is distributed across different clients, where each client holds a subgraph. Existing FGL methods often fail to effectively utilize cross-client edges, losing structural information during the training; additionally, local graphs often exhibit significant distribution divergence. These two issues make local models in FGL less desirable than in centralized graph learning, namely the local bias problem in this paper. To solve this problem, we propose a novel FGL framework to make the local models similar to the model trained in a centralized setting. Specifically, we design a distributed learning scheme, fully leveraging cross-client edges to aggregate information from other clients. In addition, we propose a label-guided sampling approach to alleviate the imbalanced local data and meanwhile, distinctly reduce the training overhead. Extensive experiments demonstrate that local bias can compromise the model performance and slow down the convergence during training. Experimental results also verify that our framework successfully mitigates local bias, achieving better performance than other baselines with lower time and memory overhead. | 翻訳日:2024-08-28 01:37:08 公開日:2024-08-25 |
# 階層型アテンションLSTM(HierAttnLSTM)を用いたネットワークレベルの時空間交通状態予測
Network Level Spatial Temporal Traffic State Forecasting with Hierarchical Attention LSTM (HierAttnLSTM) ( http://arxiv.org/abs/2201.05760v4 ) ライセンス: Link先を確認 | Tianya Terry Zhang, | (参考訳) ユビキタス交通監視センサから収集された速度、体積、走行時間などの交通状態データは、重要な交通パターンを予測し識別するための高度なネットワークレベルの分析を必要とする。
本稿では,オープンベンチマークにホストされたPeMS(Caltrans Performance Measurement System)の多様なトラフィック状態データセットを活用し,空間時間モデルと比較して有望な性能を達成した。
さまざまな人工知能(AI)タスクにおける階層的アーキテクチャの成功からインスピレーションを得て,低レベルから高レベルの長短期記憶(LSTM)ネットワークを人間の知覚システムに似た注目プール機構で統合する。
構築された階層構造は、異なる時間スケールの依存関係を考慮し、ネットワークレベルのトラフィック状態の空間的時間的相関をキャプチャし、単一のリンクやルートではなく、すべての廊下におけるトラフィック状態の予測を可能にする。
設計された注意に基づくLSTMの効率をアブレーション研究により解析した。
ベースラインLSTMモデルとの比較により,階層的注意LSTM(HierAttnLSTM)モデルは高い予測精度を提供するだけでなく,異常な混雑パターンを効果的に予測することを示した。
データとコードは、再現可能な科学研究をサポートするために公開されています。
Traffic state data, such as speed, volume and travel time collected from ubiquitous traffic monitoring sensors require advanced network level analytics for forecasting and identifying significant traffic patterns. This paper leverages diverse traffic state datasets from the Caltrans Performance Measurement System (PeMS) hosted on the open benchmark and achieved promising performance compared to well recognized spatial-temporal models. Drawing inspiration from the success of hierarchical architectures in various Artificial Intelligence (AI) tasks, we integrate cell and hidden states from low-level to high-level Long Short-Term Memory (LSTM) networks with an attention pooling mechanism, similar to human perception systems. The developed hierarchical structure is designed to account for dependencies across different time scales, capturing the spatial-temporal correlations of network-level traffic states, enabling the prediction of traffic states for all corridors rather than a single link or route. The efficiency of designed attention-based LSTM is analyzed by ablation study. Comparative results with baseline LSTM models demonstrate that the Hierarchical Attention LSTM (HierAttnLSTM) model not only provides higher prediction accuracy but also effectively forecasts unusual congestion patterns. Data and code are made publicly available to support reproducible scientific research. | 翻訳日:2024-08-28 01:37:08 公開日:2024-08-25 |
# 深部強化学習による無限水平リーチ回避ゼロサムゲーム
Infinite-Horizon Reach-Avoid Zero-Sum Games via Deep Reinforcement Learning ( http://arxiv.org/abs/2203.10142v2 ) ライセンス: Link先を確認 | Jingqi Li, Donggun Lee, Somayeh Sojoudi, Claire J. Tomlin, | (参考訳) 本稿では, 無限水平リーチアビドゼロサムゲーム問題について考察する。このゲームの目的は, 到達アビド集合と呼ばれる状態空間内の集合を見つけることである。
本稿では, 値関数が非負であると評価された状態の集合である超零レベル集合がリーチアビド集合を復元する, ベルマンバックアップを用いた新しい値関数を設計することで, この問題に対処する。
これに基づいて、提案手法は、与えられた制約を満たすために制御できる状態の集合や、与えられた目標セットに向けて駆動できる状態の集合を計算できることを示す。
最後に,学習した値関数の超零レベル集合がリーチアビド集合に対する(保守的な)近似となるような値関数を学習するために,深層強化学習技術である保守的Qラーニングを拡張して,高次元問題における次元問題の呪いを軽減することを提案する。
理論的および実証的な結果から,ニューラルネットワークの近似においても,提案手法がリーチアビドセットと最適制御ポリシーを確実に学習できることが示唆された。
In this paper, we consider the infinite-horizon reach-avoid zero-sum game problem, where the goal is to find a set in the state space, referred to as the reach-avoid set, such that the system starting at a state therein could be controlled to reach a given target set without violating constraints under the worst-case disturbance. We address this problem by designing a new value function with a contracting Bellman backup, where the super-zero level set, i.e., the set of states where the value function is evaluated to be non-negative, recovers the reach-avoid set. Building upon this, we prove that the proposed method can be adapted to compute the viability kernel, or the set of states which could be controlled to satisfy given constraints, and the backward reachable set, or the set of states that could be driven towards a given target set. Finally, we propose to alleviate the curse of dimensionality issue in high-dimensional problems by extending Conservative Q-Learning, a deep reinforcement learning technique, to learn a value function such that the super-zero level set of the learned value function serves as a (conservative) approximation to the reach-avoid set. Our theoretical and empirical results suggest that the proposed method could learn reliably the reach-avoid set and the optimal control policy even with neural network approximation. | 翻訳日:2024-08-28 01:37:08 公開日:2024-08-25 |
# 変分推論による模倣学習の解答
Deconfounding Imitation Learning with Variational Inference ( http://arxiv.org/abs/2211.02667v2 ) ライセンス: Link先を確認 | Risto Vuorio, Pim de Haan, Johann Brehmer, Hanno Ackermann, Daniel Dijkman, Taco Cohen, | (参考訳) 標準的な模倣学習は、スペシャリストが模倣剤とは異なる感覚入力を持つ場合、失敗する可能性がある。
これは、部分的な可観測性によって、因果グラフに隠された共同創設者が生まれるためである。
これまでの研究では, 問題点に対処するために, 専門家のポリシーや逆強化学習(IRL)へのクエリアクセスを用いてポリシーを訓練してきた。
しかし、専門家のポリシーが利用できない可能性があり、IRLは実際には不安定であるため、どちらのアプローチにも欠点がある。
代わりに、専門家の潜伏情報を推測するために変分推論モデルを訓練し、潜伏条件ポリシーの訓練に使用することを提案する。
本研究では,この手法を強い仮定のもとに,専門家のデモンストレーションだけで理論上は正しい模倣学習ポリシーの同定が可能であることを証明した。
実際には、推論モデルを学習するために探索データを使用するという、強い仮定の少ない設定に重点を置いています。
理論と実践において、このアルゴリズムは正しい介入ポリシーに収束し、相反する問題を解き、特定の仮定の下で漸近的に最適な模倣性能が得られることを示す。
Standard imitation learning can fail when the expert demonstrators have different sensory inputs than the imitating agent. This is because partial observability gives rise to hidden confounders in the causal graph. In previous work, to work around the confounding problem, policies have been trained using query access to the expert's policy or inverse reinforcement learning (IRL). However, both approaches have drawbacks as the expert's policy may not be available and IRL can be unstable in practice. Instead, we propose to train a variational inference model to infer the expert's latent information and use it to train a latent-conditional policy. We prove that using this method, under strong assumptions, the identification of the correct imitation learning policy is theoretically possible from expert demonstrations alone. In practice, we focus on a setting with less strong assumptions where we use exploration data for learning the inference model. We show in theory and practice that this algorithm converges to the correct interventional policy, solves the confounding issue, and can under certain assumptions achieve an asymptotically optimal imitation performance. | 翻訳日:2024-08-28 01:37:08 公開日:2024-08-25 |
# 実世界のシナリオにおける赤外小ターゲット検出のための評価手法の強化
Enhancing Evaluation Methods for Infrared Small-Target Detection in Real-world Scenarios ( http://arxiv.org/abs/2301.03796v2 ) ライセンス: Link先を確認 | Saed Moradi, Alireza Memarmoghadam, Payman Moallem, Mohamad Farzan Sabahi, | (参考訳) 赤外線小目標検出(IRSTD)はコンピュータビジョンの分野で大きな課題となる。
過去20年間、IRSTDアルゴリズムの検出能力を改善するためにかなりの努力が続けられてきたが、その性能を評価するために使用される評価指標について、広範囲にわたる調査は行われていない。
本稿では,既存のメトリクスの有効性をまず評価し,従来のメトリクスの限界を克服するための新しいメトリクスを提案することによって,この問題に対処する体系的なアプローチを採用する。
これを実現するために,本研究は,既存の評価指標の問題点を検知するための必要な条件を慎重に分析し,事前評価指標と後評価指標の両方を含む問題点を同定する。
そして、現実世界のシステムの要求に合致するように設計された新しいメトリクスを導入します。
さらに、これらの新しい指標を用いて、広く認識されている5つの小型赤外目標検出アルゴリズムの性能を比較し、評価する。
結果は、新しい指標が質的な観察と整合して、一貫した有意義な定量的評価を提供することを示した。
Infrared small target detection (IRSTD) poses a significant challenge in the field of computer vision. While substantial efforts have been made over the past two decades to improve the detection capabilities of IRSTD algorithms, there has been a lack of extensive investigation into the evaluation metrics used for assessing their performance. In this paper, we employ a systematic approach to address this issue by first evaluating the effectiveness of existing metrics and then proposing new metrics to overcome the limitations of conventional ones. To achieve this, we carefully analyze the necessary conditions for successful detection and identify the shortcomings of current evaluation metrics, including both pre-thresholding and post-thresholding metrics. We then introduce new metrics that are designed to align with the requirements of real-world systems. Furthermore, we utilize these newly proposed metrics to compare and evaluate the performance of five widely recognized small infrared target detection algorithms. The results demonstrate that the new metrics provide consistent and meaningful quantitative assessments, aligning with qualitative observations. | 翻訳日:2024-08-28 01:37:08 公開日:2024-08-25 |
# ニューラルネットワークによる露光シフトの因果推定
Causal Estimation of Exposure Shifts with Neural Networks ( http://arxiv.org/abs/2302.02560v4 ) ライセンス: Link先を確認 | Mauricio Tec, Kevin Josey, Oladimeji Mudele, Francesca Dominici, | (参考訳) 因果推論における基本的な課題は、処理変数の分布シフトの影響を推定することである。
本稿では、この問題をシフト応答関数(SRF)推定と呼ぶ。
因果推論のための既存のニューラルネットワーク手法は、理論的な保証とSRF推定のための実践的な実装を欠いている。
本稿では,ニューラルネットワークを用いた露光シフトのためのターゲット正規化(TRESNET)を提案する。
私たちの貢献は2倍です。
まず、SRF推定に特有の二重ロバスト性および漸近効率を保証する理論特性を持つニューラルネットワークの目標正規化損失を提案する。
第2に、非連続的な結果分布(例えば離散数)に対応するために指数関数からの損失関数をサポートするために、ターゲット正規化を拡張した。
我々は、TRESNETの幅広い適用性と競争性を実証するベンチマーク実験を行う。
次に、我々の手法を公衆衛生における重要な政策問題に適用し、12${\mu}g/m^3$から9${\mu}g/m^3$へのPM 2.5の米国国家大気基準(NAAQS)改正の因果効果を推定する。
この変更は米国環境保護庁(EPA)によって最近提案されている。
私たちの目標は、米国全体で6800万人からなるデータを用いて、この予想される修正の結果生じる死亡数の減少を見積もることです。
A fundamental task in causal inference is estimating the effect of distribution shift in the treatment variable. We refer to this problem as shift-response function (SRF) estimation. Existing neural network methods for causal inference lack theoretical guarantees and practical implementations for SRF estimation. In this paper, we introduce Targeted Regularization for Exposure Shifts with Neural Networks (TRESNET), a method to estimate SRFs with robustness and efficiency guarantees. Our contributions are twofold. First, we propose a targeted regularization loss for neural networks with theoretical properties that ensure double robustness and asymptotic efficiency specific to SRF estimation. Second, we extend targeted regularization to support loss functions from the exponential family to accommodate non-continuous outcome distributions (e.g., discrete counts). We conduct benchmark experiments demonstrating TRESNET's broad applicability and competitiveness. We then apply our method to a key policy question in public health to estimate the causal effect of revising the US National Ambient Air Quality Standards (NAAQS) for PM 2.5 from 12 ${\mu}g/m^3$ to 9 ${\mu}g/m^3$. This change has been recently proposed by the US Environmental Protection Agency (EPA). Our goal is to estimate the reduction in deaths that would result from this anticipated revision using data consisting of 68 million individuals across the U.S. | 翻訳日:2024-08-28 01:26:59 公開日:2024-08-25 |
# Text2Seg: テキストガイド型ビジュアルファンデーションモデルによるリモートセンシング画像セマンティックセグメンテーション
Text2Seg: Remote Sensing Image Semantic Segmentation via Text-Guided Visual Foundation Models ( http://arxiv.org/abs/2304.10597v2 ) ライセンス: Link先を確認 | Jielu Zhang, Zhongliang Zhou, Gengchen Mai, Mengxuan Hu, Zihan Guan, Sheng Li, Lan Mu, | (参考訳) リモートセンシング画像は,地球環境モニタリングや土地利用監視などにおいて重要な役割を担っているため,近年注目されている。
画像データベースが年々成長するにつれて、ディープラーニングモデルによる自動セグメンテーションが、データ処理の標準的なアプローチになりつつある。
現在のモデルの性能は改善されているが、いくつかの制限は未解決のままである。
まず、セグメンテーションのためのディープラーニングモデルをトレーニングするには、ピクセル単位のアノテーションが必要である。
データセットが大きければ、完全に注釈付けされ、トレーニングの準備ができているのはごく一部のみである。
さらに、リモートセンシングデータにおける高データセット内分散は、そのようなモデルの転送学習能力を制限する。
最近提案されたSAMのようなジェネリックセグメンテーションモデルは、ゼロショットのインスタンスレベルのセグメンテーションにおいて有望な結果を示しているが、セグメンテーションにそれらを適用することは非自明な作業である。
これらの課題に対処するために,リモートセマンティックセマンティックセグメンテーションのためのText2Segという新しい手法を提案する。
Text2Segは、さまざまな視覚基盤モデル(VFM)を使用して、様々な方法で意味情報を理解するためにトレーニングされた自動プロンプト生成プロセスを使用することで、広範囲なアノテーションへの依存を克服する。
このアプローチによって、完全なアノテーション付きデータセットの必要性が軽減されるだけでなく、さまざまなデータセットをまたいでモデルを一般化する能力も向上する。
4つの広く採用されているリモートセンシングデータセットの評価によると、Text2SegはバニラSAMモデルと比較してゼロショット予測性能を著しく改善し、相対的な改善は31%から225%である。
私たちのコードはhttps://github.com/Douglas2Code/Text2Segで利用可能です。
Remote sensing imagery has attracted significant attention in recent years due to its instrumental role in global environmental monitoring, land usage monitoring, and more. As image databases grow each year, performing automatic segmentation with deep learning models has gradually become the standard approach for processing the data. Despite the improved performance of current models, certain limitations remain unresolved. Firstly, training deep learning models for segmentation requires per-pixel annotations. Given the large size of datasets, only a small portion is fully annotated and ready for training. Additionally, the high intra-dataset variance in remote sensing data limits the transfer learning ability of such models. Although recently proposed generic segmentation models like SAM have shown promising results in zero-shot instance-level segmentation, adapting them to semantic segmentation is a non-trivial task. To tackle these challenges, we propose a novel method named Text2Seg for remote sensing semantic segmentation. Text2Seg overcomes the dependency on extensive annotations by employing an automatic prompt generation process using different visual foundation models (VFMs), which are trained to understand semantic information in various ways. This approach not only reduces the need for fully annotated datasets but also enhances the model's ability to generalize across diverse datasets. Evaluations on four widely adopted remote sensing datasets demonstrate that Text2Seg significantly improves zero-shot prediction performance compared to the vanilla SAM model, with relative improvements ranging from 31% to 225%. Our code is available at https://github.com/Douglas2Code/Text2Seg. | 翻訳日:2024-08-28 01:26:59 公開日:2024-08-25 |
# EEGシステムにおける解釈AIとロバストAI:サーベイ
Interpretable and Robust AI in EEG Systems: A Survey ( http://arxiv.org/abs/2304.10755v3 ) ライセンス: Link先を確認 | Xinliang Zhou, Chenyu Liu, Zhongruo Wang, Liming Zhai, Ziyu Jia, Cuntai Guan, Yang Liu, | (参考訳) 人工知能(AI)と脳波(EEG)の密結合は、AI時代において人間とコンピュータの相互作用(HCI)技術を大幅に進歩させてきた。
従来の脳波システムとは異なり、AIベースの脳波システムの解釈可能性と堅牢性は特に重要になっている。
解釈可能性は、AIモデルの内部動作メカニズムを明確にし、それによってユーザの信頼を得ることができる。
この堅牢性は、攻撃や摂動に対するAIの信頼性を反映している。
このように、脳波システムにおけるAIの解釈可能性と堅牢性は注目され、その研究は近年大きな進歩を遂げている。
しかし、この分野での最近の進歩についての調査は行われていない。
本稿では,脳波システムのための解釈可能な,堅牢なAI技術について概説する。
具体的には、まず、バックプロパゲーション、摂動、本質的に解釈可能な方法の3つのタイプに特徴付けることによって、解釈可能性の分類法を提案する。
次に、ロバスト性メカニズムを、ノイズとアーティファクト、人間の可変性、データ取得不安定性、敵攻撃の4つのクラスに分類する。
最後に、脳波システムにおけるAIの解釈と堅牢性に関するいくつかの重要かつ未解決の課題を特定し、今後の方向性についてさらに議論する。
The close coupling of artificial intelligence (AI) and electroencephalography (EEG) has substantially advanced human-computer interaction (HCI) technologies in the AI era. Different from traditional EEG systems, the interpretability and robustness of AI-based EEG systems are becoming particularly crucial. The interpretability clarifies the inner working mechanisms of AI models and thus can gain the trust of users. The robustness reflects the AI's reliability against attacks and perturbations, which is essential for sensitive and fragile EEG signals. Thus the interpretability and robustness of AI in EEG systems have attracted increasing attention, and their research has achieved great progress recently. However, there is still no survey covering recent advances in this field. In this paper, we present the first comprehensive survey and summarize the interpretable and robust AI techniques for EEG systems. Specifically, we first propose a taxonomy of interpretability by characterizing it into three types: backpropagation, perturbation, and inherently interpretable methods. Then we classify the robustness mechanisms into four classes: noise and artifacts, human variability, data acquisition instability, and adversarial attacks. Finally, we identify several critical and unresolved challenges for interpretable and robust AI in EEG systems and further discuss their future directions. | 翻訳日:2024-08-28 01:26:59 公開日:2024-08-25 |
# ゼロからヒーローへ:ゼロ・フルショット文脈における生物医学的名前付きエンティティ認識のためのハーネス変換器
From Zero to Hero: Harnessing Transformers for Biomedical Named Entity Recognition in Zero- and Few-shot Contexts ( http://arxiv.org/abs/2305.04928v5 ) ライセンス: Link先を確認 | Miloš Košprdić, Nikola Prodanović, Adela Ljajić, Bojana Bašaragin, Nikola Milošević, | (参考訳) 生物医学領域における名前付きエンティティ認識(NER)は、与えられた名前付きエンティティの注釈付きテキストの大規模なセットに依存する。
このようなデータセットの作成には時間と費用がかかり、新しいエンティティの抽出には追加のアノテーションタスクとモデルの再トレーニングが必要になる。
これらの課題に対処するために,生物医学領域におけるゼロショットNERと少数ショットNERの手法を提案する。
マルチクラストークン分類のタスクをバイナリトークン分類に変換し、大量のデータセットとバイオメディカルエンティティを事前学習することで、モデルが与えられた名前と潜在的に新しい名前のエンティティラベル間のセマンティックな関係を学習できるようにする。
我々は,ゼロショットNERが35.44%,ワンショットNERが50.10%,10ショットNERが69.94%,100ショットNERが79.51%であった。
提案手法の有効性を実証し, 提案手法の有効性を検証し, サンプル数に制限がなく, 従来のトランスフォーマー法を上回り, パラメータが1000倍以上のモデルを用いたGPT3モデルに匹敵する結果を得た。
モデルを作り、コードを公開しています。
Supervised named entity recognition (NER) in the biomedical domain depends on large sets of annotated texts with the given named entities. The creation of such datasets can be time-consuming and expensive, while extraction of new entities requires additional annotation tasks and retraining the model. To address these challenges, this paper proposes a method for zero- and few-shot NER in the biomedical domain. The method is based on transforming the task of multi-class token classification into binary token classification and pre-training on a large amount of datasets and biomedical entities, which allow the model to learn semantic relations between the given and potentially novel named entity labels. We have achieved average F1 scores of 35.44% for zero-shot NER, 50.10% for one-shot NER, 69.94% for 10-shot NER, and 79.51% for 100-shot NER on 9 diverse evaluated biomedical entities with fine-tuned PubMedBERT-based model. The results demonstrate the effectiveness of the proposed method for recognizing new biomedical entities with no or limited number of examples, outperforming previous transformer-based methods, and being comparable to GPT3-based models using models with over 1000 times fewer parameters. We make models and developed code publicly available. | 翻訳日:2024-08-28 01:26:59 公開日:2024-08-25 |
# 三次元サブシステムトーリック符号の位相図
Phase diagram of the three-dimensional subsystem toric code ( http://arxiv.org/abs/2305.06389v2 ) ライセンス: Link先を確認 | Yaodong Li, C. W. von Keyserlingk, Guanyu Zhu, Tomas Jochym-O'Connor, | (参考訳) サブシステムにおける量子エラー訂正符号は、通常、非可換なパリティチェック演算子のシーケンスを測定する。
それらは、通勤チェックを使用する従来のサブスペースコードよりも耐障害性を示すことがある。
しかし、部分空間符号とは異なり、サブシステム符号(特にその利点)が物理ハミルトニアンの基底状態の性質で理解できるかどうかは不明である。
本稿では,Kubica と Vasmer (Nat. Comm. 13 6272(2022)) が最近構築した3次元サブシステムトーリックコード (3D STC) について,一発誤り訂正(SSEC) を示す。
SSECと熱安定性の予想の関係により、関連する非可換ハミルトニアンの零および有限温度位相を研究する。
ハミルトン模型を運動的制約によって結合された一対の3次元Z_2ゲージ理論にマッピングすることにより、各位相はゼロ温度で、すべて一階遷移によって分離される: バルクに分解点のような励起を持つ3次元トーリック符号のような位相があり、適切な境界条件が選択されたときに表面上の2次元トーリック符号をサポートする閉じたバルクを持つ位相が存在する。
後者は3D STCに存在する表面トポロジカル秩序に類似している。
しかし、3D STCにおけるSSECと閉じ込められた位相の類似性は部分的であり、それらは同じ自由度の集合を共有するが、異なる動的規則によって支配される。
代わりに、SSECのプロセスは、ゼロ温度位相図の経路(点ではなく)とより適切に関連付けられており、これはSSECを実現する別の測定シーケンスを刺激する視点である。
さらに、上記の相はいずれも非ゼロ温度で残らないため、符号のSSECは関連するハミルトニアン相の熱安定性を示唆しない。
Subsystem quantum error-correcting codes typically involve measuring a sequence of non-commuting parity check operators. They can sometimes exhibit greater fault-tolerance than conventional subspace codes, which use commuting checks. However, unlike subspace codes, it is unclear if subsystem codes -- in particular their advantages -- can be understood in terms of ground state properties of a physical Hamiltonian. In this paper, we address this question for the three-dimensional subsystem toric code (3D STC), as recently constructed by Kubica and Vasmer [Nat. Comm. 13, 6272(2022)], which exhibits single-shot error correction (SSEC). Motivated by a conjectured relation between SSEC and thermal stability, we study the zero and finite temperature phases of an associated non-commuting Hamiltonian. By mapping the Hamiltonian model to a pair of 3D Z_2 gauge theories coupled by a kinetic constraint, we find various phases at zero temperature, all separated by first-order transitions: there are 3D toric code-like phases with deconfined point-like excitations in the bulk, and there are phases with a confined bulk supporting a 2D toric code on the surface when appropriate boundary conditions are chosen. The latter is similar to the surface topological order present in 3D STC. However, the similarities between the SSEC in 3D STC and the confined phases are only partial: they share the same sets of degrees of freedom, but they are governed by different dynamical rules. Instead, we argue that the process of SSEC can more suitably be associated with a path (rather than a point) in the zero-temperature phase diagram, a perspective which inspires alternative measurement sequences enabling SSEC. Moreover, since none of the above-mentioned phases survives at nonzero temperature, SSEC of the code does not imply thermal stability of the associated Hamiltonian phase. | 翻訳日:2024-08-28 01:26:59 公開日:2024-08-25 |
# 熱処理と断熱にショートカットを施した量子オットーエンジン
A Quantum Otto Engine with Shortcuts to Thermalization and Adiabaticity ( http://arxiv.org/abs/2306.14847v6 ) ライセンス: Link先を確認 | Ali Pedram, Serhat C. Kadıoğlu, Alkan Kabakçıoğlu, Özgür E. Müstecaplıoğlu, | (参考訳) 我々は, 量子調和振動子オットーエンジンを, 短絡(拡張・圧縮ストローク)と平衡(ホットアイソコール)に対向断熱駆動(CD)により加速させるエネルギー的優位性について検討した。
各種プロトコルとCD駆動とを比較して, 運転コストを考慮した場合においても, 双方のショートカットを適用すれば, パワーと効率が向上することがわかった。
ハイブリッドプロトコルはリミットサイクルにおいてその優位性を保持するだけでなく、未制御の有限時間オットーサイクルが失敗するパラメータレジームにおけるエンジン機能(すなわち正の出力)を回復する。
サイクルの3ストロークの制御は,2つのアディバティックストロークの制御に比べ,パフォーマンス指標の全体的な改善につながることを示す。
さらに, エンジンのリミットサイクル挙動を数値計算し, 加速した等方性ストロークと断熱性ストロークのエンジンが, この動作モードで優れた出力を示すことを示す。
We investigate the energetic advantage of accelerating a quantum harmonic oscillator Otto engine by use of shortcuts to adiabaticity (for the expansion and compression strokes) and to equilibrium (for the hot isochore), by means of counter-diabatic (CD) driving. By comparing various protocols with and without CD driving, we find that, applying both type of shortcuts leads to enhanced power and efficiency even after the driving costs are taken into account. The hybrid protocol not only retains its advantage in the limit cycle, but also recovers engine functionality (i.e. a positive power output) in parameter regimes where an uncontrolled, finite-time Otto cycle fails. We show that controlling three strokes of the cycle leads to an overall improvement of the performance metrics compared with controlling only the two adiabatic strokes. Moreover, we numerically calculate the limit cycle behavior of the engine and show that the engines with accelerated isochoric and adiabatic strokes display a superior power output in this mode of operation. | 翻訳日:2024-08-28 01:17:09 公開日:2024-08-25 |
# UAMM:価格面に基づく自動市場メーカー
UAMM: Price-oracle based Automated Market Maker ( http://arxiv.org/abs/2308.06375v2 ) ライセンス: Link先を確認 | Daniel Jiwoong Im, Alexander Kondratskiy, Vincent Harvey, Hsuan-Wei Fu, | (参考訳) AMM(Automated Marketmaker)は、分散型取引所(DEX)が利用する価格設定機構である。
従来のAMMアプローチは、外部市場や流動性プロバイダのリスク管理を考慮せずに、独自の流動性プールのみに基づく価格設定によって制約されている。
本稿では, UBET AMM (UAMM) と呼ばれる新たなアプローチを提案する。
外部市場価格に依存しながらも,スリップの計算では一定積曲線の所望の性質を維持できる。
UAMMの鍵となる要素は、所望の目標バランスに基づいて適切なすべり量を決定することである。
当社のアプローチは、外部市場価格が効率的である場合に、仲裁の機会を排除できることを実証する。
Automated market makers (AMMs) are pricing mechanisms utilized by decentralized exchanges (DEX). Traditional AMM approaches are constrained by pricing solely based on their own liquidity pool, without consideration of external markets or risk management for liquidity providers. In this paper, we propose a new approach known as UBET AMM (UAMM), which calculates prices by considering external market prices and the impermanent loss of the liquidity pool. Despite relying on external market prices, our method maintains the desired properties of a constant product curve when computing slippages. The key element of UAMM is determining the appropriate slippage amount based on the desired target balance, which encourages the liquidity pool to minimize impermanent loss. We demonstrate that our approach eliminates arbitrage opportunities when external market prices are efficient. | 翻訳日:2024-08-28 01:07:17 公開日:2024-08-25 |
# 攻撃行為によるイベントシーケンスデータ内のバックドアの保持
Hiding Backdoors within Event Sequence Data via Poisoning Attacks ( http://arxiv.org/abs/2308.10201v2 ) ライセンス: Link先を確認 | Alina Ermilova, Elizaveta Kovtun, Dmitry Berestnev, Alexey Zaytsev, | (参考訳) 金融業界は重要な意思決定を行うためのディープラーニングモデルに依存している。
この採用は、深いブラックボックスモデルが敵の攻撃に弱いことが知られているため、新たな危険をもたらす。
コンピュータビジョンでは、トレーニング中にモデルにバックドアを導入することで、毒殺と呼ばれる敵の攻撃を行うことで、推論中に出力を形作ることができる。
顧客の金融取引のシーケンスでは、モデルがより複雑な個別のシーケンス空間上で動作し、不正確なシステマティックチェックが発生するため、バックドアの挿入が難しくなる。
隠れたバックドアを導入し、汚染されていないデータの機能を変更せずに脆弱性を発生させる方法を提供する。
これを実現するため,バックドアの有効性を認識し,その知識を生かしたクリーンモデルと有毒モデルとを置き換えた。
攻撃を明らかにするのに最も難しいのは、テスト中にアクティベートされた有毒なデータの教師付き検出ステップの追加か、よく隠されたモデルウェイト修正のいずれかです。
実験的な研究は、これらの効果がどのように異なるデータセット、アーキテクチャ、モデルコンポーネントによって異なるかについての洞察を提供する。
蒸留型正則化などの代替法やベースラインも検討されているが、効率は低かった。
LSTM、CNN、Transformerを含む3つのオープントランザクションデータセットとアーキテクチャに基づいて、我々の発見は、現代のモデルの脆弱性を照らすだけでなく、より堅牢なシステムの構築を促進することができる。
The financial industry relies on deep learning models for making important decisions. This adoption brings new danger, as deep black-box models are known to be vulnerable to adversarial attacks. In computer vision, one can shape the output during inference by performing an adversarial attack called poisoning via introducing a backdoor into the model during training. For sequences of financial transactions of a customer, insertion of a backdoor is harder to perform, as models operate over a more complex discrete space of sequences, and systematic checks for insecurities occur. We provide a method to introduce concealed backdoors, creating vulnerabilities without altering their functionality for uncontaminated data. To achieve this, we replace a clean model with a poisoned one that is aware of the availability of a backdoor and utilize this knowledge. Our most difficult for uncovering attacks include either additional supervised detection step of poisoned data activated during the test or well-hidden model weight modifications. The experimental study provides insights into how these effects vary across different datasets, architectures, and model components. Alternative methods and baselines, such as distillation-type regularization, are also explored but found to be less efficient. Conducted on three open transaction datasets and architectures, including LSTM, CNN, and Transformer, our findings not only illuminate the vulnerabilities in contemporary models but also can drive the construction of more robust systems. | 翻訳日:2024-08-28 01:07:17 公開日:2024-08-25 |
# 外周非感受性カルマンフィルタの理論と応用
Outlier-Insensitive Kalman Filtering: Theory and Applications ( http://arxiv.org/abs/2309.09505v3 ) ライセンス: Link先を確認 | Shunit Truzman, Guy Revach, Nir Shlezinger, Itzik Klein, | (参考訳) 雑音観測による力学系の状態推定は多くの応用において基本的な課題である。
一般に、線形カルマンフィルタ(KF)を用いて対処されるが、このフィルタは凸2次目的関数の感度のため、観測における外れ値の存在下で性能が著しく低下する可能性がある。
このような挙動を緩和するために、外れ値検出アルゴリズムを適用することができる。
そこで本研究では,KF の標準更新ステップの短い反復処理しか必要とせず,アウトレーヤの有害な影響を緩和するパラメータフリーアルゴリズムを提案する。
そこで我々は,各ポテンシャル外乱を未知のばらつきを持つ正規プロセスとしてモデル化し,期待最大化あるいは交互最大化アルゴリズムによるオンライン推定を適用した。
シミュレーションとフィールド実験により,提案手法の競合性能を実証し,その頑健さを他のアルゴリズムと比較してフィルタシナリオの外れ値に示す。
State estimation of dynamical systems from noisy observations is a fundamental task in many applications. It is commonly addressed using the linear Kalman filter (KF), whose performance can significantly degrade in the presence of outliers in the observations, due to the sensitivity of its convex quadratic objective function. To mitigate such behavior, outlier detection algorithms can be applied. In this work, we propose a parameter-free algorithm which mitigates the harmful effect of outliers while requiring only a short iterative process of the standard update step of the KF. To that end, we model each potential outlier as a normal process with unknown variance and apply online estimation through either expectation maximization or alternating maximization algorithms. Simulations and field experiment evaluations demonstrate competitive performance of our method, showcasing its robustness to outliers in filtering scenarios compared to alternative algorithms. | 翻訳日:2024-08-28 01:07:17 公開日:2024-08-25 |
# オークション場におけるLLMエージェントの戦略計画と実行の評価
Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena ( http://arxiv.org/abs/2310.05746v4 ) ライセンス: Link先を確認 | Jiangjie Chen, Siyu Yuan, Rong Ye, Bodhisattwa Prasad Majumder, Kyle Richardson, | (参考訳) 近年のLarge Language Models (LLM) の進歩は高度な推論を示すが、NLP評価は静的なベンチマークに依存することが多い。
これを評価することは、長期計画を必要とする動的で競争的なシナリオで戦略的推論をテストする必要のある環境を評価する。
AucArenaは、オークションをシミュレートする新しい評価スイートであり、非常に予測不可能で、リソースやリスク管理に関連するスキルが数多く含まれており、評価も容易である。
我々は、最先端のLLMを用いて制御実験を行い、入札エージェントに計画と実行のスキルをベンチマークさせる。
本研究は,GPT-4 などの LLM が,予算管理や目標順守といった,適応戦略によって改善されるオークション参加の鍵となるスキルを持っていることを実証する。
このことは、LLMが競合する状況下で複雑な社会的相互作用をモデル化する可能性を強調している。
しかし, 簡易な手法によるLLM性能と時折性能の変動は, LLM設計のさらなる進歩と, 継続する試験および改良のためのシミュレーション環境の価値を示す。
Recent advancements in Large Language Models (LLMs) showcase advanced reasoning, yet NLP evaluations often depend on static benchmarks. Evaluating this necessitates environments that test strategic reasoning in dynamic, competitive scenarios requiring long-term planning. We introduce AucArena, a novel evaluation suite that simulates auctions, a setting chosen for being highly unpredictable and involving many skills related to resource and risk management, while also being easy to evaluate. We conduct controlled experiments using state-of-the-art LLMs to power bidding agents to benchmark their planning and execution skills. Our research demonstrates that LLMs, such as GPT-4, possess key skills for auction participation, such as budget management and goal adherence, which improve with adaptive strategies. This highlights LLMs' potential in modeling complex social interactions in competitive contexts. However, variability in LLM performance and occasional outperformance by simpler methods indicate opportunities for further advancements in LLM design and the value of our simulation environment for ongoing testing and refinement. | 翻訳日:2024-08-28 01:07:17 公開日:2024-08-25 |
# フィードフォワード誘起エンタングルメント負性転移の測定と制御
Measurement and feedforward induced entanglement negativity transition ( http://arxiv.org/abs/2310.18305v2 ) ライセンス: Link先を確認 | Alireza Seif, Yu-Xin Wang, Ramis Movassagh, Aashish A. Clerk, | (参考訳) 量子系における測定誘起力学と条件付きユニタリ進化の相互作用について検討する。
我々は,通勤ランダム計測およびフィードフォワード(MFF)プロセスの数値解析および解析を行い,MFFチャネル数の変化に応じて絡み合う負性度を生成する能力の急激な変化を見出した。
また, 時間反転対称性を損なう環境からランダムな嫌悪によって引き起こされる遷移とこれらの発見との間の直接的な関係を確立する。
問題の1つの変種では、遷移の存在を厳密に証明するために自由確率理論を用いる。
さらに、これらのMFFプロセスは、現在の量子コンピューティングプラットフォーム上で実験的に探索できる動的回路表現を持つ。
We study the interplay between measurement-induced dynamics and conditional unitary evolution in quantum systems. We numerically and analytically investigate commuting random measurement and feedforward (MFF) processes, and find a sharp transition in their ability to generate entanglement negativity as the number of MFF channels varies. We also establish a direct connection between these findings and transitions induced by random dephasing from an environment with broken time-reversal symmetry. In one variant of the problem, we employ free probability theory to rigorously prove the transition's existence. Furthermore, these MFF processes have dynamic circuit representations that can be experimentally explored on current quantum computing platforms. | 翻訳日:2024-08-28 00:57:20 公開日:2024-08-25 |
# マジックのロバストさを効果的に定量化するハンドブック
Handbook for Efficiently Quantifying Robustness of Magic ( http://arxiv.org/abs/2311.01362v4 ) ライセンス: Link先を確認 | Hiroki Hamaguchi, Kou Hamada, Nobuyuki Yoshioka, | (参考訳) 非安定化器性(英: nonstabilizerness)またはマジック(英: magic)は、普遍的な量子計算を行うために必要な量子資源である。
特に魔法のロバスト性(RoM)は、非クリフォード演算に対する与えられた量子状態の有用性の度合いを特徴づける。
RoMの数学的形式は簡潔な方法で与えられるが、極端に多くの純粋な安定化状態を含むため、実際にRoMを決定することは極めて困難である。
そこで本研究では,RoMの計算に有効な新しいアルゴリズムを提案する。
重要な技術は、純粋な安定化状態間の重なりの計算において顕著な特徴を達成するサブルーチンである。
i) 各安定化器毎の時間複雑性を指数関数的に減少させる。
(ii)空間複雑性は指数関数的に減少する。
このサブルーチンに基づいて、ラップトップ上で最大$n=7$ qubitsの任意の状態に対してRoMを計算するアルゴリズムを提案する。
副生成物として、提案したサブルーチンは安定化器の忠実度を最大$n=8$ qubitsまでシミュレートすることができる。
さらに,解離の置換対称性などの対象量子状態の構造に対する事前知識を利用する新しいアルゴリズムを提案し,魔術状態と部分的に解離した量子状態のコピーに対して,我々の最先端の結果を数値的に示す。
一連のアルゴリズムは、RoMの計算をスケールアップするための包括的「ハンドブック」を構成しており、提案手法が他の量子リソースの計算にも適用可能であることを想定する。
The nonstabilizerness, or magic, is an essential quantum resource to perform universal quantum computation. Robustness of magic (RoM) in particular characterizes the degree of usefulness of a given quantum state for non-Clifford operation. While the mathematical formalism of RoM can be given in a concise manner, it is extremely challenging to determine the RoM in practice, since it involves superexponentially many pure stabilizer states. In this work, we present efficient novel algorithms to compute the RoM. The crucial technique is a subroutine that achieves the remarkable features in calculation of overlaps between pure stabilizer states: (i) the time complexity per each stabilizer is reduced exponentially, (ii) the space complexity is reduced superexponentially. Based on this subroutine, we present algorithms to compute the RoM for arbitrary states up to $n=7$ qubits on a laptop, while brute-force methods require a memory size of 86 TiB. As a byproduct, the proposed subroutine allows us to simulate the stabilizer fidelity up to $n=8$ qubits, for which naive methods require memory size of 86 PiB so that any state-of-the-art classical computer cannot execute the computation. We further propose novel algorithms that utilize the preknowledge on the structure of target quantum state such as the permutation symmetry of disentanglement, and numerically demonstrate our state-of-the-art results for copies of magic states and partially disentangled quantum states. The series of algorithms constitute a comprehensive ``handbook'' to scale up the computation of the RoM, and we envision that the proposed technique applies to the computation of other quantum resource measures as well. | 翻訳日:2024-08-28 00:57:20 公開日:2024-08-25 |
# 光ツイーザにおけるエミッション冷却, 制御, および運動の超絡み合い
Erasure-cooling, control, and hyper-entanglement of motion in optical tweezers ( http://arxiv.org/abs/2311.15580v2 ) ライセンス: Link先を確認 | Adam L. Shaw, Pascal Scholl, Ran Finkelstein, Richard Bing-Shiun Tsai, Joonhee Choi, Manuel Endres, | (参考訳) 我々は,光ツイーザの運動自由度を量子情報キャリアとして利用できることを示す。
この目的のために、私たちはまず、マックスウェルの悪魔の思考実験を思い起こさせる運動励起を消去(既知の位置の誤り)に変換することで、種に依存しない冷却機構を実装した。
この冷却機構は、理想化されたサイドバンド冷却よりも根本的に優れており、特定のシナリオで実験的に実証されている。
動作状態のコヒーレントな操作により,局所シェルビングによる中回路の読み出しおよび中回路の消去検出を動作重畳状態に行う。
最終的に2つの原子の運動を別個のツイーザに絡み合わせることで、運動および光量子ビットの同時状態を作成することで超絡み合いを発生させる。
この研究は、運動の制御が量子情報処理のツールボックスを中性原子で豊かにし、中間回路の読み出しによって強化されたメソロジーと、ハイパーエンタングルメントによって実現された大規模な量子操作のユニークな展望を開放することを示す。
We demonstrate how motional degrees of freedom in optical tweezers can be used as quantum information carriers. To this end, we first implement a species-agnostic cooling mechanism via conversion of motional excitations into erasures -- errors with a known location -- reminiscent of Maxwell's demon thought experiment. We find that this cooling mechanism fundamentally outperforms idealized traditional sideband cooling, which we experimentally demonstrate in specific scenarios. By coherently manipulating the motional state, we perform mid-circuit readout and mid-circuit erasure detection via local shelving into motional superposition states. We finally entangle the motion of two atoms in separate tweezers, and utilize this to generate hyper-entanglement by preparing a simultaneous Bell state of motional and optical qubits. This work shows how controlling motion enriches the toolbox of quantum information processing with neutral atoms, and opens unique prospects for metrology enhanced by mid-circuit readout and a large class of quantum operations enabled via hyper-entanglement. | 翻訳日:2024-08-28 00:46:25 公開日:2024-08-25 |
# AlignBench: 大規模言語モデルの中国語アライメントのベンチマーク
AlignBench: Benchmarking Chinese Alignment of Large Language Models ( http://arxiv.org/abs/2311.18743v4 ) ライセンス: Link先を確認 | Xiao Liu, Xuanyu Lei, Shengyuan Wang, Yue Huang, Zhuoer Feng, Bosi Wen, Jiale Cheng, Pei Ke, Yifan Xu, Weng Lam Tam, Xiaohan Zhang, Lichao Sun, Xiaotao Gu, Hongning Wang, Jing Zhang, Minlie Huang, Yuxiao Dong, Jie Tang, | (参考訳) アライメントは、インストラクションチューニングされたLarge Language Models (LLM) がアシスタントになるための重要なステップとなっている。
しかし、中国の新興LLMのアライメントの効果的な評価は、いまだに未検討である。
このギャップを埋めるために、中国語でLLMのアライメントを評価するための総合的な多次元ベンチマークであるAlignBenchを紹介する。
我々は,8つの主要なカテゴリ,683の実シナリオ根付きクエリ,およびそれに対応する人間の検証基準を含む,ループ内データキュレーションパイプラインを設計する。
参照の正確性を確保するため、各知識集約クエリには、アノテータが信頼できるWebソース(URLや引用を含む)から収集したエビデンスが伴う。
自動評価には,Chain-of-Thought を用いた多次元 LLM-as-Judge~\cite{zheng2023judging} アプローチを採用し,高い信頼性と解釈性を確保する。
すべての評価コード、データ、LLM世代は \url{https://github.com/THUDM/AlignBench} で利用可能である。
リリース以来、AlignBenchは、ChatGLM、Qwen、DeepSeek、Yi、Baichuan、Aabなど、中国におけるアライメント能力の評価のために、トップ(中国語)のLLMに採用されている。
Alignment has become a critical step for instruction-tuned Large Language Models (LLMs) to become helpful assistants. However, the effective evaluation of alignment for emerging Chinese LLMs is still largely unexplored. To fill in this gap, we introduce AlignBench, a comprehensive multi-dimensional benchmark for evaluating LLMs' alignment in Chinese. We design a human-in-the-loop data curation pipeline, containing eight main categories, 683 real-scenario rooted queries and corresponding human verified references. To ensure the correctness of references, each knowledge-intensive query is accompanied with evidences collected from reliable web sources (including URLs and quotations) by our annotators. For automatic evaluation, our benchmark employs a rule-calibrated multi-dimensional LLM-as-Judge~\cite{zheng2023judging} approach with Chain-of-Thought to generate explanations and final ratings, ensuring high reliability and interpretability. All evaluation code, data, and LLM generations are available at \url{https://github.com/THUDM/AlignBench}. Since its release, AlignBench has been adopted by top (Chinese) LLMs for evaluating their alignment capabilities in Chinese, including ChatGLM, Qwen, DeepSeek, Yi, Baichuan, and Abab. | 翻訳日:2024-08-28 00:46:25 公開日:2024-08-25 |
# ドメイン特化コード生成における大規模言語モデルの有効性について
On the Effectiveness of Large Language Models in Domain-Specific Code Generation ( http://arxiv.org/abs/2312.01639v4 ) ライセンス: Link先を確認 | Yalan Lin, Meng Chen, Yuhan Hu, Hongyu Zhang, Chengcheng Wan, Zhao Wei, Yong Xu, Juhong Wang, Xiaodong Gu, | (参考訳) ChatGPTのような大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
大きな成果にもかかわらず、彼らは広い範囲のオープンドメイン知識を取得するために巨大なトレーニングデータに依存している。
彼らの評価は、主にプログラミングコンテストで構成されるHumanEvalのようなオープンドメインベンチマークを中心に展開されている。
したがって、特定の領域(例えば、ウェブ、ゲーム、数学)に関連する複雑さと課題を完全に特徴づけるのは困難である。
本稿では,ドメイン固有コード生成におけるLLMの詳細な研究を行う。
その結果, LLMは, ドメイン固有ライブラリの利用能力に限界があるため, ドメイン固有コードの生成において, サブ最適性能を示すことがわかった。
さらに、API知識をプロンプトとして組み込むことで、LCMがよりプロフェッショナルなコードを生成することができることを観察する。
これらの知見に基づいて,コード生成プロセスにAPI知識を効果的に組み込む方法について検討する。
ドメイン知識、すなわち外部知識の問い合わせ、思考の連鎖、思考の連鎖、微調整の3つの戦略を実験的に検討した。
私たちはこれらの戦略を、DomCoderと呼ばれる新しいコード生成アプローチと呼んでいる。
実験結果から,DomCoderのすべての戦略が,特定の設定下でのドメイン固有コード生成の有効性の向上につながることが示された。
Large language models (LLMs) such as ChatGPT have shown remarkable capabilities in code generation. Despite significant achievements, they rely on enormous training data to acquire a broad spectrum of open-domain knowledge. Besides, their evaluation revolves around open-domain benchmarks like HumanEval, which primarily consist of programming contests. Therefore, it is hard to fully characterize the intricacies and challenges associated with particular domains (e.g., web, game, and math). In this paper, we conduct an in-depth study of the LLMs in domain-specific code generation. Our results demonstrate that LLMs exhibit sub-optimal performance in generating domain-specific code, due to their limited proficiency in utilizing domain-specific libraries. We further observe that incorporating API knowledge as prompts can empower LLMs to generate more professional code. Based on these findings, we further investigate how to effectively incorporate API knowledge into the code generation process. We experiment with three strategies for incorporating domain knowledge, namely, external knowledge inquirer, chain-of-thought prompting, and chain-of-thought fine-tuning. We refer to these strategies as a new code generation approach called DomCoder. Experimental results show that all strategies of DomCoder lead to improvement in the effectiveness of domain-specific code generation under certain settings. | 翻訳日:2024-08-28 00:46:25 公開日:2024-08-25 |
# クロスエイジおよびクロスサイトドメインシフトが新生児および新生児脳の深層学習に基づく白質繊維推定に及ぼす影響
Cross-Age and Cross-Site Domain Shift Impacts on Deep Learning-Based White Matter Fiber Estimation in Newborn and Baby Brains ( http://arxiv.org/abs/2312.14773v2 ) ライセンス: Link先を確認 | Rizhong Lin, Ali Gholipour, Jean-Philippe Thiran, Davood Karimi, Hamza Kebiri, Meritxell Bach Cuadra, | (参考訳) 深層学習モデルは、限られた拡散磁気共鳴画像データから組織微細構造を推定する上で非常に有望である。
しかし、これらのモデルは、テストとトレーニングのデータが異なるスキャナーやプロトコルから来ている場合、または、様々な年齢でスキャンされた幼児や子供の発達する脳のような固有の変化を持つデータに適用されている場合、ドメインシフトの課題に直面します。
成人脳におけるデータ調和やドメイン適応など、これらの課題に対処するいくつかの手法が提案されている。
しかし、これらの手法は乳幼児の急速に発達する脳における繊維配向分布関数の推定には未解明のままである。
本研究は,201人の新生児と165人の乳児の2つの異なるコホート間の年齢効果とドメインシフトを,モーメント法と微調整法を用いて広範囲に調査した。
以上の結果より,新生児と比較して乳児の微構造発達の変動が深層学習モデルのクロスエイジング性能に直接影響していることが示唆された。
また、少数の対象ドメインサンプルがドメインシフト問題を著しく軽減できることを示す。
Deep learning models have shown great promise in estimating tissue microstructure from limited diffusion magnetic resonance imaging data. However, these models face domain shift challenges when test and train data are from different scanners and protocols, or when the models are applied to data with inherent variations such as the developing brains of infants and children scanned at various ages. Several techniques have been proposed to address some of these challenges, such as data harmonization or domain adaptation in the adult brain. However, those techniques remain unexplored for the estimation of fiber orientation distribution functions in the rapidly developing brains of infants. In this work, we extensively investigate the age effect and domain shift within and across two different cohorts of 201 newborns and 165 babies using the Method of Moments and fine-tuning strategies. Our results show that reduced variations in the microstructural development of babies in comparison to newborns directly impact the deep learning models' cross-age performance. We also demonstrate that a small number of target domain samples can significantly mitigate domain shift problems. | 翻訳日:2024-08-28 00:36:11 公開日:2024-08-25 |
# 長期認識のための一般化カテゴリ発見
Generalized Categories Discovery for Long-tailed Recognition ( http://arxiv.org/abs/2401.05352v2 ) ライセンス: Link先を確認 | Ziyun Li, Christoph Meinel, Haojin Yang, | (参考訳) 一般化クラス発見(GCD)は、認識されたクラスからなるラベル付き集合から得られた洞察を活用することにより、未知のデータセットから既知のカテゴリと未知のカテゴリの両方を識別する上で重要な役割を担っている。
一般的なGCD法における重要な制限は、ラベルなしデータにおける等分散なカテゴリ発生の仮定である。
この仮定とは対照的に、自然環境の視覚的クラスは典型的には長い尾の分布を示し、既知のカテゴリーや一般的なカテゴリーは稀なクラスよりも頻繁に現れる。
我々の研究は、長い尾を持つ一般カテゴリー発見(Long-tailed GCD)パラダイムに焦点をあてて、この断線を埋めようとしている。
長い尾を持つGCDの独特な課題に対応するため、2つの戦略正則化に固定された頑健な方法論を提示する。
一 表現の少ない末尾のカテゴリーの卓越を助長する重み付け機構、及び
(ii)予想されるクラス分布と整合するクラス事前制約。
総合実験により,提案手法はImageNet100の約6~9%の改善とCIFAR100の競合性能を達成し,従来のGCD法を上回る結果を得た。
Generalized Class Discovery (GCD) plays a pivotal role in discerning both known and unknown categories from unlabeled datasets by harnessing the insights derived from a labeled set comprising recognized classes. A significant limitation in prevailing GCD methods is their presumption of an equitably distributed category occurrence in unlabeled data. Contrary to this assumption, visual classes in natural environments typically exhibit a long-tailed distribution, with known or prevalent categories surfacing more frequently than their rarer counterparts. Our research endeavors to bridge this disconnect by focusing on the long-tailed Generalized Category Discovery (Long-tailed GCD) paradigm, which echoes the innate imbalances of real-world unlabeled datasets. In response to the unique challenges posed by Long-tailed GCD, we present a robust methodology anchored in two strategic regularizations: (i) a reweighting mechanism that bolsters the prominence of less-represented, tail-end categories, and (ii) a class prior constraint that aligns with the anticipated class distribution. Comprehensive experiments reveal that our proposed method surpasses previous state-of-the-art GCD methods by achieving an improvement of approximately 6 - 9% on ImageNet100 and competitive performance on CIFAR100. | 翻訳日:2024-08-28 00:36:11 公開日:2024-08-25 |
# 行方不明者は誰なのか? 人口不足を特徴付けるための原則的アプローチ
Who Are We Missing? A Principled Approach to Characterizing the Underrepresented Population ( http://arxiv.org/abs/2401.14512v4 ) ライセンス: Link先を確認 | Harsh Parikh, Rachael Ross, Elizabeth Stuart, Kara Rudolph, | (参考訳) ランダム化制御試験(RCTs)は因果関係の理解の基盤となるが、対象人口への推論は不均一性や表現不足による課題を呈する。
本稿は,RCTの未表現部分群を同定・特徴化する上での課題に対処し,対象集団を精製し,一般化性を向上させるための新たな枠組みを提案する。
最適化に基づく最適化手法であるROOT(Rashomon Set of Optimal Trees)を導入する。
ROOTは、ターゲット平均処理効果推定値の分散を最小化し、より正確な処理効果推定値を確保することにより、ターゲットサブポピュレーション分布を最適化する。
特に、ROOTは、不足している人口の解釈可能な特性を生成し、研究者の効果的なコミュニケーションを支援する。
提案手法は, 合成データ実験で示すように, 代替手法と比較して精度と解釈性が向上したことを示す。
我々は,アゴニスト置換療法による開始療法(START)の臨床試験から,オピオイド使用障害の治療薬の有効性を調査する手法を,治療エピソードデータセット(TEDS-A)で表される現実世界の人口へ拡張する手法を適用した。
ROOTを用いて対象集団を精錬することにより,意思決定精度を高め,多様な集団における今後の試行を通知するための体系的なアプローチを提供する。
Randomized controlled trials (RCTs) serve as the cornerstone for understanding causal effects, yet extending inferences to target populations presents challenges due to effect heterogeneity and underrepresentation. Our paper addresses the critical issue of identifying and characterizing underrepresented subgroups in RCTs, proposing a novel framework for refining target populations to improve generalizability. We introduce an optimization-based approach, Rashomon Set of Optimal Trees (ROOT), to characterize underrepresented groups. ROOT optimizes the target subpopulation distribution by minimizing the variance of the target average treatment effect estimate, ensuring more precise treatment effect estimations. Notably, ROOT generates interpretable characteristics of the underrepresented population, aiding researchers in effective communication. Our approach demonstrates improved precision and interpretability compared to alternatives, as illustrated with synthetic data experiments. We apply our methodology to extend inferences from the Starting Treatment with Agonist Replacement Therapies (START) trial -- investigating the effectiveness of medication for opioid use disorder -- to the real-world population represented by the Treatment Episode Dataset: Admissions (TEDS-A). By refining target populations using ROOT, our framework offers a systematic approach to enhance decision-making accuracy and inform future trials in diverse populations. | 翻訳日:2024-08-28 00:26:06 公開日:2024-08-25 |
# あらゆる場所と場所のショートカット:マルチトリガーバックドア攻撃の探索
Shortcuts Everywhere and Nowhere: Exploring Multi-Trigger Backdoor Attacks ( http://arxiv.org/abs/2401.15295v2 ) ライセンス: Link先を確認 | Yige Li, Jiabo He, Hanxun Huang, Jun Sun, Xingjun Ma, | (参考訳) バックドア攻撃は、ディープニューラルネットワーク(DNN)の事前トレーニングとデプロイに対する重大な脅威となっている。
バックドア攻撃を検知し緩和する多くの方法が提案されているが、ほとんどの場合、特定のソースクラスをターゲットクラスにリンクするバックドアによって生成された `shortcut" を識別して排除することに依存している。
しかし、これらのアプローチは複数のバックドアトリガーを設計することで容易に回避できる。
本研究では,マルチトリガーバックドア攻撃(MTBA)の概念について検討し,複数の敵が異なる種類のトリガーを利用して同一のデータセットを毒する。
マルチトリガー攻撃の3つのタイプ,例えば \textit{parallel}, \textit{sequential}, \textit{hybrid} 攻撃を提案し, 検討することにより,
1) 複数のトリガーが共存し、上書きし、相互に活性化し、
2)MTBAは,既存のバックドア検出・除去手法の根底にある一般的なショートカット仮定を破りやすく,非効率である。
MTBAによるセキュリティリスクを考慮し,これらの攻撃の検出・緩和に関する今後の研究を促進するために,マルチトリガーバックドア中毒データセットを作成し,MTBAに対する防衛戦略についても検討した。
Backdoor attacks have become a significant threat to the pre-training and deployment of deep neural networks (DNNs). Although numerous methods for detecting and mitigating backdoor attacks have been proposed, most rely on identifying and eliminating the ``shortcut" created by the backdoor, which links a specific source class to a target class. However, these approaches can be easily circumvented by designing multiple backdoor triggers that create shortcuts everywhere and therefore nowhere specific. In this study, we explore the concept of Multi-Trigger Backdoor Attacks (MTBAs), where multiple adversaries leverage different types of triggers to poison the same dataset. By proposing and investigating three types of multi-trigger attacks including \textit{parallel}, \textit{sequential}, and \textit{hybrid} attacks, we demonstrate that 1) multiple triggers can coexist, overwrite, or cross-activate one another, and 2) MTBAs easily break the prevalent shortcut assumption underlying most existing backdoor detection/removal methods, rendering them ineffective. Given the security risk posed by MTBAs, we have created a multi-trigger backdoor poisoning dataset to facilitate future research on detecting and mitigating these attacks, and we also discuss potential defense strategies against MTBAs. | 翻訳日:2024-08-28 00:26:06 公開日:2024-08-25 |
# UniHENN: im2colを使わずに、より高速でより多彩な同型暗号化ベースのCNNを設計する
UniHENN: Designing Faster and More Versatile Homomorphic Encryption-based CNNs without im2col ( http://arxiv.org/abs/2402.03060v3 ) ライセンス: Link先を確認 | Hyunmin Choi, Jihun Kim, Seungho Kim, Seonhye Park, Jeongyong Park, Wonbin Choi, Hyoungshick Kim, | (参考訳) ホモモルフィック暗号化(HE)は、復号化せずに暗号化データの計算を可能にすることによって、プライバシー保護の深層学習を可能にする。
しかし, HEによる畳み込みニューラルネットワーク(CNN)の展開は, 効率的な計算のために入力を再配置するim2col手法を用いて, 畳み込みのための2次元行列に入力データを変換する必要があるため, 困難である。
これにより、暗号化されたデータ構造が特定のモデルと互換性を持つ必要があるため、使用可能なCNNモデルのタイプが制限される。
UniHENNは、新しいHEベースのCNNアーキテクチャで、im2colの必要性を排除し、その汎用性と幅広いCNNモデルとの互換性を高める。
UniHENNは、im2colを使わずに入力データを1次元にフラット化する。
カーネルは、画像を横切ることで畳み込みを行い、インクリメンタルな回転と平坦な入力に対する構造化された乗算を用いて、ストライド間隔で結果を空間化する。
実験結果から、UniHENNはPyCrCNNという名前の最先端の2D CNN推論アーキテクチャよりも、推論時間でかなり優れていることがわかった。
例えば、LeNet-1モデルでは、UniHENNはPyCrCNNの800.591秒の約26.6倍の30.089秒の平均推論時間を達成している。
さらに、UniHENNはコンカレント画像処理において、im2col最適化CNNモデルであるTenSEALより優れている。
10個のサンプルに対して、UniHENN (16.247秒) はTenSEAL (63.706秒) よりも約3.9倍高速であった。
1D CNNと6つの2D CNNを含む、さまざまなCNNアーキテクチャへのUniHENNの適応性を実証し、プライバシ保護クラウドベースのCNNサービスの柔軟性と効率性を強調した。
Homomorphic encryption (HE) enables privacy-preserving deep learning by allowing computations on encrypted data without decryption. However, deploying convolutional neural networks (CNNs) with HE is challenging due to the need to convert input data into a two-dimensional matrix for convolution using the im2col technique, which rearranges the input for efficient computation. This restricts the types of CNN models that can be used since the encrypted data structure must be compatible with the specific model. UniHENN is a novel HE-based CNN architecture that eliminates the need for im2col, enhancing its versatility and compatibility with a broader range of CNN models. UniHENN flattens input data to one dimension without using im2col. The kernel performs convolutions by traversing the image, using incremental rotations and structured multiplication on the flattened input, with results spaced by the stride interval. Experimental results show that UniHENN significantly outperforms the state-of-the-art 2D CNN inference architecture named PyCrCNN in terms of inference time. For example, on the LeNet-1 model, UniHENN achieves an average inference time of 30.089 seconds, about 26.6 times faster than PyCrCNN's 800.591 seconds. Furthermore, UniHENN outperforms TenSEAL, an im2col-optimized CNN model, in concurrent image processing. For ten samples, UniHENN (16.247 seconds) was about 3.9 times faster than TenSEAL (63.706 seconds), owing to its support for batch processing of up to 10 samples. We demonstrate UniHENN's adaptability to various CNN architectures, including a 1D CNN and six 2D CNNs, highlighting its flexibility and efficiency for privacy-preserving cloud-based CNN services. | 翻訳日:2024-08-28 00:26:06 公開日:2024-08-25 |
# 協調型人間-AIハイブリッドチームにおけるデリゲーションの最適化
Optimizing Delegation in Collaborative Human-AI Hybrid Teams ( http://arxiv.org/abs/2402.05605v2 ) ライセンス: Link先を確認 | Andrew Fuchs, Andrea Passarella, Marco Conti, | (参考訳) 人間と自律システムが、私たちがハイブリッドチームと呼ぶものとして協力して活動する場合、もちろん、チームが成功し、効果的に活動することを望みます。
チームメンバーをエージェントと呼びます。
提案したフレームワークでは、いつでもひとつのチームメンバー(コントロールエージェント)だけがチームのコントロールとして振る舞うことが許されるハイブリッドチームの状況に対処します。
制御エージェントの最適選択を決定するため,チームの外部オブザーバとして学習するAIマネージャの追加(強化学習)を提案する。
マネージャは、エージェントのパフォーマンスとチームが運用している環境/環境の観察をリンクする行動モデルを学び、これらの観察から最も望ましいコントロールエージェントを選択する。
一連の制約を導入することで、マネージャのタスクを制限します。
マネージャの制約は許容可能なチームの運用を示すため、チームが受け入れがたい状態に入り、マネージャの介入を必要とする場合、違反が発生する。
チームにとって最小限の複雑さや潜在的な非効率性を保証するために、マネージャは、チームが制約違反に遭う回数を最小限に抑え、その後のマネージャの介入を必要としなければならない。
そのため、管理者の介入頻度を最小限に抑えつつ、チーム全体のパフォーマンスを高めるため、権限のあるエージェントの選択を最適化しています。
我々は,人間ドライバーと自律運転システムからなるハイブリッドエージェントチームの場合をシミュレートした運転シナリオで,マネージャのパフォーマンスを実証した。
我々は、衝突回避と適切な速度制御の必要性を示唆し、干渉車両による運転シナリオの実験を行った。
結果としてチームのパフォーマンスが,最高のソロエージェントのパフォーマンスの約187%まで向上するケースもあります。
When humans and autonomous systems operate together as what we refer to as a hybrid team, we of course wish to ensure the team operates successfully and effectively. We refer to team members as agents. In our proposed framework, we address the case of hybrid teams in which, at any time, only one team member (the control agent) is authorized to act as control for the team. To determine the best selection of a control agent, we propose the addition of an AI manager (via Reinforcement Learning) which learns as an outside observer of the team. The manager learns a model of behavior linking observations of agent performance and the environment/world the team is operating in, and from these observations makes the most desirable selection of a control agent. We restrict the manager task by introducing a set of constraints. The manager constraints indicate acceptable team operation, so a violation occurs if the team enters a condition which is unacceptable and requires manager intervention. To ensure minimal added complexity or potential inefficiency for the team, the manager should attempt to minimize the number of times the team reaches a constraint violation and requires subsequent manager intervention. Therefore our manager is optimizing its selection of authorized agents to boost overall team performance while minimizing the frequency of manager intervention. We demonstrate our manager performance in a simulated driving scenario representing the case of a hybrid team of agents composed of a human driver and autonomous driving system. We perform experiments for our driving scenario with interfering vehicles, indicating the need for collision avoidance and proper speed control. Our results indicate a positive impact of our manager, with some cases resulting in increased team performance up to ~187% that of the best solo agent performance. | 翻訳日:2024-08-28 00:16:18 公開日:2024-08-25 |
# 絡み合った光子による量子偏光度測定における非局所性向上精度
Nonlocality enhanced precision in quantum polarimetry via entangled photons ( http://arxiv.org/abs/2402.11932v2 ) ライセンス: Link先を確認 | Ali Pedram, Vira R. Besaga, Frank Setzpfandt, Özgür E. Müstecaplıoğlu, | (参考訳) 本稿では、光子対の絡み合い現象を利用して、試料特性決定の精度を高める非局所量子法を提案する。
興味のサンプルを含む2つの異なるチャネルを基準として, 絡み合った光子間の固有相関が測定感度を高める条件について検討した。
具体的には、量子フィッシャー情報(QFI)を計算し、単一サンプルチャネルの場合の精度と感度を2チャンネルの量子状態トモグラフィー測定と比較する。
理論的結果は実験的分析によって検証される。
筆者らの理論的および実験的枠組みは,非局所的戦略が局所的測定よりも試料特性に関する情報を抽出する際の精度と精度を高めることを実証している。
選択した推定器とノイズチャネルに依存して, 理論的および実験的結果から, ノイズ誘起バイアスが推定パラメータの精度を低下させることが示された。
このような量子強度の非局所偏光測定は、量子絡み合いによる高精度な測定を通じて、物質科学、生体医用イメージング、リモートセンシングを含む様々な分野の進展を約束する。
We present a nonlocal quantum approach to polarimetry, leveraging the phenomenon of entanglement in photon pairs to enhance the precision in sample property determination. By employing two distinct channels, one containing the sample of interest and the other serving as a reference, we explore the conditions under which the inherent correlation between entangled photons can increase measurement sensitivity. Specifically, we calculate the quantum Fisher information (QFI) and compare the accuracy and sensitivity for the cases of single sample channel versus two channel quantum state tomography measurements. The theoretical results are verified by experimental analysis. Our theoretical and experimental framework demonstrates that the nonlocal strategy enables enhanced precision and accuracy in extracting information about sample characteristics more than the local measurements. Depending on the chosen estimators and noise channels present, theoretical and experimental results show that noise-induced bias decreases the precision for the estimated parameter. Such a quantum-enhanced nonlocal polarimetry holds promise for advancing diverse fields including material science, biomedical imaging, and remote sensing, via high-precision measurements through quantum entanglement. | 翻訳日:2024-08-28 00:16:18 公開日:2024-08-25 |
# LLMsがLong Videoを発表:LLMの対話型ビジュアルアダプタで長いビデオ質問に答える
LLMs Meet Long Video: Advancing Long Video Question Answering with An Interactive Visual Adapter in LLMs ( http://arxiv.org/abs/2402.13546v2 ) ライセンス: Link先を確認 | Yunxin Li, Xinyu Chen, Baotain Hu, Min Zhang, | (参考訳) 長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
ビデオの解釈に大規模言語モデル(LLM)を採用することは、新しくて有望な方法である。
しかし,この手法は,ビデオトークンの広範囲な配列や,トークン集約による視覚的明瞭さの低減による計算コストの増大を招き,ビデオ関連の疑問に答えながら,無関係な視覚的トークンから生じる課題に直面する。
これらの問題を緩和するために、細粒度視覚要素との相互作用を強化するために、LLM内に対話型ビジュアルアダプタ(IVA)を提示する。
具体的には、まず、訓練済みの因果変換器とともに視覚エンコーダを活用して、時間的ビデオトークンに変換し、ビデオ命令でLSMに供給する。
その後、軽量な時間フレームセレクタと空間的特徴インターセプタを含むIVAをLCMの内部ブロックに組み込んで、命令認識およびきめ細かな視覚信号をキャプチャする。
提案したビデオ-LLMは、適切なロングビデオモデリングと正確な視覚的相互作用を通じて、ロングビデオコンテンツの包括的理解を容易にする。
我々は9つのビデオ理解ベンチマークで広範囲に実験を行い、対話型視覚適応器は長時間ビデオQAタスクにおけるビデオLLMの性能を大幅に向上させることを示した。
アブレーション研究は、長短ビデオの理解におけるIVAの有効性をさらに検証している。
Long video understanding is a significant and ongoing challenge in the intersection of multimedia and artificial intelligence. Employing large language models (LLMs) for comprehending video becomes an emerging and promising method. However, this approach incurs high computational costs due to the extensive array of video tokens, experiences reduced visual clarity as a consequence of token aggregation, and confronts challenges arising from irrelevant visual tokens while answering video-related questions. To alleviate these issues, we present an Interactive Visual Adapter (IVA) within LLMs, designed to enhance interaction with fine-grained visual elements. Specifically, we first transform long videos into temporal video tokens via leveraging a visual encoder alongside a pretrained causal transformer, then feed them into LLMs with the video instructions. Subsequently, we integrated IVA, which contains a lightweight temporal frame selector and a spatial feature interactor, within the internal blocks of LLMs to capture instruction-aware and fine-grained visual signals. Consequently, the proposed video-LLM facilitates a comprehensive understanding of long video content through appropriate long video modeling and precise visual interactions. We conducted extensive experiments on nine video understanding benchmarks and experimental results show that our interactive visual adapter significantly improves the performance of video LLMs on long video QA tasks. Ablation studies further verify the effectiveness of IVA in understanding long and short video. | 翻訳日:2024-08-28 00:16:18 公開日:2024-08-25 |
# UniGraph: テキスト分散グラフのための統一されたクロスドメイン基盤モデルを学ぶ
UniGraph: Learning a Unified Cross-Domain Foundation Model for Text-Attributed Graphs ( http://arxiv.org/abs/2402.13630v2 ) ライセンス: Link先を確認 | Yufei He, Yuan Sui, Xiaoxin He, Bryan Hooi, | (参考訳) ChatGPTやGPT-4といったファウンデーションモデルは人工知能に革命をもたらし、初期のトレーニング目標を超えて、幅広いタスクや応用を一般化する驚くべき能力を発揮している。
しかし、グラフ学習は主に単一グラフモデルに焦点を当てており、特定のタスクやデータセットに合わせており、学習した知識を異なるドメインに転送する能力がない。
この制限は、グラフデータに特有の異なる特徴とラベル空間とともに、グラフ構造の固有の複雑さと多様性に由来する。
本稿では,テキストを効果的な統一媒体として認識し,この可能性を活用するためにテキスト分散グラフ(TAG)を用いる。
提案するUniGraphフレームワークは,TAGの基盤モデルを学ぶために設計されており,多様な領域にまたがる未確認グラフやタスクに一般化することができる。
入力として様々な次元の事前計算ノード特徴を用いるシングルグラフモデルとは異なり、本手法は、自然にテキスト特徴を持たない分子グラフのようなグラフであっても、ノード表現を統一するためにテキスト特徴を利用する。
本稿では,言語モデル (LM) とグラフニューラルネットワーク (GNN) をバックボーンネットワークとして,新しいケースドアーキテクチャを提案する。
さらに,Masked Graph Modelingに基づくTAGを用いた大規模自己教師型学習のための事前学習アルゴリズムを提案する。
ゼロショット予測機能を実現するために,Large Language Models (LLMs) を用いたグラフインストラクションチューニングを導入する。
さまざまなグラフ学習タスクやドメインを対象とした総合的な実験は、未確認のグラフ上での自己教師型表現学習、少数ショットのインコンテキスト転送、ゼロショット転送におけるモデルの有効性を示し、ターゲットデータセット上で教師型トレーニングを受けたGNNのパフォーマンスを上回ったり、マッチさせたりさえする。
Foundation models like ChatGPT and GPT-4 have revolutionized artificial intelligence, exhibiting remarkable abilities to generalize across a wide array of tasks and applications beyond their initial training objectives. However, graph learning has predominantly focused on single-graph models, tailored to specific tasks or datasets, lacking the ability to transfer learned knowledge to different domains. This limitation stems from the inherent complexity and diversity of graph structures, along with the different feature and label spaces specific to graph data. In this paper, we recognize text as an effective unifying medium and employ Text-Attributed Graphs (TAGs) to leverage this potential. We present our UniGraph framework, designed to learn a foundation model for TAGs, which is capable of generalizing to unseen graphs and tasks across diverse domains. Unlike single-graph models that use pre-computed node features of varying dimensions as input, our approach leverages textual features for unifying node representations, even for graphs such as molecular graphs that do not naturally have textual features. We propose a novel cascaded architecture of Language Models (LMs) and Graph Neural Networks (GNNs) as backbone networks. Additionally, we propose the first pre-training algorithm specifically designed for large-scale self-supervised learning on TAGs, based on Masked Graph Modeling. We introduce graph instruction tuning using Large Language Models (LLMs) to enable zero-shot prediction ability. Our comprehensive experiments across various graph learning tasks and domains demonstrate the model's effectiveness in self-supervised representation learning on unseen graphs, few-shot in-context transfer, and zero-shot transfer, even surpassing or matching the performance of GNNs that have undergone supervised training on target datasets. | 翻訳日:2024-08-28 00:16:18 公開日:2024-08-25 |
# クロストーク抑制のためのマルチキュービット動的デカップリング
Multi-qubit Dynamical Decoupling for Enhanced Crosstalk Suppression ( http://arxiv.org/abs/2403.05391v3 ) ライセンス: Link先を確認 | Siyuan Niu, Aida Todri-Sanial, Nicholas T. Bronn, | (参考訳) 動的デカップリング(DD)は、オープン量子系における量子ビットのコヒーレンスを高めることを目的とした、最も単純なエラー抑制手法の1つである。
さらにDDは、2種類の相互作用から現れる短期量子ハードウェアにおける1つの大きなエラー源であるコヒーレント・クロストークの低減効果を示した。
静的なクロストークは超伝導体や半導体量子ビットを含む様々なハードウェアプラットフォームに存在する。
さらに、駆動されたクロストークは、他のキュービット上の駆動ゲートからの漏れにより、望ましくない駆動項として発生することがある。
本稿では,マルチキュービットシステム向けに,デコヒーレンスエラーと両タイプのコヒーレントなクロストークを抑える新しいDDプロトコルについて検討する。
2組のキュービットが同時に自由進化する「イル・アイドル」実験と、一方のペアが他方のペアのフリー進化の間連続的に駆動される「駆動・アイドル」実験である。
これらの実験は、IBMの量子超伝導プロセッサ上で行われ、両方のコヒーレントなクロストークを抑える上で、ステージングされたDDプロトコルの重大な影響を実証する。
X2 シークエンスの適用による最先端手法の標準 DD シークエンスと比較すると,この2 つのクロストークタイプに対処する上で,ステージングされた DD プロトコルは回路の忠実度をそれぞれ19.7% と 8.5% に向上させる。
Dynamical decoupling (DD) is one of the simplest error suppression methods, aiming to enhance the coherence of qubits in open quantum systems. Moreover, DD has demonstrated effectiveness in reducing coherent crosstalk, one major error source in near-term quantum hardware, which manifests from two types of interactions. Static crosstalk exists in various hardware platforms, including superconductor and semiconductor qubits, by virtue of always-on qubit-qubit coupling. Additionally, driven crosstalk may occur as an unwanted drive term due to leakage from driven gates on other qubits. Here we explore a novel staggered DD protocol tailored for multi-qubit systems that suppresses the decoherence error and both types of coherent crosstalk. We develop two experimental setups -- an "idle-idle" experiment in which two pairs of qubits undergo free evolution simultaneously and a "driven-idle" experiment in which one pair is continuously driven during the free evolution of the other pair. These experiments are performed on an IBM Quantum superconducting processor and demonstrate the significant impact of the staggered DD protocol in suppressing both types of coherent crosstalk. When compared to the standard DD sequences from state-of-the-art methodologies with the application of X2 sequences, our staggered DD protocol enhances circuit fidelity by 19.7% and 8.5%, respectively, in addressing these two crosstalk types. | 翻訳日:2024-08-28 00:06:22 公開日:2024-08-25 |
# Align and Distill: ドメイン適応型オブジェクト検出の統一と改善
Align and Distill: Unifying and Improving Domain Adaptive Object Detection ( http://arxiv.org/abs/2403.12029v2 ) ライセンス: Link先を確認 | Justin Kay, Timm Haucke, Suzanne Stathatos, Siqi Deng, Erik Young, Pietro Perona, Sara Beery, Grant Van Horn, | (参考訳) オブジェクト検出器は、トレーニングセットと異なるデータに対して、よく機能しない。
ドメイン適応オブジェクト検出(DAOD)手法は近年,この問題に対処する上で大きな成果を上げている。
残念ながら、過去の結果を疑問視し、さらなる進歩を妨げるような、体系的なベンチマークの落とし穴を特定します。
(a)低出力ベースラインによる性能の過大評価
ロ 方法の透明な比較を防止する不整合な実施方法及び
(c)時代遅れのバックボーンとベンチマークの多様性の欠如による一般性の欠如。
1) DAODメソッドの比較と今後の開発を支援するALDI(Align and Distill)と,(2) ベンチマークの落とし穴に対処するDAODのための公正かつ現代的なトレーニングおよび評価プロトコル,(3) 新しいDAODベンチマークデータセットであるCFC-DAOD,(4) さまざまな実世界のデータに対する評価を可能にする新たな手法であるALDI++。
ALDI++は、Cityscapesで+3.5 AP50、Sim10kで+5.7 AP50、Cityscapesで+5.7 AP50、CFC Kenai to Channelで+0.6 AP50で過去の最先端よりもパフォーマンスが高い。
我々のフレームワーク、データセット、最先端の手法はDAODにとって重要なリセットを提供し、将来の研究の強力な基盤を提供する。
コードとデータは以下の通りである。 https://github.com/justinkay/aldi and https://github.com/visipedia/caltech-fish-counting。
Object detectors often perform poorly on data that differs from their training set. Domain adaptive object detection (DAOD) methods have recently demonstrated strong results on addressing this challenge. Unfortunately, we identify systemic benchmarking pitfalls that call past results into question and hamper further progress: (a) Overestimation of performance due to underpowered baselines, (b) Inconsistent implementation practices preventing transparent comparisons of methods, and (c) Lack of generality due to outdated backbones and lack of diversity in benchmarks. We address these problems by introducing: (1) A unified benchmarking and implementation framework, Align and Distill (ALDI), enabling comparison of DAOD methods and supporting future development, (2) A fair and modern training and evaluation protocol for DAOD that addresses benchmarking pitfalls, (3) A new DAOD benchmark dataset, CFC-DAOD, enabling evaluation on diverse real-world data, and (4) A new method, ALDI++, that achieves state-of-the-art results by a large margin. ALDI++ outperforms the previous state-of-the-art by +3.5 AP50 on Cityscapes to Foggy Cityscapes, +5.7 AP50 on Sim10k to Cityscapes (where ours is the only method to outperform a fair baseline), and +0.6 AP50 on CFC Kenai to Channel. Our framework, dataset, and state-of-the-art method offer a critical reset for DAOD and provide a strong foundation for future research. Code and data are available: https://github.com/justinkay/aldi and https://github.com/visipedia/caltech-fish-counting. | 翻訳日:2024-08-28 00:06:22 公開日:2024-08-25 |
# 地図に基づく経路計画における強化学習のための等変アンサンブルと正規化
Equivariant Ensembles and Regularization for Reinforcement Learning in Map-based Path Planning ( http://arxiv.org/abs/2403.12856v3 ) ライセンス: Link先を確認 | Mirco Theile, Hongpeng Cao, Marco Caccamo, Alberto L. Sangiovanni-Vincentelli, | (参考訳) 強化学習(RL)では、環境対称性を活用することにより、効率、堅牢性、性能が著しく向上する。
しかし、これらの対称性を利用するために、深いRLポリシーと値ネットワークがそれぞれ同変であることを保証することは、大きな課題である。
関連する研究は、構成によって不変で不変なネットワークを設計し、それを非常に制限されたコンポーネントのライブラリに制限することで、ネットワークの表現性を損なう。
本稿では,同変アンサンブル(等変アンサンブル)と呼ぶ特殊なニューラルネットワーク成分を使わずに,同変ポリシーと不変値関数を構築する手法を提案する。
さらに、トレーニング中に帰納バイアスを追加するための正規化用語を追加します。
マップに基づく経路計画ケーススタディでは、等変アンサンブルと正規化がサンプル効率と性能にどのような影響を及ぼすかを示す。
In reinforcement learning (RL), exploiting environmental symmetries can significantly enhance efficiency, robustness, and performance. However, ensuring that the deep RL policy and value networks are respectively equivariant and invariant to exploit these symmetries is a substantial challenge. Related works try to design networks that are equivariant and invariant by construction, limiting them to a very restricted library of components, which in turn hampers the expressiveness of the networks. This paper proposes a method to construct equivariant policies and invariant value functions without specialized neural network components, which we term equivariant ensembles. We further add a regularization term for adding inductive bias during training. In a map-based path planning case study, we show how equivariant ensembles and regularization benefit sample efficiency and performance. | 翻訳日:2024-08-27 23:56:35 公開日:2024-08-25 |
# 変分量子アルゴリズムにおける導出コスト削減のための新しいアプローチ
A Novel Approach to Reduce Derivative Costs in Variational Quantum Algorithms ( http://arxiv.org/abs/2404.02245v2 ) ライセンス: Link先を確認 | Giovanni Minuto, Simone Caletti, Paolo Solinas, | (参考訳) 量子可観測物の勾配やヘッセンを効率的に推定するために、QNDM(Quantum Non-Demolition Measurement)と呼ばれる別の方法の詳細な数値的研究を行う。
これは、量子オブザーバブルに関連するコスト関数を最小限にしたい場合、重要なステップであり、リソース要求タスクです。
誤差に関する統計的研究は、当初の提案に対してさらなる性能向上をもたらす。
詳細な分析では,QNDM手法の実装に必要なすべてのリソースを一定精度で説明し,現在の最先端手法と比較する。
コスト関数の導関数を評価する際に、QNDMアプローチはより効率的である。
これらの利点は、既に小さな次元のシステムでは明らかであり、実践的な実装やより現実的な状況において増大する可能性が高い。
我々の研究の大きな成果は、補足材料 \cite{qndm_gradient} で提供されるPythonにおけるQNDM法の実装である。
このフレームワーク内でほとんどの変分量子アルゴリズムを定式化できることを考えると、我々の結果は量子最適化アルゴリズムに重要な意味を持ち、QNDMアプローチを短期量子コンピュータ上で変分量子アルゴリズムを実装するための価値ある代替手段にすることができる。
We present a detailed numerical study of an alternative approach, named Quantum Non-Demolition Measurement (QNDM), to efficiently estimate the gradients or the Hessians of a quantum observable. This is a key step and a resource-demanding task when we want to minimize the cost function associated with a quantum observable. The statistical study of the error leads to further performance improvement with respect to the original proposal. In our detailed analysis, we account for all the resources needed to implement the QNDM approach with a fixed accuracy and compare them to the current state-of-the-art method. We find that the QNDM approach is more efficient, i.e. it needs fewer resources, in evaluating the derivatives of a cost function. These advantages are already clear in small dimensional systems and are likely to increase for practical implementations and more realistic situations. A significant outcome of our study is the implementation of the QNDM method in Python, provided in the supplementary material \cite{qndm_gradient}. Given that most Variational Quantum Algorithms can be formulated within this framework, our results can have significant implications in quantum optimization algorithms and make the QNDM approach a valuable alternative to implement Variational Quantum Algorithms on near-term quantum computers. | 翻訳日:2024-08-27 23:56:35 公開日:2024-08-25 |
# 文脈に富むインテリジェントアプリケーションのための自動ソフトウェア進化を実現するマルチモーダル・コンセプト・フレームワーク
A Data-to-Product Multimodal Conceptual Framework to Achieve Automated Software Evolution for Context-rich Intelligent Applications ( http://arxiv.org/abs/2404.04821v3 ) ライセンス: Link先を確認 | Songhui Yue, | (参考訳) AIはソフトウェア工学(SE)の分野を大きく変えつつあるが、SEはソフトウェア進化の自動化(ASEv)を促進するためのすべてのフェーズを総合的に検討するフレームワークを必要としている。
その複雑さは、インテリジェントなアプリケーションの複雑さ、データソースの不均一性、コンテキストにおける一定の変化による。
本研究では,ソフトウェアの自動進化を実現するための概念的枠組みを提案し,マルチモーダル学習の重要性を強調した。
Selective Sequential Scope Model (3S) Modelは概念的枠組みに基づいて開発されており、SEフェーズやマルチモーダル学習タスクをカバーする際に、既存の研究と将来の研究を分類することができる。
この研究は、高レベルのASEvの青写真に向けた予備的なステップである。
提案する概念的枠組みは,実践者がこの分野に飛び込むための実践的ガイドラインとして機能する。
この研究はインテリジェントなアプリケーションに関するものだが、フレームワークと分析方法は、AIが彼らのライフサイクルにより多くのインテリジェンスをもたらすため、他のタイプのソフトウェアに適用される可能性がある。
While AI is extensively transforming Software Engineering (SE) fields, SE is still in need of a framework to overall consider all phases to facilitate Automated Software Evolution (ASEv), particularly for intelligent applications that are context-rich, instead of conquering each division independently. Its complexity comes from the intricacy of the intelligent applications, the heterogeneity of the data sources, and the constant changes in the context. This study proposes a conceptual framework for achieving automated software evolution, emphasizing the importance of multimodality learning. A Selective Sequential Scope Model (3S) model is developed based on the conceptual framework, and it can be used to categorize existing and future research when it covers different SE phases and multimodal learning tasks. This research is a preliminary step toward the blueprint of a higher-level ASEv. The proposed conceptual framework can act as a practical guideline for practitioners to prepare themselves for diving into this area. Although the study is about intelligent applications, the framework and analysis methods may be adapted for other types of software as AI brings more intelligence into their life cycles. | 翻訳日:2024-08-27 23:56:35 公開日:2024-08-25 |
# 摂動と最も急激なエントロピー上昇が絡み合いの時間進化に及ぼす影響のモデル化
Modeling the effects of perturbations and steepest entropy ascent on the time evolution of entanglement ( http://arxiv.org/abs/2404.05473v3 ) ライセンス: Link先を確認 | Cesar Damian, Robert Holladay, Adriana Saldana, Michael von Spakovsky, | (参考訳) この研究は、急激なエントロピーを持つ量子熱力学(SEAQT)の運動方程式、リンドブラッド方程式、および絡み合いの損失の様々な尺度を用いて、摂動ベル対角状態の進化を解析する。
まず、ベル対角状態がSEAQT運動方程式に対する安定平衡状態ではない定常状態であることを示し、近くの状態の進化を研究する摂動法の開発の必要性を強調した短い導出を示す。
これは、ベル対角線状態のいくつかだけが定常であるリンドブラッド運動方程式とは対照的である。
次に2つの摂動法を示す。
1つは重み付き平均解法であり、もう1つは系エネルギーと系エントロピー定数を保持するために制約されたユニタリ演算の集合に基づく一般二分法である。
各手法で密度演算子の集合をランダムに生成し,SEAQTとリンドブラッドのフレームワークを用いてシステムの絡み合いの時間変化特性を解析した。
その結果, 拘束摂動に伴う進化は非局所性の喪失を正確に予測し, 測定されたコンカレンスとよく一致していることが判明した。
さらに、SEAQTフレームワークを用いて、系の状態進化の熱力学状態と非局所性の損失との深い関係を定量的に示す。
This work presents an analysis of the evolution of perturbed Bell diagonal states using the equation of motion of steepest-entropy-ascent quantum thermodynamics (SEAQT), the Lindblad equation, and various measures of loss of entanglement. First, a brief derivation is presented showing that Bell diagonal states are stationary states that are not stable equilibrium states relative to the SEAQT equation of motion, highlighting the need for the development of perturbation methods to study the evolutions of nearby states. This contrasts with the Lindblad equation of motion for which only some of the Bell diagonal states are stationary. Next, two perturbation methods are presented. The first is a weighted-average method for perturbing bi-partite system states and the second is a general bi-partite method based on a set of unitary operations that are constrained to hold the system energy and system entropy constant. Sets of density operators are randomly generated with each method and the resulting time-varying characteristics of the system's entanglement are analyzed using the SEAQT and Lindblad frameworks. The findings reveal that the evolutions associated with the constrained perturbations accurately predict the loss of non-locality and align well with the measured concurrence. In addition, using the SEAQT framework, the deep connection between the thermodynamic states of the state evolution of the system and the loss of non-locality is quantitatively demonstrated. | 翻訳日:2024-08-27 23:56:35 公開日:2024-08-25 |
# 点雲を用いたシーンフローの攻撃
Attack on Scene Flow using Point Clouds ( http://arxiv.org/abs/2404.13621v4 ) ライセンス: Link先を確認 | Haniyeh Ehsani Oskouie, Mohammad-Shahram Moin, Shohreh Kasaei, | (参考訳) 深層ニューラルネットワークは、ビデオ分析、アクション認識、ナビゲーションといった多くのアプリケーションにとって不可欠であるポイントクラウドを使用して、シーンフローを正確に推定する上で、大きな進歩を遂げている。
しかし、これらの手法の堅牢性は、特に多くのドメインで最先端のディープニューラルネットワークを騙すことが証明された敵の攻撃に直面して懸念されている。
驚くべきことに、このような攻撃に対するシーンフローネットワークの堅牢性は、十分に調査されていない。
この問題に対処するため,提案手法は,シーンフローネットワークに特化して,敵のホワイトボックス攻撃を導入することで,このギャップを埋めることを目的としている。
実験結果から,KITTIおよびFlyingThings3Dデータセットの平均終点誤差が最大33.7の相対劣化が得られることがわかった。
この研究は、一次元または色チャネルの点雲を標的とする攻撃が、平均的な端点誤差に与える影響も明らかにしている。
シーンフローネットワークとその2次元光フローネットワークの変種に対するこれらの攻撃の成功と失敗を分析すると、光学フローネットワークの脆弱性が高いことが分かる。
コードはhttps://github.com/aheldis/Attack-on-Scene-Flow-using-Point-Clouds.gitで公開されている。
Deep neural networks have made significant advancements in accurately estimating scene flow using point clouds, which is vital for many applications like video analysis, action recognition, and navigation. The robustness of these techniques, however, remains a concern, particularly in the face of adversarial attacks that have been proven to deceive state-of-the-art deep neural networks in many domains. Surprisingly, the robustness of scene flow networks against such attacks has not been thoroughly investigated. To address this problem, the proposed approach aims to bridge this gap by introducing adversarial white-box attacks specifically tailored for scene flow networks. Experimental results show that the generated adversarial examples obtain up to 33.7 relative degradation in average end-point error on the KITTI and FlyingThings3D datasets. The study also reveals the significant impact that attacks targeting point clouds in only one dimension or color channel have on average end-point error. Analyzing the success and failure of these attacks on the scene flow networks and their 2D optical flow network variants shows a higher vulnerability for the optical flow networks. Code is available at https://github.com/aheldis/Attack-on-Scene-Flow-using-Point-Clouds.git. | 翻訳日:2024-08-27 23:46:51 公開日:2024-08-25 |
# 現代のUDAアルゴリズムにおける超確実現象
The Over-Certainty Phenomenon in Modern UDA Algorithms ( http://arxiv.org/abs/2404.16168v3 ) ライセンス: Link先を確認 | Fin Amin, Jung-Eun Kim, | (参考訳) ニューラルネットワークがトレーニングセットから逸脱した不慣れなデータに直面している場合、これはドメインシフトを意味する。
これらのネットワークは入力に関する予測を出力するが、これらの新しい観測に精通するレベルを説明できないのが普通である。
一般的な作業では、教師なしのドメイン適応をモデルエントロピーの削減という目標でナビゲートするが、それらは意図せず、最適以下のキャリブレーションと相反するモデル、すなわち、過剰な確実性現象(over-certainty phenomenon)と呼ぶジレンマである。
本稿では、教師なしドメイン適応の傾向を明らかにし、精度を維持するだけでなく、校正にも対処するソリューションを提案する。
When neural networks are confronted with unfamiliar data that deviate from their training set, this signifies a domain shift. While these networks output predictions on their inputs, they typically fail to account for their level of familiarity with these novel observations. While prevailing works navigate unsupervised domain adaptation with the goal of curtailing model entropy, they unintentionally birth models that grapple with sub-optimal calibration - a dilemma we term the over-certainty phenomenon. In this paper, we uncover a concerning trend in unsupervised domain adaptation and propose a solution that not only maintains accuracy but also addresses calibration. | 翻訳日:2024-08-27 23:46:51 公開日:2024-08-25 |
# STT行列を用いた渦におけるマヨラナゼロモードのブレイディング方式
Scheme for braiding Majorana zero modes in vortices using an STT-matrix ( http://arxiv.org/abs/2404.18578v3 ) ライセンス: Link先を確認 | Guangyao Huang, Xinfang Zhang, Xiaofeng Yi, Jibang Fu, Weichen Wang, Mingtang Deng, | (参考訳) 最近行われた2次元トポロジカル超伝導体に関する実験により、マヨラナゼロモード(MZM)の様々な表示が明らかになった。
しかし、MZMブレイディングの操作の進歩は制限されており、トポロジカル量子コンピューティングの実現を妨げている。
そこで本研究では,スピントロニックデバイスマトリクスに基づく潜在的なブレイディング方式を提案する。
このスキームは、2次元のトポロジカル超伝導材料と共にスピントランスファートルクデバイス(STT-マトリクス)からなるマトリックスを利用する。
STT行列内のスピントロニクス装置のON/OFF状態をプログラムすることにより、二次元超伝導体にMZMをホストする渦を操作することができる。
この概念をさらに検討するため、時間依存型ギンズブルグ・ランダウモデルを構築し、渦駆動力学、MZMブレイディング過程、MZM融合現象を分析する数値シミュレーションを行う。
以上の結果から,大動脈操作の柔軟性と柔軟性が示唆された。
スピントロニクスデバイス技術の発展に伴い, 提案手法は, トポロジカル超伝導体に存在する渦内でMZMを動作させるための実用的, 実用的手法を提供する。
Recently conducted experiments on two-dimensional topological superconductors have revealed various indications of Majorana zero modes (MZMs). However, progress in the manipulation of MZM braiding has been limited, impeding the realization of topological quantum computing. In this study, we propose a potential braiding scheme based on a spintronic device matrix. This scheme involves utilizing a matrix composed of spin-transfer torque devices (STT-matrix) alongside a two-dimensional topological superconductor material. By programming the ON/OFF states of the spintronic devices within the STT-matrix, it becomes possible to manipulate vortices hosting MZMs in the two-dimensional topological superconductor. To further investigate this concept, we construct a time-dependent Ginzburg-Landau model and perform numerical simulations to analyze vortex-driving dynamics, MZM braiding processes, and MZM fusion phenomena. Our findings demonstrate that this system exhibits high versatility and flexibility in manipulating vortices. With advancements in spintronic device technology, our proposed scheme offers a feasible and practical method for operating MZMs within vortices present in topological superconductors. | 翻訳日:2024-08-27 23:46:51 公開日:2024-08-25 |
# ニューラルネットワークによる事前学習言語モデルの構造解析
Structural Pruning of Pre-trained Language Models via Neural Architecture Search ( http://arxiv.org/abs/2405.02267v2 ) ライセンス: Link先を確認 | Aaron Klein, Jacek Golebiowski, Xingchen Ma, Valerio Perrone, Cedric Archambeau, | (参考訳) BERTやRoBERTaのような事前訓練された言語モデル(PLM)は、ラベル付きデータに基づいて微調整された場合、自然言語理解タスクの最先端をマークする。
しかし、その大きなサイズは、GPUメモリの大幅な要求と高い推論レイテンシのために、現実のアプリケーションに推論をデプロイする際の課題を生じさせる。
本稿では, モデルサイズやレイテンシ, 一般化性能など, 最適トレードオフ効率を有する細調整ネットワークの部分部分を見つけるために, 構造解析のためのニューラルネットワーク探索(NAS)について検討する。
また,最近開発された2段階の重み付けNAS手法を用いて,探索過程を高速化する方法について述べる。
固定しきい値を持つ従来のプルーニング法とは異なり、我々はParetoの最適サブネットワークを識別する多目的アプローチを採用し、より柔軟で自動的な圧縮プロセスを実現することを提案する。
Pre-trained language models (PLM), for example BERT or RoBERTa, mark the state-of-the-art for natural language understanding task when fine-tuned on labeled data. However, their large size poses challenges in deploying them for inference in real-world applications, due to significant GPU memory requirements and high inference latency. This paper explores neural architecture search (NAS) for structural pruning to find sub-parts of the fine-tuned network that optimally trade-off efficiency, for example in terms of model size or latency, and generalization performance. We also show how we can utilize more recently developed two-stage weight-sharing NAS approaches in this setting to accelerate the search process. Unlike traditional pruning methods with fixed thresholds, we propose to adopt a multi-objective approach that identifies the Pareto optimal set of sub-networks, allowing for a more flexible and automated compression process. | 翻訳日:2024-08-27 23:36:49 公開日:2024-08-25 |
# QFMTS: マルチテーブル入力上でクエリにフォーカスされたサマリを生成する
QFMTS: Generating Query-Focused Summaries over Multi-Table Inputs ( http://arxiv.org/abs/2405.05109v2 ) ライセンス: Link先を確認 | Weijia Zhang, Vaishali Pal, Jia-Hong Huang, Evangelos Kanoulas, Maarten de Rijke, | (参考訳) 表要約は、表データの情報を簡潔で分かりやすいテキスト要約に変換するための重要なタスクである。
しかし、既存のアプローチは、ユーザの情報や品質要件を適切に満たすことができず、現実のクエリの複雑さを無視する傾向がある。
本稿では,クエリ中心のマルチテーブル要約を導入することで,これらの制約に対処する新しい手法を提案する。
テーブルシリアライズモジュール,要約コントローラ,および大規模言語モデル(LLM)から構成される本手法では,テキストクエリと複数のテーブルを用いて,ユーザの情報要求に合わせたクエリ依存のテーブル要約を生成する。
この領域の研究を容易にするために,複数のテーブルに関連付けられた4909のクエリ-サマリーペアからなる,このタスクに適した包括的データセットを提案する。
提案手法の有効性をベースライン手法と比較し,提案手法の有効性を検証した。
本研究は,クエリに着目したマルチテーブル要約研究の進展に寄与し,複雑なテーブル推論の課題に対する洞察を提供する。
Table summarization is a crucial task aimed at condensing information from tabular data into concise and comprehensible textual summaries. However, existing approaches often fall short of adequately meeting users' information and quality requirements and tend to overlook the complexities of real-world queries. In this paper, we propose a novel method to address these limitations by introducing query-focused multi-table summarization. Our approach, which comprises a table serialization module, a summarization controller, and a large language model (LLM), utilizes textual queries and multiple tables to generate query-dependent table summaries tailored to users' information needs. To facilitate research in this area, we present a comprehensive dataset specifically tailored for this task, consisting of 4909 query-summary pairs, each associated with multiple tables. Through extensive experiments using our curated dataset, we demonstrate the effectiveness of our proposed method compared to baseline approaches. Our findings offer insights into the challenges of complex table reasoning for precise summarization, contributing to the advancement of research in query-focused multi-table summarization. | 翻訳日:2024-08-27 23:36:49 公開日:2024-08-25 |
# KIC 1718360の機械学習による可逆性可変回転の検出
The Detection of KIC 1718360, A Rotating Variable with a Possible Companion, Using Machine Learning ( http://arxiv.org/abs/2405.05282v3 ) ライセンス: Link先を確認 | Jakob Roche, | (参考訳) 本稿では, G1.5IV-V型星KIC 1718360の光曲線における周期的なディミング現象の検出について述べる。
これは、TESSとケプラー宇宙望遠鏡によって行われた可視光観測に基づいている。
データの分析は、恒星の自転周期が2.938日であることから、恒星の自転速度が高いことを示唆しているようである。
恒星の光度曲線内で見られる高い変動は、回転する変光星の分類に向かっている。
最初の観測は、ワンクラスSVM機械学習法を用いたケプラークォーター16データで行われた。
その後のテッサ宇宙望遠鏡による観測は、これらの発見を裏付けた。
KIC 1718360は近くで回転する変数であり、主要なカタログにはほとんど存在しない。
二次的な、追加の周期的なディップも存在しており、太陽系外惑星の伴星の可能性を示している。
This paper presents the detection of a periodic dimming event in the lightcurve of the G1.5IV-V type star KIC 1718360. This is based on visible-light observations conducted by both the TESS and Kepler space telescopes. Analysis of the data seems to point toward a high rotation rate in the star, with a rotational period of 2.938 days. The high variability seen within the star's lightcurve points toward classification as a rotating variable. The initial observation was made in Kepler Quarter 16 data using the One-Class SVM machine learning method. Subsequent observations by the TESS space telescope corroborated these findings. It appears that KIC 1718360 is a nearby rotating variable that appears in little to no major catalogs as such. A secondary, additional periodic dip is also present, indicating a possible exoplanetary companion. | 翻訳日:2024-08-27 23:36:49 公開日:2024-08-25 |
# DTCLMapper: ベクトル化HDマップ構築のための2つの時間一貫性学習
DTCLMapper: Dual Temporal Consistent Learning for Vectorized HD Map Construction ( http://arxiv.org/abs/2405.05518v2 ) ライセンス: Link先を確認 | Siyu Li, Jiacheng Lin, Hao Shi, Jiaming Zhang, Song Wang, You Yao, Zhiyong Li, Kailun Yang, | (参考訳) 時間情報はバード・アイビュー(BEV)のシーン理解において重要な役割を担い、視覚情報の空間性を軽減する。
しかし,不特定時間融合法は,ベクトル化高分解(HD)写像を構築する際に特徴冗長性の障壁を引き起こす。
本稿では,ベクトル化されたHDマップの時間的融合を再考し,時間的インスタンスの整合性と時間的マップの整合性学習に着目した。
単一フレームマップにおけるインスタンスの表現を改善するために,新しいメソッドDTCLMapperを導入する。
このアプローチでは、インスタンスの埋め込みとジオメトリマップを組み合わせたデュアルストリーム時整合学習モジュールを使用する。
インスタンス埋め込みコンポーネントでは、時間的インスタンス一貫性学習(ICL)を統合し、ベクターポイントからの一貫性と、ポイントから集約されたインスタンス機能を保証する。
ベクトル化前選択モジュールを用いて各インスタンスからのベクトル点の回帰効率を高める。
そして、ベクトル化された点選択モジュールから得られる集約されたインスタンス特徴を対照的に学習して時間的一貫性を実現し、位置と意味情報に基づいて正と負のサンプルを選択する。
ジオメトリマッピングコンポーネントは、自己教師付き学習で設計されたマップ一貫性学習(MCL)を導入している。
MCLは、インスタンスのグローバルな位置と分布制約に集中することにより、一貫した学習アプローチの一般化能力を高める。
良く認識されたベンチマークに関する大規模な実験は、提案されたDTCLMapperがベクトル化されたマッピングタスクにおける最先端のパフォーマンスを達成し、それぞれ nuScenes と Argoverse のデータセット上で 61.9% と 65.1% mAP のスコアに達したことを示している。
ソースコードはhttps://github.com/lynn-yu/DTCLMapper.comで入手できる。
Temporal information plays a pivotal role in Bird's-Eye-View (BEV) driving scene understanding, which can alleviate the visual information sparsity. However, the indiscriminate temporal fusion method will cause the barrier of feature redundancy when constructing vectorized High-Definition (HD) maps. In this paper, we revisit the temporal fusion of vectorized HD maps, focusing on temporal instance consistency and temporal map consistency learning. To improve the representation of instances in single-frame maps, we introduce a novel method, DTCLMapper. This approach uses a dual-stream temporal consistency learning module that combines instance embedding with geometry maps. In the instance embedding component, our approach integrates temporal Instance Consistency Learning (ICL), ensuring consistency from vector points and instance features aggregated from points. A vectorized points pre-selection module is employed to enhance the regression efficiency of vector points from each instance. Then aggregated instance features obtained from the vectorized points preselection module are grounded in contrastive learning to realize temporal consistency, where positive and negative samples are selected based on position and semantic information. The geometry mapping component introduces Map Consistency Learning (MCL) designed with self-supervised learning. The MCL enhances the generalization capability of our consistent learning approach by concentrating on the global location and distribution constraints of the instances. Extensive experiments on well-recognized benchmarks indicate that the proposed DTCLMapper achieves state-of-the-art performance in vectorized mapping tasks, reaching 61.9% and 65.1% mAP scores on the nuScenes and Argoverse datasets, respectively. The source code is available at https://github.com/lynn-yu/DTCLMapper. | 翻訳日:2024-08-27 23:36:49 公開日:2024-08-25 |
# 可逆ニューラルネットワークを用いたリモートセンシング画像圧縮における知覚品質向上
Enhancing Perception Quality in Remote Sensing Image Compression via Invertible Neural Network ( http://arxiv.org/abs/2405.10518v2 ) ライセンス: Link先を確認 | Junhui Li, Xingsong Hou, | (参考訳) リモートセンシング画像をデコードして、特に低ビットレートで高い知覚品質を実現することは、依然として大きな課題である。
この問題に対処するために,インバータブルニューラルネットワークを用いたリモートセンシング画像圧縮法(INN-RSIC)を提案する。
具体的には、既存の画像圧縮アルゴリズムから圧縮歪みをキャプチャし、それをINNを介してガウス分布の潜在変数の集合として符号化する。
これにより、デコードされた画像の圧縮歪みが、基底真理から独立することを保証する。
したがって, INNの逆写像を利用することで, ランダムに再サンプリングされたガウス分布変数の集合を逆ネットワークに入力し, 知覚品質を向上した拡張画像を効果的に生成することができる。
圧縮歪みを効果的に学習するために、チャネル展開、ハール変換、および可逆ブロックを用いて INN を構築する。
さらに、フォーマット変換の影響を軽減するために量子化モジュール(QM)を導入し、フレームワークの一般化を強化し、画像の知覚品質を向上させる。
広汎な実験により,我々の INN-RSIC は従来の画像圧縮法と深層学習による画像圧縮法を,知覚品質の観点から大きく上回っていることが明らかとなった。
Decoding remote sensing images to achieve high perceptual quality, particularly at low bitrates, remains a significant challenge. To address this problem, we propose the invertible neural network-based remote sensing image compression (INN-RSIC) method. Specifically, we capture compression distortion from an existing image compression algorithm and encode it as a set of Gaussian-distributed latent variables via INN. This ensures that the compression distortion in the decoded image becomes independent of the ground truth. Therefore, by leveraging the inverse mapping of INN, we can input the decoded image along with a set of randomly resampled Gaussian distributed variables into the inverse network, effectively generating enhanced images with better perception quality. To effectively learn compression distortion, channel expansion, Haar transformation, and invertible blocks are employed to construct the INN. Additionally, we introduce a quantization module (QM) to mitigate the impact of format conversion, thus enhancing the framework's generalization and improving the perceptual quality of enhanced images. Extensive experiments demonstrate that our INN-RSIC significantly outperforms the existing state-of-the-art traditional and deep learning-based image compression methods in terms of perception quality. | 翻訳日:2024-08-27 23:27:05 公開日:2024-08-25 |
# 合成フロケット格子上でC = $\pm$2 のチャーン絶縁体シミュレーション
Simulating a Chern Insulator with C = $\pm$2 on Synthetic Floquet Lattice ( http://arxiv.org/abs/2405.11733v2 ) ライセンス: Link先を確認 | Lingxiao Lei, Weichen Wang, Guangyao Huang, Shun Hu, Xi Cao, Xinfang Zhang, Mingtang Deng, Pingxing Chen, | (参考訳) 合成フロケ格子は、互いに共振周波数の強い複数の駆動によって生成され、トポロジカル現象の量子シミュレーションのための強力なプラットフォームを提供する。
本研究では,ハーフBHZ格子の2層を結合し,そのトポロジカルな性質をシミュレートするためにフロケ格子にマッピングすることで,チャーン数C=$\pm$2のチャーン絶縁体の4バンド強結合モデルを提案する。
Floquet-versionモデルのチャーン数を決定するため、Martin et al (Phys. Rev. X 7, 041008 (2017)) と Boyers et al (Phys. Rev. 125, 160505 (2020)) が導入したトポロジ的発振法を拡張した。
シミュレーションの結果、これらの手法のいずれかを用いてチャーン数の抽出に成功したことを示し、元の2層半BHZモデルから導出された理論図と密に一致した位相図の優れた予測を提供する。
最後に,本モデルに対する実験的実装の可能性について概説する。
我々の研究は、量子コンピューティングプラットフォームを用いて複雑なトポロジカルな物質をシミュレートする大きな可能性を示し、それによって、相互作用しないトポロジカルな量子状態のためのより普遍的なシミュレータを構築する方法を確立し、これらの興味深い現象の理解を深める。
The synthetic Floquet lattice, generated by multiple strong drives with mutually incommensurate frequencies, provides a powerful platform for the quantum simulation of topological phenomena. In this study, we propose a 4-band tight-binding model of the Chern insulator with a Chern number C = $\pm$2 by coupling two layers of the half-BHZ lattice and subsequently mapping it onto the Floquet lattice to simulate its topological properties. To determine the Chern number of our Floquet-version model, we extend the energy pumping method proposed by Martin et al. [Phys. Rev. X 7, 041008 (2017)] and the topological oscillation method introduced by Boyers et al. [Phys. Rev. Lett. 125, 160505 (2020)], followed by numerical simulations for both methodologies. The simulation results demonstrate the successful extraction of the Chern number using either of these methods, providing an excellent prediction of the phase diagram that closely aligns with the theoretical one derived from the original bilayer half-BHZ model. Finally, we briefly discuss a potential experimental implementation for our model. Our work demonstrates significant potential for simulating complex topological matter using quantum computing platforms, thereby paving the way for constructing a more universal simulator for non-interacting topological quantum states and advancing our understanding of these intriguing phenomena. | 翻訳日:2024-08-27 23:27:05 公開日:2024-08-25 |
# 微分方程式を解くニューラルネットワークの学習において、自動微分は不可欠である
Automatic Differentiation is Essential in Training Neural Networks for Solving Differential Equations ( http://arxiv.org/abs/2405.14099v2 ) ライセンス: Link先を確認 | Chuqi Chen, Yahong Yang, Yang Xiang, Wenrui Hao, | (参考訳) ニューラルネットワークベースのアプローチは、科学と工学における偏微分方程式(PDE)の解法において、特に複雑なドメインや経験的データの導入を特徴とするシナリオにおいて、非常に有望であることを示している。
PDEのニューラルネットワーク手法の利点の1つは、その自動微分(AD)であり、微分を計算するために近くの局所点を必要とする従来の有限差分(FD)近似とは異なり、標本点自身だけを必要とする。
本稿では、ニューラルネットワークのトレーニングにおけるADの利点を定量的に示す。
トランキャットエントロピーの概念は、トレーニング特性を特徴づけるために導入された。
具体的には、ランダム特徴モデルと2層ニューラルネットワークを用いた総合的な実験および理論的解析により、決定されたトランケートエントロピーが、ランダム特徴モデルの残留損失と、ADおよびFD法のニューラルネットワークのトレーニング速度を定量化するための信頼性の高い指標であることがわかった。
実験および理論的解析により、ADは偏微分方程式の解法においてFDよりも優れていることが示された。
Neural network-based approaches have recently shown significant promise in solving partial differential equations (PDEs) in science and engineering, especially in scenarios featuring complex domains or the incorporation of empirical data. One advantage of the neural network method for PDEs lies in its automatic differentiation (AD), which necessitates only the sample points themselves, unlike traditional finite difference (FD) approximations that require nearby local points to compute derivatives. In this paper, we quantitatively demonstrate the advantage of AD in training neural networks. The concept of truncated entropy is introduced to characterize the training property. Specifically, through comprehensive experimental and theoretical analyses conducted on random feature models and two-layer neural networks, we discover that the defined truncated entropy serves as a reliable metric for quantifying the residual loss of random feature models and the training speed of neural networks for both AD and FD methods. Our experimental and theoretical analyses demonstrate that, from a training perspective, AD outperforms FD in solving partial differential equations. | 翻訳日:2024-08-27 23:27:05 公開日:2024-08-25 |
# 隠れメッセージのキャリアとしての大規模言語モデル
Large Language Models as Carriers of Hidden Messages ( http://arxiv.org/abs/2406.02481v3 ) ライセンス: Link先を確認 | Jakub Hoscilowicz, Pawel Popiolek, Jan Rudkowski, Jedrzej Bieniasz, Artur Janicki, | (参考訳) 単純な微調整の助けを借りて、隠れたテキストを大きな言語モデル(LLM)に人工的に埋め込むことができる。
このテキストは LLM への特定のクエリによってのみ公開される。
主な用途はLLMフィンガープリントとステガノグラフィである。
LLMフィンガープリントの文脈では、ライセンスコンプライアンスを検証するために、ユニークなテキスト識別子(フィンガープリント)がモデル内に埋め込まれている。
ステガノグラフィーの文脈では、LSMは選択されたトリガー質問を通じて開示できる隠されたメッセージのキャリアとして機能する。
我々の研究は、LLMに隠されたテキストを微調整で埋め込むことは、非常に多くの潜在的なトリガー(文字やトークンのシーケンスがトリガーとして機能する)のために安全であるように見えるが、LCMの出力復号プロセスの分析を通じて抽出される可能性があることを実証している。
本研究では, Unconditional Token Forcing (UTF) と呼ばれる抽出攻撃を提案する。
LLMの語彙から各トークンをモデルに反復的に供給すると、異常に高いトークン確率を持つ出力シーケンスが明らかになり、潜在的な隠れテキスト候補を示すという仮説に基づいている。
また, サンプリング復号法に基づいて, UTF と攻撃に耐性のあるテキストを隠蔽する防御手法を提案し, unconditional Token Forcing Confusion (UTFC) と命名した。
我々の知る限り、UTFCで隠されたテキストを抽出できる攻撃方法はない。
UTFCには良性アプリケーション(LLMフィンガープリントの改善)と良性アプリケーション(LLMを使用して秘密通信チャネルを作成する)の両方がある。
With the help of simple fine-tuning, one can artificially embed hidden text into large language models (LLMs). This text is revealed only when triggered by a specific query to the LLM. Two primary applications are LLM fingerprinting and steganography. In the context of LLM fingerprinting, a unique text identifier (fingerprint) is embedded within the model to verify licensing compliance. In the context of steganography, the LLM serves as a carrier for hidden messages that can be disclosed through a chosen trigger question. Our work demonstrates that embedding hidden text in the LLM via fine-tuning, though seemingly secure due to the vast number of potential triggers (any sequence of characters or tokens could serve as a trigger), is susceptible to extraction through analysis of the LLM's output decoding process. We propose an extraction attack called Unconditional Token Forcing (UTF). It is premised on the hypothesis that iteratively feeding each token from the LLM's vocabulary into the model should reveal output sequences with abnormally high token probabilities, indicating potential hidden text candidates. We also present a defense method to hide text in such a way that it is resistant to both UTF and attacks based on sampling decoding methods, which we named Unconditional Token Forcing Confusion (UTFC). To the best of our knowledge, there is no attack method that can extract text hidden with UTFC. UTFC has both benign applications (improving LLM fingerprinting) and malign applications (using LLMs to create covert communication channels). | 翻訳日:2024-08-27 23:17:21 公開日:2024-08-25 |
# データスケールがコンピュータ制御エージェントに及ぼす影響について
On the Effects of Data Scale on Computer Control Agents ( http://arxiv.org/abs/2406.03679v4 ) ライセンス: Link先を確認 | Wei Li, William Bishop, Alice Li, Chris Rawles, Folawiyo Campbell-Ajala, Divya Tyamagundlu, Oriana Riva, | (参考訳) 人間のタスクを達成するためにコンピュータインターフェースを制御する自律エージェントが登場している。
LLMをこのようなエージェントに利用することは特に興味深いが、人間によるタスクのデモを微調整しない限り、性能は比較的低い。
本研究では,ファインチューニング単独が現実のコンピュータ制御エージェント構築に有効なアプローチであるかどうかを考察する。
特に、ドメイン内のハイレベルタスクとローレベルタスクの両方で測定されたパフォーマンスが、より多くのトレーニングデータが収集されるにつれて、ドメインスケール外に与える影響について検討する。
この目的のために、Androidアプリで毎日のタスクを15,283回デモする新しいデータセット、AndroidControlを収集、リリースしました。
既存のデータセットと比較して、各AndroidControlタスクインスタンスには、ハイレベルとローレベルの両方のヒューマン生成命令が含まれています。
さらに、AndroidControlは833のAndroidアプリに対して15,283のユニークなタスクを含む、これまでで最も多様なコンピュータ制御データセットです。
データセットを用いて、ドメインを微調整したモデルでテストすると、ゼロと数ショットのベースラインを上回り、ロバストなパフォーマンスを単純により多くのデータを収集して得られるようにスケールする。
ドメイン外では、パフォーマンスは大幅に遅くなり、特にハイレベルなタスクでは、より多くのデータのみを微調整することは、ドメイン外での堅牢なパフォーマンスを達成するには不十分である、と示唆する。
Autonomous agents that control computer interfaces to accomplish human tasks are emerging. Leveraging LLMs to power such agents has been of special interest, but unless fine-tuned on human-collected task demonstrations, performance is still relatively low. In this work we study whether fine-tuning alone is a viable approach for building real-world computer control agents. In particularly, we investigate how performance measured on both high and low-level tasks in domain and out of domain scales as more training data is collected. To this end we collect and release a new dataset, AndroidControl, consisting of 15,283 demonstrations of everyday tasks with Android apps. Compared to existing datasets, each AndroidControl task instance includes both high and low-level human-generated instructions, allowing us to explore the level of task complexity an agent can handle. Moreover, AndroidControl is the most diverse computer control dataset to date, including 15,283 unique tasks over 833 Android apps, thus allowing us to conduct in-depth analysis of the model performance in and out of the domain of the training data. Using the dataset, we find that when tested in domain fine-tuned models outperform zero and few-shot baselines and scale in such a way that robust performance might feasibly be obtained simply by collecting more data. Out of domain, performance scales significantly more slowly and suggests that in particular for high-level tasks, fine-tuning on more data alone may be insufficient for achieving robust out-of-domain performance. | 翻訳日:2024-08-27 23:17:21 公開日:2024-08-25 |
# キーワードを用いたカオス: キーワードの誤解に対する幻覚的幻覚と防衛戦略の評価
Chaos with Keywords: Exposing Large Language Models Sycophantic Hallucination to Misleading Keywords and Evaluating Defense Strategies ( http://arxiv.org/abs/2406.03827v2 ) ライセンス: Link先を確認 | Aswin RRV, Nemika Tyagi, Md Nayem Uddin, Neeraj Varshney, Chitta Baral, | (参考訳) 本研究は,Large Language Models (LLMs) の幻想的傾向を考察し,そのモデルが,たとえ完全に正しくなくても,ユーザが聞きたいものと一致した回答を提供する傾向にあることを示した。
この探索の背後にあるモチベーションは、部分的にまたは誤解を招く知識を持つ事実をインターネットで探している個人によって観察される共通の行動に起因している。
ウェブ検索エンジンを使うのと同じように、ユーザは誤解を招くキーワードの断片を思い出してLLMに送信し、包括的なレスポンスを期待することができる。
複数のLPMを実験的に分析した結果,誤報キーワードが提示された場合,誤報を増幅する危険性が示唆された。
さらに, LLMs sycophantic behavior を減少させるために, 既存の4つの幻覚緩和策を徹底的に評価した。
本実験は, 事実的正しい文を生成するための戦略の有効性を実証する。
さらに,本分析では,事実キーワードの知識提供実験や,症状軽減のカテゴリについても検討した。
This study explores the sycophantic tendencies of Large Language Models (LLMs), where these models tend to provide answers that match what users want to hear, even if they are not entirely correct. The motivation behind this exploration stems from the common behavior observed in individuals searching the internet for facts with partial or misleading knowledge. Similar to using web search engines, users may recall fragments of misleading keywords and submit them to an LLM, hoping for a comprehensive response. Our empirical analysis of several LLMs shows the potential danger of these models amplifying misinformation when presented with misleading keywords. Additionally, we thoroughly assess four existing hallucination mitigation strategies to reduce LLMs sycophantic behavior. Our experiments demonstrate the effectiveness of these strategies for generating factually correct statements. Furthermore, our analyses delve into knowledge-probing experiments on factual keywords and different categories of sycophancy mitigation. | 翻訳日:2024-08-27 23:17:21 公開日:2024-08-25 |
# 反復学習モデルを用いた言語接触のモデル化
Modeling language contact with the Iterated Learning Model ( http://arxiv.org/abs/2406.06878v2 ) ライセンス: Link先を確認 | Seth Bullock, Conor Houghton, | (参考訳) 言語間の接触は語彙やその他の言語特徴を伝達する可能性があるが、これは必ずしも起こらない。
ここでは,反復学習モデルを用いて,言語接触時の言語抵抗を簡易に検証する。
反復学習モデルは言語変化のエージェントベースモデルであり、言語伝達ボトルネックの結果、表現的で構成的な言語が自然に発生することを示す。
最近導入された反復学習モデルであるSemi-Supervised ILMは、言語接触をシミュレートするために使われている。
これらのシミュレーションには、言語接触に関わる複雑な要素の多くが含まれておらず、話者の集団をモデル化していないが、モデルでは、モデル内の言語を自発的に表現的かつ構成的に導くダイナミクスが、他の言語と混同しても言語がその中核的な特徴を維持することを示している。
Contact between languages has the potential to transmit vocabulary and other language features; however, this does not always happen. Here, an iterated learning model is used to examine, in a simple way, the resistance of languages to change during language contact. Iterated learning models are agent-based models of language change, they demonstrate that languages that are expressive and compositional arise spontaneously as a consequence of a language transmission bottleneck. A recently introduced type of iterated learning model, the Semi-Supervised ILM is used to simulate language contact. These simulations do not include many of the complex factors involved in language contact and do not model a population of speakers; nonetheless the model demonstrates that the dynamics which lead languages in the model to spontaneously become expressive and compositional, also cause a language to maintain its core traits even after mixing with another language. | 翻訳日:2024-08-27 23:17:21 公開日:2024-08-25 |
# 量子LSTMネットワークにおける実装ガイドラインとイノベーション
Implementation Guidelines and Innovations in Quantum LSTM Networks ( http://arxiv.org/abs/2406.08982v2 ) ライセンス: Link先を確認 | Yifan Zhou, Chong Cheng Xu, Mingi Song, Yew Kee Wong, Kangsong Du, | (参考訳) 人工知能の急速な進化は、シーケンシャルデータの処理に有効であるために、Long Short-Term Memory (LSTM)ネットワークへの関心を惹き付けている。
しかし、従来のLSTMは、消失する勾配問題や高い計算要求といった問題によって制限されている。
量子コンピューティングはこれらの課題に対する潜在的な解決策を提供し、重畳や絡み合いのような量子ビットのユニークな性質を通じて計算効率の進歩を約束する。
本稿では,従来のLSTMネットワークに量子コンピューティングの原理を統合する量子LSTM(Quantum LSTM)モデルの理論的解析と実装計画を提案する。
提案モデルは,古典的LSTMの限界に対処することを目的としているが,本研究は主に理論的側面と実装フレームワークに焦点を当てている。
シーケンシャルなデータ処理を強化するための実際のアーキテクチャとその実践的効果は、今後の研究で開発され、実証される。
The rapid evolution of artificial intelligence has driven interest in Long Short-Term Memory (LSTM) networks for their effectiveness in processing sequential data. However, traditional LSTMs are limited by issues such as the vanishing gradient problem and high computational demands. Quantum computing offers a potential solution to these challenges, promising advancements in computational efficiency through the unique properties of qubits, such as superposition and entanglement. This paper presents a theoretical analysis and an implementation plan for a Quantum LSTM (qLSTM) model, which seeks to integrate quantum computing principles with traditional LSTM networks. While the proposed model aims to address the limitations of classical LSTMs, this study focuses primarily on the theoretical aspects and the implementation framework. The actual architecture and its practical effectiveness in enhancing sequential data processing remain to be developed and demonstrated in future work. | 翻訳日:2024-08-27 23:07:37 公開日:2024-08-25 |
# モード補間による拡散モデルにおける幻覚の理解
Understanding Hallucinations in Diffusion Models through Mode Interpolation ( http://arxiv.org/abs/2406.09358v2 ) ライセンス: Link先を確認 | Sumukh K Aithal, Pratyush Maini, Zachary C. Lipton, J. Zico Kolter, | (参考訳) 口語的に言えば、拡散過程に基づく画像生成モデルは、トレーニングデータでは起こり得ない「幻覚」を示すとしばしば言われる。
しかし、このような幻覚はどこから来るのか?
本稿では,拡散モデルにおける特定の障害モードについて検討し,これをモード補間と呼ぶ。
具体的には、拡散モデルがトレーニングセット内の近傍のデータモード間で円滑に「補間」され、元のトレーニング分布の支持外にあるサンプルが生成されることを発見し、この現象によって拡散モデルが実際のデータに存在しない人工物(幻覚)を生成する。
我々は,この現象の原因と発現について系統的に研究する。
1Dおよび2Dガウスの実験を通して、拡散モデルのデコーダにおける不連続な損失景観が、どんな滑らかな近似もそのような幻覚を引き起こす領域にどのように導かれるかを示す。
様々な形状の人工データセットの実験を通して、幻覚が、これまで存在しなかった形状の組み合わせをいかに生み出すかを示す。
最後に、拡散モデルが実際に、彼らがサポートをやめて幻覚になったときを知っていることを示す。
これは、最後の数個の後方サンプリングプロセスに向けて、生成されたサンプルの軌道の高ばらつきによって捉えられる。
この分散を捉えるために単純な測定値を用いることで、95%以上の幻覚を世代ごとに除去し、96%の非支持サンプルを保持できる。
本研究は,MNISTおよび2次元ガウスデータセットを用いた合成データに対する再帰的トレーニングの崩壊(および安定化)に対する幻覚(とその除去)の影響を示すことにより,本研究を結論付けている。
コードをhttps://github.com/locuslab/diffusion-model-hallucinationでリリースしています。
Colloquially speaking, image generation models based upon diffusion processes are frequently said to exhibit "hallucinations," samples that could never occur in the training data. But where do such hallucinations come from? In this paper, we study a particular failure mode in diffusion models, which we term mode interpolation. Specifically, we find that diffusion models smoothly "interpolate" between nearby data modes in the training set, to generate samples that are completely outside the support of the original training distribution; this phenomenon leads diffusion models to generate artifacts that never existed in real data (i.e., hallucinations). We systematically study the reasons for, and the manifestation of this phenomenon. Through experiments on 1D and 2D Gaussians, we show how a discontinuous loss landscape in the diffusion model's decoder leads to a region where any smooth approximation will cause such hallucinations. Through experiments on artificial datasets with various shapes, we show how hallucination leads to the generation of combinations of shapes that never existed. Finally, we show that diffusion models in fact know when they go out of support and hallucinate. This is captured by the high variance in the trajectory of the generated sample towards the final few backward sampling process. Using a simple metric to capture this variance, we can remove over 95% of hallucinations at generation time while retaining 96% of in-support samples. We conclude our exploration by showing the implications of such hallucination (and its removal) on the collapse (and stabilization) of recursive training on synthetic data with experiments on MNIST and 2D Gaussians dataset. We release our code at https://github.com/locuslab/diffusion-model-hallucination. | 翻訳日:2024-08-27 23:07:37 公開日:2024-08-25 |
# マルチボディーブロッホ振動による量子増強感度
Quantum Enhanced Sensitivity through Many-Body Bloch Oscillations ( http://arxiv.org/abs/2406.13921v2 ) ライセンス: Link先を確認 | Hassan Manshouri, Moslem Zarei, Mehdi Abdi, Sougato Bose, Abolfazl Bayat, | (参考訳) ブロッホ振動を示す量子系における非平衡力学の知覚能力について検討する。
量子フィッシャー情報によって定量化されたプローブの資源効率に焦点をあてることで、2つの異なる位相、すなわち局所化と拡張のスケーリングの挙動が分かる。
この結果は、時間、プローブサイズ、励起数の観点から量子フィッシャー情報に対する定量的アンサッツを提供する。
長年の状況では、量子フィッシャー情報は時間の二次関数であり、ハイゼンベルク極限に触れる。
システムサイズのスケーリングは、拡張フェーズにおけるスーパーハイゼンベルクスケーリングから、ローカライズフェーズにおけるサイズ非依存の挙動に大きく依存する。
さらに、励起数の増大はプローブの精度を常に向上させるが、相互作用系では非相互作用型プローブよりも増大が顕著になる。
これは励起間の相互作用を増大させることによって誘導的な局在化が原因である。
We investigate the sensing capacity of non-equilibrium dynamics in quantum systems exhibiting Bloch oscillations. By focusing on the resource efficiency of the probe, quantified by quantum Fisher information, we find different scaling behaviors in two different phases, namely localized and extended. Our results provide a quantitative ansatz for quantum Fisher information in terms of time, probe size, and the number of excitations. In the long-time regime, the quantum Fisher information is a quadratic function of time, touching the Heisenberg limit. The system size scaling drastically depends on the phase changing from super-Heisenberg scaling in the extended phase to size-independent behavior in the localized phase. Furthermore, increasing the number of excitations always enhances the precision of the probe, although, in the interacting systems the enhancement becomes less eminent than the non-interacting probes. This is due to the induced localization by increasing the interaction between the excitations. | 翻訳日:2024-08-27 23:07:37 公開日:2024-08-25 |
# 超音速OT:高速非条件でセキュアな光伝送
Supersonic OT: Fast Unconditionally Secure Oblivious Transfer ( http://arxiv.org/abs/2406.15529v2 ) ライセンス: Link先を確認 | Aydin Abadi, Yvo Desmedt, | (参考訳) Oblivious Transfer (OT) は、セキュアなマルチパーティ計算、フェデレートラーニング、プライベート・セット・インターセクションに応用された基本的な暗号プロトコルである。
量子コンピューティングの出現により、OTのような無条件でセキュアなコアプリミティブを開発し、後量子時代のセキュリティを維持することが不可欠である。
OTの導入から40年以上もの間、文献は主として計算上の仮定に依存してきたが、ノイズチャネルや完全に信頼された党のような非伝統的な方法を使う場合を除いては例外である。
公開鍵ベースのプリミティブを回避する高効率かつ無条件でセキュアなOTスキームである"Supersonic OT"を導入し、従来のアプローチに代わる方法を提案する。
超音速OTは受信機がO(1)の応答を得ることを可能にする。
そのシンプルな(非自明な)設計は、簡単にセキュリティ分析と実装を容易にする。
このプロトコルには、基本的な秘密共有スキーム、コントロールされたスワップ、ワンタイムパッド、そして半正直な敵によって破壊される可能性があるサードパーティのヘルパーが使用されている。
我々の実装と実行時分析は、Supersonic OTの単一インスタンスが0.35ミリ秒で完了し、最先端のOTよりも2000倍高速であることを示している。
Oblivious Transfer (OT) is a fundamental cryptographic protocol with applications in secure Multi-Party Computation, Federated Learning, and Private Set Intersection. With the advent of quantum computing, it is crucial to develop unconditionally secure core primitives like OT to ensure their continued security in the post-quantum era. Despite over four decades since OT's introduction, the literature has predominantly relied on computational assumptions, except in cases using unconventional methods like noisy channels or a fully trusted party. Introducing "Supersonic OT", a highly efficient and unconditionally secure OT scheme that avoids public-key-based primitives, we offer an alternative to traditional approaches. Supersonic OT enables a receiver to obtain a response of size O(1). Its simple (yet non-trivial) design facilitates easy security analysis and implementation. The protocol employs a basic secret-sharing scheme, controlled swaps, the one-time pad, and a third-party helper who may be corrupted by a semi-honest adversary. Our implementation and runtime analysis indicate that a single instance of Supersonic OT completes in 0.35 milliseconds, making it up to 2000 times faster than the state-of-the-art base OT. | 翻訳日:2024-08-27 22:57:33 公開日:2024-08-25 |
# HyperLoader: シーケンスラベリングのためのマルチタスク変換器にハイパーネットワークベースのLoRAとアダプタ層を統合する
HyperLoader: Integrating Hypernetwork-Based LoRA and Adapter Layers into Multi-Task Transformers for Sequence Labelling ( http://arxiv.org/abs/2407.01411v3 ) ライセンス: Link先を確認 | Jesus-German Ortiz-Barajas, Helena Gomez-Adorno, Thamar Solorio, | (参考訳) マルチタスク設定におけるパラメータ効率の異なる微調整手法を組み合わせたシンプルな手法であるHyperLoaderを提案する。
この目的を達成するために、我々のモデルはハイパーネットワークを用いて、タスク、トランスフォーマー層、およびこの層内のその位置に基づいて、これらのモジュールの重みを生成する。
提案手法は,タスク固有の知識を生成重みにカプセル化することでタスクの干渉問題を低減しつつ,タスクの構造を把握し,マルチタスク学習の利点と,パラメータ効率の異なる手法を組み合わせることで,全タスクのチューニング性能を向上する利点を組み合わせたものである。
我々は、HyperLoaderが、ほとんどのデータセットで以前のアプローチより優れており、高リソースおよび低リソースのシナリオにおけるタスク間での最高の平均パフォーマンスが得られるという実証的な証拠を提供する。
We present HyperLoader, a simple approach that combines different parameter-efficient fine-tuning methods in a multi-task setting. To achieve this goal, our model uses a hypernetwork to generate the weights of these modules based on the task, the transformer layer, and its position within this layer. Our method combines the benefits of multi-task learning by capturing the structure of all tasks while reducing the task interference problem by encapsulating the task-specific knowledge in the generated weights and the benefits of combining different parameter-efficient methods to outperform full-fine tuning. We provide empirical evidence that HyperLoader outperforms previous approaches in most datasets and obtains the best average performance across tasks in high-resource and low-resource scenarios. | 翻訳日:2024-08-27 22:57:33 公開日:2024-08-25 |
# Dual-Level Adaptive Lossy Compressionを用いたDeep Learning Recommendation Modelトレーニングにおけるコミュニケーションの高速化
Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression ( http://arxiv.org/abs/2407.04272v4 ) ライセンス: Link先を確認 | Hao Feng, Boyuan Zhang, Fanjiang Ye, Min Si, Ching-Hsiang Chu, Jiannan Tian, Chunxing Yin, Summer Deng, Yuchen Hao, Pavan Balaji, Tong Geng, Dingwen Tao, | (参考訳) DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。
しかし、DLRMモデルの大きなサイズは、効率的なトレーニングのために複数のデバイス/GPUを使用する必要がある。
このプロセスにおける重要なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。
これを軽減するため,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
本研究では,埋込データの特徴を詳細に解析し,高い圧縮率を達成するために,新しい誤り結合型損失圧縮アルゴリズムを開発した。
さらに、テーブルワイドとイテレーションワイドの両方にまたがる、エラーバウンド調整のための二重レベル適応戦略を導入し、圧縮の利点と精度への影響をバランスさせる。
さらに、GPU上のPyTorchテンソルの圧縮機を最適化し、圧縮オーバーヘッドを最小限にする。
評価の結果,本手法は最小限の精度で1.38$\times$トレーニングスピードアップを達成した。
DLRM is a state-of-the-art recommendation system model that has gained widespread adoption across various industry applications. The large size of DLRM models, however, necessitates the use of multiple devices/GPUs for efficient training. A significant bottleneck in this process is the time-consuming all-to-all communication required to collect embedding data from all devices. To mitigate this, we introduce a method that employs error-bounded lossy compression to reduce the communication data size and accelerate DLRM training. We develop a novel error-bounded lossy compression algorithm, informed by an in-depth analysis of embedding data features, to achieve high compression ratios. Moreover, we introduce a dual-level adaptive strategy for error-bound adjustment, spanning both table-wise and iteration-wise aspects, to balance the compression benefits with the potential impacts on accuracy. We further optimize our compressor for PyTorch tensors on GPUs, minimizing compression overhead. Evaluation shows that our method achieves a 1.38$\times$ training speedup with a minimal accuracy impact. | 翻訳日:2024-08-27 22:57:33 公開日:2024-08-25 |
# RAPiD-Seg:3次元LiDARセグメンテーションのための距離対応ポイントワイド距離分散ネットワーク
RAPiD-Seg: Range-Aware Pointwise Distance Distribution Networks for 3D LiDAR Segmentation ( http://arxiv.org/abs/2407.10159v2 ) ライセンス: Link先を確認 | Li Li, Hubert P. H. Shum, Toby P. Breckon, | (参考訳) 3Dポイント雲は、特に自律運転の文脈において、屋外のシーン知覚において重要な役割を果たす。
3次元LiDARセグメンテーションの最近の進歩は、しばしば正確なセグメンテーションのための点の位置と分布に重点を置いている。
しかし、これらの手法は変動条件では頑健であるが、座標と点強度にのみ依存しているため、等尺的不変性や準最適セグメンテーションに乏しい。
この課題に対処するために、Range-Aware Pointwise Distance Distribution(RAPiD)機能と関連するRAPiD-Segアーキテクチャを導入している。
RAPiDの特徴は剛性変換不変性を示し, 点密度の変動に効果的に適用できる。
固有なLiDAR等方性放射とセマンティック分類を利用して局所表現と計算効率を向上し、幾何学的および表面の反射率を統合した4次元距離メートル法を取り入れ、セマンティックセグメンテーションを改善した。
高次元RAPiD特徴を効果的に埋め込むために,高次元特徴を管理可能なボクセルワイド埋め込みにエンコードする新しいクラス認識埋め込み目的を持つ2次元オートエンコーダ構造を提案する。
さらに,チャネルワイドアテンション融合と2つの効果的なRAPiD-Segバリアントを組み込んだRAPiD-Segを提案する。
提案手法は,SemanticKITTI (76.1) とnuScenes (83.6) データセットのmIoUを用いて,現代のLiDARセグメンテーション作業より優れている。
3D point clouds play a pivotal role in outdoor scene perception, especially in the context of autonomous driving. Recent advancements in 3D LiDAR segmentation often focus intensely on the spatial positioning and distribution of points for accurate segmentation. However, these methods, while robust in variable conditions, encounter challenges due to sole reliance on coordinates and point intensity, leading to poor isometric invariance and suboptimal segmentation. To tackle this challenge, our work introduces Range-Aware Pointwise Distance Distribution (RAPiD) features and the associated RAPiD-Seg architecture. Our RAPiD features exhibit rigid transformation invariance and effectively adapt to variations in point density, with a design focus on capturing the localized geometry of neighboring structures. They utilize inherent LiDAR isotropic radiation and semantic categorization for enhanced local representation and computational efficiency, while incorporating a 4D distance metric that integrates geometric and surface material reflectivity for improved semantic segmentation. To effectively embed high-dimensional RAPiD features, we propose a double-nested autoencoder structure with a novel class-aware embedding objective to encode high-dimensional features into manageable voxel-wise embeddings. Additionally, we propose RAPiD-Seg which incorporates a channel-wise attention fusion and two effective RAPiD-Seg variants, further optimizing the embedding for enhanced performance and generalization. Our method outperforms contemporary LiDAR segmentation work in terms of mIoU on SemanticKITTI (76.1) and nuScenes (83.6) datasets. | 翻訳日:2024-08-27 22:47:47 公開日:2024-08-25 |
# あらゆるモダリティの価値を集中する:効率的かつ弾力的なモダリティ非依存セマンティックセマンティックセマンティックセグメンテーションを目指して
Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation ( http://arxiv.org/abs/2407.11344v2 ) ライセンス: Link先を確認 | Xu Zheng, Yuanhuiyi Lyu, Jiazhou Zhou, Lin Wang, | (参考訳) 任意の数のモダリティを融合させることは、セマンティックセグメンテーションの堅牢なマルチモーダル融合を実現する上で不可欠である。
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。
しかし、RGBのモダリティは特定の状況、例えば夜間、他の状況、例えばイベントデータ、それらのメリットを所有する状況で苦労する可能性があるため、融合モデルが堅牢で脆弱なモダリティを識別し、回復力のあるマルチモーダルフレームワークを学ぶために最も堅牢で脆弱なモダリティを組み込むのは必須である。
そこで本研究では,コンパクトモデルから高性能モデルに至るまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。
本手法は2つの重要なプラグアンドプレイモジュールから構成される。
まず,マルチモーダルバッチの特徴を効率的に処理し,補完的なシーン情報を抽出する多モーダルアグリゲーションモジュールを提案する。
さらに、類似度スコアに基づいて、複数のモーダル特徴をランク付けするベンチマークとして、集約された特徴を利用するために、統一された任意のモーダル選択モジュールを提案する。
このようにして、RGBのモダリティへの依存を排除し、セグメンテーション性能を確保しつつ、センサの故障を克服することができる。
一般に検討されているマルチモーダル設定では,モデルパラメータを60%削減しつつ,最先端の性能を実現する。
さらに,本手法は,<19.41% mIoU>の大きなマージンで先行芸術を上回り,モダリティに依存しない新しい環境において優れている。
Fusing an arbitrary number of modalities is vital for achieving robust multi-modal fusion of semantic segmentation yet remains less explored to date. Recent endeavors regard RGB modality as the center and the others as the auxiliary, yielding an asymmetric architecture with two branches. However, the RGB modality may struggle in certain circumstances, e.g., nighttime, while others, e.g., event data, own their merits; thus, it is imperative for the fusion model to discern robust and fragile modalities, and incorporate the most robust and fragile ones to learn a resilient multi-modal framework. To this end, we propose a novel method, named MAGIC, that can be flexibly paired with various backbones, ranging from compact to high-performance models. Our method comprises two key plug-and-play modules. Firstly, we introduce a multi-modal aggregation module to efficiently process features from multi-modal batches and extract complementary scene information. On top, a unified arbitrary-modal selection module is proposed to utilize the aggregated features as the benchmark to rank the multi-modal features based on the similarity scores. This way, our method can eliminate the dependence on RGB modality and better overcome sensor failures while ensuring the segmentation performance. Under the commonly considered multi-modal setting, our method achieves state-of-the-art performance while reducing the model parameters by 60%. Moreover, our method is superior in the novel modality-agnostic setting, where it outperforms prior arts by a large margin of +19.41% mIoU | 翻訳日:2024-08-27 22:47:47 公開日:2024-08-25 |
# Qudit non-Clifford interleaved benchmarking
Qudit non-Clifford interleaved benchmarking ( http://arxiv.org/abs/2407.14963v2 ) ライセンス: Link先を確認 | David Amaro-Alcalá, Barry C. Sanders, Hubert de Guise, | (参考訳) クリフォードゲートの集合とは異なる雑音を持つクーディットTゲートを特徴付けるスキームを導入する。
我々は表現論と環論を通じて、非クリフォードインターリーブ付きベンチマークをキューディシステムに一般化する手法を開発した。
qubitの場合に制限を加えることにより、二面体ベンチマークスキームを復元する。
提案手法は,完全キュートライブラリのキャラクタリゼーションを提供することにより,普遍的なキュートゲートセットのキャラクタリゼーションとランダム化ベンチマーク研究の進展を実現するための実用的手法である。
We introduce a scheme to characterise a qudit T gate that has different noise than a set of Clifford gates. We developed our scheme through representation theory and ring theory to generalise non-Clifford interleaved benchmarking to qudit systems. By restricting to the qubit case, we recover the dihedral benchmarking scheme. Our characterisation scheme provides experimental physicists a practical method for characterising universal qudit gate sets and advances randomised benchmarking research by providing the characterisation of a complete qudit library. | 翻訳日:2024-08-27 22:47:47 公開日:2024-08-25 |
# DiffX: クロスモーダルな生成モデルにレイアウトをガイドする
DiffX: Guide Your Layout to Cross-Modal Generative Modeling ( http://arxiv.org/abs/2407.15488v4 ) ライセンス: Link先を確認 | Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Qu Yang, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang, | (参考訳) 拡散モデルは言語駆動とレイアウト駆動の画像生成において大きな進歩を遂げている。
しかし、ほとんどの拡散モデルは可視RGB画像生成に限られている。
実際、世界の人間の知覚は、色調コントラスト、熱照明、深度情報といった様々な視点によって豊かになっている。
本稿では,DiffXと呼ばれる一般レイアウト誘導型クロスモーダル生成のための新しい拡散モデルを提案する。
特に、我々のDiffXは、モダリティ共有潜在空間における拡散および偏極過程を実行する、単純で効果的なクロスモーダル生成モデリングパイプラインを提示する。
さらに,JME(Joint-Modality Embedder)を導入し,アテンション機構を組み込むことで,レイアウトとテキスト条件の相互作用を強化する。
ユーザによる学習を容易にするために,LMM(Large-Multimodal Model)による詳細なテキストキャプションと,ループ内改良による画像データセットを構築した。
我々のDiffXは、広範囲にわたる実験を通じて、FLIR、MFNet、COME15Kデータセット上のクロスモーダルな'RGB+X'画像生成において、様々なレイアウト条件でガイドされる堅牢性を示す。
また、COME15KおよびMCXFaceデータセット上で'RGB+X+Y(+Z)'画像やより多様なモダリティを適応的に生成する可能性も示している。
私たちのコードとクロスモーダルなイメージデータセットはhttps://github.com/zeyuwang-zju/DiffX.comで公開されています。
Diffusion models have made significant strides in language-driven and layout-driven image generation. However, most diffusion models are limited to visible RGB image generation. In fact, human perception of the world is enriched by diverse viewpoints, such as chromatic contrast, thermal illumination, and depth information. In this paper, we introduce a novel diffusion model for general layout-guided cross-modal generation, called DiffX. Notably, our DiffX presents a simple yet effective cross-modal generative modeling pipeline, which conducts diffusion and denoising processes in the modality-shared latent space. Moreover, we introduce the Joint-Modality Embedder (JME) to enhance the interaction between layout and text conditions by incorporating a gated attention mechanism. To facilitate the user-instructed training, we construct the cross-modal image datasets with detailed text captions by the Large-Multimodal Model (LMM) and our human-in-the-loop refinement. Through extensive experiments, our DiffX demonstrates robustness in cross-modal ''RGB+X'' image generation on FLIR, MFNet, and COME15K datasets, guided by various layout conditions. It also shows the potential for the adaptive generation of ''RGB+X+Y(+Z)'' images or more diverse modalities on COME15K and MCXFace datasets. Our code and constructed cross-modal image datasets are available at https://github.com/zeyuwang-zju/DiffX. | 翻訳日:2024-08-27 20:50:26 公開日:2024-08-25 |
# 深層学習を用いた皮膚癌検出:視覚変換器を用いた皮膚病変画像の分類
Skin Cancer Detection utilizing Deep Learning: Classification of Skin Lesion Images using a Vision Transformer ( http://arxiv.org/abs/2407.18554v2 ) ライセンス: Link先を確認 | Carolin Flosdorf, Justin Engelker, Igor Keller, Nicolas Mohr, | (参考訳) 皮膚がん検出は依然として医療における大きな課題である。
一般的な検出方法は長く、多くの国で不足している人的援助を必要とする。
これまでの研究では、畳み込みニューラルネットワーク(CNN)が、自動化と人間のレベルに匹敵する精度の両方を効果的に活用する方法が示されている。
しかし、過去数十年の進歩にもかかわらず、精度は依然として限られており、人々の健康に深刻な影響を及ぼす重大な誤分類につながっている。
そこで我々は,近年開発されているビジョントランスフォーマー(ViT)を,自己注意機構,特に事前学習したViTの2つの構成に基づいて採用している。
判定木分類器やk-nearest neighbor(KNN)分類器,CNNやより複雑なVTと比較し,皮膚病変の分類に優れた指標が得られた。
特に,最も致命的な皮膚癌であるメラノーマの悪性度に重きを置いている。
ViT-L32モデルは91.57%、メラノーマリコールは58.54%、ViT-L16は92.79%、メラノーマリコールは56.10%である。
これは、より迅速で正確な診断のための潜在的なツールと、医療セクター全体の改善を提供する。
Skin cancer detection still represents a major challenge in healthcare. Common detection methods can be lengthy and require human assistance which falls short in many countries. Previous research demonstrates how convolutional neural networks (CNNs) can help effectively through both automation and an accuracy that is comparable to the human level. However, despite the progress in previous decades, the precision is still limited, leading to substantial misclassifications that have a serious impact on people's health. Hence, we employ a Vision Transformer (ViT) that has been developed in recent years based on the idea of a self-attention mechanism, specifically two configurations of a pre-trained ViT. We generally find superior metrics for classifying skin lesions after comparing them to base models such as decision tree classifier and k-nearest neighbor (KNN) classifier, as well as to CNNs and less complex ViTs. In particular, we attach greater importance to the performance of melanoma, which is the most lethal type of skin cancer. The ViT-L32 model achieves an accuracy of 91.57% and a melanoma recall of 58.54%, while ViT-L16 achieves an accuracy of 92.79% and a melanoma recall of 56.10%. This offers a potential tool for faster and more accurate diagnoses and an overall improvement for the healthcare sector. | 翻訳日:2024-08-27 20:50:26 公開日:2024-08-25 |
# AIによるエネルギーアルゴリズム取引:隠れマルコフモデルとニューラルネットワークの統合
AI-Powered Energy Algorithmic Trading: Integrating Hidden Markov Models with Neural Networks ( http://arxiv.org/abs/2407.19858v5 ) ライセンス: Link先を確認 | Tiago Monteiro, | (参考訳) 定量的ファイナンスにおいては、機械学習手法はアルファ生成に不可欠である。
本研究では,HMM(Hidden Markov Models)とニューラルネットワークを組み合わせた新たなアプローチを提案する。
新型コロナウイルス(2019-2022)の期間、この二重モデルアプローチはシャープ比0.77で83%のリターンを達成した。
リスク管理を強化するために2つのリスクモデルが組み込まれており、揮発性の期間に効率性を示す。
この方法論は、堅牢なフレームワークと実験的な再現性のために選択されたQuantConnectプラットフォーム上で実装された。
将来の価格変動を予測するこのシステムは、適切なアルゴリズム機能を保証するために3年間のウォームアップを含む。
ブローカーの支払いも検討しながら、安定的で予測可能なパフォーマンスを確保するため、高流動で大容量のエネルギー株をターゲットにしている。
デュアルモデルアルファシステムは、ログリターンを使用して、過去のパフォーマンスに基づいて最適な状態を選択する。
状態予測と過去のデータに基づくニューラルネットワーク出力を組み合わせて、トレーディング信号を生成する。
本研究では,トレーディングシステムのアーキテクチャ,データ前処理,トレーニング,パフォーマンスについて検討した。
完全なコードとバックテストデータはQuantConnectの条項で利用可能だ。
In quantitative finance, machine learning methods are essential for alpha generation. This study introduces a new approach that combines Hidden Markov Models (HMM) and neural networks, integrated with Black-Litterman portfolio optimization. During the COVID period (2019-2022), this dual-model approach achieved a 83% return with a Sharpe ratio of 0.77. It incorporates two risk models to enhance risk management, showing efficiency during volatile periods. The methodology was implemented on the QuantConnect platform, which was chosen for its robust framework and experimental reproducibility. The system, which predicts future price movements, includes a three-year warm-up to ensure proper algorithm function. It targets highly liquid, large-cap energy stocks to ensure stable and predictable performance while also considering broker payments. The dual-model alpha system utilizes log returns to select the optimal state based on the historical performance. It combines state predictions with neural network outputs, which are based on historical data, to generate trading signals. This study examined the architecture of the trading system, data pre-processing, training, and performance. The full code and backtesting data are available under the QuantConnect terms. | 翻訳日:2024-08-27 20:50:26 公開日:2024-08-25 |
# 状態空間変換による効率的なシールド合成
Efficient Shield Synthesis via State-Space Transformation ( http://arxiv.org/abs/2407.19911v2 ) ライセンス: Link先を確認 | Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Kim Guldstrand Larsen, Christian Schilling, | (参考訳) 制御システムの安全戦略を合成する問題、いわゆるシールドについて考察する。
状態空間は無限であるため、シールドは通常有限状態抽象上で計算され、最も一般的な抽象化は矩形格子である。
しかし、多くのシステムでは、そのようなグリッドは安全性やシステムのダイナミクスとうまく一致しない。
そのため、粗いグリッドはめったに十分ではないが、細いグリッドは一般に計算では得られない。
本稿では,計算オーバーヘッドのほとんどない粗いグリッドでも,適切な状態空間変換が可能であることを示す。
3つのケーススタディにおいて、変換に基づく合成は、数桁の精度で標準合成より優れていることを示す。
最初の2つのケーススタディでは、適切な変換を選択するためにドメイン知識を使用します。
第3のケーススタディでは、ドメイン知識のないトランスフォーメーションのエンジニアリング結果について報告します。
We consider the problem of synthesizing safety strategies for control systems, also known as shields. Since the state space is infinite, shields are typically computed over a finite-state abstraction, with the most common abstraction being a rectangular grid. However, for many systems, such a grid does not align well with the safety property or the system dynamics. That is why a coarse grid is rarely sufficient, but a fine grid is typically computationally infeasible to obtain. In this paper, we show that appropriate state-space transformations can still allow to use a coarse grid at almost no computational overhead. We demonstrate in three case studies that our transformation-based synthesis outperforms a standard synthesis by several orders of magnitude. In the first two case studies, we use domain knowledge to select a suitable transformation. In the third case study, we instead report on results in engineering a transformation without domain knowledge. | 翻訳日:2024-08-27 20:50:26 公開日:2024-08-25 |
# Bayesian Low-Rank LeArning (Bella): Bayesian Neural Networksへの実践的アプローチ
Bayesian Low-Rank LeArning (Bella): A Practical Approach to Bayesian Neural Networks ( http://arxiv.org/abs/2407.20891v2 ) ライセンス: Link先を確認 | Bao Gia Doan, Afshar Shamsi, Xiao-Yu Guo, Arash Mohammadi, Hamid Alinejad-Rokny, Dino Sejdinovic, Damith C. Ranasinghe, Ehsan Abbasnejad, | (参考訳) ベイズ学習の計算複雑性は、その実践的で大規模なタスクへの採用を妨げる。
強靭さや弾力性の改善といった重要なメリットのデモンストレーションや、非バイエルン人に対して見つからない、あるいは配布外入力のデモにもかかわらず、その実用性はほとんど重要ではなくなった。
本研究では,ベイズニューラルネットワーク(BNN)の計算負担を軽減するための革新的な枠組みを提案する。
提案手法は,ディープアンサンブルに基づくベイズ的手法の原理に従っているが,事前学習されたニューラルネットワークから生じるパラメータの低ランク摂動により,コストを大幅に削減する。
バニラ版のアンサンブルと、大型モデルでは非現実的と考えられていたBayesian Learning with Stein Variational Gradient Descent (SVGD)のようなより洗練されたスキームは、Bayesian Low-Rank LeArning (Bella)と呼ばれる提案されたフレームワーク内でシームレスに実装できる。
ひと言で言えば、。
一 ベラは、ベイズ後部を近似するために必要な訓練可能なパラメータの数を劇的に減らし、及び
二 従来のベイズ学習法及び非ベイズ学習法の性能を上回り、維持するだけでなく、場合によっては非ベイズ学習法を上回ります。
我々は,ImageNet, CAMELYON17, DomainNet, VQA with CLIP, LLaVAなどの大規模タスクを用いて, スケーラブルで実用的なベイズ的深層モデルの構築において, Bellaの有効性と汎用性を実証した。
Computational complexity of Bayesian learning is impeding its adoption in practical, large-scale tasks. Despite demonstrations of significant merits such as improved robustness and resilience to unseen or out-of-distribution inputs over their non- Bayesian counterparts, their practical use has faded to near insignificance. In this study, we introduce an innovative framework to mitigate the computational burden of Bayesian neural networks (BNNs). Our approach follows the principle of Bayesian techniques based on deep ensembles, but significantly reduces their cost via multiple low-rank perturbations of parameters arising from a pre-trained neural network. Both vanilla version of ensembles as well as more sophisticated schemes such as Bayesian learning with Stein Variational Gradient Descent (SVGD), previously deemed impractical for large models, can be seamlessly implemented within the proposed framework, called Bayesian Low-Rank LeArning (Bella). In a nutshell, i) Bella achieves a dramatic reduction in the number of trainable parameters required to approximate a Bayesian posterior; and ii) it not only maintains, but in some instances, surpasses the performance of conventional Bayesian learning methods and non-Bayesian baselines. Our results with large-scale tasks such as ImageNet, CAMELYON17, DomainNet, VQA with CLIP, LLaVA demonstrate the effectiveness and versatility of Bella in building highly scalable and practical Bayesian deep models for real-world applications. | 翻訳日:2024-08-27 20:50:26 公開日:2024-08-25 |
# MotionCraft: プラグイン・アンド・プレイのマルチモーダル制御による全身動作の製作
MotionCraft: Crafting Whole-Body Motion with Plug-and-Play Multimodal Controls ( http://arxiv.org/abs/2407.21136v3 ) ライセンス: Link先を確認 | Yuxuan Bian, Ailing Zeng, Xuan Ju, Xian Liu, Zhaoyang Zhang, Wei Liu, Qiang Xu, | (参考訳) テキスト、音声、音楽によって制御される全身のマルチモーダルモーション生成は、ビデオ生成やキャラクターアニメーションを含む多くの応用がある。
しかし、異なる条件で様々な生成タスクを達成するために統一されたモデルを用いることで、異なるタスク(例えば、共同音声ジェスチャーやテキスト駆動の日々の行動)にわたる動き分布のドリフトと、様々な粒度の混合条件(例えば、テキストや音声)の複雑な最適化の2つの主な課題が提示される。
さらに、異なるタスクやデータセットにわたる一貫性のないモーションフォーマットは、マルチモーダルモーション生成に対する効果的なトレーニングを妨げる。
本稿では,プラグイン・アンド・プレイマルチモーダル制御による全身動作を実現する統合拡散トランスフォーマであるMotionCraftを提案する。
本フレームワークでは,テキスト・ツー・モーション・セマンティック・プレトレーニングの第1段階から始まり,さまざまな粒度の条件に対処するマルチモーダル・ローレベル・コントロール・アダプティブの第2段階まで,粗大な訓練戦略を採用している。
そこで我々は,静的および動的トポロジーグラフの並列モデリングのためのMC-Attnを設計した。
既存のベンチマークの動作フォーマットの不整合を克服するため,SMPL-Xフォーマットを統一したマルチモーダル全体の動作生成ベンチマークであるMC-Benchを導入する。
大規模な実験により、MotionCraftは様々な標準モーション生成タスクで最先端のパフォーマンスを達成することが示された。
Whole-body multimodal motion generation, controlled by text, speech, or music, has numerous applications including video generation and character animation. However, employing a unified model to achieve various generation tasks with different condition modalities presents two main challenges: motion distribution drifts across different tasks (e.g., co-speech gestures and text-driven daily actions) and the complex optimization of mixed conditions with varying granularities (e.g., text and audio). Additionally, inconsistent motion formats across different tasks and datasets hinder effective training toward multimodal motion generation. In this paper, we propose MotionCraft, a unified diffusion transformer that crafts whole-body motion with plug-and-play multimodal control. Our framework employs a coarse-to-fine training strategy, starting with the first stage of text-to-motion semantic pre-training, followed by the second stage of multimodal low-level control adaptation to handle conditions of varying granularities. To effectively learn and transfer motion knowledge across different distributions, we design MC-Attn for parallel modeling of static and dynamic human topology graphs. To overcome the motion format inconsistency of existing benchmarks, we introduce MC-Bench, the first available multimodal whole-body motion generation benchmark based on the unified SMPL-X format. Extensive experiments show that MotionCraft achieves state-of-the-art performance on various standard motion generation tasks. | 翻訳日:2024-08-27 20:50:26 公開日:2024-08-25 |
# Adelie:DAGベースのコンセンサスプロトコルにおけるビザンチン行動の検出と防止
Adelie: Detection and prevention of Byzantine behaviour in DAG-based consensus protocols ( http://arxiv.org/abs/2408.02000v2 ) ライセンス: Link先を確認 | Andrey Chursin, | (参考訳) 近年のビザンチンフォールトトレラントコンセンサスプロトコルの発展により、DAGベースのプロトコルは非常に有望な技術であることが示されている。
Narwhal/BullsharkのようなDAGベースのプロトコルの初期実装は低レイテンシで高いスループットを保っているが、MysticetiやShoal++のようなDAGベースのプロトコルの最新バージョンは、実際にはHotStuffのような従来のコンセンサスプロトコルと同等のレイテンシをDAGベースのコンセンサスプロトコルで達成でき、高いスループットを維持していることを示している。
Mysticetiは、認証されていないDAGを使用する新しいアプローチを実装することで、特に低レイテンシを実現している。
しかし、認証されていないDAGは、認証されたDAGプロトコルに存在しないビザンツのバリデータによる攻撃の新たなベクターにシステムを公開する。
本稿では,これらの問題を記述し,未認証DAGで発生する問題に対処するAdelieプロトコルを提案する。
さらに、Shoal++のテクニックを取り入れて、レイテンシをさらに削減しています。
本稿では,最大TPSおよび低レイテンシにおける新たなブレークスルーを示す,Adelieプロトコル-bftdの実装について述べる。
Recent developments in the Byzantine Fault Tolerant consensus protocols have shown the DAG-based protocols to be a very promising technique. While early implementations of DAG-based protocols such as Narwhal/Bullshark trade high throughput for a low latency, the latest versions of DAG-based protocols such as Mysticeti and Shoal++ show that indeed a latency comparable to that of traditional consensus protocols such as HotStuff can be achieve with the DAG-based consensus protocols while still maintaining high throughput. Mysticeti in particular achieves a low latency by implementing a novel approach of using an uncertified DAG - a significant breakthrough comparing to the certified DAG used in the previous generations of the protocol. However, the uncertified DAG exposes the system to new vectors of attacks by Byzantine validators that did not exist in the certified DAG protocols. In this paper we describe those issues and present the Adelie protocol, that addresses issues that comes with an uncertified DAG. We also incorporate some of the techniques from the Shoal++ to reduce latency even further. This paper also presents an implementation of Adelie protocol - bftd that demonstrates yet another breakthrough in the maximum achieved TPS and low latency. | 翻訳日:2024-08-27 20:40:24 公開日:2024-08-25 |
# グラフニューラルネットワークのエッジ不確かさと過度なスムーシングを理解する
Better Not to Propagate: Understanding Edge Uncertainty and Over-smoothing in Signed Graph Neural Networks ( http://arxiv.org/abs/2408.04895v2 ) ライセンス: Link先を確認 | Yoonhyuk Choi, Jiho Choi, Taewook Ko, Chong-Kwon Kim, | (参考訳) 従来のグラフニューラルネットワーク(GNN)はネットワークホモフィリーに依存しており、多くの実世界のヘテロフィリーシナリオで過度にスムーズな処理によってパフォーマンスが低下する可能性がある。
近年の研究では、ノードの特徴の期待に応じて、メッセージパッシング(MP)後の平滑化効果(分離性)を分析している。
分離性向上については, 肯定的, 署名的, ブロックされたMPなど, 様々な伝搬スキームによって引き起こされる過平滑化に関する理論的背景を提供した。
最近では、これらの定理を拡張することで、複数のクラスの下で符号付き伝播を改善することを提案している研究もある。
しかしながら、先行研究では、全ての伝搬スキームの誤差比が固定されており、この現象を正しく調べることができないと仮定している。
そこで本研究では,学習中のブロックと署名された伝搬の動的選択と一体化して,ホモフィリーとエッジの誤差比を推定する手法を提案する。
我々の理論解析は,MPブロックが高エッジ誤差比での符号付き伝搬よりも効果的であることを示し,ホモ親和性グラフとヘテロ親和性グラフの両方の性能向上を図っている。
Traditional Graph Neural Networks (GNNs) rely on network homophily, which can lead to performance degradation due to over-smoothing in many real-world heterophily scenarios. Recent studies analyze the smoothing effect (separability) after message-passing (MP), depending on the expectation of node features. Regarding separability gain, they provided theoretical backgrounds on over-smoothing caused by various propagation schemes, including positive, signed, and blocked MPs. More recently, by extending these theorems, some works have suggested improvements in signed propagation under multiple classes. However, prior works assume that the error ratio of all propagation schemes is fixed, failing to investigate this phenomenon correctly. To solve this problem, we propose a novel method for estimating homophily and edge error ratio, integrated with dynamic selection between blocked and signed propagation during training. Our theoretical analysis, supported by extensive experiments, demonstrates that blocking MP can be more effective than signed propagation under high edge error ratios, improving the performance in both homophilic and heterophilic graphs. | 翻訳日:2024-08-27 20:40:24 公開日:2024-08-25 |
# ソースフリーブレンディングターゲットドメイン適応のための証拠グラフコントラストアライメント
Evidential Graph Contrastive Alignment for Source-Free Blending-Target Domain Adaptation ( http://arxiv.org/abs/2408.07527v2 ) ライセンス: Link先を確認 | Juepeng Zheng, Yibin Wen, Jinxiao Zhang, Runmin Dong, Haohuan Fu, | (参考訳) 本稿では、まず、より現実的なドメイン適応(DA: Source-Free Blending-Target Domain Adaptation)に取り組みます。
既存のDAシナリオと比較して、SF-BTDAは一般的に、ソースモデルから生成されるノイズの多いターゲットの擬似ラベルとともに、異なるターゲットにおける異なるラベルシフトの共存に直面します。
本稿では、混合対象ドメインを分離し、ノイズのあるターゲットの擬似ラベルから効果を緩和する、ECA(Evidential Contrastive Alignment)と呼ばれる新しい手法を提案する。
まず,擬似目標ラベルの品質向上のために,得られたモデルの精度と確実性の両方を反復的に改善し,高品質な擬似目標ラベルを適応的に生成するキャリブレーションされた明らかな学習モジュールを提案する。
第2に、混合対象領域における同一クラスのサンプルの分布ギャップを最小限に抑え、混合対象領域における異なるラベルシフトの共存を軽減するために、領域距離行列と信頼不確かさ基準との対比学習を設計する。
3つの標準DAデータセットに基づく新しいベンチマークを実施し、ECAは他のメソッドよりもかなり優れた性能を示し、以前のドメインラベルやソースデータと比較すると、同等の結果を得る。
In this paper, we firstly tackle a more realistic Domain Adaptation (DA) setting: Source-Free Blending-Target Domain Adaptation (SF-BTDA), where we can not access to source domain data while facing mixed multiple target domains without any domain labels in prior. Compared to existing DA scenarios, SF-BTDA generally faces the co-existence of different label shifts in different targets, along with noisy target pseudo labels generated from the source model. In this paper, we propose a new method called Evidential Contrastive Alignment (ECA) to decouple the blending target domain and alleviate the effect from noisy target pseudo labels. First, to improve the quality of pseudo target labels, we propose a calibrated evidential learning module to iteratively improve both the accuracy and certainty of the resulting model and adaptively generate high-quality pseudo target labels. Second, we design a graph contrastive learning with the domain distance matrix and confidence-uncertainty criterion, to minimize the distribution gap of samples of a same class in the blended target domains, which alleviates the co-existence of different label shifts in blended targets. We conduct a new benchmark based on three standard DA datasets and ECA outperforms other methods with considerable gains and achieves comparable results compared with those that have domain labels or source data in prior. | 翻訳日:2024-08-27 20:30:25 公開日:2024-08-25 |
# ガラス状態の2電子量子理論の発見と応用
Discovery and Application of the Two-Electron Quantum Theory of Glass States ( http://arxiv.org/abs/2408.08235v2 ) ライセンス: Link先を確認 | Jia-Lin Wu, | (参考訳) ガラス状態問題は、1電子理論や原子(分子)を独立粒子として記述した失敗に由来する。
2005年、デ・ジェンヌはガラス転移を簡単な言葉で説明する方法として、既存の全てのガラスモデルと接触する分子のクラスターモデルを構築し、互いに接触する平均場ハードスフィア分子(HSM)の画像を洗練することを提案した。
ここでは、z軸に沿った2つのHSMのクラスター接触が、結合した電子対の16z方向界面励起量子状態の逐次出現であり、2つのHSMが突然0.27%重なり、マジック・インターフェースの2次元ベクトルを形成する。
2つの結合した電子軌道は、2つのHSMを16回、マジックインターフェースに16回、平行反発電子対は5.9987{\deg}の間隔で16回、同期的に2つのHSMを16回脱出した。
これは、ガラス状態におけるボソンピークと高温超伝導における電子対の共通起源である。
したがって、2電子理論における電子の集合的挙動はガラス転移と高温超伝導転移を統一することができる。
本論文は, ガラス転移理論の完全論証であるだけでなく, 高温超伝導理論の新たな解釈であり, 室温超伝導材料探索における新たな理論的視点を提供する。
The glass state problem stems from the failure described in terms of one-electron theory or atoms (molecules) as independent particles. In 2005, de Gennes proposed that the way to explain the glass transition in simple terms was to construct the cluster model of molecules in contact with all existing glass models and to refine the picture of the mean-field hard-sphere molecules (HSMs) in contact with each other. In the process of refining this picture, we discovered the two-electron quantum theory derived from the second solution of de Gennes n = 0, where the clustered contact of the two HSMs along the z-axis is the sequential emergence of the 16 z-direction interface excited quantum states of their coupled electron pair, the two HSMs suddenly overlap by 0.27% to form a magic-interface two-dimensional vector. The two coupled electron orbitals synchronously escaped the two HSMs 16 times, tangent to the magic interface 16 times, and 16 parallel repulsive electron pairs with an interval of 5.9987{\deg}, which is a clustered boson interaction between the two HSMs. This is the common origin of boson peaks in the glass state and electron pairing in the high-temperature superconductivity. Therefore, the collective behavior of electrons in the two-electron theory can unify the glass transition and the high-temperature superconducting transition. This paper is not only a complete theoretical statement on glass transition, but also a new interpretation of the theory of high-temperature superconductivity, which provides a new theoretical perspective in the search for room-temperature superconducting materials. | 翻訳日:2024-08-27 20:30:25 公開日:2024-08-25 |
# 予測モデル性能と一般化可能性の文脈におけるクロスモデル神経相関の探索
Exploring Cross-model Neuronal Correlations in the Context of Predicting Model Performance and Generalizability ( http://arxiv.org/abs/2408.08448v2 ) ライセンス: Link先を確認 | Haniyeh Ehsani Oskouie, Lionel Levine, Majid Sarrafzadeh, | (参考訳) 人工知能(AI)モデルが重要なシステムに統合されるにつれて、AIの信頼性を確立するための堅牢なフレームワークの必要性がますます高まっている。
共同作業はそのようなフレームワークの概念的な基盤を確立してきましたが、AIモデルの品質とパフォーマンスを評価する技術的に堅牢な方法を開発する上で、依然として大きなギャップがあります。
モデルの妥当性と一般化性を評価する従来の方法における重大な欠点は、内部の開発者データセットに依存していることだ。
本稿では,ニューラルネットワーク間の相関関係を計算し,他の既知のモデルに基づく新たなトレーニングモデルの性能評価手法を提案する。
提案手法は,1つのネットワーク内の各ニューロンに対して,類似の出力を生成する他のネットワークにニューロンが存在するかどうかを判定することにより相関性を評価する。
このアプローチはメモリ効率に影響を及ぼし、異なるサイズのネットワーク間で高い相関関係が存在する場合、より小さなネットワークを使用することができる。
さらに、本手法はロバスト性に関する洞察を提供し、2つの高相関ネットワークを比較し、本番環境で運用する場合にロバスト性を示すとすると、他方も同様のロバスト性を示す可能性が高いことを示唆している。
このコントリビューションは、責任あるAIのための技術ツールキットを推進し、より包括的でニュアンスなAIモデルの評価をサポートし、安全で効果的なデプロイメントを保証する。
コードはhttps://github.com/aheldis/Cross-model-correlation.gitで公開されている。
As Artificial Intelligence (AI) models are increasingly integrated into critical systems, the need for a robust framework to establish the trustworthiness of AI is increasingly paramount. While collaborative efforts have established conceptual foundations for such a framework, there remains a significant gap in developing concrete, technically robust methods for assessing AI model quality and performance. A critical drawback in the traditional methods for assessing the validity and generalizability of models is their dependence on internal developer datasets, rendering it challenging to independently assess and verify their performance claims. This paper introduces a novel approach for assessing a newly trained model's performance based on another known model by calculating correlation between neural networks. The proposed method evaluates correlations by determining if, for each neuron in one network, there exists a neuron in the other network that produces similar output. This approach has implications for memory efficiency, allowing for the use of smaller networks when high correlation exists between networks of different sizes. Additionally, the method provides insights into robustness, suggesting that if two highly correlated networks are compared and one demonstrates robustness when operating in production environments, the other is likely to exhibit similar robustness. This contribution advances the technical toolkit for responsible AI, supporting more comprehensive and nuanced evaluations of AI models to ensure their safe and effective deployment. Code is available at https://github.com/aheldis/Cross-model-correlation.git. | 翻訳日:2024-08-27 20:30:25 公開日:2024-08-25 |
# 断続的に電力を消費するマイクロコンピュータのためのDNNトレーニングの見直し
Revisiting DNN Training for Intermittently Powered Energy Harvesting Micro Computers ( http://arxiv.org/abs/2408.13696v1 ) ライセンス: Link先を確認 | Cyan Subhra Mishra, Deeksha Chaudhary, Jack Sampson, Mahmut Taylan Knademir, Chita Das, | (参考訳) Energy Harvesting Wireless Sensor Networksのようなエネルギー制約のある環境におけるDeep Neural Networksの展開は、主に電力可用性の断続的な性質のために、ユニークな課題を提示している。
これらの課題に対処するために,本稿では,DNNがこのような状況下で活動するのに適した,新しいトレーニング手法を紹介し,評価する。
特に,エネルギー回収シナリオに固有の,デバイスアーキテクチャとエネルギー可用性の変動性の両方に適応する動的ドロップアウト手法を提案する。
提案手法では,ネットワークアーキテクチャのパラメータとエネルギー回収プロファイルを組み込んだデバイスモデルを用いて,トレーニング期間中のドロップアウト率を動的に最適化する。
予測されたエネルギー利用率に基づいてネットワークのトレーニングプロセスを調整することにより、省エネだけでなく、電力制約下での持続的な学習と推論能力も確保できる。
予備的な結果は、この戦略が、5%未満の計算量を持つ最先端技術と比較して6~22%の精度向上をもたらすことを実証している。
本稿では, デバイスモデルの開発について詳述し, 間欠性を考慮したドロップアウト・量子化アルゴリズムとエネルギープロファイルの統合について述べるとともに, 実世界のエネルギー回収データを用いて提案手法の総合評価を行う。
The deployment of Deep Neural Networks in energy-constrained environments, such as Energy Harvesting Wireless Sensor Networks, presents unique challenges, primarily due to the intermittent nature of power availability. To address these challenges, this study introduces and evaluates a novel training methodology tailored for DNNs operating within such contexts. In particular, we propose a dynamic dropout technique that adapts to both the architecture of the device and the variability in energy availability inherent in energy harvesting scenarios. Our proposed approach leverages a device model that incorporates specific parameters of the network architecture and the energy harvesting profile to optimize dropout rates dynamically during the training phase. By modulating the network's training process based on predicted energy availability, our method not only conserves energy but also ensures sustained learning and inference capabilities under power constraints. Our preliminary results demonstrate that this strategy provides 6 to 22 percent accuracy improvements compared to the state of the art with less than 5 percent additional compute. This paper details the development of the device model, describes the integration of energy profiles with intermittency aware dropout and quantization algorithms, and presents a comprehensive evaluation of the proposed approach using real-world energy harvesting data. | 翻訳日:2024-08-27 18:19:53 公開日:2024-08-25 |
# 凍結型CLIP-ViTの高機能化と多段機能融合による一般深度検出
Guided and Fused: Efficient Frozen CLIP-ViT with Feature Guidance and Multi-Stage Feature Fusion for Generalizable Deepfake Detection ( http://arxiv.org/abs/2408.13697v1 ) ライセンス: Link先を確認 | Yingjian Chen, Lei Zhang, Yakun Niu, Pei Chen, Lei Tan, Jing Zhou, | (参考訳) 生成モデルの台頭は、画像の信頼性に関する懸念をオンライン上で引き起こし、効果的で一般的な検出器の緊急性の必要性を浮き彫りにした。
冷凍前訓練CLIP-ViTモデルを利用した最近の手法はディープフェイク検出に大きな進歩をもたらした。
しかしながら、これらのモデルは、タスクに関係なく過剰な情報を含む凍結ネットワークによって直接抽出される視覚的一般性に依存し、検出性能が制限されることが多い。
この制限に対処するため,本論文では,2つの単純かつ効果的なモジュールを統合した,効率的なガイド付き凍結型CLIP-ViT(GFF)を提案する。
Deepfake-Specific Feature Guidance Module (DFGM)は、凍結した事前訓練されたモデルをガイドし、ディープフェイク検出に特有な機能を抽出し、その一般化能力を保ちながら無関係な情報を減らす。
Multi-Stage Fusion Module (FuseFormer)は、ViTの各ステージから抽出された特徴を融合することにより、低レベルおよび高レベル情報をキャプチャする。
このデュアルモジュールアプローチは、CLIP-ViT固有の利点を完全に活用することで、ディープフェイク検出を大幅に改善する。
GFFの有効性と一般化能力は,5つの訓練エポックで最適結果を得ることができた。
ProGANの4つのクラスでトレーニングしても、GFFは未確認のGANで99%の精度を達成し、未確認の拡散モデルでは97%の精度を維持している。
The rise of generative models has sparked concerns about image authenticity online, highlighting the urgent need for an effective and general detector. Recent methods leveraging the frozen pre-trained CLIP-ViT model have made great progress in deepfake detection. However, these models often rely on visual-general features directly extracted by the frozen network, which contain excessive information irrelevant to the task, resulting in limited detection performance. To address this limitation, in this paper, we propose an efficient Guided and Fused Frozen CLIP-ViT (GFF), which integrates two simple yet effective modules. The Deepfake-Specific Feature Guidance Module (DFGM) guides the frozen pre-trained model in extracting features specifically for deepfake detection, reducing irrelevant information while preserving its generalization capabilities. The Multi-Stage Fusion Module (FuseFormer) captures low-level and high-level information by fusing features extracted from each stage of the ViT. This dual-module approach significantly improves deepfake detection by fully leveraging CLIP-ViT's inherent advantages. Extensive experiments demonstrate the effectiveness and generalization ability of GFF, which achieves state-of-the-art performance with optimal results in only 5 training epochs. Even when trained on only 4 classes of ProGAN, GFF achieves nearly 99% accuracy on unseen GANs and maintains an impressive 97% accuracy on unseen diffusion models. | 翻訳日:2024-08-27 18:19:53 公開日:2024-08-25 |
# CNN変換器による医用画像分割のための協調学習
CNN-Transformer Rectified Collaborative Learning for Medical Image Segmentation ( http://arxiv.org/abs/2408.13698v1 ) ライセンス: Link先を確認 | Lanhu Wu, Miao Zhang, Yongri Piao, Zhenyan Yao, Weibing Sun, Feng Tian, Huchuan Lu, | (参考訳) 診断・解析にはMIS(Automatic and accurate Medical Image segmentation)が不可欠である。
現在のMIS法は主に特徴モデリングのために畳み込みニューラルネットワーク(CNN)または自己保持機構(Transformer)に依存している。
しかし、CNNベースの手法は、グローバル依存が限られているため、不正確なローカライゼーションに悩まされる一方、Transformerベースの手法は、局所的な重点の欠如に対して、常に粗い境界を提示する。
いくつかのCNN-Transformerハイブリッド手法は、補完的な局所情報とグローバル情報を合成して性能を向上させるように設計されているが、CNNとTransformerの組み合わせは多数のパラメータを導入し、計算コストを増大させる。
そこで本稿では,CNN-Transformer rectified collaborative learning (CTRCL) フレームワークを提案する。
具体的には、ロジット空間における正確な知識伝達のために、学生ソフトラベルの誤り領域を適応的に選択し、修正する基礎的真理を導入した修正ロジット・ワイド・コラボレーティブ・ラーニング(RLCL)戦略を提案する。
また,CNNベースのモデルとトランスフォーマーベースのモデル間の効果的な知識伝達を実現するために,中間的特徴に類似したカテゴリ認識能力を与えることにより,クラス認識型特徴量協調学習(CFCL)戦略を提案する。
3つのMISベンチマークの大規模な実験により、私たちのCTRCLは、さまざまな評価基準の下で、最先端の協調学習方法よりも優れています。
Automatic and precise medical image segmentation (MIS) is of vital importance for clinical diagnosis and analysis. Current MIS methods mainly rely on the convolutional neural network (CNN) or self-attention mechanism (Transformer) for feature modeling. However, CNN-based methods suffer from the inaccurate localization owing to the limited global dependency while Transformer-based methods always present the coarse boundary for the lack of local emphasis. Although some CNN-Transformer hybrid methods are designed to synthesize the complementary local and global information for better performance, the combination of CNN and Transformer introduces numerous parameters and increases the computation cost. To this end, this paper proposes a CNN-Transformer rectified collaborative learning (CTRCL) framework to learn stronger CNN-based and Transformer-based models for MIS tasks via the bi-directional knowledge transfer between them. Specifically, we propose a rectified logit-wise collaborative learning (RLCL) strategy which introduces the ground truth to adaptively select and rectify the wrong regions in student soft labels for accurate knowledge transfer in the logit space. We also propose a class-aware feature-wise collaborative learning (CFCL) strategy to achieve effective knowledge transfer between CNN-based and Transformer-based models in the feature space by granting their intermediate features the similar capability of category perception. Extensive experiments on three popular MIS benchmarks demonstrate that our CTRCL outperforms most state-of-the-art collaborative learning methods under different evaluation metrics. | 翻訳日:2024-08-27 18:19:53 公開日:2024-08-25 |
# DHPベンチマーク: LLMは優れたNLG評価ツールか?
DHP Benchmark: Are LLMs Good NLG Evaluators? ( http://arxiv.org/abs/2408.13704v1 ) ライセンス: Link先を確認 | Yicheng Wang, Jiayi Yuan, Yu-Neng Chuang, Zhuoer Wang, Yingchi Liu, Mark Cusick, Param Kulkarni, Zhengping Ji, Yasser Ibrahim, Xia Hu, | (参考訳) 大規模言語モデル(LLM)は、自然言語生成(NLG)タスクにおいて、ますます評価役として機能している。
しかし,LPMのNLG品質評価能力は依然として不十分である。
現在の研究は、様々なNLGタスクにおけるLCMの識別を捉えるのに失敗する人間の評価と単純なメトリクスに依存している。
このギャップに対処するために、階層的摂動データと統計的テストを用いてLLMのNPG評価能力を体系的に測定するLLMの定量的識別スコアを提供する、階層摂動(DHP)ベンチマークフレームワークを提案する。
このベンチマークでは、要約、ストーリーコンプリート、質問回答、翻訳の4つのNLGタスクをカバーして、6つの評価データセットを再確立しました。
5つのLLMシリーズの総合的なベンチマークは、NLG評価器としての長所と短所について重要な洞察を与えてくれる。
Large Language Models (LLMs) are increasingly serving as evaluators in Natural Language Generation (NLG) tasks. However, the capabilities of LLMs in scoring NLG quality remain inadequately explored. Current studies depend on human assessments and simple metrics that fail to capture the discernment of LLMs across diverse NLG tasks. To address this gap, we propose the Discernment of Hierarchical Perturbation (DHP) benchmarking framework, which provides quantitative discernment scores for LLMs utilizing hierarchically perturbed text data and statistical tests to measure the NLG evaluation capabilities of LLMs systematically. We have re-established six evaluation datasets for this benchmark, covering four NLG tasks: Summarization, Story Completion, Question Answering, and Translation. Our comprehensive benchmarking of five major LLM series provides critical insight into their strengths and limitations as NLG evaluators. | 翻訳日:2024-08-27 18:19:53 公開日:2024-08-25 |
# 天然シリコンデバイスにおけるスピン量子ビットのゼーマン分割におけるノイズの起源
The origins of noise in the Zeeman splitting of spin qubits in natural-silicon devices ( http://arxiv.org/abs/2408.13707v1 ) ライセンス: Link先を確認 | Juan S. Rojas-Arias, Yohei Kojima, Kenta Takeda, Peter Stano, Takashi Nakajima, Jun Yoneda, Akito Noiri, Takashi Kobayashi, Daniel Loss, Seigo Tarucha, | (参考訳) 等方性天然シリコンからなる量子ドットで定義されるスピン量子ビットの雑音誘起エネルギーゆらぎの測定と解析を行う。
Ramsey, 単発測定の時間相関, CPMG実験を組み合わせることで, ノイズパワースペクトルを9桁の周波数範囲でカバーする。
低周波雑音スペクトルは3つの異なるデバイスで類似しており、これは核への超微細結合に支配されていることを示唆している。
電荷ノイズの影響は小さいが無視できないため、ノイズクロス相関から確認されたデバイスに依存している。
また、GaAs {[Phys. Lett. 118, 177702 (2017), Phys. Lett. 101, 236803 (2008)] で報告されたスペクトルの差も観察する。
最後に,外部磁場の増加に伴うT_2^*$の上昇を観測し,これは核スピン拡散を抑制するマイクロマグネットの磁場勾配の増大によるものと考えられる。
We measure and analyze noise-induced energy-fluctuations of spin qubits defined in quantum dots made of isotopically natural silicon. Combining Ramsey, time-correlation of single-shot measurements, and CPMG experiments, we cover the qubit noise power spectrum over a frequency range of nine orders of magnitude without any gaps. We find that the low-frequency noise spectrum is similar across three different devices suggesting that it is dominated by the hyperfine coupling to nuclei. The effects of charge noise are smaller, but not negligible, and are device dependent as confirmed from the noise cross-correlations. We also observe differences to spectra reported in GaAs {[Phys. Rev. Lett. 118, 177702 (2017), Phys. Rev. Lett. 101, 236803 (2008)]}, which we attribute to the presence of the valley degree of freedom in silicon. Finally, we observe $T_2^*$ to increase upon increasing the external magnetic field, which we speculate is due to the increasing field-gradient of the micromagnet suppressing nuclear spin diffusion. | 翻訳日:2024-08-27 18:19:53 公開日:2024-08-25 |
# InSpaceType: 屋内モノクロ深度におけるクロススペース型パフォーマンスの再検討のためのデータセットとベンチマーク
InSpaceType: Dataset and Benchmark for Reconsidering Cross-Space Type Performance in Indoor Monocular Depth ( http://arxiv.org/abs/2408.13708v1 ) ライセンス: Link先を確認 | Cho-Ying Wu, Quankai Gao, Chin-Cheng Hsu, Te-Lin Wu, Jing-Wen Chen, Ulrich Neumann, | (参考訳) 屋内の単眼深度推定は、ロボットナビゲーションや周囲の知覚のためのAR/VRを含むホームオートメーションに役立つ。
これまでのほとんどの手法は、主にNYUv2データセットで実験し、評価における全体的なパフォーマンスに集中していた。
しかし、室内空間(空間型)の様々な見当たらないタイプやカテゴリへの頑健さと一般化はまだ発見されていない。
研究者は、カスタムデータまたはより頻度の低いタイプで、リリース済みの事前トレーニングモデルで、劣化したパフォーマンスを経験的に見つけることができる。
本稿では,よく見られるが見落としやすい因子空間のタイプについて検討し,空間間のモデルの性能差を実現する。
InSpaceType Datasetは,屋内シーンを対象とした高品質なRGBDデータセットである。
以上の結果から, 頭部と尾翼の動作不均衡に悩まされている症例が多く, 上顎の方法がさらに重篤であることが明らかとなった。
この研究は、透明性と堅牢性を詳細に明らかにし、分析する。
分析結果を合計4つのデータセットに拡張し、室内単分子深度をトレーニングするための合成データキュレーションのベストプラクティスについて議論する。
さらに、データセットのアブレーションを行い、一般化の鍵となる要素を見つけ出す。
この研究は、空間タイプ間のパフォーマンスのばらつきに関する、初めての詳細な調査であり、さらに重要なのは、事前訓練された深度モデルを調べるために、データセットやコードを含む有用なツールをリリースすることです。
データとコード:https://depthcomputation.github.io/DepthPublic/
Indoor monocular depth estimation helps home automation, including robot navigation or AR/VR for surrounding perception. Most previous methods primarily experiment with the NYUv2 Dataset and concentrate on the overall performance in their evaluation. However, their robustness and generalization to diversely unseen types or categories for indoor spaces (spaces types) have yet to be discovered. Researchers may empirically find degraded performance in a released pretrained model on custom data or less-frequent types. This paper studies the common but easily overlooked factor-space type and realizes a model's performance variances across spaces. We present InSpaceType Dataset, a high-quality RGBD dataset for general indoor scenes, and benchmark 13 recent state-of-the-art methods on InSpaceType. Our examination shows that most of them suffer from performance imbalance between head and tailed types, and some top methods are even more severe. The work reveals and analyzes underlying bias in detail for transparency and robustness. We extend the analysis to a total of 4 datasets and discuss the best practice in synthetic data curation for training indoor monocular depth. Further, dataset ablation is conducted to find out the key factor in generalization. This work marks the first in-depth investigation of performance variances across space types and, more importantly, releases useful tools, including datasets and codes, to closely examine your pretrained depth models. Data and code: https://depthcomputation.github.io/DepthPublic/ | 翻訳日:2024-08-27 18:19:53 公開日:2024-08-25 |
# SceneDreamer360:パノラマガウススプレイティングによるテキスト駆動型3D連続シーン生成
SceneDreamer360: Text-Driven 3D-Consistent Scene Generation with Panoramic Gaussian Splatting ( http://arxiv.org/abs/2408.13711v1 ) ライセンス: Link先を確認 | Wenrui Li, Yapeng Mi, Fucheng Cai, Zhe Yang, Wangmeng Zuo, Xingtao Wang, Xiaopeng Fan, | (参考訳) テキスト駆動の3Dシーン生成は、最近大きな進歩を遂げている。
しかし、既存のほとんどの手法は、生成モデルを用いて単一ビュー画像を生成し、それらを3次元空間で縫い合わせる。
それぞれのビューに対するこの独立した生成は、しばしば3Dシーンにおける空間的不整合と不確実性をもたらす。
そこで本研究では,テキスト駆動型3D連続シーン生成モデルであるSceneDreamer360を提案する。
提案手法では,テキスト駆動パノラマ画像生成モデルを3次元シーン生成の先行モデルとして活用し,多視点パノラマ画像間の整合性を確保するために3次元ガウススプラッティング(3DGS)を用いる。
具体的には、SceneDreamer360は3段階のパノラマ拡張で微調整されたパノラマ生成装置を強化し、高解像度でディテールに富んだパノラマ画像を生成する。
3Dシーン構築中に、高品質で空間的に一貫した点雲を生成する新しい点雲融合初期化法が用いられる。
SceneDreamer360とパノラマ画像生成と3DGSは、他の手法と比較して、より高品質で空間的に整合性があり、視覚的に魅力的な3Dシーンをテキストプロンプトから生成できることを示す。
我々のコードは \url{https://github.com/liwrui/SceneDreamer360} で利用可能です。
Text-driven 3D scene generation has seen significant advancements recently. However, most existing methods generate single-view images using generative models and then stitch them together in 3D space. This independent generation for each view often results in spatial inconsistency and implausibility in the 3D scenes. To address this challenge, we proposed a novel text-driven 3D-consistent scene generation model: SceneDreamer360. Our proposed method leverages a text-driven panoramic image generation model as a prior for 3D scene generation and employs 3D Gaussian Splatting (3DGS) to ensure consistency across multi-view panoramic images. Specifically, SceneDreamer360 enhances the fine-tuned Panfusion generator with a three-stage panoramic enhancement, enabling the generation of high-resolution, detail-rich panoramic images. During the 3D scene construction, a novel point cloud fusion initialization method is used, producing higher quality and spatially consistent point clouds. Our extensive experiments demonstrate that compared to other methods, SceneDreamer360 with its panoramic image generation and 3DGS can produce higher quality, spatially consistent, and visually appealing 3D scenes from any text prompt. Our codes are available at \url{https://github.com/liwrui/SceneDreamer360}. | 翻訳日:2024-08-27 18:19:53 公開日:2024-08-25 |
# テキスト3次元検索のためのリーマン型マルチスケールアテンション推論ネットワーク
Riemann-based Multi-scale Attention Reasoning Network for Text-3D Retrieval ( http://arxiv.org/abs/2408.13712v1 ) ライセンス: Link先を確認 | Wenrui Li, Wei Han, Yandu Chen, Yeyu Chai, Yidan Lu, Xingtao Wang, Xiaopeng Fan, | (参考訳) ペア化されたText-3Dデータを取得する上での課題と、3Dデータ構造に固有の不規則性のため、3Dポイントクラウドとテキストの複合表現学習は未探索のままである。
本稿では,テキスト3D検索のための新しいRiemann-based Multi-scale Attention Reasoning Network (RMARN)を提案する。
具体的には、抽出したテキストとポイントクラウドの機能は、それぞれのAdaptive Feature Refiner (AFR)によって洗練される。
さらに,革新的なRiemann Local similarity (RLS)モジュールとGlobal Pooling similarity (GPS)モジュールを紹介する。
しかし、3Dポイントクラウドデータとテキストデータはしばしば高次元空間における複雑な幾何学構造を持つため、提案されたRSSは、データ固有の幾何学的関係を反映する新しいリーマン注意機構を用いる。
多様体を明示的に定義せずに、RMARNは、テキストポイントクラウドサンプル間の距離をよりよく表現するために、多様体パラメータを学習する。
ペアテキスト3Dデータの欠如に対処するため,3,380組以上のテキストとポイントクラウドデータからなる大規模テキスト3D検索データセットT3DR-HITを開発した。
T3DR-HITには、粗粒の屋内3Dシーンと、粒度の細かい中国のアーティファクトシーンがあり、それぞれ1,380点と2000点以上のテキスト3Dペアで構成されている。
カスタムデータセットの実験では,提案手法の優れた性能を示す。
我々のコードと提案されたデータセットは \url{https://github.com/liwrui/RMARN} で入手できる。
Due to the challenges in acquiring paired Text-3D data and the inherent irregularity of 3D data structures, combined representation learning of 3D point clouds and text remains unexplored. In this paper, we propose a novel Riemann-based Multi-scale Attention Reasoning Network (RMARN) for text-3D retrieval. Specifically, the extracted text and point cloud features are refined by their respective Adaptive Feature Refiner (AFR). Furthermore, we introduce the innovative Riemann Local Similarity (RLS) module and the Global Pooling Similarity (GPS) module. However, as 3D point cloud data and text data often possess complex geometric structures in high-dimensional space, the proposed RLS employs a novel Riemann Attention Mechanism to reflect the intrinsic geometric relationships of the data. Without explicitly defining the manifold, RMARN learns the manifold parameters to better represent the distances between text-point cloud samples. To address the challenges of lacking paired text-3D data, we have created the large-scale Text-3D Retrieval dataset T3DR-HIT, which comprises over 3,380 pairs of text and point cloud data. T3DR-HIT contains coarse-grained indoor 3D scenes and fine-grained Chinese artifact scenes, consisting of 1,380 and over 2,000 text-3D pairs, respectively. Experiments on our custom datasets demonstrate the superior performance of the proposed method. Our code and proposed datasets are available at \url{https://github.com/liwrui/RMARN}. | 翻訳日:2024-08-27 18:19:53 公開日:2024-08-25 |
# 雲に基づく変分量子アルゴリズムの検証
Verifiable cloud-based variational quantum algorithms ( http://arxiv.org/abs/2408.13713v1 ) ライセンス: Link先を確認 | Junhong Yang, Banghai Wang, Junyu Quan, Qin Li, | (参考訳) 変分量子アルゴリズム(VQA)は、量子機械学習(QML)のためのノイズの多い中間スケール量子(NISQ)デバイスで量子優位性を示す可能性がある。
しかしながら、量子リソースの高コストと限られた可用性を考えると、クラウドネットワークを介してVQAをデリゲートすることは、量子能力に制限のあるクライアントにとってより実用的なソリューションである。
近年,クラウドベースの量子リソース消費最小限のVQAにアンシラ駆動型量子計算(ADQC)を利用する,分散セキュアなクラウド量子コンピューティングプロトコルが提案されている。
しかし、それらのプロトコルは検証性に欠けており、サーバによる潜在的悪意のある振る舞いに公開している。
さらに、チャネル損失は、デリゲートされた変分回路のサイズが大きくなるにつれて、頻繁に再デリゲーションを必要とし、回路の複雑さの増加による検証が複雑になる。
本稿では,これらの課題に対処する新たなプロトコルを導入し,クラウドベースのVQAにおける検証可能性とチャネル損失耐性を両立させる。
Variational quantum algorithms (VQAs) have shown potential for quantum advantage with noisy intermediate-scale quantum (NISQ) devices for quantum machine learning (QML). However, given the high cost and limited availability of quantum resources, delegating VQAs via cloud networks is a more practical solution for clients with limited quantum capabilities. Recently, Shingu et al.[Physical Review A, 105, 022603 (2022)] proposed a variational secure cloud quantum computing protocol, utilizing ancilla-driven quantum computation (ADQC) for cloud-based VQAs with minimal quantum resource consumption. However, their protocol lacks verifiability, which exposes it to potential malicious behaviors by the server. Additionally, channel loss requires frequent re-delegation as the size of the delegated variational circuit grows, complicating verification due to increased circuit complexity. This paper introduces a new protocol to address these challenges and enhance both verifiability and tolerance to channel loss in cloud-based VQAs. | 翻訳日:2024-08-27 18:19:53 公開日:2024-08-25 |
# TalkLoRA: 音声駆動アニメーションのための低ランク適応
TalkLoRA: Low-Rank Adaptation for Speech-Driven Animation ( http://arxiv.org/abs/2408.13714v1 ) ライセンス: Link先を確認 | Jack Saunders, Vinay Namboodiri, | (参考訳) 音声駆動の顔アニメーションは、テレビ、映画、ビデオゲーム、通信、AR/VRを含む多くのアプリケーションにとって重要である。
近年, この課題に対してトランスフォーマーが極めて有効であることが示されている。
しかし,既存のトランスモデルでは2つの問題がある。
第一に、新しいパーソナライズされた話し方への適応が困難であり、第二に、変換器の二次的な複雑さのために長文の実行が遅い。
両問題に対処するためにTalkLoRAを提案する。
TalkLoRAは、限られたデータであっても、Low-Rank Adaptationを使用して、新しい話し方に効果的かつ効率的に適応する。
これは、各主題に対して少数のパラメータを持つアダプタをトレーニングすることで実現します。
また、チャンキング戦略を利用して、基礎となる変換器の複雑さを減らし、推論時に長い文を書けるようにする。
TalkLoRAは、任意のトランスフォーマーベースの音声駆動アニメーション手法に適用できる。
我々は、TalkLoRAが最先端スタイルの適応をアーカイブし、品質を犠牲にすることなく、推論時間のオーダー・オブ・複雑化を可能にすることを示す広範な実験を行った。
また、音声駆動顔画像モデルのLoRA微調整のためのハイパーパラメータ選択に関する洞察も提供する。
Speech-driven facial animation is important for many applications including TV, film, video games, telecommunication and AR/VR. Recently, transformers have been shown to be extremely effective for this task. However, we identify two issues with the existing transformer-based models. Firstly, they are difficult to adapt to new personalised speaking styles and secondly, they are slow to run for long sentences due to the quadratic complexity of the transformer. We propose TalkLoRA to address both of these issues. TalkLoRA uses Low-Rank Adaptation to effectively and efficiently adapt to new speaking styles, even with limited data. It does this by training an adaptor with a small number of parameters for each subject. We also utilise a chunking strategy to reduce the complexity of the underlying transformer, allowing for long sentences at inference time. TalkLoRA can be applied to any transformer-based speech-driven animation method. We perform extensive experiments to show that TalkLoRA archives state-of-the-art style adaptation and that it allows for an order-of-complexity reduction in inference times without sacrificing quality. We also investigate and provide insights into the hyperparameter selection for LoRA fine-tuning of speech-driven facial animation models. | 翻訳日:2024-08-27 18:19:53 公開日:2024-08-25 |
# FreqINR:適応型DCT周波数損失を伴う入射神経表現の周波数整合性
FreqINR: Frequency Consistency for Implicit Neural Representation with Adaptive DCT Frequency Loss ( http://arxiv.org/abs/2408.13716v1 ) ライセンス: Link先を確認 | Meiyi Wei, Liu Xie, Ying Sun, Gang Chen, | (参考訳) Inlicit Neural Representation (INR)の最近の進歩は、様々な解像度で画像を扱う際、例外的な能力を示している。
しかし,高分解能画像(HR)と地中構造画像(特に大規模画像)の周波数差は,重要なアーティファクトとHR画像のぼやけを生じる。
本稿では、トレーニングと推論の両面でのコントラストの整合性を確保することによる、詳細なテクスチャの強化を目的とした、革新的な任意スケール超解像法であるFreqINRについて紹介する。
トレーニング中は、適応離散コサイン変換周波数損失(ADFL)を用いて、HRとグランドトラスト画像の周波数ギャップを最小化し、2次元DCTベースを使用し、挑戦周波数に動的に集中する。
推論の際には,低分解能(LR)画像とグランドトラス画像とのスペクトルコヒーレンスを維持するために受容場を拡張し,LR画像から高頻度の詳細を生成することが重要となる。
実験結果から,FreqINRは既存のArbitraryスケールの超解像法と比較して最先端の性能を実現し,計算効率を向上した。
私たちのメソッドのコードは公開されます。
Recent advancements in local Implicit Neural Representation (INR) demonstrate its exceptional capability in handling images at various resolutions. However, frequency discrepancies between high-resolution (HR) and ground-truth images, especially at larger scales, result in significant artifacts and blurring in HR images. This paper introduces Frequency Consistency for Implicit Neural Representation (FreqINR), an innovative Arbitrary-scale Super-resolution method aimed at enhancing detailed textures by ensuring spectral consistency throughout both training and inference. During training, we employ Adaptive Discrete Cosine Transform Frequency Loss (ADFL) to minimize the frequency gap between HR and ground-truth images, utilizing 2-Dimensional DCT bases and focusing dynamically on challenging frequencies. During inference, we extend the receptive field to preserve spectral coherence between low-resolution (LR) and ground-truth images, which is crucial for the model to generate high-frequency details from LR counterparts. Experimental results show that FreqINR, as a lightweight approach, achieves state-of-the-art performance compared to existing Arbitrary-scale Super-resolution methods and offers notable improvements in computational efficiency. The code for our method will be made publicly available. | 翻訳日:2024-08-27 18:19:53 公開日:2024-08-25 |
# 古典的計画におけるカウントベースノベルティ探査
Count-based Novelty Exploration in Classical Planning ( http://arxiv.org/abs/2408.13719v1 ) ライセンス: Link先を確認 | Giacomo Rosa, Nir Lipovetzky, | (参考訳) 数量に基づく探索法は、逐次決定問題よりも学習エージェントの探索行動を改善するために広く用いられている。
一方、ノベルティ・サーチは、最初の、しかし連続しないタプルの発生を記録することによって、古典的計画において成功している。
しかし, 調査を構造化するためには, 調査が進むにつれて, 調査対象のタプルの数が指数関数的に増加する必要がある。
探索木における各タプルの出現頻度を利用して,一定数のタプルで状態空間を探索することを目的とした,新しいノベルティ手法,古典的カウントベースノベルティを提案する。
次に、低いタプル数が新しいタプルへの探索を導くメカニズムを正当化する。
また,未知の値のノードを刈り取ることで,一定のサイズを維持したトリミングオープンリストの形で,アルゴリズムによるコントリビューションも導入する。
これらの技術は、古典的解法に統合された場合、既存の新規なヒューリスティックを補完し、最近の国際計画コンペティションの挑戦的なベンチマークにおいて、競争的な結果を達成することが示されている。
さらに、メモリとタイムしきい値の両方を利用するデュアル構成のフロントエンドプランナとして、私たちのソルバを適応させることで、現在の最先端のソルバを越えながら、インスタンスカバレッジが大幅に向上することを示す。
Count-based exploration methods are widely employed to improve the exploratory behavior of learning agents over sequential decision problems. Meanwhile, Novelty search has achieved success in Classical Planning through recording of the first, but not successive, occurrences of tuples. In order to structure the exploration, however, the number of tuples considered needs to grow exponentially as the search progresses. We propose a new novelty technique, classical count-based novelty, which aims to explore the state space with a constant number of tuples, by leveraging the frequency of each tuple's appearance in a search tree. We then justify the mechanisms through which lower tuple counts lead the search towards novel tuples. We also introduce algorithmic contributions in the form of a trimmed open list that maintains a constant size by pruning nodes with bad novelty values. These techniques are shown to complement existing novelty heuristics when integrated in a classical solver, achieving competitive results in challenging benchmarks from recent International Planning Competitions. Moreover, adapting our solver as the frontend planner in dual configurations that utilize both memory and time thresholds demonstrates a significant increase in instance coverage, surpassing current state-of-the-art solvers. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# 集合分類のためのプロトタイプベースモデル
A prototype-based model for set classification ( http://arxiv.org/abs/2408.13720v1 ) ライセンス: Link先を確認 | Mohammad Mohammadi, Sreejita Ghosh, | (参考訳) 入力の集合(例えば画像やテキスト)の分類は、コンピュータビジョン(CV)と自然言語処理(NLP)の両方において活発な研究領域である。
ベクトルの集合を表す一般的な方法は、それらを線型部分空間としてモデル化することである。
この貢献として、そのような線型部分空間であるグラスマン多様体から生成される多様体について、プロトタイプベースの学習法を提案する。
提案手法は,クラスの代表的特徴を捉えるサブスペースプロトタイプの集合と,サブスペースの次元選択を自動化する関連因子の集合を学習する。
これにより、各入力ベクトルの計算された影響をその決定に示す透明な分類器モデルが導かれる。
ベンチマーク画像とテキストデータセットの実験を通じて,提案した分類器の効率を,性能と説明可能性だけでなく,計算資源の要求にもよる変換器モデルと比較した。
Classification of sets of inputs (e.g., images and texts) is an active area of research within both computer vision (CV) and natural language processing (NLP). A common way to represent a set of vectors is to model them as linear subspaces. In this contribution, we present a prototype-based approach for learning on the manifold formed from such linear subspaces, the Grassmann manifold. Our proposed method learns a set of subspace prototypes capturing the representative characteristics of classes and a set of relevance factors automating the selection of the dimensionality of the subspaces. This leads to a transparent classifier model which presents the computed impact of each input vector on its decision. Through experiments on benchmark image and text datasets, we have demonstrated the efficiency of our proposed classifier, compared to the transformer-based models in terms of not only performance and explainability but also computational resource requirements. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# 量子振幅の推定は指数関数的に改善できる
Estimating quantum amplitudes can be exponentially improved ( http://arxiv.org/abs/2408.13721v1 ) ライセンス: Link先を確認 | Zhong-Xia Shang, Qi Zhao, | (参考訳) 量子振幅の推定は量子コンピューティングの基本的な課題であり、多くの量子アルゴリズムのコアサブルーチンとして機能する。
本研究では,純状態を行列に変換し,密度行列やユニタリ演算子に符号化することにより,量子振幅を推定するための新しいアルゴリズムフレームワークを提案する。
我々のフレームワークは2つの特定の推定プロトコルを示し、それぞれ標準量子極限$\epsilon^{-2}$とハイゼンベルク極限$\epsilon^{-1}$を達成する。
提案手法は,状態が特定の絡み合い特性を示す場合,推定の複雑さを著しく低減する。
また,密度行列作成のためのチャネルブロック符号化という新しい手法を導入し,ゲートベース量子回路とハミルトンシミュレーションの最適構成を提供する。
この枠組みは回路深さやシミュレーション時間に基づいてかなりの進歩をもたらす。
最小限の超多項式改善は、深さまたは時間が$\mathcal{O}(\text{poly}\log(n))$の範囲内にあるときに達成できる。
さらに、極端な場合、指数的な改善を実現することができる。
本研究の結果から,複雑性理論がもたらす影響について考察した。
Estimating quantum amplitudes is a fundamental task in quantum computing and serves as a core subroutine in numerous quantum algorithms. In this work, we present a novel algorithmic framework for estimating quantum amplitudes by transforming pure states into their matrix forms and encoding them into density matrices and unitary operators. Our framework presents two specific estimation protocols, achieving the standard quantum limit $\epsilon^{-2}$ and the Heisenberg limit $\epsilon^{-1}$, respectively. Our approach significantly reduces the complexity of estimation when states exhibit specific entanglement properties. We also introduce a new technique called channel block encoding for preparing density matrices, providing optimal constructions for gate-based quantum circuits and Hamiltonian simulations. The framework yields considerable advancements contingent on circuit depth or simulation time. A minimum of superpolynomial improvement can be achieved when the depth or the time is within the range of $\mathcal{O}(\text{poly}\log(n))$. Moreover, in certain extreme cases, an exponential improvement can be realized. Based on our results, various complexity-theoretic implications are discussed. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# 横領域特徴強調と機械学習に基づくEMGに基づく手指認識
EMG-Based Hand Gesture Recognition through Diverse Domain Feature Enhancement and Machine Learning-Based Approach ( http://arxiv.org/abs/2408.13723v1 ) ライセンス: Link先を確認 | Abu Saleh Musa Miah, Najmul Hassan, Md. Maniruzzaman, Nobuyoshi Asai, Jungpil Shin, | (参考訳) 表面筋電図(EMG)は手ジェスチャ認識と人間とコンピュータの相互作用において重要なツールであり、非侵襲的な信号取得手段を提供する。
本研究では,EMG信号を用いた手動作の分類手法を提案する。
特徴抽出に関わる課題に対処するため,23の異なる形態,時間領域,周波数領域の特徴抽出手法を検討した。
しかし、この機能のかなりのサイズは、機械学習アルゴリズムのパフォーマンスを妨げる計算の複雑さを増大させる可能性がある。
我々は、これを緩和するために効率的な特徴選択アプローチ、特に追加の木分類器を使用します。
選択された潜在的な特徴は、KNNアルゴリズムと選択された特徴で97.43\%の精度を達成した機械学習ベースの様々な分類アルゴリズムに供給された。
包括的特徴抽出と選択戦略を活用することで,EMGに基づく手ジェスチャー認識システムの精度とユーザビリティを向上させる。
高い性能精度は既存のシステムに対して提案したモデルの有効性を証明している。
キーワード{EMGシグナル、機械学習アプローチ、手動ジェスチャー認識。
Surface electromyography (EMG) serves as a pivotal tool in hand gesture recognition and human-computer interaction, offering a non-invasive means of signal acquisition. This study presents a novel methodology for classifying hand gestures using EMG signals. To address the challenges associated with feature extraction where, we explored 23 distinct morphological, time domain and frequency domain feature extraction techniques. However, the substantial size of the features may increase the computational complexity issues that can hinder machine learning algorithm performance. We employ an efficient feature selection approach, specifically an extra tree classifier, to mitigate this. The selected potential feature fed into the various machine learning-based classification algorithms where our model achieved 97.43\% accuracy with the KNN algorithm and selected feature. By leveraging a comprehensive feature extraction and selection strategy, our methodology enhances the accuracy and usability of EMG-based hand gesture recognition systems. The higher performance accuracy proves the effectiveness of the proposed model over the existing system. \keywords{EMG signal, machine learning approach, hand gesture recognition. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# Phys Part: 相互作用可能なオブジェクトに対する物理的にプラズブルな部分補完
PhysPart: Physically Plausible Part Completion for Interactable Objects ( http://arxiv.org/abs/2408.13724v1 ) ライセンス: Link先を確認 | Rundong Luo, Haoran Geng, Congyue Deng, Puhao Li, Zan Wang, Baoxiong Jia, Leonidas Guibas, Siyuang Huang, | (参考訳) 相互作用可能なオブジェクトは、私たちの日常生活にどこにでもある。
近年の3D生成モデルの進歩により、これらのオブジェクトのモデリングの自動化が可能となり、3Dプリンティングからロボットシミュレーション環境の創出まで幅広い応用が期待できる。
しかしながら、3次元の形状や外観のモデリングでは大きな進歩があったが、特に相互作用可能な物体の物体物理のモデリングは、部品間の運動によって課される物理的制約のため、依然として困難である。
本稿では,物体に正確にフィットするだけでなく,スムーズな動きを許容する3D部品を生成することを目的として,相互作用可能な物体に対する物理的に可塑性な部分補完の問題に取り組む。
そこで本研究では,分類子なし誘導による幾何学的条件付けを利用した拡散型部分生成モデルを提案し,物理制約を安定度とモビリティ損失の集合として定式化し,サンプリングプロセスの導出を行う。
さらに、複雑な部分階層を持つオブジェクトに対して、従属部分の生成を実証し、逐次部分生成への道を開く。
実験では,運動成功率に基づく身体的可視性測定のための新しい指標を提案する。
我々のモデルは、特に物理的制約を適切にモデル化していないものよりも、形状や物理的な指標よりも、既存のベースラインよりも優れています。
また、3Dプリンティング、ロボット操作、シーケンシャルな部分生成などの応用を実証し、高い物理的妥当性を求める現実的なタスクにおいて、我々の強みを示す。
Interactable objects are ubiquitous in our daily lives. Recent advances in 3D generative models make it possible to automate the modeling of these objects, benefiting a range of applications from 3D printing to the creation of robot simulation environments. However, while significant progress has been made in modeling 3D shapes and appearances, modeling object physics, particularly for interactable objects, remains challenging due to the physical constraints imposed by inter-part motions. In this paper, we tackle the problem of physically plausible part completion for interactable objects, aiming to generate 3D parts that not only fit precisely into the object but also allow smooth part motions. To this end, we propose a diffusion-based part generation model that utilizes geometric conditioning through classifier-free guidance and formulates physical constraints as a set of stability and mobility losses to guide the sampling process. Additionally, we demonstrate the generation of dependent parts, paving the way toward sequential part generation for objects with complex part-whole hierarchies. Experimentally, we introduce a new metric for measuring physical plausibility based on motion success rates. Our model outperforms existing baselines over shape and physical metrics, especially those that do not adequately model physical constraints. We also demonstrate our applications in 3D printing, robot manipulation, and sequential part generation, showing our strength in realistic tasks with the demand for high physical plausibility. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# LogParser-LLM: 大規模言語モデルによる効率的なログ解析の改善
LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models ( http://arxiv.org/abs/2408.13727v1 ) ライセンス: Link先を確認 | Aoxiao Zhong, Dengyao Mo, Guiyang Liu, Jinbu Liu, Qingda Lu, Qi Zhou, Jiesheng Wu, Quanzheng Li, Qingsong Wen, | (参考訳) ログはユビキタスなデジタルフットプリントであり、システム診断、セキュリティ分析、パフォーマンス最適化において必須の役割を果たす。
ログからの実行可能な洞察の抽出は、生ログを下流分析のための構造化フォーマットに変換するログ解析プロセスに極めて依存している。
しかし、現代のシステムの複雑さとログの動的性質は、既存の自動解析技術に重大な課題をもたらす。
LLM(Large Language Models)の出現は新たな地平線を提供する。
知識の拡大と文脈の進歩により、LLMは様々なアプリケーションにまたがって変化してきた。
これに基づいて、LLM機能と統合された新しいログパーサであるLogParser-LLMを導入する。
この結合は意味的な洞察を統計的ニュアンスとシームレスにブレンドし、ハイパーパラメータチューニングとラベル付きトレーニングデータの必要性を回避し、オンライン解析による迅速な適応性を確保する。
調査をさらに深め、粒度解析の難しさに対処し、新しいメトリクスを提案し、ユーザが特定のニーズに合わせて粒度を調整できるように人間のインタラクションを統合する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
LogPubベンチマークの評価では、14データセットにわたるデータセット毎の平均360万ログを含むが、LogParser-LLMでは、平均272.5 LLMの呼び出ししか必要とせず、グループ化の精度は90.6%、解析の精度は81.1%である。
これらの結果は、パターンベース、ニューラルネットワークベース、既存のLLM強化アプローチを含む、最先端のログパーサよりも高い効率と正確性を示す。
Logs are ubiquitous digital footprints, playing an indispensable role in system diagnostics, security analysis, and performance optimization. The extraction of actionable insights from logs is critically dependent on the log parsing process, which converts raw logs into structured formats for downstream analysis. Yet, the complexities of contemporary systems and the dynamic nature of logs pose significant challenges to existing automatic parsing techniques. The emergence of Large Language Models (LLM) offers new horizons. With their expansive knowledge and contextual prowess, LLMs have been transformative across diverse applications. Building on this, we introduce LogParser-LLM, a novel log parser integrated with LLM capabilities. This union seamlessly blends semantic insights with statistical nuances, obviating the need for hyper-parameter tuning and labeled training data, while ensuring rapid adaptability through online parsing. Further deepening our exploration, we address the intricate challenge of parsing granularity, proposing a new metric and integrating human interactions to allow users to calibrate granularity to their specific needs. Our method's efficacy is empirically demonstrated through evaluations on the Loghub-2k and the large-scale LogPub benchmark. In evaluations on the LogPub benchmark, involving an average of 3.6 million logs per dataset across 14 datasets, our LogParser-LLM requires only 272.5 LLM invocations on average, achieving a 90.6% F1 score for grouping accuracy and an 81.1% for parsing accuracy. These results demonstrate the method's high efficiency and accuracy, outperforming current state-of-the-art log parsers, including pattern-based, neural network-based, and existing LLM-enhanced approaches. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# 3D-RCNet:ハイパースペクトル画像分類のための3Dリレーショナル ConvNet 構築のためのトランスフォーマからの学習
3D-RCNet: Learning from Transformer to Build a 3D Relational ConvNet for Hyperspectral Image Classification ( http://arxiv.org/abs/2408.13728v1 ) ライセンス: Link先を確認 | Haizhao Jing, Liuwei Wan, Xizhe Xue, Haokui Zhang, Ying Li, | (参考訳) 近年,視覚変換器(ViT)モデルでは,様々なコンピュータビジョンタスクにおいて,従来の畳み込みニューラルネットワーク(ConvNet)に取って代わられている。
ハイパースペクトル画像(HSI)分類分野においても,ViT法は有望な可能性を示す。
それでも、ViTはHSIデータの処理において顕著な困難に直面している。
その自己保持機構は二次的な複雑さを示し、計算コストを増大させる。
さらに、トレーニングサンプルに対するViTのかなりの需要は、高価なHSIデータのラベル付けによって生じる現実的な制約と一致しない。
これらの課題を克服するため、3D-RCNetと呼ばれる3Dリレーショナルな3Dリレーショナルな3D-RCNetを提案する。
本研究では,Transformerの自己保持機構をConvNetの畳み込み操作に組み込んで3Dリレーショナル畳み込み操作を設計し,それを最終3D-RCNetを構築する。
提案した3D-RCNetは、ViTの柔軟性を享受しながら、ConvNetの高い計算効率を維持している。
さらに,提案した3Dリレーショナル畳み込み操作は,従来のConvNetベースのHSI分類手法にシームレスに挿入可能なプラグアンドプレイ操作である。
3つの代表的なベンチマークHSIデータセットに対する実証的な評価は、提案モデルが以前のConvNetおよびViTベースのHSIアプローチより優れていることを示している。
Recently, the Vision Transformer (ViT) model has replaced the classical Convolutional Neural Network (ConvNet) in various computer vision tasks due to its superior performance. Even in hyperspectral image (HSI) classification field, ViT-based methods also show promising potential. Nevertheless, ViT encounters notable difficulties in processing HSI data. Its self-attention mechanism, which exhibits quadratic complexity, escalates computational costs. Additionally, ViT's substantial demand for training samples does not align with the practical constraints posed by the expensive labeling of HSI data. To overcome these challenges, we propose a 3D relational ConvNet named 3D-RCNet, which inherits both strengths of ConvNet and ViT, resulting in high performance in HSI classification. We embed the self-attention mechanism of Transformer into the convolutional operation of ConvNet to design 3D relational convolutional operation and use it to build the final 3D-RCNet. The proposed 3D-RCNet maintains the high computational efficiency of ConvNet while enjoying the flexibility of ViT. Additionally, the proposed 3D relational convolutional operation is a plug-and-play operation, which can be inserted into previous ConvNet-based HSI classification methods seamlessly. Empirical evaluations on three representative benchmark HSI datasets show that the proposed model outperforms previous ConvNet-based and ViT-based HSI approaches. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# 因果推論に基づくマイクロサービスシステムの根本原因分析:どこまで遠いのか?
Root Cause Analysis for Microservice System based on Causal Inference: How Far Are We? ( http://arxiv.org/abs/2408.13729v1 ) ライセンス: Link先を確認 | Luan Pham, Huong Ha, Hongyu Zhang, | (参考訳) マイクロサービスアーキテクチャは多くのクラウドアプリケーションで採用されている。
しかしながら、マイクロサービスシステムにおける障害の根本原因を特定することは、依然として困難で時間を要する作業です。
近年、様々な因果推論に基づく根本原因分析手法を導入し、根本原因の特定を支援する。
マイクロサービスシステムにおける因果推論に基づく根本原因分析技術の現状をよりよく理解するために,9つの因果発見手法と21の根本原因解析手法を総合的に評価する。
本評価は,因果推論に基づく根本原因分析手法の有効性と効率の両立を図ることを目的としている。
実験結果と分析結果から,全ての状況においてどの手法も目立たず,各手法は有効性,効率性,あるいは特定のパラメータに対する感度が低い傾向にあることが示された。
特に、合成データセットにおける根本原因分析手法の性能は、実システムにおけるその性能を正確に反映していない可能性がある。
実際、さらなる改善の余地はまだ大きい。
また,本研究の成果に基づく今後の研究も提案する。
Microservice architecture has become a popular architecture adopted by many cloud applications. However, identifying the root cause of a failure in microservice systems is still a challenging and time-consuming task. In recent years, researchers have introduced various causal inference-based root cause analysis methods to assist engineers in identifying the root causes. To gain a better understanding of the current status of causal inference-based root cause analysis techniques for microservice systems, we conduct a comprehensive evaluation of nine causal discovery methods and twenty-one root cause analysis methods. Our evaluation aims to understand both the effectiveness and efficiency of causal inference-based root cause analysis methods, as well as other factors that affect their performance. Our experimental results and analyses indicate that no method stands out in all situations; each method tends to either fall short in effectiveness, efficiency, or shows sensitivity to specific parameters. Notably, the performance of root cause analysis methods on synthetic datasets may not accurately reflect their performance in real systems. Indeed, there is still a large room for further improvement. Furthermore, we also suggest possible future work based on our findings. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# 欠損モードを有する脳腫瘍切片に対する解剖学的不整合蒸留と不整合合成
Anatomical Consistency Distillation and Inconsistency Synthesis for Brain Tumor Segmentation with Missing Modalities ( http://arxiv.org/abs/2408.13733v1 ) ライセンス: Link先を確認 | Zheyu Zhang, Xinzhao Liu, Zheng Chen, Yueyi Zhang, Huanjing Yue, Yunwei Ou, Xiaoyan Sun, | (参考訳) 多モードMRI(Multi-modal Magnetic Resonance Imaging)は、脳腫瘍の正確なセグメンテーションに必要不可欠な補完情報を提供する。
それでも、モダリティの欠如は、正確なセグメンテーションを達成する上で大きな課題となる。
モノモーダル表現とマルチモーダル表現の共有解剖学的構造を認識することで、モノモーダル画像は特定の領域や組織に制限された特徴を示すのが一般的である。
これに対し,本研究では, 解剖学的構造をマルチモーダルからモノモーダル表現へ伝達し, モーダル特有の特徴を合成する新しいフレームワークである, 解剖学的不整合蒸留・不整合合成(ACDIS)を提案する。
ACDISは、解剖学的一貫性蒸留(ACD)とモダリティ特徴合成ブロック(MFSB)の2つの主要コンポーネントから構成される。
ACDには解剖学的特徴増強ブロック(AFEB)が組み込まれている。
同時に、 anatomical Consistency ConsTraints (ACCT) は、一貫した知識伝達、すなわち、情報の豊かさと解剖学的構造における類似性を促進し、モノモダリティとマルチモダリティをまたいだ構造的特徴の正確なアライメントを確保するために用いられる。
相補的に、MFSBは解剖学的不整合を正すためのモダリティ固有の特徴を生成し、セグメント化された特徴の欠如を補う。
BraTS2018とBraTS2020データセットの検証を通じて、ACDISはMRIのモダリティが欠如している脳腫瘍のセグメンテーションにおいてその効果を裏付ける。
Multi-modal Magnetic Resonance Imaging (MRI) is imperative for accurate brain tumor segmentation, offering indispensable complementary information. Nonetheless, the absence of modalities poses significant challenges in achieving precise segmentation. Recognizing the shared anatomical structures between mono-modal and multi-modal representations, it is noteworthy that mono-modal images typically exhibit limited features in specific regions and tissues. In response to this, we present Anatomical Consistency Distillation and Inconsistency Synthesis (ACDIS), a novel framework designed to transfer anatomical structures from multi-modal to mono-modal representations and synthesize modality-specific features. ACDIS consists of two main components: Anatomical Consistency Distillation (ACD) and Modality Feature Synthesis Block (MFSB). ACD incorporates the Anatomical Feature Enhancement Block (AFEB), meticulously mining anatomical information. Simultaneously, Anatomical Consistency ConsTraints (ACCT) are employed to facilitate the consistent knowledge transfer, i.e., the richness of information and the similarity in anatomical structure, ensuring precise alignment of structural features across mono-modality and multi-modality. Complementarily, MFSB produces modality-specific features to rectify anatomical inconsistencies, thereby compensating for missing information in the segmented features. Through validation on the BraTS2018 and BraTS2020 datasets, ACDIS substantiates its efficacy in the segmentation of brain tumors with missing MRI modalities. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# MSVM-UNet: 医療画像セグメンテーションのためのマルチスケールビジョンマンバUNet
MSVM-UNet: Multi-Scale Vision Mamba UNet for Medical Image Segmentation ( http://arxiv.org/abs/2408.13735v1 ) ライセンス: Link先を確認 | Chaowei Chen, Li Yu, Shiquan Min, Shunfang Wang, | (参考訳) 状態空間モデル(SSM)、特にMambaは、線形計算複雑性で長距離依存をモデル化できるため、医療画像のセグメンテーションにおいて大きな可能性を示している。
しかし、正確な医用画像分割には、マルチスケールの詳細な特徴表現とグローバルな文脈依存の両方を効果的に学習する必要がある。
既存の研究はCNNとSSMを統合してそれぞれの強みを活用することでこの問題に対処してきたが、マルチスケールの特徴表現を効果的に捉えるための特別なモジュールを設計したり、2次元画像データにマンバを適用する際の方向感度問題に適切に対処したりはしていない。
これらの制約を克服するため,MSVM-UNetと呼ばれる医用画像分割のためのマルチスケールビジョンマンバUNetモデルを提案する。
具体的には、VSSブロックにマルチスケールの畳み込みを導入することで、VMambaエンコーダの階層的特徴からより効果的にマルチスケールの特徴表現をキャプチャし、集約し、2Dビジュアルデータを処理することができる。
さらに、LKPE層を拡大する大きなカーネルパッチは、空間情報とチャネル情報を同時に統合することにより、特徴マップのより効率的なアップサンプリングを実現する。
Synapse と ACDC データセットの大規模な実験により、我々のアプローチは、マルチスケールの特徴表現のキャプチャと集約、および画素間の長距離依存関係のモデリングにおいて、最先端の手法よりも効果的であることが示された。
State Space Models (SSMs), especially Mamba, have shown great promise in medical image segmentation due to their ability to model long-range dependencies with linear computational complexity. However, accurate medical image segmentation requires the effective learning of both multi-scale detailed feature representations and global contextual dependencies. Although existing works have attempted to address this issue by integrating CNNs and SSMs to leverage their respective strengths, they have not designed specialized modules to effectively capture multi-scale feature representations, nor have they adequately addressed the directional sensitivity problem when applying Mamba to 2D image data. To overcome these limitations, we propose a Multi-Scale Vision Mamba UNet model for medical image segmentation, termed MSVM-UNet. Specifically, by introducing multi-scale convolutions in the VSS blocks, we can more effectively capture and aggregate multi-scale feature representations from the hierarchical features of the VMamba encoder and better handle 2D visual data. Additionally, the large kernel patch expanding (LKPE) layers achieve more efficient upsampling of feature maps by simultaneously integrating spatial and channel information. Extensive experiments on the Synapse and ACDC datasets demonstrate that our approach is more effective than some state-of-the-art methods in capturing and aggregating multi-scale feature representations and modeling long-range dependencies between pixels. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# 相互整合性による超LLMの低監督評価
Poor-Supervised Evaluation for SuperLLM via Mutual Consistency ( http://arxiv.org/abs/2408.13738v1 ) ライセンス: Link先を確認 | Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Boyuan Pan, Heda Wang, Yao Hu, Kan Li, | (参考訳) 能力評価からのガイダンスは、人間社会と人工知能の両方の進歩を大いに促進した。
しかし、LSMが進化するにつれて、人間の能力の境界に近づくハードタスクに正確なラベルを付けた評価ベンチマークを構築することが困難になる。
正確なラベルを使わずに信頼性の高い評価を行うため,PoEMフレームワークを提案する。
まず、予測分布が独立でサンプルサイズが無限である場合、モデルと特定の参照モデルとの整合性によりモデルの性能が等価に評価できることを示す。
現実の条件の不整合を緩和するため,E段階とM段階のモデル重み付けとフィルタリングを交互に行うことで,人間(利用可能な場合)とモデルとを基準モデルとして評価するアルゴリズムを導入する。
16種類のLLMを持つ3種類のタスクに対する総合的な実験により、PoEMは監督評価結果と平均0.98ピアソン相関係数を達成でき、優れた有効性、効率、一般化性を示すことが示されている。
より一般に、PoEMは、LLMの時代における人間評価の限界を緩和し、両者を基準モデルとして扱うことにより、人間中心から人間モデル中心へと評価パラダイムの進化を推し進めてきた。
The guidance from capability evaluations has greatly propelled the progress of both human society and Artificial Intelligence. However, as LLMs evolve, it becomes challenging to construct evaluation benchmarks for them with accurate labels on hard tasks that approach the boundaries of human capabilities. To credibly conduct evaluation without accurate labels (denoted as poor-supervised evaluation), we propose the PoEM framework. We first prove that the capability of a model can be equivalently assessed by the consistency between it and certain reference model, when their prediction distributions are independent and the sample size is infinite. To alleviate the insufficiencies of the conditions in reality, we further introduce an algorithm that treats humans (when available) and the models under evaluation as reference models, alternately conducting model weights calibration and filtering during E-step and M-step. Comprehensive experiments across 3 types of tasks with 16 mainstream LLMs have shown that PoEM under poor supervision can achieve an average of 0.98 Pearson correlation coefficient with supervised evaluation results, demonstrating good effectiveness, efficiency and generalizability. More generally, PoEM has advanced the evaluation paradigm evolution from human-centric to human&model-centric by treating both of them as reference models, mitigating the limitations of human evaluation in the era of LLMs. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# リテラリーと口語タミル方言の同定
Literary and Colloquial Tamil Dialect Identification ( http://arxiv.org/abs/2408.13739v1 ) ライセンス: Link先を確認 | M. Nanmalar, P. Vijayalakshmi, T. Nagarajan, | (参考訳) 文化と言語は共に進化する。
タミル語の古い文体は書くのに一般的に使われ、現代の口語であるタミル語は話すのに使われている。
人間とコンピュータのインタラクションアプリケーションでは、Colloquial Tamil (CT) が日常のユーザにとってよりアクセスしやすく、簡単になり、公式の書式で情報を必要とする場合、Literary Tamil (LT) が要求される。
コンピュータ支援言語学習アプリケーションにおいて、CTと共にLTを継続することは、LTを保存し、同時にCTによる使いやすさを提供する。
したがって、最初のステップである方言識別を要求するLT方言とCT方言の変換が必要である。
LTとCTの方言識別(DID)は未発見の研究領域である。
両方言のニュアンスを念頭に置いて, ガウス混合モデル (GMM) と畳み込みニューラルネットワーク (CNN) の2つの暗黙的手法, 並列音声認識 (PPR) と並列大語彙連続音声認識 (P-LVCSR) の2つの明示的手法, 提案された明示的統一音声認識 (UPR-1, UPR-2) の2つのバージョンについて検討した。
これらの方法は、注釈付きデータの必要性、ユニットのサイズ、モデリングの方法、最終的な決定の方法などによって異なる。
平均発声時間は LT が 4.9 、CT が 2.5 であるにもかかわらず、このシステムはよく機能し、87.72% (GMM)、93.97% (CNN)、89.24% (PPR)、94.21% (P-LVCSR)、88.57% (UPR-1)、93.53% (UPR-1 with P-LVCSR)、94.55% (UPR-2)、95.61% (UPR-2 with P-LVCSR) である。
Culture and language evolve together. The old literary form of Tamil is used commonly for writing and the contemporary colloquial Tamil is used for speaking. Human-computer interaction applications require Colloquial Tamil (CT) to make it more accessible and easy for the everyday user and, it requires Literary Tamil (LT) when information is needed in a formal written format. Continuing the use of LT alongside CT in computer aided language learning applications will both preserve LT, and provide ease of use via CT, at the same time. Hence there is a need for the conversion between LT and CT dialects, which demands as a first step, dialect identification. Dialect Identification (DID) of LT and CT is an unexplored area of research. In the current work, keeping the nuances of both these dialects in mind, five methods are explored which include two implicit methods - Gaussian Mixture Model (GMM) and Convolutional Neural Network (CNN); two explicit methods - Parallel Phone Recognition (PPR) and Parallel Large Vocabulary Continuous Speech Recognition (P-LVCSR); two versions of the proposed explicit Unified Phone Recognition method (UPR-1 and UPR-2). These methods vary based on: the need for annotated data, the size of the unit, the way in which modelling is carried out, and the way in which the final decision is made. Even though the average duration of the test utterances is less - 4.9s for LT and 2.5s for CT - the systems performed well, offering the following identification accuracies: 87.72% (GMM), 93.97% (CNN), 89.24% (PPR), 94.21% (P-LVCSR), 88.57% (UPR-1), 93.53% (UPR-1 with P-LVCSR), 94.55% (UPR-2), and 95.61% (UPR-2 with P-LVCSR). | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# CAMH:機械学習におけるモデルハイジャック攻撃の強化
CAMH: Advancing Model Hijacking Attack in Machine Learning ( http://arxiv.org/abs/2408.13741v1 ) ライセンス: Link先を確認 | Xing He, Jiahao Chen, Yuwen Pu, Qingming Li, Chunyi Zhou, Yingcai Wu, Jinbao Li, Shouling Ji, | (参考訳) 機械学習の急成長する領域では、モデルのトレーニングや事前訓練されたモデルの採用に対するサードパーティサービスへの依存が急増している。
しかし、この依存はハイジャック攻撃のモデルに脆弱性を導入し、敵は意図しないタスクを実行するためにモデルを操作し、通常の画像分類器を、モデル所有者の知識なしにポルノコンテンツの顔を検出するツールに変えるなど、重大なセキュリティと倫理上の懸念をもたらす。
本稿では、クラス番号ミスマッチ、データ分散のばらつき、および元のタスクとハイジャックタスク間のパフォーマンスバランスに対処できる新しいモデルハイジャック攻撃手法であるCAMHについて紹介する。
CAMHには、同期トレーニング層、ランダムノイズ最適化、デュアルループ最適化アプローチが組み込まれており、ハイジャックタスクを効果的に実行しながら、元のタスクのパフォーマンスへの影響を最小限に抑える。
我々は、複数のベンチマークデータセットとネットワークアーキテクチャにわたってCAMHを評価し、その強力な攻撃効果を示しながら、元のタスクの性能の最小限の劣化を確実にする。
In the burgeoning domain of machine learning, the reliance on third-party services for model training and the adoption of pre-trained models have surged. However, this reliance introduces vulnerabilities to model hijacking attacks, where adversaries manipulate models to perform unintended tasks, leading to significant security and ethical concerns, like turning an ordinary image classifier into a tool for detecting faces in pornographic content, all without the model owner's knowledge. This paper introduces Category-Agnostic Model Hijacking (CAMH), a novel model hijacking attack method capable of addressing the challenges of class number mismatch, data distribution divergence, and performance balance between the original and hijacking tasks. CAMH incorporates synchronized training layers, random noise optimization, and a dual-loop optimization approach to ensure minimal impact on the original task's performance while effectively executing the hijacking task. We evaluate CAMH across multiple benchmark datasets and network architectures, demonstrating its potent attack effectiveness while ensuring minimal degradation in the performance of the original task. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# 不確実性を考慮した決定融合による画像分類のための適応型深層ネットワークの強化
Enhancing Adaptive Deep Networks for Image Classification via Uncertainty-aware Decision Fusion ( http://arxiv.org/abs/2408.13744v1 ) ライセンス: Link先を確認 | Xu Zhang, Zhipeng Xie, Haiyang Yu, Qitong Wang, Peng Wang, Wei Wang, | (参考訳) 様々な計算リソースを扱うことは、現代のAIアプリケーションにおいて重要な問題である。
異なる層間における複数の分類器ヘッドの動的使用を特徴とする適応型ディープネットワークは,様々な計算資源下での分類課題に対処するために提案されている。
既存のアプローチでは、利用可能なリソースによってサポートされている最後の分類器を推論に利用するのが一般的である。
しかし,本研究の結果から,より早期の分類器ヘッドは,特定のクラスにおいて最後の頭部より優れていたことが示唆された。
そこで本研究では,適応型深層ネットワークの推論性能を高めるために,複数の分類器ヘッドを融合したCDM(Collaborative Decision Making)モジュールを提案する。
CDMは、第1のc-1分類器からの信頼性(不確かさ値)を利用してc-th分類器の精度を向上させる、明らかな深層学習(EDL)に基づく不確実性認識融合法を取り入れている。
また、CDMの核融合品質を改善するために、EDL制約による核融合飽和度と不公平性の問題を低減するバランス項を設計する。
最後に,最終分類器を用いて早期分類器の学習過程をガイドする正規化学習戦略を提案し,CDMモジュールの効果をさらに向上させる。
実験により,本手法の有効性が示された。
ImageNetデータセットの結果、CDMとGCDMは、一般的な適応ネットワーク上での精度を0.4%から2.8%向上させる(様々なコンピューティングリソースの下で)。
コードはhttps://github.com/Meteor-Stars/GCDM_AdaptiveNet.comリンクで入手できる。
Handling varying computational resources is a critical issue in modern AI applications. Adaptive deep networks, featuring the dynamic employment of multiple classifier heads among different layers, have been proposed to address classification tasks under varying computing resources. Existing approaches typically utilize the last classifier supported by the available resources for inference, as they believe that the last classifier always performs better across all classes. However, our findings indicate that earlier classifier heads can outperform the last head for certain classes. Based on this observation, we introduce the Collaborative Decision Making (CDM) module, which fuses the multiple classifier heads to enhance the inference performance of adaptive deep networks. CDM incorporates an uncertainty-aware fusion method based on evidential deep learning (EDL), that utilizes the reliability (uncertainty values) from the first c-1 classifiers to improve the c-th classifier' accuracy. We also design a balance term that reduces fusion saturation and unfairness issues caused by EDL constraints to improve the fusion quality of CDM. Finally, a regularized training strategy that uses the last classifier to guide the learning process of early classifiers is proposed to further enhance the CDM module's effect, called the Guided Collaborative Decision Making (GCDM) framework. The experimental evaluation demonstrates the effectiveness of our approaches. Results on ImageNet datasets show CDM and GCDM obtain 0.4% to 2.8% accuracy improvement (under varying computing resources) on popular adaptive networks. The code is available at the link https://github.com/Meteor-Stars/GCDM_AdaptiveNet. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# DOCE:実行ベースのコード生成のためのスイートスポットを見つける
DOCE: Finding the Sweet Spot for Execution-Based Code Generation ( http://arxiv.org/abs/2408.13745v1 ) ライセンス: Link先を確認 | Haau-Sing Li, Patrick Fernandes, Iryna Gurevych, André F. T. Martins, | (参考訳) 近年,LLMベースのコード生成において,多種多様な復号化処理と復号化処理が有効であることが示されている。
しかし、これらの手法をリンクし、実験的に比較する包括的なフレームワークは欠落している。
私たちは、Decoding Objectives for Code Executionを提案しています。これは、候補生成、$n$-bestリグレード、最小ベイズリスク(MBR)デコーディング、コアコンポーネントとしての自己デバッグを含む包括的なフレームワークです。
次に、これらのコンポーネントのコントリビューションを、実行ベースの評価指標を通して調査する。
本研究は,実行ベースメソッドの重要性と,実行ベースメソッドと実行フリーメソッドとの差を明らかにする。
さらに,従来の研究では見過ごされがちな,シンプルかつ効果的な手法である試行単体テストに基づくフィルタリングの効果を評価する。
また,複数候補に対する自己デバッグを提案する。
私たちのフレームワークは、コード生成に関する将来の研究のための確かなガイドラインを提供することを期待しています。
Recently, a diverse set of decoding and reranking procedures have been shown effective for LLM-based code generation. However, a comprehensive framework that links and experimentally compares these methods is missing. We address this by proposing Decoding Objectives for Code Execution, a comprehensive framework that includes candidate generation, $n$-best reranking, minimum Bayes risk (MBR) decoding, and self-debugging as the core components. We then study the contributions of these components through execution-based evaluation metrics. Our findings highlight the importance of execution-based methods and the difference gap between execution-based and execution-free methods. Furthermore, we assess the impact of filtering based on trial unit tests, a simple and effective strategy that has been often overlooked in prior works. We also propose self-debugging on multiple candidates, obtaining state-of-the-art performance on reranking for code generation. We expect our framework to provide a solid guideline for future research on code generation. | 翻訳日:2024-08-27 18:09:49 公開日:2024-08-25 |
# 正常発声・発声音声のスペクトル包絡と1D-CNNによる分類
Quartered Spectral Envelope and 1D-CNN-based Classification of Normally Phonated and Whispered Speech ( http://arxiv.org/abs/2408.13746v1 ) ライセンス: Link先を確認 | S. Johanan Joysingh, P. Vijayalakshmi, T. Nagarajan, | (参考訳) ウィスパーは、音声の一形態として、主流の音声アプリケーションでは十分に対処されていない。
これは、通常の音声のために構築されたシステムが、ささやき声に対して期待通りに機能しないためである。
ささやき音声を含む音声アプリケーションを構築する第一歩は、ささやき音声と正常音声の分類に成功したことである。
このようなフロントエンド分類システムでは,高い精度と計算オーバーヘッドが期待できる。
発声音声の特徴の1つは、基本周波数(またはピッチ)の欠如であり、したがってピッチ高調波も同様である。
フーリエ変換のスペクトル包絡には, 正常音声におけるピッチとピッチの高調波の存在と, ささやき声の欠如が明らかである。
我々は、この特性がスペクトルの第1四半期で支配的であり、特徴として利用していることを観察する。
本稿では,1次元畳み込みニューラルネットワーク(1D-CNN)を用いて,これらの特徴を量子スペクトル包絡(QSE)から捉えることを提案する。
このシステムは、wTIMITデータセットでトレーニングされテストされたときに99.31%、CHAINSデータセットで100%の精度が得られる。
提案手法は,Mel 周波数ケプストラム係数 (MFCC) と比較した。
提案した分類システムは,長期記憶(LSTM)ネットワークで訓練されたLFBE(log-filterbank energy)機能に基づく最先端システムと比較される。
1D-CNNに基づく提案システムは,複数の実験における最先端技術よりも優れた性能を示す。
また、より早く収束し、計算オーバーヘッドも小さくなる。
最後に,様々な信号対雑音比において白色雑音の存在下で評価を行い,ロバストであることが判明した。
Whisper, as a form of speech, is not sufficiently addressed by mainstream speech applications. This is due to the fact that systems built for normal speech do not work as expected for whispered speech. A first step to building a speech application that is inclusive of whispered speech, is the successful classification of whispered speech and normal speech. Such a front-end classification system is expected to have high accuracy and low computational overhead, which is the scope of this paper. One of the characteristics of whispered speech is the absence of the fundamental frequency (or pitch), and hence the pitch harmonics as well. The presence of the pitch and pitch harmonics in normal speech, and its absence in whispered speech, is evident in the spectral envelope of the Fourier transform. We observe that this characteristic is predominant in the first quarter of the spectrum, and exploit the same as a feature. We propose the use of one dimensional convolutional neural networks (1D-CNN) to capture these features from the quartered spectral envelope (QSE). The system yields an accuracy of 99.31% when trained and tested on the wTIMIT dataset, and 100% on the CHAINS dataset. The proposed feature is compared with Mel frequency cepstral coefficients (MFCC), a staple in the speech domain. The proposed classification system is also compared with the state-of-the-art system based on log-filterbank energy (LFBE) features trained on long short-term memory (LSTM) network. The proposed system based on 1D-CNN performs better than, or as good as, the state-of-the-art across multiple experiments. It also converges sooner, with lesser computational overhead. Finally, the proposed system is evaluated under the presence of white noise at various signal-to-noise ratios and found to be robust. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# 知的倉庫における多エージェント目標割り当てと経路探索--協調型多エージェント深層強化学習の視点から
Multi-Agent Target Assignment and Path Finding for Intelligent Warehouse: A Cooperative Multi-Agent Deep Reinforcement Learning Perspective ( http://arxiv.org/abs/2408.13750v1 ) ライセンス: Link先を確認 | Qi Liu, Jianqi Gao, Dongjie Zhu, Xizheng Pang, Pengbin Chen, Jingxiang Guo, Yanjie Li, | (参考訳) 多エージェント目標割り当てと経路計画(TAPF)はインテリジェントウェアハウスにおける2つの重要な問題である。
しかし、ほとんどの文献はこれら2つの問題のうちの1つだけを別々に扱う。
本研究では,協調型多エージェント深層強化学習(RL)の観点から,目標の割り当てと経路計画を同時に解く手法を提案する。
我々の知る限り、これはインテリジェントウェアハウスにおけるTAPF問題を、協調的なマルチエージェントディープRLにモデル化する最初の作業であり、マルチエージェントディープRLに基づいてTAPFを同時に処理する最初の作業である。
さらに、以前の文献ではエージェントの物理力学をほとんど考慮していない。
本研究では, エージェントの物理力学を考察する。
実験結果から,提案手法は様々なタスク設定において良好に動作し,目的の割り当てが合理的に解決され,計画された経路が最短であることが示唆された。
さらに,本手法はベースラインよりも時間効率が高い。
Multi-agent target assignment and path planning (TAPF) are two key problems in intelligent warehouse. However, most literature only addresses one of these two problems separately. In this study, we propose a method to simultaneously solve target assignment and path planning from a perspective of cooperative multi-agent deep reinforcement learning (RL). To the best of our knowledge, this is the first work to model the TAPF problem for intelligent warehouse to cooperative multi-agent deep RL, and the first to simultaneously address TAPF based on multi-agent deep RL. Furthermore, previous literature rarely considers the physical dynamics of agents. In this study, the physical dynamics of the agents is considered. Experimental results show that our method performs well in various task settings, which means that the target assignment is solved reasonably well and the planned path is almost shortest. Moreover, our method is more time-efficient than baselines. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# 部分回帰におけるブレークポイントの同定の改善とその応用
Improved identification of breakpoints in piecewise regression and its applications ( http://arxiv.org/abs/2408.13751v1 ) ライセンス: Link先を確認 | Taehyeong Kim, Hyungu Lee, Hayoung Choi, | (参考訳) 断片的回帰におけるブレークポイントの特定は、データフィッティングの信頼性と解釈可能性を高める上で重要である。
本稿では,分数次多項式回帰におけるブレークポイントを高精度かつ効率的に同定する,グリーディアルゴリズムに基づく新しいアルゴリズムを提案する。
アルゴリズムはブレークポイントを更新し、各ブレークポイントの近傍を探索することでエラーを最小限にする。
最適なブレークポイントを見つけるために、収束速度と安定性が速い。
さらに、最適なブレークポイント数を決定することができる。
実データおよび合成データの計算結果から,その精度は既存のどの手法よりも優れていることが示された。
実世界のデータセットは、提案アルゴリズムによるブレークポイントが貴重なデータ情報を提供することを示した。
Identifying breakpoints in piecewise regression is critical in enhancing the reliability and interpretability of data fitting. In this paper, we propose novel algorithms based on the greedy algorithm to accurately and efficiently identify breakpoints in piecewise polynomial regression. The algorithm updates the breakpoints to minimize the error by exploring the neighborhood of each breakpoint. It has a fast convergence rate and stability to find optimal breakpoints. Moreover, it can determine the optimal number of breakpoints. The computational results for real and synthetic data show that its accuracy is better than any existing methods. The real-world datasets demonstrate that breakpoints through the proposed algorithm provide valuable data information. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# ローカライゼーションと拡張 - Point Cloud Few-shot Semantic Segmentationのための分離フレームワーク
Localization and Expansion: A Decoupled Framework for Point Cloud Few-shot Semantic Segmentation ( http://arxiv.org/abs/2408.13752v1 ) ライセンス: Link先を確認 | Zhaoyang Li, Yuan Wang, Wangkai Li, Rui Sun, Tianzhu Zhang, | (参考訳) Point Cloud few-shot semantic segmentation (PC-FSS)は、指定されたクエリポイントクラウドに、いくつかのアノテーション付きのサポートサンプルで、新しいカテゴリのターゲットをセグメントすることを目的としている。
現在のトップパフォーマンスのプロトタイプ学習手法では、サポートサンプルから派生したプロトタイプを用いてクエリポイントの分類を指示している。
しかし、点レベルのマッチングとクラス内多様性の出現は、このクロスインスタンスマッチングパラダイムに大きな課題をもたらし、誤ったバックグラウンドアクティベーションや不完全なターゲット発掘につながる。
本稿では,DLE(Decoupled Localization and Expansion)の精神において,シンプルながら効果的なフレームワークを提案する。
構造的局所化モジュール(SLM)と自己拡張モジュール(SEM)を含む提案されたDLEは、いくつかのメリットを享受している。
まず、SLMにおけるエージェントレベルの相関を通じて、構造情報をマッチングプロセスに注入し、確実な目標領域を正確に特定することができる。
第二に、SEMにおいてより信頼性の高いオブジェクト内類似性を利用して完全な目標を導出し、その拡張を合理的に抑制するために保守的な拡張戦略を導入する。
異なる設定下での2つの挑戦的なベンチマークに関する大規模な実験は、DLEが従来の最先端のアプローチよりも大きなマージンで優れていることを示している。
Point cloud few-shot semantic segmentation (PC-FSS) aims to segment targets of novel categories in a given query point cloud with only a few annotated support samples. The current top-performing prototypical learning methods employ prototypes originating from support samples to direct the classification of query points. However, the inherent fragility of point-level matching and the prevalent intra-class diversity pose great challenges to this cross-instance matching paradigm, leading to erroneous background activations or incomplete target excavation. In this work, we propose a simple yet effective framework in the spirit of Decoupled Localization and Expansion (DLE). The proposed DLE, including a structural localization module (SLM) and a self-expansion module (SEM), enjoys several merits. First, structural information is injected into the matching process through the agent-level correlation in SLM, and the confident target region can thus be precisely located. Second, more reliable intra-object similarity is harnessed in SEM to derive the complete target, and the conservative expansion strategy is introduced to reasonably constrain the expansion. Extensive experiments on two challenging benchmarks under different settings demonstrate that DLE outperforms previous state-of-the-art approaches by large margins. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# 手書きサンプルを用いた小児の画像診断における条件付き特徴融合を用いたマルチモーダルアンサンブル
Multimodal Ensemble with Conditional Feature Fusion for Dysgraphia Diagnosis in Children from Handwriting Samples ( http://arxiv.org/abs/2408.13754v1 ) ライセンス: Link先を確認 | Jayakanth Kunhoth, Somaya Al-Maadeed, Moutaz Saleh, Younes Akbari, | (参考訳) 発達障害 (Developmental dysgraphia) は、小児の筆記能力を妨げる神経疾患である。
近年,オフラインやオンラインの筆跡に基づく画像診断を支援する機械学習手法が研究されている。
これまでのほとんどの研究では、2種類の筆跡が別々に分析されており、必ずしも有望な結果をもたらすわけではない。
このように、オンラインデータとオフラインデータの関係を探索することはできない。
この制限に対処するため,オンラインとオフラインの両方の手書きデータを利用した新しいマルチモーダル機械学習手法を提案する。
既存のオンライン手書きデータセットを変換し、対応するオフライン手書き画像を生成することで、新しいデータセットを作成しました。
マルチモーダル分析では, 単語データの種類(単純語, 疑似語, 難解語)のみを検討した。
オンラインとオフラインの機能でSVMとXGBoostの分類器を個別に訓練し、マルチモーダル機能融合とソフトヴォイットアンサンブルを実装しました。
さらに、オンラインとオフラインの分類器からの予測をインテリジェントに組み合わせ、信頼スコアが閾値以下になると特徴融合を選択的に組み込む条件付き特徴融合法を提案する。
提案手法の精度は88.8%であり,シングルモーダルのSVMは12-14%,既存手法は8-9%,従来のマルチモーダルアプローチ(ソフトボイトアンサンブルと特徴融合)は3%,特徴融合は5%であった。
本手法は, 書字障害を判定するために, 複数モーダル語/単語データの単一インスタンスのみを必要とする, 高精度かつ効率的な画像診断ツールの開発に寄与する。
本研究は, マルチモーダル・ラーニング(マルチモーダル・ラーニング, マルチモーダル・ラーニング)の可能性を明らかにするものである。
Developmental dysgraphia is a neurological disorder that hinders children's writing skills. In recent years, researchers have increasingly explored machine learning methods to support the diagnosis of dysgraphia based on offline and online handwriting. In most previous studies, the two types of handwriting have been analysed separately, which does not necessarily lead to promising results. In this way, the relationship between online and offline data cannot be explored. To address this limitation, we propose a novel multimodal machine learning approach utilizing both online and offline handwriting data. We created a new dataset by transforming an existing online handwritten dataset, generating corresponding offline handwriting images. We considered only different types of word data (simple word, pseudoword & difficult word) in our multimodal analysis. We trained SVM and XGBoost classifiers separately on online and offline features as well as implemented multimodal feature fusion and soft-voted ensemble. Furthermore, we proposed a novel ensemble with conditional feature fusion method which intelligently combines predictions from online and offline classifiers, selectively incorporating feature fusion when confidence scores fall below a threshold. Our novel approach achieves an accuracy of 88.8%, outperforming SVMs for single modalities by 12-14%, existing methods by 8-9%, and traditional multimodal approaches (soft-vote ensemble and feature fusion) by 3% and 5%, respectively. Our methodology contributes to the development of accurate and efficient dysgraphia diagnosis tools, requiring only a single instance of multimodal word/pseudoword data to determine the handwriting impairment. This work highlights the potential of multimodal learning in enhancing dysgraphia diagnosis, paving the way for accessible and practical diagnostic tools. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# 活性波動粒子体に対するローレンツ様模型のトンネル加工
Tunneling in a Lorenz-like model for an active wave-particle entity ( http://arxiv.org/abs/2408.13761v1 ) ライセンス: Link先を確認 | Runze Xu, Rahil N. Valani, | (参考訳) 活性波粒子体(WPE)は、振動する油浴の自由面に自己推進油滴として出現する。
粒子(液滴)は液面に周期的に崩壊する波を印加し、粒子の動きを導き、粒子と自発生する波との間に双方向の結合をもたらす。
このようなWPEは、様々な量子特性の流体力学的類似性を示すことが示されている。
本研究では,一次元WPEインシデントを孤立したガウスポテンシャル障壁上に設置することを考慮することにより,トンネルの動的アナログを理論的・数値的に探索する。
我々の理想化されたモデルは、初期条件とシステムパラメータの関数として障壁交差の力学と統計を探索するために使用される摂動ロレンツ系の形を取る。
我々の研究は、ロレンツ系の非平衡特性に根ざした高記憶におけるWPEの速度変動が平衡点へのスパイラル運動や過渡的カオスを引き起こすことを強調している。
一 障壁交差の感度及び予測不能性
二 システムパラメータの関数としての伝達確率のスムーズな変動
三 透過及び反射した確率密度プロファイルにおける波状特徴
Active wave-particle entities (WPEs) emerge as self-propelled oil droplets on the free surface of a vibrating oil bath. The particle (droplet) periodically imprints decaying waves on the liquid surface which in turn guide the particle motion, resulting in a two-way coupling between the particle and its self-generated waves. Such WPEs have been shown to exhibit hydrodynamic analogs of various quantum features. In this work, we theoretically and numerically explore a dynamical analog of tunneling by considering the setup of a one-dimensional WPE incident on an isolated Gaussian potential barrier. Our idealized model takes the form of a perturbed Lorenz system which we use to explore the dynamics and statistics of barrier crossing as a function of initial conditions and system parameters. Our work highlights that velocity fluctuations of the WPE at high memories that are rooted in non-equilibrium features of the Lorenz system, such as spiraling motion towards equilibrium points and transient chaos, give rise to - (i) sensitivity and unpredictability in barrier crossing, (ii) smooth variations in transmission probability as a function of system parameters, and (iii) wave-like features in the transmitted and reflected probability density profiles. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# 自己パラメータ化に基づくマルチリゾリューションメッシュ畳み込みネットワーク
Self-Parameterization Based Multi-Resolution Mesh Convolution Networks ( http://arxiv.org/abs/2408.13762v1 ) ライセンス: Link先を確認 | Shi Hezi, Jiang Luo, Zheng Jianmin, Zeng Jun, | (参考訳) 本稿では,メッシュ畳み込みニューラルネットワークを3次元メッシュ密度予測のために設計する際の課題について述べる。
深層学習は画像密度予測タスクにおいて顕著な成功を収めてきたが、3次元表面メッシュのような不規則なグラフデータにこれらの手法を直接適用または拡張することは、非一様要素分布と表面メッシュにおける不規則な接続により、ダウンサンプリング、アップサンプリング、畳み込み操作の適応が困難になるため、非自明である。
さらに、一般的に使用されるマルチレゾリューションネットワークは、リッチで高解像度な表現を復元する性能を高めるために、ハイ・ツー・ロー・ハイ・プロセスを繰り返し行う必要がある。
これらの課題に対処するために,既存の画像密度予測アーキテクチャを3次元メッシュに拡張する,自己パラメータ化に基づくマルチレゾリューション畳み込みネットワークを提案する。
私たちのアプローチの斬新さは2つの重要な側面にあります。
まず、高分解能入力データから直接多分解能メッシュピラミッドを構築し、異なるメッシュ解像度間の連続的な物体間マッピングを用いた領域認識メッシュダウンサンプリング/アップサンプリング操作を提案する。
表面マッピングはメッシュを再定義する代わりにメッシュを再定義するので、不要なエラーを発生させない。
第2に,多分解能畳み込みネットワークにおける高分解能表現を維持し,並列多分解能サブネットワーク間の情報交換を,高分解能サブネットワークの接続を連続的に行うのではなく,多分解能サブネットワーク間の情報交換を可能にする。
これらの特徴は、我々のアプローチを既存のメッシュ畳み込みネットワークと区別し、より正確なメッシュ密度予測を可能にし、実験で確認されている。
This paper addresses the challenges of designing mesh convolution neural networks for 3D mesh dense prediction. While deep learning has achieved remarkable success in image dense prediction tasks, directly applying or extending these methods to irregular graph data, such as 3D surface meshes, is nontrivial due to the non-uniform element distribution and irregular connectivity in surface meshes which make it difficult to adapt downsampling, upsampling, and convolution operations. In addition, commonly used multiresolution networks require repeated high-to-low and then low-to-high processes to boost the performance of recovering rich, high-resolution representations. To address these challenges, this paper proposes a self-parameterization-based multi-resolution convolution network that extends existing image dense prediction architectures to 3D meshes. The novelty of our approach lies in two key aspects. First, we construct a multi-resolution mesh pyramid directly from the high-resolution input data and propose area-aware mesh downsampling/upsampling operations that use sequential bijective inter-surface mappings between different mesh resolutions. The inter-surface mapping redefines the mesh, rather than reshaping it, which thus avoids introducing unnecessary errors. Second, we maintain the high-resolution representation in the multi-resolution convolution network, enabling multi-scale fusions to exchange information across parallel multi-resolution subnetworks, rather than through connections of high-to-low resolution subnetworks in series. These features differentiate our approach from most existing mesh convolution networks and enable more accurate mesh dense predictions, which is confirmed in experiments. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# FMI-TAL: 確率分布学習による時間的行動局所化と時間的クラスタリファインメント
FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement ( http://arxiv.org/abs/2408.13765v1 ) ライセンス: Link先を確認 | Fengshun Wang, Qiurui Wang, Yuting Wang, | (参考訳) 現在の数発の時間的アクションローカライゼーションモデルは、ビデオが複数のアクションインスタンスを含む状況に対処できない。
そこで,本稿の目的は,限定的なトリミングサポートビデオを用いた長大な未トリミングクエリビデオにおいて,多様体アクションインスタンスのローカライズを実現することである。
この課題を効果的に解決するために,確率学習とクラスタリファインメントを備えた空間チャネルリレーショナルトランスフォーマを用いた新しい解を提案する。
この手法は,限られた数のラベル付きビデオのみを用いて,クエリビデオにおけるアクションの開始と終了の境界を正確に識別することができる。
提案手法は,映像中のアクションを効果的に分類し,正確に特定するために,時間的・空間的文脈の両方を捉えるのに適しており,これらの重要な詳細をより包括的に活用することができる。
選択的コサインペナル化アルゴリズムは、アクションシーンスイッチを含まない時間境界を抑制するように設計されている。
確率学習とラベル生成アルゴリズムを組み合わせることで、動作期間の多様性の問題が軽減され、ファジィ動作境界を扱うモデルの能力が向上する。
インターバルクラスタは、数ショットの時間的アクションローカライゼーションにおいて、複数のインスタンス状況で最終的な結果を得るのに役立ちます。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
私たちのコードはhttps://github.com/ycwfs/FMI-TAL.comから入手可能です。
The present few-shot temporal action localization model can't handle the situation where videos contain multiple action instances. So the purpose of this paper is to achieve manifold action instances localization in a lengthy untrimmed query video using limited trimmed support videos. To address this challenging problem effectively, we proposed a novel solution involving a spatial-channel relation transformer with probability learning and cluster refinement. This method can accurately identify the start and end boundaries of actions in the query video, utilizing only a limited number of labeled videos. Our proposed method is adept at capturing both temporal and spatial contexts to effectively classify and precisely locate actions in videos, enabling a more comprehensive utilization of these crucial details. The selective cosine penalization algorithm is designed to suppress temporal boundaries that do not include action scene switches. The probability learning combined with the label generation algorithm alleviates the problem of action duration diversity and enhances the model's ability to handle fuzzy action boundaries. The interval cluster can help us get the final results with multiple instances situations in few-shot temporal action localization. Our model achieves competitive performance through meticulous experimentation utilizing the benchmark datasets ActivityNet1.3 and THUMOS14. Our code is readily available at https://github.com/ycwfs/FMI-TAL. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# 大気環境シミュレーションによる海洋SARにおける人体検出アルゴリズムのロバスト性向上
Enhancing Robustness of Human Detection Algorithms in Maritime SAR through Augmented Aerial Images to Simulate Weather Conditions ( http://arxiv.org/abs/2408.13766v1 ) ライセンス: Link先を確認 | Miguel Tjia, Artem Kim, Elaine Wynette Wijaya, Hanna Tefara, Kevin Zhu, | (参考訳) 7,651件の捜索救助ミッション(SAR)が2024年に沿岸警備隊によって報告され、6ヶ月だけで1322機以上のSARヘリコプターが配備された。
YOLOの利用を通じて、異なる気象条件と照明をトレーニング用データセットから実行することが可能になった。
YOLOはCNNを使用して一連の畳み込み層とプール層を入力画像に適用し、畳み込み層が画像の主要な特徴を抽出する。
これにより、我々のYOLOモデルは、その精度を大幅に向上させ、検出精度を高めてSAR操作の効率を向上する可能性のある、異なる物体の識別を学べる。
本稿では,海中SARにおける人間の検出精度の向上を目的として,様々な標高や地質位置を含む頑健なデータセットと,異なる気象や照明をシミュレートしたデータ拡張を用いて評価する。
強化データセットをトレーニングしたモデルでは,ヒトのリコールスコアが0.891から0.911の範囲で,YOLOv5lモデルでは3.4\%向上した。
その結果、これらのモデルは、天候、明るさ、色調、コントラストの異なる実世界の条件に対してより堅牢であることが示された。
7,651 cases of Search and Rescue Missions (SAR) were reported by the United States Coast Guard in 2024, with over 1322 SAR helicopters deployed in the 6 first months alone. Through the utilizations of YOLO, we were able to run different weather conditions and lighting from our augmented dataset for training. YOLO then utilizes CNNs to apply a series of convolutions and pooling layers to the input image, where the convolution layers are able to extract the main features of the image. Through this, our YOLO model is able to learn to differentiate different objects which may considerably improve its accuracy, possibly enhancing the efficiency of SAR operations through enhanced detection accuracy. This paper aims to improve the model's accuracy of human detection in maritime SAR by evaluating a robust datasets containing various elevations and geological locations, as well as through data augmentation which simulates different weather and lighting. We observed that models trained on augmented datasets outperformed their non-augmented counterparts in which the human recall scores ranged from 0.891 to 0.911 with an improvement rate of 3.4\% on the YOLOv5l model. Results showed that these models demonstrate greater robustness to real-world conditions in varying of weather, brightness, tint, and contrast. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# 線形ニューラルネットワークの講義ノート:ディープラーニングにおける最適化と一般化の物語
Lecture Notes on Linear Neural Networks: A Tale of Optimization and Generalization in Deep Learning ( http://arxiv.org/abs/2408.13767v1 ) ライセンス: Link先を確認 | Nadav Cohen, Noam Razin, | (参考訳) これらのノートは、深層学習の数学的理解に関するプリンストン大学の上級講座の一部として、2021年3月にNCが行った講義に基づいている。
彼らは線形ニューラルネットワークの理論(NC、NR、共同研究者によって開発された)を提示し、ディープラーニングの最適化と一般化の研究における基礎モデルである。
提示された理論から生まれた実践的応用についても論じる。
この理論は、自然界で動的である数学的ツールに基づいている。
これは、ディープラーニングにおける最適化と一般化の理解のエンベロープを推し進めるための、そのようなツールの可能性を示している。
このテキストは統計学習理論の基礎に精通している。
エクササイズは(ソリューションなしで)含まれます。
These notes are based on a lecture delivered by NC on March 2021, as part of an advanced course in Princeton University on the mathematical understanding of deep learning. They present a theory (developed by NC, NR and collaborators) of linear neural networks -- a fundamental model in the study of optimization and generalization in deep learning. Practical applications born from the presented theory are also discussed. The theory is based on mathematical tools that are dynamical in nature. It showcases the potential of such tools to push the envelope of our understanding of optimization and generalization in deep learning. The text assumes familiarity with the basics of statistical learning theory. Exercises (without solutions) are included. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# TranSplat: トランスフォーマーを用いたスパースマルチビュー画像からの一般化可能な3次元ガウススプレイティング
TranSplat: Generalizable 3D Gaussian Splatting from Sparse Multi-View Images with Transformers ( http://arxiv.org/abs/2408.13770v1 ) ライセンス: Link先を確認 | Chuanrui Zhang, Yingshuang Zou, Zhuoling Li, Minmin Yi, Haoqian Wang, | (参考訳) Nerfのような従来の3次元再構成手法と比較して、最近のジェネラライズ可能な3次元ガウススティング(G-3DGS)法は、スパース・ビュー・セッティングにおいても印象的な効率性を示している。
しかし,既存のG-3DGS手法の有望な再構成性能は,正確なマルチビュー特徴マッチングに大きく依存しており,非常に困難である。
特に、様々なビューの間に重複しない領域が多く、類似した領域が多数存在するシーンでは、既存の手法との整合性が乏しく、復元精度が限られている。
この問題に対処するため、予測深度信頼マップを用いて正確な局所特徴マッチングを導出する戦略を開発する。
さらに,既存の単眼深度推定モデルの知識を,ビュー間の非重複領域における深度推定精度を高めるために利用することを提案する。
提案手法を組み合わせた新しいG-3DGS手法であるTranSplatを提案する。これはRealEstate10KベンチマークとACベンチマークの両方において、競争速度を維持しつつ、強力なクロスデータセット一般化能力を示す。
私たちのコードとデモは、https://xingyoujun.github.io/transplat.comで公開されます。
Compared with previous 3D reconstruction methods like Nerf, recent Generalizable 3D Gaussian Splatting (G-3DGS) methods demonstrate impressive efficiency even in the sparse-view setting. However, the promising reconstruction performance of existing G-3DGS methods relies heavily on accurate multi-view feature matching, which is quite challenging. Especially for the scenes that have many non-overlapping areas between various views and contain numerous similar regions, the matching performance of existing methods is poor and the reconstruction precision is limited. To address this problem, we develop a strategy that utilizes a predicted depth confidence map to guide accurate local feature matching. In addition, we propose to utilize the knowledge of existing monocular depth estimation models as prior to boost the depth estimation precision in non-overlapping areas between views. Combining the proposed strategies, we present a novel G-3DGS method named TranSplat, which obtains the best performance on both the RealEstate10K and ACID benchmarks while maintaining competitive speed and presenting strong cross-dataset generalization ability. Our code, and demos will be available at: https://xingyoujun.github.io/transplat. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# ICFRNet: リアルタイムセマンティックセグメンテーションに先立つ画像複雑度
ICFRNet: Image Complexity Prior Guided Feature Refinement for Real-time Semantic Segmentation ( http://arxiv.org/abs/2408.13771v1 ) ライセンス: Link先を確認 | Xin Zhang, Teodor Boyadzhiev, Jinglei Shi, Jufeng Yang, | (参考訳) 本稿では,画像の複雑さをセグメント化の事前処理として活用し,正確なリアルタイムセマンティックセマンティックセマンティックセマンティクスを実現する。
デザイン哲学は、画像内の異なるピクセル領域が様々なレベルの複雑さを示すという観察に基づいている。
そこで我々は,画像複雑度を事前指導として導入し,画像複雑度事前誘導機能強化ネットワーク(ICFRNet)を提案する。
このネットワークは、複雑さとセグメンテーションの両方を集約し、画像複雑ガイド注意(ICGA)モジュール内のセグメンテーション機能を精細化するためのアテンションマップを生成する。
分割と画像複雑性予測の両面から,損失関数を組み合わせたネットワークを最適化する。
CityscapesとCamViDデータセットの実験結果から、ICFRNetはリアルタイムセグメンテーションの競争効率で高い精度を実現していることがわかった。
In this paper, we leverage image complexity as a prior for refining segmentation features to achieve accurate real-time semantic segmentation. The design philosophy is based on the observation that different pixel regions within an image exhibit varying levels of complexity, with higher complexities posing a greater challenge for accurate segmentation. We thus introduce image complexity as prior guidance and propose the Image Complexity prior-guided Feature Refinement Network (ICFRNet). This network aggregates both complexity and segmentation features to produce an attention map for refining segmentation features within an Image Complexity Guided Attention (ICGA) module. We optimize the network in terms of both segmentation and image complexity prediction tasks with a combined loss function. Experimental results on the Cityscapes and CamViD datasets have shown that our ICFRNet achieves higher accuracy with a competitive efficiency for real-time segmentation. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# SAB:フェデレートラーニングに対するステガノグラフィーアルゴリズムに基づくステアリングとロバストバックドアアタック
SAB:A Stealing and Robust Backdoor Attack based on Steganographic Algorithm against Federated Learning ( http://arxiv.org/abs/2408.13773v1 ) ライセンス: Link先を確認 | Weida Xu, Yang Xu, Sicong Zhang, | (参考訳) ユーザのプライバシを保護するために設計された、革新的なネットワークアーキテクチャであるフェデレートラーニング(Federated Learning)は、テクノロジの領域で広く採用されている。
しかし、フェデレートラーニングにおけるバックドア攻撃の存在を考えると、フェデレーションラーニングの安全性を探求することが重要である。
それにもかかわらず、現在の連合学習研究で調査されているバックドアは、人間の検査や検出アルゴリズムによって容易に検出できる。
そのため、盗みと堅牢な学習バックドアアタックを開発するという新たな目標が掲げられている。
本稿では,フェデレート学習におけるバックドア攻撃に特化して設計された新しいアプローチであるSABを紹介し,代替的な勾配更新機構を提案する。
ステガノグラフィーアルゴリズムに基づくSAB攻撃では、画像ステガノグラフィーアルゴリズムを用いてバックドアの精度を向上させるフルサイズのトリガを構築し、複数のロスジョイント計算を使用してトリガを生成する。
SABは、良性サンプルへの距離が小さく、ヒトの目に対する知覚力も高い。
このように、我々のトリガーは特定のバックドア防御方法を緩和または回避することができる。
SABではバックドア攻撃の寿命を延長するためにボトム95%の手法を適用した。
マイナー値ポイントの勾配を更新し、クリーン化の確率を下げる。
最後に,Sparse-updateによりバックドアの一般化が向上し,バックドアの精度が向上する。
Federated learning, an innovative network architecture designed to safeguard user privacy, is gaining widespread adoption in the realm of technology. However, given the existence of backdoor attacks in federated learning, exploring the security of federated learning is significance. Nevertheless, the backdoors investigated in current federated learning research can be readily detected by human inspection or resisted by detection algorithms. Accordingly, a new goal has been set to develop stealing and robust federated learning backdoor attacks. In this paper, we introduce a novel approach, SAB, tailored specifically for backdoor attacks in federated learning, presenting an alternative gradient updating mechanism. SAB attack based on steganographic algorithm, using image steganographic algorithm to build a full-size trigger to improve the accuracy of backdoors and use multiple loss joint computation to produce triggers. SAB exhibits smaller distances to benign samples and greater imperceptibility to the human eye. As such, our triggers are capable of mitigating or evading specific backdoor defense methods. In SAB, the bottom-95\% method is applied to extend the lifespan of backdoor attacks. It updates the gradient on minor value points to reduce the probability of being cleaned. Finally, the generalization of backdoors is enhanced with Sparse-update to improve the backdoor accuracy. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# 野生のグリフの超微視的分類
Extremely Fine-Grained Visual Classification over Resembling Glyphs in the Wild ( http://arxiv.org/abs/2408.13774v1 ) ライセンス: Link先を確認 | Fares Bougourzi, Fadi Dornaika, Chongsheng Zhang, | (参考訳) 野生のテキスト認識は、グリフ間の自然に類似した性質が誤認識の結果をもたらす主要な理由の1つである、デジタル地図と都市景観理解にとって重要な技術である。
この課題に対処するために、我々は、非常にきめ細かな視覚認識ベンチマークデータセットを2つ導入し、そのデータセットは、区別すべき野生のグリフ(キャラクタ/レター)に非常によく似ている。
さらに,グリフの識別に類似した極めてきめ細かな認識課題に対して,単純かつ効果的な2段階のコントラスト学習手法を提案する。
最初の段階では、教師付きコントラスト学習を利用してラベル情報を利用してバックボーンネットワークをウォームアップする。
第2段階では、ユークリッド空間とAngular空間の両方において、分類とコントラスト学習を統合したネットワークアーキテクチャであるCCFG-Netを導入し、モデルの特徴表現能力を高めるために、教師付き学習とペア識別の両方にコントラスト学習を適用した。
提案手法は, 比較学習と分類の相補的な長所を効果的に活用し, 類似したグリフの認識性能を向上させる。
CNN(Convolutional Neural Network)とTransformer Backbones(Transformer Backbones)による最先端のきめ細かい分類手法との比較により,提案手法の優位性を実証した。
Text recognition in the wild is an important technique for digital maps and urban scene understanding, in which the natural resembling properties between glyphs is one of the major reasons that lead to wrong recognition results. To address this challenge, we introduce two extremely fine-grained visual recognition benchmark datasets that contain very challenging resembling glyphs (characters/letters) in the wild to be distinguished. Moreover, we propose a simple yet effective two-stage contrastive learning approach to the extremely fine-grained recognition task of resembling glyphs discrimination. In the first stage, we utilize supervised contrastive learning to leverage label information to warm-up the backbone network. In the second stage, we introduce CCFG-Net, a network architecture that integrates classification and contrastive learning in both Euclidean and Angular spaces, in which contrastive learning is applied in both supervised learning and pairwise discrimination manners to enhance the model's feature representation capability. Overall, our proposed approach effectively exploits the complementary strengths of contrastive learning and classification, leading to improved recognition performance on the resembling glyphs. Comparative evaluations with state-of-the-art fine-grained classification approaches under both Convolutional Neural Network (CNN) and Transformer backbones demonstrate the superiority of our proposed method. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# Progress: ポストAIマニフェスト
Progress: A Post-AI Manifesto ( http://arxiv.org/abs/2408.13775v1 ) ライセンス: Link先を確認 | Christoforus Yoga Haryanto, | (参考訳) このマニフェストは、非線形で累積的な進歩、目的とコンテキストの深い理解、マルチステークホルダーのコラボレーション、システムレベルの実験など、AI時代の進歩のための重要な原則を概説している。
それは進歩を実質的で耐久性があり、複製可能な進歩として再定義し、技術革新と人間中心の価値観のバランスをとることの重要性を強調している。
AIが産業全体の進歩を加速する可能性を認めながら、理解の錯覚を生じさせ、潜在的な問題解決アプローチを狭めるなど、その限界を認識している。
AI時代の真の進歩は、人工知能能力と人間の創造性の共生を必要とし、すべての人類に役に立つ未来を形成するための全体論的、学際的なアプローチを要求する、と結論付けている。
This manifesto outlines key principles for progress in the post-AI era, emphasizing non-linear yet cumulative advancement, deep understanding of purpose and context, multi-stakeholder collaboration, and system-level experimentation. It redefines progress as substantial, durable, and replicable advancement, highlighting the importance of balancing technological innovation with human-centric values. It acknowledges AI's potential to accelerate progress across industries while recognizing its limitations, such as creating illusions of understanding and potentially narrowing problem-solving approaches. It concludes that true progress in the AI age requires a symbiosis of artificial intelligence capabilities and human ingenuity, calling for a holistic, interdisciplinary approach to shape a future that serves all of humanity. | 翻訳日:2024-08-27 18:00:02 公開日:2024-08-25 |
# 完全性に向けて:ゼロショット時空間行動定位のための一般化可能な行動提案生成器
Towards Completeness: A Generalizable Action Proposal Generator for Zero-Shot Temporal Action Localization ( http://arxiv.org/abs/2408.13777v1 ) ライセンス: Link先を確認 | Jia-Run Du, Kun-Yu Lin, Jingke Meng, Wei-Shi Zheng, | (参考訳) ゼロショット時間的行動ローカライゼーション(ZSTAL)課題に対処するために、既存の研究は、目に見えないカテゴリからアクションを検出し分類できるモデルを開発する。
彼らは典型的にはカテゴリーに依存しない行動検知器を開発し、ZSTALを解くためにContrastive Language-Image Pre-Training (CLIP)モデルと組み合わせる。
しかしながら、これらの手法はフレームレベルの予測パラダイムに従い、アクション提案を生成するために手作りのポストプロセッシングを必要とするため、 \textit{unseen} カテゴリで生成される不完全なアクション提案に悩まされる。
この問題に対処するため,本研究では,CLIPとシームレスにインターフェースし,包括的にアクション提案を生成するGAP(Generalizable Action Proposal Generator)という新しいモデルを提案する。
我々のGAPは、クエリベースのアーキテクチャで構築され、提案レベルの目的で訓練されており、提案の完全性を推定し、手作りの事後処理を排除することができます。
本アーキテクチャに基づいて,アクションのカテゴリに依存しない動的情報を強化するために,行動認識識別損失を提案する。
さらに,CLIPからの一般化可能な静的情報を組み込んだ静的・動的整形モジュールを導入し,予測された提案を洗練し,一般化可能な提案完全性を向上させる。
我々の実験は、我々のGAPが2つの挑戦的ZSTALベンチマーク、すなわちThumos14とActivityNet1.3で最先端のパフォーマンスを達成することを示す。
具体的には,従来の2つのベンチマーク,すなわち平均mAPの3.2%,平均mAPの3.4%に対して,性能が大幅に向上した。
To address the zero-shot temporal action localization (ZSTAL) task, existing works develop models that are generalizable to detect and classify actions from unseen categories. They typically develop a category-agnostic action detector and combine it with the Contrastive Language-Image Pre-training (CLIP) model to solve ZSTAL. However, these methods suffer from incomplete action proposals generated for \textit{unseen} categories, since they follow a frame-level prediction paradigm and require hand-crafted post-processing to generate action proposals. To address this problem, in this work, we propose a novel model named Generalizable Action Proposal generator (GAP), which can interface seamlessly with CLIP and generate action proposals in a holistic way. Our GAP is built in a query-based architecture and trained with a proposal-level objective, enabling it to estimate proposal completeness and eliminate the hand-crafted post-processing. Based on this architecture, we propose an Action-aware Discrimination loss to enhance the category-agnostic dynamic information of actions. Besides, we introduce a Static-Dynamic Rectifying module that incorporates the generalizable static information from CLIP to refine the predicted proposals, which improves proposal completeness in a generalizable manner. Our experiments show that our GAP achieves state-of-the-art performance on two challenging ZSTAL benchmarks, i.e., Thumos14 and ActivityNet1.3. Specifically, our model obtains significant performance improvement over previous works on the two benchmarks, i.e., +3.2% and +3.4% average mAP, respectively. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# Batch-FPM: ランダムバッチ更新マルチパラメータ物理Fourier ptychography Neural Network
Batch-FPM: Random batch-update multi-parameter physical Fourier ptychography neural network ( http://arxiv.org/abs/2408.13782v1 ) ライセンス: Link先を確認 | Ruiqing Sun, Delong Yang, Yiyan Su, Shaohui Zhang, Qun Hao, | (参考訳) Fourier Ptychographic Microscopy (FPM) は、大規模視野での高解像度イメージングを可能にする計算イメージング技術である。
しかし, バイオメディカル分野への応用は, 画像再構成時間の長いことと, 耐雑音性に乏しいため, 制限されている。
本稿では、バッチ更新確率勾配勾配(SGD)最適化戦略を用いた物理ニューラルネットワークに基づく高速で堅牢なFPM再構成手法を提案する。
提案手法はランダムなバッチ最適化手法を利用し, 逐次逐次順序から逸脱し, 高周波情報に注目する。
提案手法は,低露光時間暗視野画像などの低信号対雑音比データセットに対しても,コンバージェンス性能が向上する。
これにより、追加のハードウェア変更を伴わずに、画像記録と再構成速度を大幅に向上させることができる。
高度なディープラーニングオプティマイザを活用し、並列計算方式により、GPU計算効率を高め、再構成コストを大幅に削減する。
実験により,コンシューマグレードのGPUに対する1024×1024ピクセルの関心領域をほぼリアルタイムに再焦点する手法が得られた。
このアプローチは、時間分解能(暗視野画像の露光時間削減)、耐雑音性、再生速度を著しく向上させ、臨床診断、デジタル病理学、生医学研究等におけるFPMの実用化を効果的に進めることができる。
さらに,本手法は研究者がFPM関連のアイデアを迅速に検証し,実装する上で有効であると考えている。
メールで全コードに対するリクエストを招待します。
Fourier Ptychographic Microscopy (FPM) is a computational imaging technique that enables high-resolution imaging over a large field of view. However, its application in the biomedical field has been limited due to the long image reconstruction time and poor noise robustness. In this paper, we propose a fast and robust FPM reconstruction method based on physical neural networks with batch update stochastic gradient descent (SGD) optimization strategy, capable of achieving attractive results with low single-to-noise ratio and correcting multiple system parameters simultaneously. Our method leverages a random batch optimization approach, breaks away from the fixed sequential iterative order and gives greater attention to high-frequency information. The proposed method has better convergence performance even for low signal-to-noise ratio data sets, such as low exposure time dark-field images. As a result, it can greatly increase the image recording and result reconstruction speed without any additional hardware modifications. By utilizing advanced deep learning optimizers and perform parallel computational scheme, our method enhances GPU computational efficiency, significantly reducing reconstruction costs. Experimental results demonstrate that our method achieves near real-time digital refocusing of a 1024 x 1024 pixels region of interest on consumer-grade GPUs. This approach significantly improves temporal resolution (by reducing the exposure time of dark-field images), noise resistance, and reconstruction speed, and therefore can efficiently promote the practical application of FPM in clinical diagnostics, digital pathology, and biomedical research, etc. In addition, we believe our algorithm scheme can help researchers quickly validate and implement FPM-related ideas. We invite requests for the full code via email. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# 部分的フェイク音声信号におけるスプライシングアーチファクトの影響の分析
Analyzing the Impact of Splicing Artifacts in Partially Fake Speech Signals ( http://arxiv.org/abs/2408.13784v1 ) ライセンス: Link先を確認 | Viola Negroni, Davide Salvi, Paolo Bestagini, Stefano Tubaro, | (参考訳) 音声深度検出は近年,マルチメディア法医学界で注目されている。
関連する問題としては、部分的に偽の信号、すなわち、実音声セグメントと偽音声セグメントの両方を含むトラックの識別などが挙げられる。
しかし、高品質なスプリシングオーディオを生成するのは、見かけほど簡単ではない。
スプリケート信号は通常、基本的な信号結合によって生成される。
このプロセスでは、生成したデータを検出しやすくする、注目すべきアーティファクトが導入される可能性がある。
我々は,信号の結合による音声トラックの解析を行い,それらのアーティファクトを調査し,既存のデータセットにバイアスが生じているかどうかを評価する。
その結果,スプライシングアーティファクトを解析することにより,検出EERの精度が6.16%,HADデータセットが7.36%になることがわかった。
これらの結果は、信頼性の高い音声データを生成する複雑さを浮き彫りにし、この領域における将来の研究改善に役立つ議論につながる。
Speech deepfake detection has recently gained significant attention within the multimedia forensics community. Related issues have also been explored, such as the identification of partially fake signals, i.e., tracks that include both real and fake speech segments. However, generating high-quality spliced audio is not as straightforward as it may appear. Spliced signals are typically created through basic signal concatenation. This process could introduce noticeable artifacts that can make the generated data easier to detect. We analyze spliced audio tracks resulting from signal concatenation, investigate their artifacts and assess whether such artifacts introduce any bias in existing datasets. Our findings reveal that by analyzing splicing artifacts, we can achieve a detection EER of 6.16% and 7.36% on PartialSpoof and HAD datasets, respectively, without needing to train any detector. These results underscore the complexities of generating reliable spliced audio data and lead to discussions that can help improve future research in this area. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# 西部ブロット画像における合成マニピュレーションの局在化
Localization of Synthetic Manipulations in Western Blot Images ( http://arxiv.org/abs/2408.13786v1 ) ライセンス: Link先を確認 | Anmol Manjunath, Viola Negroni, Sara Mandelli, Daniel Moreira, Paolo Bestagini, | (参考訳) 近年の深層学習と生成システムにおけるブレークスルーは, 合成メディアの創出や, リアルな合成操作の挿入による実物の局所的な変化を著しく促進している。
特に局所的な画像操作は、デジタルコンテンツと社会的信頼の整合性に深刻な課題をもたらす。
この問題はマルチメディアデータに限らず、西洋のブロットを描いた画像のような科学出版物に含まれる生物学的画像にも及んでいる。
本研究では,西洋のブロット画像における合成操作の局所化という課題に対処する。
解析画像のプリスタンと合成画素を識別するために,画像から抽出した小さなパッチで動作する合成検出器を提案する。
パッチのコントリビューションを集約して、未処理のヒートマップを推定し、プリスタントから合成ピクセルをハイライトする。
我々の手法は、トレーニング段階で未知の高度なAIベースの画像操作ツールを活用することで、2つの操作された西洋のブロット画像データセットに対して、1つが自動的に変更され、もう1つが手動でテストされた場合に有効であることを示す。
また,本手法のロバスト性について,未知の生成技術を用いて操作した,異なる意味を表現した他の科学的画像の外部データセットを用いて検討する。
Recent breakthroughs in deep learning and generative systems have significantly fostered the creation of synthetic media, as well as the local alteration of real content via the insertion of highly realistic synthetic manipulations. Local image manipulation, in particular, poses serious challenges to the integrity of digital content and societal trust. This problem is not only confined to multimedia data, but also extends to biological images included in scientific publications, like images depicting Western blots. In this work, we address the task of localizing synthetic manipulations in Western blot images. To discriminate between pristine and synthetic pixels of an analyzed image, we propose a synthetic detector that operates on small patches extracted from the image. We aggregate patch contributions to estimate a tampering heatmap, highlighting synthetic pixels out of pristine ones. Our methodology proves effective when tested over two manipulated Western blot image datasets, one altered automatically and the other manually by exploiting advanced AI-based image manipulation tools that are unknown at our training stage. We also explore the robustness of our method over an external dataset of other scientific images depicting different semantics, manipulated through unseen generation techniques. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# Mask-Encoded Sparsification:コミュニケーション効率の良いスプリット学習におけるバイアス付き勾配の緩和
Mask-Encoded Sparsification: Mitigating Biased Gradients in Communication-Efficient Split Learning ( http://arxiv.org/abs/2408.13787v1 ) ライセンス: Link先を確認 | Wenxuan Zhou, Zhihao Qu, Shen-Huan Lyu, Miao Cai, Baoliu Ye, | (参考訳) 本稿では,資源制約のあるデバイスが大規模モデルトレーニングに関わっている,スプリットラーニング(SL)シナリオにおける高い圧縮比を達成するために設計された,新しいフレームワークを提案する。
本研究は, SL内の特徴写像を圧縮することにより, 収束率に悪影響を及ぼし, 結果の一般化能力を低下させるバイアス勾配が生じることを示した。
我々の理論的分析は,従来の手法が過小評価していたSL性能を,圧縮誤差が批判的に阻害する方法についての知見を提供する。
これらの課題に対処するために、時間的複雑さを増大させることなく、スペーシフィケーションエラーを補うために、狭いビット幅の符号化マスクを用いる。
厳密な理論解析により,本フレームワークは圧縮誤差を大幅に低減し,収束を加速する。
また,本手法が訓練効率と通信複雑性に関する既存ソリューションより優れていることを検証する。
This paper introduces a novel framework designed to achieve a high compression ratio in Split Learning (SL) scenarios where resource-constrained devices are involved in large-scale model training. Our investigations demonstrate that compressing feature maps within SL leads to biased gradients that can negatively impact the convergence rates and diminish the generalization capabilities of the resulting models. Our theoretical analysis provides insights into how compression errors critically hinder SL performance, which previous methodologies underestimate. To address these challenges, we employ a narrow bit-width encoded mask to compensate for the sparsification error without increasing the order of time complexity. Supported by rigorous theoretical analysis, our framework significantly reduces compression errors and accelerates the convergence. Extensive experiments also verify that our method outperforms existing solutions regarding training efficiency and communication complexity. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# 3D-VirtFusion:生成拡散モデルと制御可能な編集による合成3Dデータ拡張
3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing ( http://arxiv.org/abs/2408.13788v1 ) ライセンス: Link先を確認 | Shichao Dong, Ze Yang, Guosheng Lin, | (参考訳) データ拡張は、ディープラーニングにおいて重要な役割を担い、学習ベースモデルの一般化と堅牢性を高める。
標準的なアプローチには、余分なデータを生成するための回転やフリップのような単純な変換が含まれる。
しかしながら、これらの拡張は初期データセットによって制限され、高いレベルの多様性が欠如している。
近年,言語モデルや拡散モデルのような大規模モデルは,知覚やコンテンツ生成において例外的な能力を示している。
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。
テクスチャ強化以外にも,2次元画像内の物体の形状を自動変更する手法を提案する。
その後、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成により仮想シーンを構築する。
本手法は,実データを必要としない大量の3Dシーンデータを自動生成し,複数発の学習課題に対処し,長尾クラスの不均衡を緩和する上で大きなメリットをもたらす。
フレキシブルな拡張アプローチを提供することで、3Dデータの多様性の向上とシーン理解タスクにおけるモデル機能の向上に寄与する。
Data augmentation plays a crucial role in deep learning, enhancing the generalization and robustness of learning-based models. Standard approaches involve simple transformations like rotations and flips for generating extra data. However, these augmentations are limited by their initial dataset, lacking high-level diversity. Recently, large models such as language models and diffusion models have shown exceptional capabilities in perception and content generation. In this work, we propose a new paradigm to automatically generate 3D labeled training data by harnessing the power of pretrained large foundation models. For each target semantic class, we first generate 2D images of a single object in various structure and appearance via diffusion models and chatGPT generated text prompts. Beyond texture augmentation, we propose a method to automatically alter the shape of objects within 2D images. Subsequently, we transform these augmented images into 3D objects and construct virtual scenes by random composition. This method can automatically produce a substantial amount of 3D scene data without the need of real data, providing significant benefits in addressing few-shot learning challenges and mitigating long-tailed class imbalances. By providing a flexible augmentation approach, our work contributes to enhancing 3D data diversity and advancing model capabilities in scene understanding tasks. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# CV-MOS:モーションセグメンテーションのためのクロスビューモデル
CV-MOS: A Cross-View Model for Motion Segmentation ( http://arxiv.org/abs/2408.13790v1 ) ライセンス: Link先を確認 | Xiaoyu Tang, Zeyu Chen, Jintao Cheng, Xieyuanli Chen, Jin Wu, Bohuan Xue, | (参考訳) 自律運転においては、静的物体と移動物体を正確に区別することが自律運転システムにとって重要である。
動作対象セグメンテーション(MOS)タスクを実行する場合、物体からの動作情報を効果的に活用することが、移動対象の認識を改善する上で重要な課題となる。
これまでの手法では、レンジビュー (RV) やバードアイビュー (BEV) の残像マップを用いて動き情報をキャプチャしていた。
従来の手法と異なり, RVとBEVの残差マップを併用して, 動き情報のより大きなポテンシャルを両立させる手法を提案する。
そこで本研究では,オブジェクトセグメンテーションのクロスビューモデルであるCV-MOSを紹介する。
新規に,BEV と RV の残差マップからの動きを捉えることで空間時空間情報を分離し,運動枝の移動物体誘導に用いる範囲画像から意味的特徴を生成する。
我々の直接的かつユニークなソリューションは、レンジイメージとRVおよびBEV残差マップの使用を最大化し、LiDARベースのMOSタスクの性能を大幅に向上させる。
提案手法は,SemanticKittiデータセットの検証とテストセットにおいて,IoU(\%)スコアが77.5\%,79.2\%に達した。
特にCV-MOSは、様々なデータセットでSOTAのパフォーマンスを示す。
CV-MOSの実装はhttps://github.com/SCNU-RISLAB/CV-MOSで公開されている。
In autonomous driving, accurately distinguishing between static and moving objects is crucial for the autonomous driving system. When performing the motion object segmentation (MOS) task, effectively leveraging motion information from objects becomes a primary challenge in improving the recognition of moving objects. Previous methods either utilized range view (RV) or bird's eye view (BEV) residual maps to capture motion information. Unlike traditional approaches, we propose combining RV and BEV residual maps to exploit a greater potential of motion information jointly. Thus, we introduce CV-MOS, a cross-view model for moving object segmentation. Novelty, we decouple spatial-temporal information by capturing the motion from BEV and RV residual maps and generating semantic features from range images, which are used as moving object guidance for the motion branch. Our direct and unique solution maximizes the use of range images and RV and BEV residual maps, significantly enhancing the performance of LiDAR-based MOS task. Our method achieved leading IoU(\%) scores of 77.5\% and 79.2\% on the validation and test sets of the SemanticKitti dataset. In particular, CV-MOS demonstrates SOTA performance to date on various datasets. The CV-MOS implementation is available at https://github.com/SCNU-RISLAB/CV-MOS | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# Sparse Pillar-based Embedded 3D Object Detection のための選択的拡張畳み込み
Selectively Dilated Convolution for Accuracy-Preserving Sparse Pillar-based Embedded 3D Object Detection ( http://arxiv.org/abs/2408.13798v1 ) ライセンス: Link先を確認 | Seongmin Park, Minjae Lee, Junwon Choi, Jungwook Choi, | (参考訳) ピラーをベースとした3Dオブジェクト検出は、GPUフレンドリーな処理のための柱の人工的な密度化によって、そのスピードと精度により、自動運転技術で注目を集めている。
しかし,高密度の柱処理は分散点雲データから得られる柱の固有空間を無視するため,基本的に計算を無駄にしている。
最近の組込み加速器によるネイティブな疎結合支援により、サブマニフォールド畳み込み(SubM-Conv)のようなスパース柱畳み込み法は、アクティブな柱のみに畳み込みを施すことによって、これらの冗長な計算を減らすことを目的としていた。
本研究では, この精度損失は, スパース柱ネットワークにおけるSubM-Convの細粒度空間情報フロー(fSIF)の制限によるものであることを明らかにした。
この制限を克服するために、符号化された柱の重要性を評価し、畳み込み出力を選択的に拡張する選択拡張(SD-Conv)畳み込みを提案する。
この新たな畳み込みアプローチで実際の加速を容易にするため,既存の組込みスパース畳み込み加速器のコスト効率向上を目的としたSPADE+を設計した。
この設計はSD-Convをサポートし、領域とSRAMサイズに大きな需要がなく、スピードアップとモデルの精度のトレードオフが優れている。
この戦略的強化により,物体検出精度を損なうことなく,最大18.1倍の計算節約と16.2倍の高速化を実現することができる。
Pillar-based 3D object detection has gained traction in self-driving technology due to its speed and accuracy facilitated by the artificial densification of pillars for GPU-friendly processing. However, dense pillar processing fundamentally wastes computation since it ignores the inherent sparsity of pillars derived from scattered point cloud data. Motivated by recent embedded accelerators with native sparsity support, sparse pillar convolution methods like submanifold convolution (SubM-Conv) aimed to reduce these redundant computations by applying convolution only on active pillars but suffered considerable accuracy loss. Our research identifies that this accuracy loss is due to the restricted fine-grained spatial information flow (fSIF) of SubM-Conv in sparse pillar networks. To overcome this restriction, we propose a selectively dilated (SD-Conv) convolution that evaluates the importance of encoded pillars and selectively dilates the convolution output, enhancing the receptive field for critical pillars and improving object detection accuracy. To facilitate actual acceleration with this novel convolution approach, we designed SPADE+ as a cost-efficient augmentation to existing embedded sparse convolution accelerators. This design supports the SD-Conv without significant demands in area and SRAM size, realizing superior trade-off between the speedup and model accuracy. This strategic enhancement allows our method to achieve extreme pillar sparsity, leading to up to 18.1x computational savings and 16.2x speedup on the embedded accelerators, without compromising object detection accuracy. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# 偏波拡散における前方過程の非漸近境界:オルンシュタイン-ウレンベックは打ち負かせない
Non-asymptotic bounds for forward processes in denoising diffusions: Ornstein-Uhlenbeck is hard to beat ( http://arxiv.org/abs/2408.13799v1 ) ライセンス: Link先を確認 | Miha Brešar, Aleksandar Mijatović, | (参考訳) 拡散確率モデル(DDPM)は、多くの領域にわたる最先端の成果をもたらす生成モデリングの最近の進歩を表している。
その成功にもかかわらず、DDPM内の誤差の厳密な理論的理解、特にその効率の比較に必要とされる非漸近的境界は依然として乏しいままである。
初期データ分布について最小限の仮定を仮定し、例えば多様体仮説を可能とし、終端時間$T$の関数として表される全変動(TV)における前方拡散誤差の非漸近的境界を示す。
我々は、R$からFarthestモードまでの距離でマルチモーダルデータ分布をパラメライズし、加法的および乗法的雑音による前方拡散を考察する。
我々の分析は、軽微な仮定で、Ornstein-Uhlenbeck (OU) プロセスの正準選択は、端末時間$T$を$R$の関数として減少させ、エラー耐性$\varepsilon>0$の関数として、大幅に改善できないことを厳密に証明している。
生成的モデリングで生じるデータ分布によって動機付けされ、OUプロセスのテレビにおける不変測度への収束を最大モード距離$R$で初期化するためのカットオフ的な現象($R\to\infty$)も確立する。
Denoising diffusion probabilistic models (DDPMs) represent a recent advance in generative modelling that has delivered state-of-the-art results across many domains of applications. Despite their success, a rigorous theoretical understanding of the error within DDPMs, particularly the non-asymptotic bounds required for the comparison of their efficiency, remain scarce. Making minimal assumptions on the initial data distribution, allowing for example the manifold hypothesis, this paper presents explicit non-asymptotic bounds on the forward diffusion error in total variation (TV), expressed as a function of the terminal time $T$. We parametrise multi-modal data distributions in terms of the distance $R$ to their furthest modes and consider forward diffusions with additive and multiplicative noise. Our analysis rigorously proves that, under mild assumptions, the canonical choice of the Ornstein-Uhlenbeck (OU) process cannot be significantly improved in terms of reducing the terminal time $T$ as a function of $R$ and error tolerance $\varepsilon>0$. Motivated by data distributions arising in generative modelling, we also establish a cut-off like phenomenon (as $R\to\infty$) for the convergence to its invariant measure in TV of an OU process, initialized at a multi-modal distribution with maximal mode distance $R$. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# BCDNet:乳がん検出のための畳み込みニューラルネットワーク
BCDNet: A Convolutional Neural Network For Breast Cancer Detection ( http://arxiv.org/abs/2408.13800v1 ) ライセンス: Link先を確認 | Yujia Lin, Aiwei Lian, Minyu Liao, Yipeng Liu, | (参考訳) 乳がんは浸潤性直腸癌 (Invasive Ductal Carcinoma:IDC) が最も多い亜型である。
この危険ながんの発生は増加し続けており、特に早期に正確かつ迅速な診断が重要となる。
現代のコンピュータ支援診断(CAD)システムは、ほとんどのケースに対処できるが、医療専門家は、強力なコンピューティングリソースを使わずに、現場でそれを使用する際の課題に直面している。
本稿では,BCDNetと呼ばれる新しいCNNモデルを提案する。これは,最大89.5\%の精度で組織像中のIDCを効果的に検出し,トレーニング時間を効果的に短縮する。
Previous research has established that breast cancer is a prevalent cancer type, with Invasive Ductal Carcinoma (IDC) being the most common subtype. The incidence of this dangerous cancer continues to rise, making accurate and rapid diagnosis, particularly in the early stages, critically important. While modern Computer-Aided Diagnosis (CAD) systems can address most cases, medical professionals still face challenges in using them in the field without powerful computing resources. In this paper, we propose a novel CNN model called BCDNet, which effectively detects IDC in histopathological images with an accuracy of up to 89.5\% and reduces training time effectively. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# TripleMixer: 逆気象のための3DポイントクラウドDenoising Model
TripleMixer: A 3D Point Cloud Denoising Model for Adverse Weather ( http://arxiv.org/abs/2408.13802v1 ) ライセンス: Link先を確認 | Xiongwei Zhao, Congcong Wen, Yang Wang, Haojie Bai, Wenhao Dou, | (参考訳) LiDARセンサーは、自律運転システムに高解像度の3Dポイントクラウドデータを提供することで、正確な環境認識を可能にする。
しかし、雨、霧、雪のような現実の悪天候は、大きなノイズと干渉をもたらし、LiDARデータの信頼性を低下させ、セマンティックセグメンテーションのような下流タスクのパフォーマンスを低下させる。
既存のデータセットは、限られた天候の多様性と小さなデータセットサイズに悩まされることが多く、トレーニングモデルの有効性が制限される。
さらに、現在のディープラーニングのデノベーション手法は、特定のシナリオでは有効だが、解釈可能性に欠けることが多く、意思決定プロセスを理解し検証する能力が複雑になる。
これらの制限を克服するため、気象・霧・雪の3つの一般的な悪天候条件をカバーする2つの大規模データセット、ウェザー・キーティとウェザー・ヌースケーツを導入する。
これらのデータセットは、元のLiDAR取得情報を保持し、雨、霧、雪のポイントレベルのセマンティックラベルを提供する。
さらに,三層混合層(Geometry Mixer Layer, Frequency Mixer Layer, Channel Mixer Layer)と3層混合層(Channel Mixer Layer, Channel Mixer Layer)からなる新しい点雲デノナイズモデルTripleMixerを提案する。
これらの層は、幾何学的空間情報をキャプチャし、多スケールの周波数情報を抽出し、点雲の多チャンネル特徴情報を強化するように設計されている。
実世界のシナリオにおけるWADSデータセットと、提案したWeather-KITTIおよびWeather-NuScenesデータセットを用いた実験により、我々のモデルが最先端の遮音性能を達成することを示す。
さらに、既存のセグメンテーションフレームワークにデノベーションモデルを統合することで、ダウンストリームタスクのパフォーマンスが向上することを示し、データセットとコードはhttps://github.com/Grandzxw/TripleMixer.comで公開されます。
LiDAR sensors are crucial for providing high-resolution 3D point cloud data in autonomous driving systems, enabling precise environmental perception. However, real-world adverse weather conditions, such as rain, fog, and snow, introduce significant noise and interference, degrading the reliability of LiDAR data and the performance of downstream tasks like semantic segmentation. Existing datasets often suffer from limited weather diversity and small dataset sizes, which restrict their effectiveness in training models. Additionally, current deep learning denoising methods, while effective in certain scenarios, often lack interpretability, complicating the ability to understand and validate their decision-making processes. To overcome these limitations, we introduce two large-scale datasets, Weather-KITTI and Weather-NuScenes, which cover three common adverse weather conditions: rain, fog, and snow. These datasets retain the original LiDAR acquisition information and provide point-level semantic labels for rain, fog, and snow. Furthermore, we propose a novel point cloud denoising model, TripleMixer, comprising three mixer layers: the Geometry Mixer Layer, the Frequency Mixer Layer, and the Channel Mixer Layer. These layers are designed to capture geometric spatial information, extract multi-scale frequency information, and enhance the multi-channel feature information of point clouds, respectively. Experiments conducted on the WADS dataset in real-world scenarios, as well as on our proposed Weather-KITTI and Weather-NuScenes datasets, demonstrate that our model achieves state-of-the-art denoising performance. Additionally, our experiments show that integrating the denoising model into existing segmentation frameworks enhances the performance of downstream tasks.The datasets and code will be made publicly available at https://github.com/Grandzxw/TripleMixer. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# イントロスペクティブVAEにおける事前学習
Prior Learning in Introspective VAEs ( http://arxiv.org/abs/2408.13805v1 ) ライセンス: Link先を確認 | Ioannis Athanasiadis, Shashi Nagarajan, Fredrik Lindsten, Michael Felsberg, | (参考訳) 変分オートエンコーダ(VAE)は教師なし学習とデータ生成のための一般的なフレームワークである。
対人目的の具体化と先行学習機構の統合が顕著な方向性である,VAEの改善に焦点をあてた手法が多数提案されている。
前者の例は、非現実的なサンプルに低い確率が割り当てられることを保証するために最近導入されたイントロスペクティブVAEの族である。
本研究では,Soft-IntroVAE(S-IntroVAE)に着目し,マルチモーダルで学習しやすいフレームワークをこのフレームワークに組み込むことの意味について検討する。
すなわち、前者を第3のプレイヤーとして定式化し、デコーダと協調して訓練すると、ナッシュ平衡をバニラS-イントロVAEと共有する事前学習に有効な方法となることを示す。
さらに、S-IntroVAEにおける最適ELBOの修正された定式化に基づいて、理論上動機付けられた正規化を開発する。
一 事前学習時の訓練を安定させる適応的分散クリッピング
二 不活発な事前態様の形成を阻害する責任の定式化
最後に、2次元密度推定ベンチマークと、(F)-MNISTとCIFAR-10データセットからなる画像生成環境で、S-IntroVAEの事前学習による生成と表現学習の利点を示す一連の実験を行う。
Variational Autoencoders (VAEs) are a popular framework for unsupervised learning and data generation. A plethora of methods have been proposed focusing on improving VAEs, with the incorporation of adversarial objectives and the integration of prior learning mechanisms being prominent directions. When it comes to the former, an indicative instance is the recently introduced family of Introspective VAEs aiming at ensuring that a low likelihood is assigned to unrealistic samples. In this study, we focus on the Soft-IntroVAE (S-IntroVAE) and investigate the implication of incorporating a multimodal and learnable prior into this framework. Namely, we formulate the prior as a third player and show that when trained in cooperation with the decoder constitutes an effective way for prior learning, which shares the Nash Equilibrium with the vanilla S-IntroVAE. Furthermore, based on a modified formulation of the optimal ELBO in S-IntroVAE, we develop theoretically motivated regularizations, that is (i) adaptive variance clipping to stabilize training when learning the prior and (ii) responsibility regularization to discourage the formation of inactive prior mode. Finally, we perform a series of targeted experiments on a 2D density estimation benchmark and in an image generation setting comprised of the (F)-MNIST and CIFAR-10 datasets demonstrating the benefit of prior learning in S-IntroVAE in generation and representation learning. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# 言語モデルにおける幻覚の緩和技術と課題
Towards Reliable Medical Question Answering: Techniques and Challenges in Mitigating Hallucinations in Language Models ( http://arxiv.org/abs/2408.13808v1 ) ライセンス: Link先を確認 | Duy Khoa Pham, Bao Quoc Vo, | (参考訳) 大規模言語モデル(LLM)の急速な進歩は、医療やバイオメディシンを含む様々な領域に大きな影響を与えている。
しかし、LLMが事実の正確性や文脈から逸脱する出力を生成する幻覚現象は、特に高い領域において重要な課題を引き起こす。
本稿では,知識ベースタスク,特に医療領域における幻覚を緩和するための既存の手法のスコーピング研究を行う。
この論文で取り上げられた主要な手法は、検索・拡張生成(RAG)ベースの技術、反復的なフィードバックループ、教師付き微調整、迅速なエンジニアリングである。
これらのテクニックは、一般的な文脈では有望だが、最新の専門知識と厳格な医療ガイドラインの厳格な遵守に対するユニークな要求のために、医療領域のさらなる適応と最適化を必要としている。
これらの課題に対処することは、臨床意思決定と患者の安全性を高めるとともに、バイオメディカル科学研究の正確性を高める信頼できるAIシステムを開発するために不可欠である。
The rapid advancement of large language models (LLMs) has significantly impacted various domains, including healthcare and biomedicine. However, the phenomenon of hallucination, where LLMs generate outputs that deviate from factual accuracy or context, poses a critical challenge, especially in high-stakes domains. This paper conducts a scoping study of existing techniques for mitigating hallucinations in knowledge-based task in general and especially for medical domains. Key methods covered in the paper include Retrieval-Augmented Generation (RAG)-based techniques, iterative feedback loops, supervised fine-tuning, and prompt engineering. These techniques, while promising in general contexts, require further adaptation and optimization for the medical domain due to its unique demands for up-to-date, specialized knowledge and strict adherence to medical guidelines. Addressing these challenges is crucial for developing trustworthy AI systems that enhance clinical decision-making and patient safety as well as accuracy of biomedical scientific research. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# Kolmogorov-Arnoldネットワークのロバスト性について:敵対的視点
On the Robustness of Kolmogorov-Arnold Networks: An Adversarial Perspective ( http://arxiv.org/abs/2408.13809v1 ) ライセンス: Link先を確認 | Tal Alter, Raz Lapid, Moshe Sipper, | (参考訳) Kolmogorov-Arnold Networks (KANs) は関数近似の新しいアプローチとして最近登場し、様々な領域において顕著な可能性を示している。
理論的な約束にもかかわらず、敵対的な条件下でのカンの堅牢性はまだ十分に検討されていない。
本稿では,画像分類タスクに焦点をあてて,Kansの対角的ロバスト性について検討する。
我々は、標準のホワイトボックス攻撃に対してkanの性能を評価し、そのレジリエンスを確立されたニューラルネットワークアーキテクチャと比較する。
さらに,KansとMultilayer Perceptron (MLPs)の対立例の転送可能性について検討し,kansのユニークな脆弱性について重要な知見を得た。
実験では,MNIST,FashionMNIST,KMNISTのデータセットを用いて,敵シナリオにおけるkanの包括的評価を行った。
この研究は、カンにおけるセキュリティの詳細な分析を初めて提供し、この新興分野における将来の研究の基盤となる。
Kolmogorov-Arnold Networks (KANs) have recently emerged as a novel approach to function approximation, demonstrating remarkable potential in various domains. Despite their theoretical promise, the robustness of KANs under adversarial conditions has yet to be thoroughly examined. In this paper, we explore the adversarial robustness of KANs, with a particular focus on image classification tasks. We assess the performance of KANs against standard white-box adversarial attacks, comparing their resilience to that of established neural network architectures. Further, we investigate the transferability of adversarial examples between KANs and Multilayer Perceptron (MLPs), deriving critical insights into the unique vulnerabilities of KANs. Our experiments use the MNIST, FashionMNIST, and KMNIST datasets, providing a comprehensive evaluation of KANs in adversarial scenarios. This work offers the first in-depth analysis of security in KANs, laying the groundwork for future research in this emerging field. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# NLPによるドイツにおける原子力廃止の見直し
Revisiting the Exit from Nuclear Energy in Germany with NLP ( http://arxiv.org/abs/2408.13810v1 ) ライセンス: Link先を確認 | Sebastian Haunss, André Blessing, | (参考訳) 政治談話の注釈は資源集約的であるが、最近のNLPの発展は複雑なアノテーションタスクを自動化することを約束している。
微調整されたトランスフォーマーベースのモデルは、アノテーションタスクにおいて人間のアノテーションよりも優れているが、大規模な手動のトレーニングデータセットが必要である。
コントリビューションでは、教師なし機械学習とゼロショット学習と少数ショット学習を使用して、手動でアノテートされたデータセットが今日のNLPメソッドで自動的に複製される程度を調査する。
Annotation of political discourse is resource-intensive, but recent developments in NLP promise to automate complex annotation tasks. Fine-tuned transformer-based models outperform human annotators in some annotation tasks, but they require large manually annotated training datasets. In our contribution, we explore to which degree a manually annotated dataset can be automatically replicated with today's NLP methods, using unsupervised machine learning and zero- and few-shot learning. | 翻訳日:2024-08-27 17:49:53 公開日:2024-08-25 |
# Few-Shot Histopathology Image Classification: Evaluating State-of-the-Art Methods and Unveiling Performance Insights
Few-Shot Histopathology Image Classification: Evaluating State-of-the-Art Methods and Unveiling Performance Insights ( http://arxiv.org/abs/2408.13816v1 ) ライセンス: Link先を確認 | Ardhendu Sekhar, Ravi Kant Gupta, Amit Sethi, | (参考訳) 本稿では,病理組織像の文脈における小切片分類について述べる。
自然画像分類のための数発の学習が研究されているが、その病理学への応用は明らかにされていない。
本研究は, 医療画像におけるラベル付きデータの不足と, 組織の種類やデータ作成技術による固有の課題を考慮し, 組織学的データに基づく様々なシナリオを対象とした最新の数ショット学習法の性能評価を行った。
病理組織学的画像分類のための4つの病理組織学的データセットを考察し,最先端の分類手法を用いて5-way 1-shot,5-way 5-shot,5-way 10-shotのシナリオを評価した。
5-way 1-shot, 5-way 5-shot, 5-way 10-shotはそれぞれ70%, 80%, 85%の精度を達成している。
組織学画像の場合,一般的なメタラーニング手法は標準的な微調整法や正規化法と同等であることがわかった。
我々の実験は、異なる領域の画像を扱うことの課題を浮き彫りにして、組織学画像のような特殊な領域に対するコンピュータビジョン技術の進歩における、偏見のない、集中的な評価の重要性を浮き彫りにしている。
This paper presents a study on few-shot classification in the context of histopathology images. While few-shot learning has been studied for natural image classification, its application to histopathology is relatively unexplored. Given the scarcity of labeled data in medical imaging and the inherent challenges posed by diverse tissue types and data preparation techniques, this research evaluates the performance of state-of-the-art few-shot learning methods for various scenarios on histology data. We have considered four histopathology datasets for few-shot histopathology image classification and have evaluated 5-way 1-shot, 5-way 5-shot and 5-way 10-shot scenarios with a set of state-of-the-art classification techniques. The best methods have surpassed an accuracy of 70%, 80% and 85% in the cases of 5-way 1-shot, 5-way 5-shot and 5-way 10-shot cases, respectively. We found that for histology images popular meta-learning approaches is at par with standard fine-tuning and regularization methods. Our experiments underscore the challenges of working with images from different domains and underscore the significance of unbiased and focused evaluations in advancing computer vision techniques for specialized domains, such as histology images. | 翻訳日:2024-08-27 17:40:09 公開日:2024-08-25 |
# 相関光子を用いた量子強調弱吸収推定
Quantum-enhanced weak absorption estimation with correlated photons ( http://arxiv.org/abs/2408.13817v1 ) ライセンス: Link先を確認 | Zhucheng Zhang, Xue Zhang, Jing Liu, Hui Dong, | (参考訳) 分光の基礎である吸収推定は、物質の組成と力学の探索に不可欠である。
従来の推定方法はコヒーレントレーザー源に依存しており、弱い吸収を推定する際固有の限界に悩まされる。
そこで本研究では, 相関光子を用いた新しい計測手法を提案し, オンオフ測定と呼ばれる出力を光子の有無で識別することで, 弱い吸収を判定する。
戦略における我々の実装により、推定精度は究極の量子限界に達することができる。
量子相関を組み込んだ吸収分光法は、ノイズの多い環境でも単一光子レベルまで弱吸収を推定でき、従来の吸収分光法で得られた数百光子と同等の精度を達成できることを示した。
量子相関を導入することで、我々の研究は分光の古典的な固有の限界を破りながら、光による損傷の発生を避けることができる。
Absorption estimation, the base of spectroscopy, is crucial for probing the composition and dynamics of matter. Conventional methods of estimation rely on coherent laser sources, and in turn suffer from inherent limitations in estimating weak absorption. Here we propose a new measurement strategy with correlated photons to determine the weak absorption by distinguishing the output with and without photons, dubbed as the on-off measurement. Our implementation within the strategy allows the estimation precision to reach the ultimate quantum limit. We demonstrate that absorption spectroscopy that incorporates quantum correlations is capable of estimating weak absorption down to a single-photon level, even in noisy environments, achieving a precision comparable to that obtained through several hundred photons in conventional absorption spectroscopy. By introducing the quantum correlations, our work avoids the occurrence of light-induced damage while breaking the classical inherent limitations in spectroscopy. | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# 深層学習を用いた乳房生検H&E画像のHER2とFISH状態予測
HER2 and FISH Status Prediction in Breast Biopsy H&E-Stained Images Using Deep Learning ( http://arxiv.org/abs/2408.13818v1 ) ライセンス: Link先を確認 | Ardhendu Sekhar, Vrinda Goel, Garima Jain, Abhijeet Patil, Ravi Kant Gupta, Amit Sethi, | (参考訳) ヒト上皮成長因子受容体2(HER2)を乳癌患者に検出するための現在の基準は、蛍光 in situ hybridization (FISH) または免疫組織化学 (IHC) を通じて同定されるHER2増幅に依存している。
しかし、ヘマトキシリンとエオシン(H&E)の腫瘍染色はより広く利用でき、H&Eを用いてHER2の状態を正確に予測することで、コスト削減と治療選択の迅速化が期待できる。
H&Eのためのディープラーニングアルゴリズムは、HER2状態予測の適度な成功を含む、様々ながんの特徴と臨床結果を予測する効果を示した。
本研究では、HER2状態を予測するために、MoCo-v2と対比学習を組み合わせた、カスタマイズされた弱い監督分類手法を採用した。
われわれはThe Cancer Genome Atlas (TCGA)から公開されている182個のH&E Whole Slide Images (WSIs)でパイプラインをトレーニングし、Yale School of Medicineの病理チームによるアノテーションが公開されている。
私たちのパイプラインは、4つの異なるテストフォールドで0.85のAUC(Area Under the Curve)を達成した。
さらに、HER2スコアが2以上で、対応するHER2ステータスとFISHテスト結果を含むTCGA-BRCAデータセットから、44のH&Eスライドでモデルを検証した。
これらのケースはIHCと同等と見なされ、曖昧さを避けるために高価なFISHテストが必要である。
われわれのパイプラインでは、これらの挑戦的なH&EスライドでAUCが0.81であった。
FISH検査の必要性を減らすことは、温存人口に対するがん治療の公平性に重大な影響を及ぼす可能性がある。
The current standard for detecting human epidermal growth factor receptor 2 (HER2) status in breast cancer patients relies on HER2 amplification, identified through fluorescence in situ hybridization (FISH) or immunohistochemistry (IHC). However, hematoxylin and eosin (H\&E) tumor stains are more widely available, and accurately predicting HER2 status using H\&E could reduce costs and expedite treatment selection. Deep Learning algorithms for H&E have shown effectiveness in predicting various cancer features and clinical outcomes, including moderate success in HER2 status prediction. In this work, we employed a customized weak supervision classification technique combined with MoCo-v2 contrastive learning to predict HER2 status. We trained our pipeline on 182 publicly available H&E Whole Slide Images (WSIs) from The Cancer Genome Atlas (TCGA), for which annotations by the pathology team at Yale School of Medicine are publicly available. Our pipeline achieved an Area Under the Curve (AUC) of 0.85 across four different test folds. Additionally, we tested our model on 44 H&E slides from the TCGA-BRCA dataset, which had an HER2 score of 2+ and included corresponding HER2 status and FISH test results. These cases are considered equivocal for IHC, requiring an expensive FISH test on their IHC slides for disambiguation. Our pipeline demonstrated an AUC of 0.81 on these challenging H&E slides. Reducing the need for FISH test can have significant implications in cancer treatment equity for underserved populations. | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# RoCP-GNN:ノード分類におけるグラフニューラルネットワークのロバストコンフォーマル予測
RoCP-GNN: Robust Conformal Prediction for Graph Neural Networks in Node-Classification ( http://arxiv.org/abs/2408.13825v1 ) ライセンス: Link先を確認 | S. Akansha, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの結果を予測する強力なツールとして登場した。
しかし、GNNの顕著な制限は、堅牢な不確実性推定を提供することができず、エラーがコストのかかる状況において信頼性を損なうことである。
この問題に対処する一つの方法は、事前に定義された確率マージンを持つ真のラベルを含む予測セットを提供することである。
我々の手法は、統計的に堅牢な予測セットや間隔を構築することを約束するフレームワークである共形予測(CP)に基づいている。
まず、グラフのような依存データを考えると、CPにおける重要な前提である交換可能性(交換可能性)がノード分類に適用されるかどうかは不明です。
第二に、もし交換可能性仮定が共形リンク予測に有効であるとしても、高い効率性を確保する必要がある。
本稿では、共形予測(CP)を直接GNNトレーニングプロセスに統合するRoCP-GNN(Roust Conformal Prediction for GNN)と呼ばれる新しいアプローチを提案する。
この方法は、単に点予測ではなく、ユーザ定義の信頼度レベルで有効である予測セットを生成し、交換可能性のみを仮定する。
提案手法は,グラフベース半教師付き学習(SSL)領域における予測の不確実性を定量化しながら,任意の予測的GNNモデルを用いて結果を確実に予測する。
実験により,GNNモデルのサイズ損失が統計的に有意な性能向上をもたらすことが示された。
ノード分類における様々な最先端のGNNと組み合わせることで,標準グラフベンチマークデータセットに対するアプローチを検証する。
コードは公開後に公開されます。
Graph Neural Networks (GNNs) have emerged as powerful tools for predicting outcomes in graph-structured data. However, a notable limitation of GNNs is their inability to provide robust uncertainty estimates, which undermines their reliability in contexts where errors are costly. One way to address this issue is by providing prediction sets that contain the true label with a predefined probability margin. Our approach builds upon conformal prediction (CP), a framework that promises to construct statistically robust prediction sets or intervals. There are two primary challenges: first, given dependent data like graphs, it is unclear whether the critical assumption in CP - exchangeability - still holds when applied to node classification. Second, even if the exchangeability assumption is valid for conformalized link prediction, we need to ensure high efficiency, i.e., the resulting prediction set or the interval length is small enough to provide useful information. In this article, we propose a novel approach termed Robust Conformal Prediction for GNNs (RoCP-GNN), which integrates conformal prediction (CP) directly into the GNN training process. This method generates prediction sets, instead of just point predictions, that are valid at a user-defined confidence level, assuming only exchangeability. Our approach robustly predicts outcomes with any predictive GNN model while quantifying the uncertainty in predictions within the realm of graph-based semi-supervised learning (SSL). Experimental results demonstrate that GNN models with size loss provide a statistically significant increase in performance. We validate our approach on standard graph benchmark datasets by coupling it with various state-of-the-art GNNs in node classification. The code will be made available after publication. | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# Multi-SIGATnet:スパース相互作用機構とグラフアテンションネットワークを用いた多モード統合失調症MRI分類アルゴリズム
Multi-SIGATnet: A multimodal schizophrenia MRI classification algorithm using sparse interaction mechanisms and graph attention networks ( http://arxiv.org/abs/2408.13830v1 ) ライセンス: Link先を確認 | Yuhong Jiao, Jiaqing Miao, Jinnan Gong, Hui He, Ping Liang, Cheng Luo, Ying Tan, | (参考訳) 統合失調症は重度の精神疾患である。
病原性は完全には明らかではなく、患者を正確に治療することは困難である。
ヒト脳の複雑な非ユークリッドネットワーク構造のため、脳ネットワークから重要な情報を学ぶことは難しいままである。
脳神経ネットワークのトポロジ的情報を効果的に把握するために、SZ分類のためのスパース相互作用機構(Multi-SIGATnet)に基づく新しいマルチモーダルグラフアテンションネットワークを提案した。
まず,SZ患者に対して,より包括的で豊富な特徴を得るために,構造的・機能的情報をマルチモーダルデータに融合させた。
その後, 健全な特徴を効果的に抽出し, 特徴表現能力を高めるためのスパース相互作用機構が提案された。
非対称畳み込みネットワークに基づく特徴情報間の弱い接続を弱めることにより、高次の対話的特徴を捉えた。
さらに、余分な接続をフィルタリングしてモデル性能を改善するためにスパース学習戦略が設計された。
最後に、高次脳ネットワークのトポロジ的特徴と接続重み制約に応じて局所的特徴とグローバル的特徴を更新し、障害分類のための分類対象空間に投影した。
このモデルの有効性は、COBRE(Center for Biomedical Research Excellence)とUCLA(University of California Los Angeles)のデータセットで検証され、それぞれ81.9\%と75.8\%の平均精度がグラフアテンションネットワーク(GAT)よりも4.6\%と5.5\%高い。
実験の結果,Multi-SIGATnet法はSZの同定に優れた性能を示した。
Schizophrenia is a serious psychiatric disorder. Its pathogenesis is not completely clear, making it difficult to treat patients precisely. Because of the complicated non-Euclidean network structure of the human brain, learning critical information from brain networks remains difficult. To effectively capture the topological information of brain neural networks, a novel multimodal graph attention network based on sparse interaction mechanism (Multi-SIGATnet) was proposed for SZ classification was proposed for SZ classification. Firstly, structural and functional information were fused into multimodal data to obtain more comprehensive and abundant features for patients with SZ. Subsequently, a sparse interaction mechanism was proposed to effectively extract salient features and enhance the feature representation capability. By enhancing the strong connections and weakening the weak connections between feature information based on an asymmetric convolutional network, high-order interactive features were captured. Moreover, sparse learning strategies were designed to filter out redundant connections to improve model performance. Finally, local and global features were updated in accordance with the topological features and connection weight constraints of the higher-order brain network, the features being projected to the classification target space for disorder classification. The effectiveness of the model is verified on the Center for Biomedical Research Excellence (COBRE) and University of California Los Angeles (UCLA) datasets, achieving 81.9\% and 75.8\% average accuracy, respectively, 4.6\% and 5.5\% higher than the graph attention network (GAT) method. Experiments showed that the Multi-SIGATnet method exhibited good performance in identifying SZ. | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall in!
Guardians of the Machine Translation Meta-Evaluation: Sentinel Metrics Fall In! ( http://arxiv.org/abs/2408.13831v1 ) ライセンス: Link先を確認 | Stefano Perrella, Lorenzo Proietti, Alessandro Scirè, Edoardo Barba, Roberto Navigli, | (参考訳) 毎年、機械翻訳会議(WMT)において、メトリクス共有タスクオーガナイザは、機械翻訳(MT)メトリクスのメタ評価を行い、それらを人間の判断と相関してランク付けする。
彼らの結果は、次世代のメトリクスとMTシステムの強化に研究者を導く。
最近の神経メトリクスの導入により、この分野は顕著な進歩をみせた。
それでも、これらの指標の本質的な不透明さは、メタ評価プロセスに重大な課題をもたらしている。
この研究は、現在WMTで採用されているメタ評価フレームワークに関する2つの問題を強調し、メトリクスランキングへの影響を評価する。
これを実現するために,メタ評価プロセスの正確性,堅牢性,公正性を精査するために設計されたセンチネルメトリクスの概念を導入する。
センチネルメトリクスを利用することで、私たちの発見を検証し、ランキングの潜在的なバイアスや矛盾を監視します。
現在のメタ評価フレームワークは2つのカテゴリのメトリクスを好んでいることが分かりました。
一 人的品質評価を模倣するように明示的に訓練された者
ii) 継続的な指標。
最後に、最先端メトリクスの評価能力に関する懸念を提起し、トレーニングデータに見られる素早い相関に基づいて評価を行う可能性があることを強調した。
Annually, at the Conference of Machine Translation (WMT), the Metrics Shared Task organizers conduct the meta-evaluation of Machine Translation (MT) metrics, ranking them according to their correlation with human judgments. Their results guide researchers toward enhancing the next generation of metrics and MT systems. With the recent introduction of neural metrics, the field has witnessed notable advancements. Nevertheless, the inherent opacity of these metrics has posed substantial challenges to the meta-evaluation process. This work highlights two issues with the meta-evaluation framework currently employed in WMT, and assesses their impact on the metrics rankings. To do this, we introduce the concept of sentinel metrics, which are designed explicitly to scrutinize the meta-evaluation process's accuracy, robustness, and fairness. By employing sentinel metrics, we aim to validate our findings, and shed light on and monitor the potential biases or inconsistencies in the rankings. We discover that the present meta-evaluation framework favors two categories of metrics: i) those explicitly trained to mimic human quality assessments, and ii) continuous metrics. Finally, we raise concerns regarding the evaluation capabilities of state-of-the-art metrics, emphasizing that they might be basing their assessments on spurious correlations found in their training data. | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# テレビ規則化OSEMアルゴリズムに基づく低線量CT再構成ネットワーク
A Low-dose CT Reconstruction Network Based on TV-regularized OSEM Algorithm ( http://arxiv.org/abs/2408.13832v1 ) ライセンス: Link先を確認 | Ran An, Yinghui Zhang, Xi Chen, Lemeng Li, Ke Chen, Hongwei Li, | (参考訳) 低用量CT(LDCT)は人体に対する潜在的な害を軽減する上で大きな利点がある。
しかし、CTスキャンにおけるX線量の減少は、しばしば再建された画像の厳しいノイズやアーティファクトを引き起こし、診断に悪影響を及ぼす可能性がある。
予測最大化 (EM) アルゴリズムを用いることで, LDCT の再構成精度を向上させるために, 統計的先行値と人工先行値を組み合わせることができる。
しかし、従来のEMベースの正規化手法では、完全な再構成と画像の正規化が交互に行われ、過度な平滑化と緩やかな収束をもたらす。
本稿では,EMアルゴリズムの ``M'' ステップにテレビの正則化を組み込むことにより,効果的かつ効率的な正則化を実現することを提案する。
さらに,Chambolle-Pock (CP) アルゴリズムと順序付きサブセット (OS) 戦略を用いて,再構成と正規化の両方をビュー・バイ・ビューで行うLDCT再構成のためのOSEM-CPアルゴリズムを提案する。
さらに,OSEM-CPの展開により,OSEM-CPNNというエンド・ツー・エンドの再構成ニューラルネットワークを提案する。
異なるモデルとデータセットの実験は、従来の最先端のディープラーニング手法と比較して、我々の手法の卓越した性能を示している。
Low-dose computed tomography (LDCT) offers significant advantages in reducing the potential harm to human bodies. However, reducing the X-ray dose in CT scanning often leads to severe noise and artifacts in the reconstructed images, which might adversely affect diagnosis. By utilizing the expectation maximization (EM) algorithm, statistical priors could be combined with artificial priors to improve LDCT reconstruction quality. However, conventional EM-based regularization methods adopt an alternating solving strategy, i.e. full reconstruction followed by image-regularization, resulting in over-smoothing and slow convergence. In this paper, we propose to integrate TV regularization into the ``M''-step of the EM algorithm, thus achieving effective and efficient regularization. Besides, by employing the Chambolle-Pock (CP) algorithm and the ordered subset (OS) strategy, we propose the OSEM-CP algorithm for LDCT reconstruction, in which both reconstruction and regularization are conducted view-by-view. Furthermore, by unrolling OSEM-CP, we propose an end-to-end reconstruction neural network (NN), named OSEM-CPNN, with remarkable performance and efficiency that achieves high-quality reconstructions in just one full-view iteration. Experiments on different models and datasets demonstrate our methods' outstanding performance compared to traditional and state-of-the-art deep-learning methods. | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# バイオメディカル大規模言語モデルは、見えない医療データにおけるジェネリストモデルに勝るものではないと思われる
Biomedical Large Languages Models Seem not to be Superior to Generalist Models on Unseen Medical Data ( http://arxiv.org/abs/2408.13833v1 ) ライセンス: Link先を確認 | Felix J. Dorfner, Amin Dada, Felix Busch, Marcus R. Makowski, Tianyu Han, Daniel Truhn, Jens Kleesiek, Madhumita Sushil, Jacqueline Lammert, Lisa C. Adams, Keno K. Bressem, | (参考訳) 大規模言語モデル (LLM) は、生物医学的応用の可能性を示しており、それらをドメイン固有のデータに微調整する努力に繋がった。
しかし、このアプローチの有効性は依然として不明である。
本研究は, バイオメディカル微調整LDMの多種多様な臨床課題における汎用性に対する性能評価を行った。
The New England Journal of Medicine (NEJM) and the Journal of the American Medical Association (JAMA) and on several clinical task (e.g., information extract, document summarization, and clinical coding)。
バイオメディカルモデルの微調整データセットの外側に特化して選択されたベンチマークを用いて、バイオメディカル LLM は、一般的な用途、特に医学的知識に焦点を絞らないタスクにおいて、主に劣る結果が得られた。
より大きなモデルはケースタスクで同様のパフォーマンスを示した(例: OpenBioLLM-70B: 66.4% vs. Llama-3-70B-Instruct: 65% on JAMA case)が、小さなバイオメディカルモデルはより顕著なパフォーマンスを示した(例: OpenBioLLM-8B: 30% vs. Llama-3-8B-Instruct: 64.3% on NEJM case)。
CLUE(Clinical Language Understanding Evaluation)ベンチマークタスクでも同様の傾向が見られ、汎用モデルはテキスト生成、質問応答、コーディングタスクでよく機能する。
以上の結果から,バイオメディカルデータに対する微調整 LLM は期待されるメリットを得られず,性能低下につながる可能性が示唆され,LLM のドメイン固有の適応に関する一般的な仮定に疑問が呈され,医療用AI における厳密な評価フレームワークの必要性が強調された。
検索強化世代のような代替アプローチは、一般知識を損なうことなく、LSMの生物医学的能力を高めるのにより効果的である可能性がある。
Large language models (LLMs) have shown potential in biomedical applications, leading to efforts to fine-tune them on domain-specific data. However, the effectiveness of this approach remains unclear. This study evaluates the performance of biomedically fine-tuned LLMs against their general-purpose counterparts on a variety of clinical tasks. We evaluated their performance on clinical case challenges from the New England Journal of Medicine (NEJM) and the Journal of the American Medical Association (JAMA) and on several clinical tasks (e.g., information extraction, document summarization, and clinical coding). Using benchmarks specifically chosen to be likely outside the fine-tuning datasets of biomedical models, we found that biomedical LLMs mostly perform inferior to their general-purpose counterparts, especially on tasks not focused on medical knowledge. While larger models showed similar performance on case tasks (e.g., OpenBioLLM-70B: 66.4% vs. Llama-3-70B-Instruct: 65% on JAMA cases), smaller biomedical models showed more pronounced underperformance (e.g., OpenBioLLM-8B: 30% vs. Llama-3-8B-Instruct: 64.3% on NEJM cases). Similar trends were observed across the CLUE (Clinical Language Understanding Evaluation) benchmark tasks, with general-purpose models often performing better on text generation, question answering, and coding tasks. Our results suggest that fine-tuning LLMs to biomedical data may not provide the expected benefits and may potentially lead to reduced performance, challenging prevailing assumptions about domain-specific adaptation of LLMs and highlighting the need for more rigorous evaluation frameworks in healthcare AI. Alternative approaches, such as retrieval-augmented generation, may be more effective in enhancing the biomedical capabilities of LLMs without compromising their general knowledge. | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# PropSAM: マルチモーダル医療画像中の任意の3Dオブジェクトをセグメント化するプロパゲーションベースモデル
PropSAM: A Propagation-Based Model for Segmenting Any 3D Objects in Multi-Modal Medical Images ( http://arxiv.org/abs/2408.13836v1 ) ライセンス: Link先を確認 | Zifan Chen, Xinyu Nan, Jiazheng Li, Jie Zhao, Haifeng Li, Zilin Lin, Haoshen Li, Heyun Chen, Yiting Liu, Bin Dong, Li Zhang, Lei Tang, | (参考訳) ボリュームセグメンテーションは医療画像撮影には不可欠であるが、労働集約的なマニュアルアノテーションやシナリオ固有のモデルトレーニングの必要性によって制約されることが多い。
さらに、既存の一般的なセグメンテーションモデルは、設計と推論のアプローチのために非効率である。
本稿では,3次元医療構造情報の利用を最適化した伝搬型セグメンテーションモデルであるPropSAMを紹介する。
PropSAMは、スライス内処理のためのCNNベースのUNetと、スライス間伝播のためのTransformerベースのモジュールを統合する。
PropSAMは、2次元のプロンプトを必要とする従来のモデルとは異なり、2次元のバウンディングボックスやスケッチマスクのようなワンビュープロンプトで動作する。
優れた性能を示し、44の医療データセットと様々な画像モダリティでDice similarity Coefficient (DSC) を大幅に改善し、平均18.1%のDSC改善でMedSAMやSegVolのようなモデルよりも優れた性能を示した。
PropSAMは、P>0.5985とP>0.6131の一方のANOVA試験により、急激な偏差と様々な伝播構成にもかかわらず安定な予測も維持している。
さらに、PropSAMの効率的なアーキテクチャは、より高速な推論速度(Wilcoxon rank-sum test, P<0.001)を可能にし、2ビュープロンプトモデルと比較してユーザインタラクション時間を37.8%削減する。
不規則で複雑な物体を頑健な性能で処理する能力は、さらに臨床環境での可能性を示し、より自動化され信頼性の高い医療画像解析を最小限のリトレーニングで促進する。
Volumetric segmentation is crucial for medical imaging but is often constrained by labor-intensive manual annotations and the need for scenario-specific model training. Furthermore, existing general segmentation models are inefficient due to their design and inferential approaches. Addressing this clinical demand, we introduce PropSAM, a propagation-based segmentation model that optimizes the use of 3D medical structure information. PropSAM integrates a CNN-based UNet for intra-slice processing with a Transformer-based module for inter-slice propagation, focusing on structural and semantic continuities to enhance segmentation across various modalities. Distinctively, PropSAM operates on a one-view prompt, such as a 2D bounding box or sketch mask, unlike conventional models that require two-view prompts. It has demonstrated superior performance, significantly improving the Dice Similarity Coefficient (DSC) across 44 medical datasets and various imaging modalities, outperforming models like MedSAM and SegVol with an average DSC improvement of 18.1%. PropSAM also maintains stable predictions despite prompt deviations and varying propagation configurations, confirmed by one-way ANOVA tests with P>0.5985 and P>0.6131, respectively. Moreover, PropSAM's efficient architecture enables faster inference speeds (Wilcoxon rank-sum test, P<0.001) and reduces user interaction time by 37.8% compared to two-view prompt models. Its ability to handle irregular and complex objects with robust performance further demonstrates its potential in clinical settings, facilitating more automated and reliable medical imaging analyses with minimal retraining. | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# 夜間セマンティックセグメンテーションのための位相強調による信頼性マッチングの探索
Exploring Reliable Matching with Phase Enhancement for Night-time Semantic Segmentation ( http://arxiv.org/abs/2408.13838v1 ) ライセンス: Link先を確認 | Yuwen Pan, Rui Sun, Naisong Luo, Tianzhu Zhang, Yongdong Zhang, | (参考訳) 夜間画像のセマンティックセグメンテーションは、特に自律運転システムにおける夜間環境認識のような応用において、コンピュータビジョンにおいて重要な意味を持つ。
しかし、既存の手法では、夜間の画像を昼間の視点で解析する傾向があり、低照度条件(テクスチャの妥協や一致した誤りの否定など)に固有の課題は未解決のままである。
これらの課題に対処するために,夜間のセマンティックセグメンテーションに適した新しいエンドツーエンド最適化手法であるNightFormerを提案する。
具体的には,画素レベルのテクスチャ強化モジュールを設計し,位相強調と増幅された注意により階層的にテクスチャ認識機能を取得するとともに,低照度環境における信頼性の高い注意による正確な相関マッチングを実現するためのオブジェクトレベルの信頼性マッチングモジュールを設計する。
NightCityやBDD,Cityscapesなど,さまざまな課題のあるベンチマークに対する大規模な実験結果から,提案手法は最先端の夜間セマンティックセマンティックセグメンテーション手法に対して好適に機能することが示された。
Semantic segmentation of night-time images holds significant importance in computer vision, particularly for applications like night environment perception in autonomous driving systems. However, existing methods tend to parse night-time images from a day-time perspective, leaving the inherent challenges in low-light conditions (such as compromised texture and deceiving matching errors) unexplored. To address these issues, we propose a novel end-to-end optimized approach, named NightFormer, tailored for night-time semantic segmentation, avoiding the conventional practice of forcibly fitting night-time images into day-time distributions. Specifically, we design a pixel-level texture enhancement module to acquire texture-aware features hierarchically with phase enhancement and amplified attention, and an object-level reliable matching module to realize accurate association matching via reliable attention in low-light environments. Extensive experimental results on various challenging benchmarks including NightCity, BDD and Cityscapes demonstrate that our proposed method performs favorably against state-of-the-art night-time semantic segmentation methods. | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# 構造依存型ニューラルネットワークモデルによるトポロジー最適化のための一貫性機械学習
Consistent machine learning for topology optimization with microstructure-dependent neural network material models ( http://arxiv.org/abs/2408.13843v1 ) ライセンス: Link先を確認 | Harikrishnan Vijayakumaran, Jonathan B. Russ, Glaucio H. Paulino, Miguel A. Bessa, | (参考訳) トポロジ最適化と併用した付加的製造法により, 空間的に変化する材料構造を制御したマルチスケール構造の構築が可能となった。
しかしながら、非線形性の存在下でのそのような構造の位相最適化や逆設計は、計算的均質化法と微構造応答の微分パラメータ化の複雑さのために依然として困難である。
この課題の解決策は、材料応答とマイクロ構造記述子の間の効率的で微分可能なマッピングを提供する機械学習技術にある。
超弾性理論に基づく一貫した機械学習アプローチと均質化に基づく位相最適化戦略を融合させることにより、空間的に異なる構造を持つ大規模不均一構造を設計するための枠組みを提案する。
我々は、多凸性、客観性、物質対称性、熱力学的整合性などの重要な物理原理に従うニューラルネットワークを活用して、材料ミクロ構造記述子に依存する信頼性の高い構成的モデルを提供する。
本研究は, 有限変形下での不均一な超弾性構造の設計を最適化するために, 密度に基づくトポロジー最適化と一貫した機械学習モデルを統合する可能性を強調した。
Additive manufacturing methods together with topology optimization have enabled the creation of multiscale structures with controlled spatially-varying material microstructure. However, topology optimization or inverse design of such structures in the presence of nonlinearities remains a challenge due to the expense of computational homogenization methods and the complexity of differentiably parameterizing the microstructural response. A solution to this challenge lies in machine learning techniques that offer efficient, differentiable mappings between the material response and its microstructural descriptors. This work presents a framework for designing multiscale heterogeneous structures with spatially varying microstructures by merging a homogenization-based topology optimization strategy with a consistent machine learning approach grounded in hyperelasticity theory. We leverage neural architectures that adhere to critical physical principles such as polyconvexity, objectivity, material symmetry, and thermodynamic consistency to supply the framework with a reliable constitutive model that is dependent on material microstructural descriptors. Our findings highlight the potential of integrating consistent machine learning models with density-based topology optimization for enhancing design optimization of heterogeneous hyperelastic structures under finite deformations. | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# 拡散モデルによる欠陥検出
Bring the Power of Diffusion Model to Defect Detection ( http://arxiv.org/abs/2408.13845v1 ) ライセンス: Link先を確認 | Xuyi Yu, | (参考訳) 工業生産プロセスの複雑さと技術的要求のため、表面欠陥は必然的に現れ、製品の品質に深刻な影響を及ぼす。
既存の軽量検出ネットワークは非常に効率的であるが、意味情報の欠如により非塩分欠陥の誤検出や見逃しがちである。
これとは対照的に、拡散モデルは、デノナイジングプロセスにおいて高階の意味表現を生成することができる。
そこで本研究では,拡散モデルの高次モデリング能力を検出モデルに組み込むことにより,難解な対象の分類と局所化をより効果的に支援することを目的とする。
まず, 分散確率モデル (DDPM) を事前学習し, 特徴リポジトリとして構築する復調過程の特徴を抽出する。
特に、高次元特徴をロードするデータローダによるメモリの潜在的なボトルネックを避けるために、ResVAE(Ress Convolutional Variational Auto-Encoder)が機能リポジトリをさらに圧縮するために設計されている。
画像は、それぞれ特徴抽出とクエリのために、イメージバックボーンとフィーチャーリポジトリの両方にフィードされる。
待ち行列特徴を再構成してフィルタして高次元DDPM特徴を得る。
DDPMのコンテキスト特性を完全に改善し,検出モデルを最適化するために動的クロスフュージョン法を提案する。
最後に,高次モデリング能力を高効率で軽量ベースラインモデルに戻すために,知識蒸留を用いる。
実験結果から,本手法はいくつかの産業データセット上での競合的な結果が得られることが示された。
Due to the high complexity and technical requirements of industrial production processes, surface defects will inevitably appear, which seriously affects the quality of products. Although existing lightweight detection networks are highly efficient, they are susceptible to false or missed detection of non-salient defects due to the lack of semantic information. In contrast, the diffusion model can generate higher-order semantic representations in the denoising process. Therefore, the aim of this paper is to incorporate the higher-order modelling capability of the diffusion model into the detection model, so as to better assist in the classification and localization of difficult targets. First, the denoising diffusion probabilistic model (DDPM) is pre-trained to extract the features of denoising process to construct as a feature repository. In particular, to avoid the potential bottleneck of memory caused by the dataloader loading high-dimensional features, a residual convolutional variational auto-encoder (ResVAE) is designed to further compress the feature repository. The image is fed into both image backbone and feature repository for feature extraction and querying respectively. The queried latent features are reconstructed and filtered to obtain high-dimensional DDPM features. A dynamic cross-fusion method is proposed to fully refine the contextual features of DDPM to optimize the detection model. Finally, we employ knowledge distillation to migrate the higher-order modelling capabilities back into the lightweight baseline model without additional efficiency cost. Experiment results demonstrate that our method achieves competitive results on several industrial datasets. | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# サンプル非依存型フェデレーション学習バックドアアタック
Sample-Independent Federated Learning Backdoor Attack ( http://arxiv.org/abs/2408.13849v1 ) ライセンス: Link先を確認 | Weida Xu, Yang Xu, Sicong Zhang, | (参考訳) フェデレートラーニングでは、バックドア攻撃は敵クライアントのデータにトリガを埋め込んでモデルにバックドアを注入する。
サンプル分析による検出を回避するため,ドロップアウトに基づく非サンプル修正バックドア攻撃法を開発した。
しかし、これらの手法は、評価モードでのドロップアウトを隠蔽的に利用するのに苦労し、現実のシナリオでの展開を妨げている。
このような問題に対処するために,本論文では,サンプルの変更やドロップアウトに依存しない,フェデレーション付き学習バックドアアタックの新たなアプローチであるGhostBを紹介する。
この方法は、特定の値をトリガーとして生成するニューロンの挙動を利用する。
これらのニューロン値を敵が指定したカテゴリにマッピングすることにより、特定の特徴値が指定されたニューロンに検出されると、バックドアを埋め込んで活性化する。
TIMIT, LibriSpeech, VoxCeleb2データベースを閉集合同定 (CSI) と開集合同定 (OSI) の両方のシナリオで行った実験により, GhostB が活性化時に100%成功率を達成し, 1から50個のゴーストニューロンを包含する実験を継続した。
本研究は,神経細胞の分散と層内深度が成功率にどのように影響するかを考察し,神経細胞の分散と位置の増大が効果を著しく低下させ,攻撃を失敗させる可能性があることを示す。
In federated learning, backdoor attacks embed triggers in the adversarial client's data to inject a backdoor into the model. To evade detection through sample analysis, non-sample-modifying backdoor attack methods based on dropout have been developed. However, these methods struggle to covertly utilize dropout in evaluation mode, thus hindering their deployment in real-world scenarios. To address these, this paper introduces GhostB, a novel approach to federated learning backdoor attacks that neither alters samples nor relies on dropout. This method employs the behavior of neurons producing specific values as triggers. By mapping these neuronal values to categories specified by the adversary, the backdoor is implanted and activated when particular feature values are detected at designated neurons. Our experiments conducted on TIMIT, LibriSpeech, and VoxCeleb2 databases in both Closed Set Identification (CSI) and Open Set Identification (OSI) scenarios demonstrate that GhostB achieves a 100% success rate upon activation, with this rate maintained across experiments involving 1 to 50 ghost neurons. This paper investigates how the dispersion of neurons and their depth within hidden layers affect the success rate, revealing that increased dispersion and positioning of neurons can significantly decrease effectiveness, potentially rendering the attack unsuccessful. | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# 知識蒸留のための凝縮サンプルガイドモデルインバージョン
Condensed Sample-Guided Model Inversion for Knowledge Distillation ( http://arxiv.org/abs/2408.13850v1 ) ライセンス: Link先を確認 | Kuluhan Binici, Shivam Aggarwal, Cihan Acar, Nam Trung Pham, Karianto Leman, Gim Hee Lee, Tulika Mitra, | (参考訳) 知識蒸留(KD)は、訓練済みの教師モデルからよりコンパクトな学生モデルへの知識伝達を可能にするニューラルネットワーク圧縮の重要な要素である。
KDはトレーニングデータセットへのアクセスに依存しているため、プライバシの懸念や、データのサイズに関する論理的な問題のために、必ずしも完全に利用できるとは限らない。
これを解決するため、「データフリー」なKD法では、モデル反転によって生成された合成データを用いて、対象データ分布を模倣する。
しかし,従来のモデル逆転法は,対象データセットからの補足情報を利用するように設計されていないため,利用可能な場合でも性能向上には利用できない。
本稿では, 縮合したサンプルを補足情報の一種とみなし, 対象データ分布をよりよく近似する手法を導入し, KD性能を向上する。
我々のアプローチは多種多様であり、さまざまなデータセットとモデル反転ベースの手法で最大11.4%のKD精度の改善が証明されている。
重要なことは、クラス毎に1つの凝縮サンプルを使用する場合でも有効であり、実際のデータサンプルが限られている数ショットのシナリオでもパフォーマンスを向上させることができる。
Knowledge distillation (KD) is a key element in neural network compression that allows knowledge transfer from a pre-trained teacher model to a more compact student model. KD relies on access to the training dataset, which may not always be fully available due to privacy concerns or logistical issues related to the size of the data. To address this, "data-free" KD methods use synthetic data, generated through model inversion, to mimic the target data distribution. However, conventional model inversion methods are not designed to utilize supplementary information from the target dataset, and thus, cannot leverage it to improve performance, even when it is available. In this paper, we consider condensed samples, as a form of supplementary information, and introduce a method for using them to better approximate the target data distribution, thereby enhancing the KD performance. Our approach is versatile, evidenced by improvements of up to 11.4% in KD accuracy across various datasets and model inversion-based methods. Importantly, it remains effective even when using as few as one condensed sample per class, and can also enhance performance in few-shot scenarios where only limited real data samples are available. | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# LaneTCA:テンポラルコンテキストアグリゲーションによるビデオレーン検出の強化
LaneTCA: Enhancing Video Lane Detection with Temporal Context Aggregation ( http://arxiv.org/abs/2408.13852v1 ) ライセンス: Link先を確認 | Keyi Zhou, Li Li, Wengang Zhou, Yonghui Wang, Hao Feng, Houqiang Li, | (参考訳) ビデオレーン検出では、既存のレーン検出器で探索されていない連続したフレームの間に、豊富な時間的文脈が存在する。
本研究では,個々の映像フレームをブリッジするLaneTCAを提案し,時間的文脈を効果的に集約する方法を探る。
技術的には,長期的・短期的文脈を抽象化するアキュマティブアテンションモジュールと隣接アテンションモジュールを開発する。
積算アテンションモジュールは、車両の走行中に連続的に視覚情報を蓄積し、隣接するアテンションモジュールは、前フレームから現在のフレームへのこのレーン情報を伝搬する。
2つのモジュールは、トランスフォーマーアーキテクチャに基づいて慎重に設計されている。
最後に、これらの長短コンテキスト特徴は、現在のフレームの特徴と融合して、現在のフレーム内のレーン線を予測する。
大規模な定量的および定性的な実験は、2つの有望なベンチマークデータセットで実施される。
その結果,本手法の有効性が示され,いくつかの新記録が得られた。
コードとモデルはhttps://github.com/Alex-1337/LaneTCAで公開されている。
In video lane detection, there are rich temporal contexts among successive frames, which is under-explored in existing lane detectors. In this work, we propose LaneTCA to bridge the individual video frames and explore how to effectively aggregate the temporal context. Technically, we develop an accumulative attention module and an adjacent attention module to abstract the long-term and short-term temporal context, respectively. The accumulative attention module continuously accumulates visual information during the journey of a vehicle, while the adjacent attention module propagates this lane information from the previous frame to the current frame. The two modules are meticulously designed based on the transformer architecture. Finally, these long-short context features are fused with the current frame features to predict the lane lines in the current frame. Extensive quantitative and qualitative experiments are conducted on two prevalent benchmark datasets. The results demonstrate the effectiveness of our method, achieving several new state-of-the-art records. The codes and models are available at https://github.com/Alex-1337/LaneTCA | 翻訳日:2024-08-27 17:40:08 公開日:2024-08-25 |
# Tangram: 幾何学的要素認識のためのベンチマーク
Tangram: A Challenging Benchmark for Geometric Element Recognizing ( http://arxiv.org/abs/2408.13854v1 ) ライセンス: Link先を確認 | Jiamin Tang, Chao Zhang, Xudong Zhu, Mengchi Liu, | (参考訳) 大規模マルチモーダルモデル(LMM)の顕著な進歩により、視覚・数学的推論を含む複雑な問題に対処できるようになった。
しかし、幾何学的要素を識別する能力はいまだ検討されていない。
このギャップを埋めるために、幾何学的要素認識におけるLMMの性能を評価するために設計された新しいベンチマークであるTangramを紹介する。
タングラムには、初等・中等教育試験、コンペ、教科書から得られる1080の多様な幾何学図があり、単純な幾何学的形状から複雑な組み合わせまでをカバーしている。
それぞれのダイアグラムは4つの質問に関連付けられ、合計4,320のビジュアル・クエクション・アンサー・ペアとなる。
高度な認知と推論を求める既存のベンチマークとは異なり、Tangramは幾何学的要素の理解に焦点を当て、「単純だが興味深い」数え上げタスクを実行するためにモデルを必要とする。
GPT-4o や Claude 3.5 Sonnet のような 10 個の著名な LMM の体系的評価は、一見単純なタスクであっても、これらのモデルが依然として重大な課題に直面していることを示している。
特に、テストされた全てのモデルで上位のパフォーマーの全体的な精度は56.8%に過ぎず、人間のパフォーマンスと比べて大きな差がある。
これらの知見は、基本的な知覚タスクを扱う上で、現在のマルチモーダル人工知能システムの限界を強調し、次世代のエキスパートレベルのマルチモーダル基盤モデルの開発を促すものである。
Tangramと評価コードも近く公開される予定だ。
Significant advancements in Large Multimodal Models (LMMs) have enabled them to tackle complex problems involving visual-mathematical reasoning. However, their ability to identify geometric elements remains understudied. To bridge this gap, we introduce Tangram, a novel benchmark designed to evaluate the performance of LMMs on geometric element recognition. Tangram includes 1,080 diverse geometric diagrams sourced from primary and secondary school exams, competitions, and textbooks, covering from simple basic geometric shapes to complex combinations. Each diagram is associated with four questions, resulting in a total of 4,320 visual-question-answer pairs. Unlike existing benchmarks that seek higher-level cognition and reasoning, Tangram focuses on the understanding of geometric elements, requiring models to perform a "simple but interesting" counting task. Systematic evaluation of 10 prominent LMMs, such as GPT-4o and Claude 3.5 Sonnet, shows that even in the seemingly simple task, these models still face significant challenges. Notably, the overall accuracy of the top performer across all tested models is only 56.8%, marking a significant gap when compared to human performance. These findings highlight the limitations of current multimodal artificial intelligence systems in handling basic perception tasks, and will inspire the development of the next generation of expert-level multimodal foundational models. The Tangram and evaluation code will be available soon. | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# 歴史的問題からみた静的コードアナライザの偽陰性・肯定性に関する実証的研究
An Empirical Study of False Negatives and Positives of Static Code Analyzers From the Perspective of Historical Issues ( http://arxiv.org/abs/2408.13855v1 ) ライセンス: Link先を確認 | Han Cui, Menglei Xie, Ting Su, Chengyu Zhang, Shin Hwei Tan, | (参考訳) 静的コードアナライザは、プログラムの欠陥を見つけるのに広く使われている。
しかし、実際には、偽陰性(FN)と偽陽性(FP)の問題により、そのようなアナライザの有効性とユーザビリティが影響を受ける。
本稿は, これらのアナライザのFNとFPを新たな視点から検討することを目的としており, メンテナ, ユーザ, 研究者が発行リポジトリに報告したこれらのアナライザのFNとFPの歴史的問題について調査する。
この目的のために、我々は3つの人気のある静的コードアナライザ(PMD、SpotBugs、SonarQube)から、FN/FPの350の歴史的問題に関する最初の体系的研究を行った。
これらの問題はすべて、開発者によって確認され、修正されました。
これらの課題の根本原因とそれに対応する課題追跡プログラムの特性について検討した。
これは、FNとFPを緩和するいくつかの興味深い発見と意味を明らかにしている。
さらに,本研究ではFNとFPを見つけるための変成試験戦略を考案した。
この戦略は14のFN/FPの新たな問題に成功し、そのうち11が確認され、9がすでに開発者によって修正されている。
解析装置のさらなる手作業による検討により, 実装された静的解析の弱点により, 1つのルール仕様問題と4つのFN/FPが明らかになった。
すべてのアーティファクト(データセットとツール)をhttps://zenodo.org/doi/10.5281/zenodo.11525129で公開しました。
Static code analyzers are widely used to help find program flaws. However, in practice the effectiveness and usability of such analyzers is affected by the problems of false negatives (FNs) and false positives (FPs). This paper aims to investigate the FNs and FPs of such analyzers from a new perspective, i.e., examining the historical issues of FNs and FPs of these analyzers reported by the maintainers, users and researchers in their issue repositories -- each of these issues manifested as a FN or FP of these analyzers in the history and has already been confirmed and fixed by the analyzers' developers. To this end, we conduct the first systematic study on a broad range of 350 historical issues of FNs/FPs from three popular static code analyzers (i.e., PMD, SpotBugs, and SonarQube). All these issues have been confirmed and fixed by the developers. We investigated these issues' root causes and the characteristics of the corresponding issue-triggering programs. It reveals several new interesting findings and implications on mitigating FNs and FPs. Furthermore, guided by some findings of our study, we designed a metamorphic testing strategy to find FNs and FPs. This strategy successfully found 14 new issues of FNs/FPs, 11 of which have been confirmed and 9 have already been fixed by the developers. Our further manual investigation of the studied analyzers revealed one rule specification issue and additional four FNs/FPs due to the weaknesses of the implemented static analysis. We have made all the artifacts (datasets and tools) publicly available at https://zenodo.org/doi/10.5281/zenodo.11525129. | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# アーティストの絵のような: 構成、絵画、そしてリタッチによる拡散モデルによる複雑なシーン生成
Draw Like an Artist: Complex Scene Generation with Diffusion Model via Composition, Painting, and Retouching ( http://arxiv.org/abs/2408.13858v1 ) ライセンス: Link先を確認 | Minghao Liu, Le Zhang, Yingjie Tian, Xiaochao Qu, Luoqi Liu, Ting Liu, | (参考訳) テキスト・画像拡散モデルの最近の進歩は、画像品質において印象的な能力を示している。
しかし、複雑なシーン生成は未解明のままであり、「複雑なシーン」の定義自体も明らかになっていない。
本稿では,複雑なシーンの正確な定義と,この定義に基づく複合分解基準(CDC)の導入により,このギャップに対処する。
アーティストの絵を描くプロセスに触発されて,コンプレックス拡散(CxD)と呼ばれる学習自由拡散フレームワークを提案し,その過程を3段階に分けて構成,絵画,リタッチを行う。
提案手法は,大規模言語モデル(LLM)の強力なチェーン・オブ・シント機能を利用して,CDCに基づく複雑なプロンプトを分解し,構成とレイアウトを管理する。
そこで我々は,複雑な風景画を完成させるために,簡単なプロンプトを特定の領域に誘導するアテンション変調法を開発した。
最後に、LLMの詳細な出力をリタッチモデルに注入し、画像の詳細を強化することにより、リタッチステージを実装する。
大規模な実験により,本手法は従来のSOTA手法よりも優れており,複雑なシーンにおいて複雑なプロンプトを伴っても,高品質でセマンティックに整合性があり,視覚的に多彩な画像の生成が著しく向上していることが示された。
Recent advances in text-to-image diffusion models have demonstrated impressive capabilities in image quality. However, complex scene generation remains relatively unexplored, and even the definition of `complex scene' itself remains unclear. In this paper, we address this gap by providing a precise definition of complex scenes and introducing a set of Complex Decomposition Criteria (CDC) based on this definition. Inspired by the artists painting process, we propose a training-free diffusion framework called Complex Diffusion (CxD), which divides the process into three stages: composition, painting, and retouching. Our method leverages the powerful chain-of-thought capabilities of large language models (LLMs) to decompose complex prompts based on CDC and to manage composition and layout. We then develop an attention modulation method that guides simple prompts to specific regions to complete the complex scene painting. Finally, we inject the detailed output of the LLM into a retouching model to enhance the image details, thus implementing the retouching stage. Extensive experiments demonstrate that our method outperforms previous SOTA approaches, significantly improving the generation of high-quality, semantically consistent, and visually diverse images for complex scenes, even with intricate prompts. | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# マルチモーダル半構造化テーブル上での知識認識推論
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables ( http://arxiv.org/abs/2408.13860v1 ) ライセンス: Link先を確認 | Suyash Vardhan Mathur, Jainit Sushil Bafna, Kunal Kartik, Harshita Khandelwal, Manish Shrivastava, Vivek Gupta, Mohit Bansal, Dan Roth, | (参考訳) 既存の問合せ用データセットは、通常、セル内のテキストにのみフォーカスする。
しかし、実世界のデータは本質的にマルチモーダルであり、しばしば記号、顔、アイコン、パターン、チャートなどの画像をテーブル内のテキストコンテンツとブレンドする。
マルチモーダル推論が可能なAIモデルの進化により、そのような構造化データを扱う上での有効性を評価することが重要となる。
本研究では、現在のAIモデルがマルチモーダルな構造化データに基づいて知識を考慮した推論を行うことができるかどうかを検討する。
この目的のために設計された新しいデータセットであるMMTabQAを導入し、画像とテキストの両方を統合するテーブルを推論する能力について検討する。
我々の実験は、複数のテキストや画像入力を効果的に統合し、解釈し、視覚的コンテキストを理解し、画像間で視覚的コンテンツを比較することにおける、現在のAIモデルに対する重大な課題を強調した。
これらの結果は、マルチモーダル構造化データの分析におけるAIの理解と能力向上のための堅牢なベンチマークとして、私たちのデータセットを確立します。
Existing datasets for tabular question answering typically focus exclusively on text within cells. However, real-world data is inherently multimodal, often blending images such as symbols, faces, icons, patterns, and charts with textual content in tables. With the evolution of AI models capable of multimodal reasoning, it is pertinent to assess their efficacy in handling such structured data. This study investigates whether current AI models can perform knowledge-aware reasoning on multimodal structured data. We explore their ability to reason on tables that integrate both images and text, introducing MMTabQA, a new dataset designed for this purpose. Our experiments highlight substantial challenges for current AI models in effectively integrating and interpreting multiple text and image inputs, understanding visual context, and comparing visual content across images. These findings establish our dataset as a robust benchmark for advancing AI's comprehension and capabilities in analyzing multimodal structured data. | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# CodeGraph: LLMのグラフ推論をコードで強化する
CodeGraph: Enhancing Graph Reasoning of LLMs with Code ( http://arxiv.org/abs/2408.13863v1 ) ライセンス: Link先を確認 | Qiaolong Cai, Zhaowei Wang, Shizhe Diao, James Kwok, Yangqiu Song, | (参考訳) 大規模言語モデル(LLM)の普及に伴い、基本グラフアルゴリズム問題に基づく推論は、複雑なグラフ推論タスクを処理および推論する能力を評価するための重要な中間段階である。
既存の手法は通常、グラフ構造化データをテキスト記述に変換し、推論や計算にLLMを使用する。
しかしながら、LLMは、エッジの数を数えるなど、基本的なグラフアルゴリズム問題において、算術部分の計算誤差をしばしば生成する。
さらに、彼らは推論プロセスのアウトプットの制御や理解に苦労し、LLMが単に推測しているかどうかという懸念を提起している。
本稿では,グラフ問題の解をコードとして符号化するCodeGraphを紹介する。
提案手法は,模範者から学習し,プログラムを生成し,プログラムインタプリタを介して実行することにより,新たなグラフ問題を解決する。
GPT-3.5 Turbo, Llama3-70B Instruct, Mixtral-8x22B Instruct, Mixtral-8x7B Instruct。
GraphQAデータセットに6つのグラフエンコーディングメソッドを持つ6つのタスクの実験結果から、CodeGraphはタスクに応じてLSM内のグラフ推論タスクのパフォーマンスを1.3%から58.6%向上させることができることが示された。
既存の手法と比較して、CodeGraphはグラフタスクの算術的問題に強いパフォーマンスを示し、推論プロセスに対してより制御可能で解釈可能なアプローチを提供する。
With the increasing popularity of large language models (LLMs), reasoning on basic graph algorithm problems is an essential intermediate step in assessing their abilities to process and infer complex graph reasoning tasks. Existing methods usually convert graph-structured data to textual descriptions and then use LLMs for reasoning and computation. However, LLMs often produce computation errors on arithmetic parts in basic graph algorithm problems, such as counting number of edges. In addition, they struggle to control or understand the output of the reasoning process, raising concerns about whether LLMs are simply guessing. In this paper, we introduce CodeGraph, a method that encodes graph problem solutions as code. The methods solve new graph problems by learning from exemplars, generating programs, and executing them via a program interpreter. Using the few-shot setting, we evaluate CodeGraph with the base LLM being GPT-3.5 Turbo, Llama3-70B Instruct, Mixtral-8x22B Instruct, and Mixtral-8x7B Instruct. Experimental results on six tasks with six graph encoding methods in the GraphQA dataset demonstrate that CodeGraph can boost performance on graph reasoning tasks inside LLMs by 1.3% to 58.6%, depending on the task. Compared to the existing methods, CodeGraph demonstrates strong performance on arithmetic problems in graph tasks and offers a more controllable and interpretable approach to the reasoning process. | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# デジタル双極子研究の再現性に向けて:PiCar-Xを例に
Toward Reproducibility of Digital Twin Research: Exemplified with the PiCar-X ( http://arxiv.org/abs/2408.13866v1 ) ライセンス: Link先を確認 | Alexander Barbie, Wilhelm Hasselbring, | (参考訳) デジタル双生児はモノのインターネット(Industrial Internet of Things, モノのインターネット)と産業(Industrial Internet of Things, モノのインターネット)の4.0でますます重要になってきており、様々なアプリケーションの能力と品質を高めている。
しかしながら、 \dtsの概念には統一的な定義がなく、既存の研究で再現可能なモジュールやソースコードが不足していることもあって、検証の課題に直面している。
多くのアプリケーションはケーススタディで説明されているが、研究者やエンジニアの詳細な再利用可能な仕様を欠いていることが多い。
これまでの研究では、我々は \dt の概念を定義し、定式化した。
本稿では,様々な‘dt’概念を再現可能な実験室で実証する。
我々の形式化された概念には、 \pt、デジタルモデル、デジタルテンプレート、デジタルスレッド、デジタルシャドー、 \dt、および \dtpが含まれる。
この一連の概念を、PiCar-Xを用いて説明し、 \pt から \dtp への進行を示す。
コードベース全体がオープンソースとして公開されており、各コンセプトに対して、Docker-composeファイルは独立した探索、理解、拡張を容易にするために提供される。
Digital twins are becoming increasingly relevant in the Industrial Internet of Things and Industry 4.0, enhancing the capabilities and quality of various applications. However, the concept of \dts lacks a unified definition and faces validation challenges, partly due to the scarcity of reproducible modules or source codes in existing studies. While many applications are described in case studies, they often lack detailed, re-usable specifications for researchers and engineers. In previous research, we defined and formalized the \dt concept. This paper presents a reproducible laboratory experiment that demonstrates various \dt concepts. Our formalized concept encompasses the \pt, the digital model, the digital template, the digital thread, the digital shadow, the \dt, and the \dtp. We illustrate this series of concepts by using a PiCar-X, showcasing the progression from a \pt to its \dtp. The entire code base is published as open source, and for each concept, Docker-compose files are provided to facilitate independent exploration, understanding, and extension. | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# 逆問題に対する粒子フィルタに基づく潜在拡散
Particle-Filtering-based Latent Diffusion for Inverse Problems ( http://arxiv.org/abs/2408.13868v1 ) ライセンス: Link先を確認 | Amir Nazemi, Mohammad Hadi Sepanj, Nicholas Pellegrino, Chris Czarnecki, Paul Fieguth, | (参考訳) 画像ベースの逆問題を解決するための現在の戦略は、遅延拡散モデルを適用して後続サンプリングを行うが、ほとんど全てのアプローチは、解空間を探索する明示的な試みをせず、代わりにガウス分布から1つのサンプルのみを抽出して解を生成する。
本稿では,逆SDE法の初期段階における解空間の非線形探索のための粒子フィルタリングに基づくフレームワークを提案する。
提案手法は, 線形あるいは非線形の逆問題に対して, 粒子フィルタに基づく潜時拡散法 (PFLD) と, 問題の定式化と枠組みを適用可能である。
PFLDはFFHQ-1KおよびImageNet-1Kデータセット上のSOTAソルバPSLDよりも優れた性能を示し,超解像,ガウス解像,塗装の逆問題タスクについて検討した。
Current strategies for solving image-based inverse problems apply latent diffusion models to perform posterior sampling.However, almost all approaches make no explicit attempt to explore the solution space, instead drawing only a single sample from a Gaussian distribution from which to generate their solution. In this paper, we introduce a particle-filtering-based framework for a nonlinear exploration of the solution space in the initial stages of reverse SDE methods. Our proposed particle-filtering-based latent diffusion (PFLD) method and proposed problem formulation and framework can be applied to any diffusion-based solution for linear or nonlinear inverse problems. Our experimental results show that PFLD outperforms the SoTA solver PSLD on the FFHQ-1K and ImageNet-1K datasets on inverse problem tasks of super resolution, Gaussian debluring and inpainting. | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# AlphaViTによるフレキシブルゲームプレイAI - 複数のゲームやボードサイズに対応
Flexible game-playing AI with AlphaViT: adapting to multiple games and board sizes ( http://arxiv.org/abs/2408.13871v1 ) ライセンス: Link先を確認 | Kazuhisa Fujita, | (参考訳) 本稿では、AlphaViT、AlphaViD、AlphaVDAといったビジョントランスフォーマー(ViT)で強化されたAlphaZeroフレームワークに基づくゲームAIエージェントを提案する。
これらのエージェントは、1つのモデルを使用して様々なサイズのボードゲームをプレイするように設計されており、AlphaZeroの固定されたボードサイズに制限される制限を克服している。
AlphaViTはトランスフォーマーエンコーダのみを使用し、AlphaViDとAlphaVDAはエンコーダとデコーダの両方を含む。
AlphaViDのデコーダはエンコーダ出力から入力を受け取り、AlphaVDAはデコーダ入力として学習可能な行列を使用する。
AlphaZeroフレームワークを使用することで、Connect4、Gomoku、Othelloなど、さまざまなゲーム環境において、それらの汎用性を実証することができる。
実験の結果、これらのエージェントは1つのゲームまたは複数のゲームで同時にトレーニングされたとしても、AlphaZeroの性能に近づきながら、共有重みを持つ単一のDNNを用いてMinimaxやMonte Carloツリー探索のような従来のアルゴリズムより一貫して優れていた。
特にAlphaViTとAlphaViDはゲーム全体で強力なパフォーマンスを示しており、AlphaViDは異なるアクション空間やボードサイズに適応する能力を高めるデコーダレイヤーの恩恵を受けている。
これらの結果は、より柔軟で堅牢なゲームAIエージェントを開発するためのトランスフォーマーベースのアーキテクチャが、複数のゲームや動的環境において優れたものになる可能性を示唆している。
This paper presents novel game AI agents based on the AlphaZero framework, enhanced with Vision Transformers (ViT): AlphaViT, AlphaViD, and AlphaVDA. These agents are designed to play various board games of different sizes using a single model, overcoming AlphaZero's limitation of being restricted to a fixed board size. AlphaViT uses only a transformer encoder, while AlphaViD and AlphaVDA contain both an encoder and a decoder. AlphaViD's decoder receives input from the encoder output, while AlphaVDA uses a learnable matrix as decoder input. Using the AlphaZero framework, the three proposed methods demonstrate their versatility in different game environments, including Connect4, Gomoku, and Othello. Experimental results show that these agents, whether trained on a single game or on multiple games simultaneously, consistently outperform traditional algorithms such as Minimax and Monte Carlo tree search using a single DNN with shared weights, while approaching the performance of AlphaZero. In particular, AlphaViT and AlphaViD show strong performance across games, with AlphaViD benefiting from an additional decoder layer that enhances its ability to adapt to different action spaces and board sizes. These results may suggest the potential of transformer-based architectures to develop more flexible and robust game AI agents capable of excelling in multiple games and dynamic environments. | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# Camouflaged_Object_Tracking__A_Benchmark
Camouflaged_Object_Tracking__A_Benchmark ( http://arxiv.org/abs/2408.13877v1 ) ライセンス: Link先を確認 | Xiaoyu Guo, Pengzhi Zhong, Hao Zhang, Ling Huang, Defeng Huang, Shuiwang Li, | (参考訳) ビジュアルトラッキングは目覚ましい進歩を遂げており、主に高精度で堅牢なアルゴリズムの開発を可能にする大規模なトレーニングデータセットが利用可能になった。
一般的な物体の追跡には大きな進歩があったが、カモフラージュされた物体の追跡など、より困難なシナリオの研究は依然として限られている。
カモフラージュされた物体は周囲や他の物体とシームレスに融合し、複雑な環境における検出と追跡に固有の課題を提示する。
この課題は、軍事、安全保障、農業、海洋モニタリングといった応用において特に重要であり、カモフラージュされた物体の正確な追跡が不可欠である。
このギャップに対処するために,カモフラージュされたオブジェクト追跡手法の評価に特化して設計された特別なベンチマークであるCOTD(Camouflaged Object Tracking Dataset)を導入する。
COTDデータセットは200のシーケンスと約80,000のフレームで構成され、それぞれに詳細なバウンディングボックスが注釈付けされている。
既存の20個の追跡アルゴリズムを評価した結果,カモフラージュした物体を用いた場合,その性能に重大な欠陥があることが判明した。
これらの問題に対処するため,我々は新しいトラッキングフレームワークHiPTrack-MLSを提案する。
COTDとコードはhttps://github.com/openat25/HIPTrack-MLSで利用可能である。
Visual tracking has seen remarkable advancements, largely driven by the availability of large-scale training datasets that have enabled the development of highly accurate and robust algorithms. While significant progress has been made in tracking general objects, research on more challenging scenarios, such as tracking camouflaged objects, remains limited. Camouflaged objects, which blend seamlessly with their surroundings or other objects, present unique challenges for detection and tracking in complex environments. This challenge is particularly critical in applications such as military, security, agriculture, and marine monitoring, where precise tracking of camouflaged objects is essential. To address this gap, we introduce the Camouflaged Object Tracking Dataset (COTD), a specialized benchmark designed specifically for evaluating camouflaged object tracking methods. The COTD dataset comprises 200 sequences and approximately 80,000 frames, each annotated with detailed bounding boxes. Our evaluation of 20 existing tracking algorithms reveals significant deficiencies in their performance with camouflaged objects. To address these issues, we propose a novel tracking framework, HiPTrack-MLS, which demonstrates promising results in improving tracking performance for camouflaged objects. COTD and code are avialable at https://github.com/openat25/HIPTrack-MLS. | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# モデルミスマッチにロバストなグラフニューラルネットワークの一般化
Generalization of Graph Neural Networks is Robust to Model Mismatch ( http://arxiv.org/abs/2408.13878v1 ) ライセンス: Link先を確認 | Zhiyang Wang, Juan Cervino, Alejandro Ribeiro, | (参考訳) グラフニューラルネットワーク(GNN)は、その一般化能力によってサポートされている様々なタスクにおいて、その効果を実証している。
しかし、GNN一般化の現在の分析は、トレーニングデータとテストデータが独立で同一に分散しているという仮定に依存している。
これにより、テストデータを生成するときにモデルミスマッチが存在する場合に制限が課される。
本稿では,多様体モデルから生成される幾何グラフで動作するGNNについて検討し,学習データと試験データとのミスマッチが存在するシナリオに着目した。
本稿では,そのようなモデルミスマッチの存在下でのGNN一般化の堅牢性を明らかにする。
このことは、多様体から生成されるグラフで訓練されたGNNが、いまだに不一致な多様体から生成されるノードやグラフに対してうまく一般化できることを示している。
このミスマッチは、生成されたグラフ内のノードの特徴摂動とエッジ摂動の両方に起因している。
その結果, 学習グラフのノード数が増加するにつれて, 一般化ギャップは減少し, 多様体次元が大きくなるとともに, ミスマッチも大きくなることがわかった。
重要なことは、GNNの一般化と、モデルミスマッチに直面した際に高周波成分を識別する能力とのトレードオフを観察することである。
この分析の最も重要な実践的結果は、モデルミスマッチに頑健な一般化可能なGNNのフィルタ設計に光を当てることである。
我々は,複数の実世界のデータセットを用いた実験により理論的知見を検証する。
Graph neural networks (GNNs) have demonstrated their effectiveness in various tasks supported by their generalization capabilities. However, the current analysis of GNN generalization relies on the assumption that training and testing data are independent and identically distributed (i.i.d). This imposes limitations on the cases where a model mismatch exists when generating testing data. In this paper, we examine GNNs that operate on geometric graphs generated from manifold models, explicitly focusing on scenarios where there is a mismatch between manifold models generating training and testing data. Our analysis reveals the robustness of the GNN generalization in the presence of such model mismatch. This indicates that GNNs trained on graphs generated from a manifold can still generalize well to unseen nodes and graphs generated from a mismatched manifold. We attribute this mismatch to both node feature perturbations and edge perturbations within the generated graph. Our findings indicate that the generalization gap decreases as the number of nodes grows in the training graph while increasing with larger manifold dimension as well as larger mismatch. Importantly, we observe a trade-off between the generalization of GNNs and the capability to discriminate high-frequency components when facing a model mismatch. The most important practical consequence of this analysis is to shed light on the filter design of generalizable GNNs robust to model mismatch. We verify our theoretical findings with experiments on multiple real-world datasets. | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# 古典的アドバイス : 学習分離のためのサンプリングアドバイスと複雑性仮定について
On classical advice, sampling advise and complexity assumptions for learning separations ( http://arxiv.org/abs/2408.13880v1 ) ライセンス: Link先を確認 | Jordi Pérez-Guijarro, | (参考訳) 本稿では,サンプリング・アドバイス,すなわちトレーニング・セットの形でのアドバイスと古典的アドバイスの等価性を実証する。
具体的には,BPP/sampがP/polyに等しいことを示す。
さらに、固定分布の制約の下で、これらの関係の分析を掘り下げる。
特に、そのような状況下では、平等は保たないことを示す。
この結果は、量子アドバイスとトレーニングセットの量子一般化を考える際にも有効である。
最後に、これらの証明から得られた知見を活用して、最悪のシナリオにおいて量子学習のスピードアップを示す概念クラスの存在、すなわち全ての入力に対して正確な結果が必要な場合に、十分かつ必要な複雑性の仮定を特定する。
In this paper, we prove the equivalence between sampling advice, i.e., advice in the form of a training set, and classical advice. Specifically, our main result demonstrates that BPP/samp is equal to P/poly. Additionally, we delve into the analysis of these relationships under the constraint of a fixed distribution. Notably, we show that under such circumstances, the equality does not hold. This result remains valid when considering quantum advice and a quantum generalization of the training set. Finally, leveraging the insights gained from these proofs, we identify sufficient and necessary complexity assumptions for the existence of concept classes that exhibit a quantum learning speed-up in the worst-case scenario, i.e., when accurate results are required for all inputs. | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# サブゴールによる安全政策探索の改善
Safe Policy Exploration Improvement via Subgoals ( http://arxiv.org/abs/2408.13881v1 ) ライセンス: Link先を確認 | Brian Angulo, Gregory Gorbov, Aleksandr Panov, Konstantin Yakovlev, | (参考訳) 強化学習(Reinforcement learning)は、自律ナビゲーションにおいて広く使われているアプローチであり、様々なタスクやロボットのセットアップの可能性を示している。
しかし、安全上の制約が課された場合(例えば、車輪付きロボットは障害物に近づくのを禁止されている)、遠くの目標に達するのに苦労することが多い。
このようなセットアップで性能が低かった主な理由の1つは、安全制約を尊重する必要性がRLエージェントの探索能力を低下させることである。
そこで本研究では,初期問題を中間目標を介し,より小さなサブプロブレムに分解し,一方,累積安全性制約の限界を尊重する新たな学習可能アルゴリズムであるSPEIS(Safe Policy Exploration Improvement via Subgoals)を導入する。
エンドツーエンドでトレーニングされた2つのポリシ – サブゴールとセーフ – で構成されている。
サブゴールポリシーは、安全な(メイン)ポリシーのバッファからの遷移に基づいて、安全な政策が遠くの目標に達するのに役立つサブゴールを生成するように訓練されている。
同時に、安全政策は、累積的安全制約の制限に違反しないようにしながら報酬を最大化し、一定のレベルの安全を提供する。
我々は、POLAMP環境からの自律走行車と車、ポイント、ドッグゴー、安全ジャム環境からの掃除という、2つの異なる環境における異なるタイプのロボットを含む、幅広い困難(シミュレーション)環境でSPEISを評価した。
提案手法は最先端の競争相手よりも一貫して優れており,高い成功率を維持しながら衝突率を大幅に低下させることができる(最良性能の手法に比べて80%も高い)。
Reinforcement learning is a widely used approach to autonomous navigation, showing potential in various tasks and robotic setups. Still, it often struggles to reach distant goals when safety constraints are imposed (e.g., the wheeled robot is prohibited from moving close to the obstacles). One of the main reasons for poor performance in such setups, which is common in practice, is that the need to respect the safety constraints degrades the exploration capabilities of an RL agent. To this end, we introduce a novel learnable algorithm that is based on decomposing the initial problem into smaller sub-problems via intermediate goals, on the one hand, and respects the limit of the cumulative safety constraints, on the other hand -- SPEIS(Safe Policy Exploration Improvement via Subgoals). It comprises the two coupled policies trained end-to-end: subgoal and safe. The subgoal policy is trained to generate the subgoal based on the transitions from the buffer of the safe (main) policy that helps the safe policy to reach distant goals. Simultaneously, the safe policy maximizes its rewards while attempting not to violate the limit of the cumulative safety constraints, thus providing a certain level of safety. We evaluate SPEIS in a wide range of challenging (simulated) environments that involve different types of robots in two different environments: autonomous vehicles from the POLAMP environment and car, point, doggo, and sweep from the safety-gym environment. We demonstrate that our method consistently outperforms state-of-the-art competitors and can significantly reduce the collision rate while maintaining high success rates (higher by 80% compared to the best-performing methods). | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# フォノンにより誘起される極性ラビ振動のダークエキソニック凝縮物存在下での変化
Phonon-induced modification of polaritonic Rabi oscillations in the presence of the dark excitonic condensate ( http://arxiv.org/abs/2408.13882v1 ) ライセンス: Link先を確認 | Adham Alkady, Victor Fleurov, Anatoly Kuklov, | (参考訳) 光学的に不活性な(暗)励起子は比較的長い寿命で特徴づけられるため、集合励起相を実現するための望ましい候補である。
しかし、光によるコヒーレンスの検出は問題となる。
本稿では,暗黒励起凝縮物の検出方法を提案する。
励起子とフォノンの間の相互作用は、明るい励起子と暗い励起子の間の相互変換に関係している。
暗い凝縮物が形成される限り、光子と明るい励起子の間のラビの振動は強く変化する。
この分析は弱い相互作用の限界において行われ、ポーラロン効果につながる強い相互作用の場合の視点について論じる。
Optically inactive (dark) excitons are characterized by relatively long life time, and therefore are desirable candidates for realizing collective excitonic phases. However, a detection of their coherence by light is problematic. Here we propose a method for detecting a dark excitonic condensate. It relies on the interaction between excitons and phonons responsible for the interconversion between bright and dark excitons. As long as the dark condensate forms, the Rabi oscillations between photons and bright excitons can become strongly modified. The analysis is conducted in the limit of weak interaction, and the perspective for the case of the strong interaction leading to the polaronic effect is discussed. | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# DAG表現学習のためのニューラル時空
Neural Spacetimes for DAG Representation Learning ( http://arxiv.org/abs/2408.13885v1 ) ライセンス: Link先を確認 | Haitz Sáez de Ocáriz Borde, Anastasis Kratsios, Marc T. Law, Xiaowen Dong, Michael Bronstein, | (参考訳) 我々は,重み付き有向非巡回グラフ(DAG)のノードを時空多様体のイベントとして普遍的に表現できる,ニューラル時空(NST)と呼ばれる訓練可能な深層学習型ジオメトリのクラスを提案する。
文献におけるほとんどの研究は、非方向グラフ表現学習や因果関係を別々に埋め込むことに重点を置いているが、我々の微分可能な幾何学は、その空間次元におけるグラフエッジ重みと時間次元におけるエッジ方向の形の因果関係の両方を符号化することができる。
我々は、擬距離(空間)と部分順序(時間)を組み合わせた積多様体を用いる。
NSTは、時空多様体内のイベントとしてノードの位置を最適化することを学習する埋め込みネットワークと、それぞれにニューラル(準)メトリックとニューラル部分順序と呼ばれる空間と時間ジオメトリを並列に最適化する2つの他のネットワークの3つのニューラルネットワークとして実装されている。
後者の2つのネットワークは、ミンコフスキー空間やデ・シッター空間のような固定時空多様体を使ってDAGを埋め込む文献とは異なり、フラクタル幾何学と深層学習の交差点における最近のアイデアを活用して、データ駆動方式で表現空間の幾何学を形作る。
我々の主要な理論的保証は普遍埋め込み定理であり、任意の$k$-point DAGを1+\mathcal{O}(\log(k))$歪みを持つNSTに埋め込むことができ、その因果構造を正確に保存できることを示す。
NSTを定義するパラメータの総数は$k$でサブキュビックであり、DAGの幅では線形である。
DAG が平面ハセ図形を持つならば、これは $\mathcal{O}(\log(k)) + 2)$空間と2つの時間次元に改善される。
我々は、合成重み付きDAGと実世界のネットワーク埋め込みを用いて、我々のフレームワークを計算的に検証し、両方の場合において、NSTは、固定時空測地を用いて、それらのフレームワークよりも低い埋め込み歪みを達成する。
We propose a class of trainable deep learning-based geometries called Neural Spacetimes (NSTs), which can universally represent nodes in weighted directed acyclic graphs (DAGs) as events in a spacetime manifold. While most works in the literature focus on undirected graph representation learning or causality embedding separately, our differentiable geometry can encode both graph edge weights in its spatial dimensions and causality in the form of edge directionality in its temporal dimensions. We use a product manifold that combines a quasi-metric (for space) and a partial order (for time). NSTs are implemented as three neural networks trained in an end-to-end manner: an embedding network, which learns to optimize the location of nodes as events in the spacetime manifold, and two other networks that optimize the space and time geometries in parallel, which we call a neural (quasi-)metric and a neural partial order, respectively. The latter two networks leverage recent ideas at the intersection of fractal geometry and deep learning to shape the geometry of the representation space in a data-driven fashion, unlike other works in the literature that use fixed spacetime manifolds such as Minkowski space or De Sitter space to embed DAGs. Our main theoretical guarantee is a universal embedding theorem, showing that any $k$-point DAG can be embedded into an NST with $1+\mathcal{O}(\log(k))$ distortion while exactly preserving its causal structure. The total number of parameters defining the NST is sub-cubic in $k$ and linear in the width of the DAG. If the DAG has a planar Hasse diagram, this is improved to $\mathcal{O}(\log(k)) + 2)$ spatial and 2 temporal dimensions. We validate our framework computationally with synthetic weighted DAGs and real-world network embeddings; in both cases, the NSTs achieve lower embedding distortions than their counterparts using fixed spacetime geometries. | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# ニューロシンボリック推論によるSQLクエリ生成の強化
Enhancing SQL Query Generation with Neurosymbolic Reasoning ( http://arxiv.org/abs/2408.13888v1 ) ライセンス: Link先を確認 | Henrijs Princis, Cristina David, Alan Mycroft, | (参考訳) ニューロシンボリックアプローチは、シンボリック推論の有効性とニューラルネットワークの柔軟性をブレンドする。
本研究では,Best-First Searchを用いたソリューションツリーの構築と探索を行うSQLクエリ生成のためのニューロシンボリックアーキテクチャを提案する。
この目的のために、ALM(Language Model)とシンボリックモジュールを統合し、LMがSQLクエリ上で行ったエラーをキャッチし、修正し、ソリューションツリーの探索を導くのに役立つ。
我々は、小型のオープンソースLMの性能向上に重点を置いており、我々のツールであるXanderは、平均10.9%の精度向上とランタイムの28%の削減を実現している。
Neurosymbolic approaches blend the effectiveness of symbolic reasoning with the flexibility of neural networks. In this work, we propose a neurosymbolic architecture for generating SQL queries that builds and explores a solution tree using Best-First Search, with the possibility of backtracking. For this purpose, it integrates a Language Model (LM) with symbolic modules that help catch and correct errors made by the LM on SQL queries, as well as guiding the exploration of the solution tree. We focus on improving the performance of smaller open-source LMs, and we find that our tool, Xander, increases accuracy by an average of 10.9% and reduces runtime by an average of 28% compared to the LM without Xander, enabling a smaller LM (with Xander) to outperform its four-times larger counterpart (without Xander). | 翻訳日:2024-08-27 15:42:00 公開日:2024-08-25 |
# 文書レベル関係抽出のための関係分類器付きLLM
LLM with Relation Classifier for Document-Level Relation Extraction ( http://arxiv.org/abs/2408.13889v1 ) ライセンス: Link先を確認 | Xingzuo Li, Kehai Chen, Yunfei Long, Min Zhang, | (参考訳) 大規模言語モデル(LLM)は、自然言語処理のための新しいパラダイムを作成する。
それらの進歩にもかかわらず、LLMベースの手法は、複雑なエンティティ関係を理解するための重要なタスクであるドキュメントレベルの関係抽出(DocRE)において、従来のアプローチに遅れを取っている。
本稿では,この性能ギャップの原因を考察し,関係のないエンティティペアによるLCMによる注意の分散を主要因とする。
次にDocREに新しい分類器-LLMアプローチを導入する。
提案手法は、潜在的な関係を示すエンティティペア候補を選択的に選択し、最終関係抽出のためにLSMに供給する分類器から始まる。
この方法は、推論の間、LLMの焦点が主に関係を持つエンティティペアに向けられていることを保証します。
DocREベンチマーク実験の結果,本手法は最近のLCMベースのDocREモデルよりも大幅に優れており,従来のDocREモデルと競合する性能を実現していることがわかった。
Large language models (LLMs) create a new paradigm for natural language processing. Despite their advancement, LLM-based methods still lag behind traditional approaches in document-level relation extraction (DocRE), a critical task for understanding complex entity relations. This paper investigates the causes of this performance gap, identifying the dispersion of attention by LLMs due to entity pairs without relations as a primary factor. We then introduce a novel classifier-LLM approach to DocRE. The proposed approach begins with a classifier specifically designed to select entity pair candidates exhibiting potential relations and thereby feeds them to LLM for the final relation extraction. This method ensures that during inference, the LLM's focus is directed primarily at entity pairs with relations. Experiments on DocRE benchmarks reveal that our method significantly outperforms recent LLM-based DocRE models and achieves competitive performance with several leading traditional DocRE models. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# Reasoning-Decisionアライメントによる大規模言語モデルの改善
Making Large Language Models Better Planners with Reasoning-Decision Alignment ( http://arxiv.org/abs/2408.13890v1 ) ライセンス: Link先を確認 | Zhijian Huang, Tao Tang, Shaoxiang Chen, Sihao Lin, Zequn Jie, Lin Ma, Guangrun Wang, Xiaodan Liang, | (参考訳) データ駆動型自動運転(AD)アプローチは、過去10年間に広く採用されてきたが、データセットバイアスと解釈不能に直面している。
人間の運転の知識駆動性にインスパイアされた最近のアプローチでは、交通シナリオにおける理解と意思決定を改善するために、大規模言語モデル(LLM)の可能性を探っている。
彼らは、下流データ上でのLLMのトレーニング前ファインチューンパラダイムが、Chain-of-Thought (CoT)推論プロセスによって説明可能性とシーン理解を高めることを発見した。
しかし、このような一般的な戦略は、工芸品のCoTと、それに伴う意思決定との不一致という悪名高い問題に悩まされていることを証明している。
この問題に対処するため,我々は,CoT推論を同時に実行し,計画結果を実行するマルチモーダリティ拡張LDMに基づくエンドツーエンド意思決定モデルを構築した。
さらに,2組のCoTと計画結果との推論・決定整合性制約を提案し,推論と意思決定の対応性を示す。
さらに、複雑なシナリオを理解し、意思決定性能を向上させるために、CoTを再設計する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
nuScenes と DriveLM-nuScenes のベンチマーク実験により,RDA-Driver の有効性が実証された。
具体的には、我々のRDA-Driverは、0.80L2エラーと0.32衝突率のnuScenesデータセット上で最先端の計画性能を達成し、さらに0.82L2エラーと0.38衝突率のDriveLM-nuScenesベンチマークの挑戦的な結果を得る。
Data-driven approaches for autonomous driving (AD) have been widely adopted in the past decade but are confronted with dataset bias and uninterpretability. Inspired by the knowledge-driven nature of human driving, recent approaches explore the potential of large language models (LLMs) to improve understanding and decision-making in traffic scenarios. They find that the pretrain-finetune paradigm of LLMs on downstream data with the Chain-of-Thought (CoT) reasoning process can enhance explainability and scene understanding. However, such a popular strategy proves to suffer from the notorious problems of misalignment between the crafted CoTs against the consequent decision-making, which remains untouched by previous LLM-based AD methods. To address this problem, we motivate an end-to-end decision-making model based on multimodality-augmented LLM, which simultaneously executes CoT reasoning and carries out planning results. Furthermore, we propose a reasoning-decision alignment constraint between the paired CoTs and planning results, imposing the correspondence between reasoning and decision-making. Moreover, we redesign the CoTs to enable the model to comprehend complex scenarios and enhance decision-making performance. We dub our proposed large language planners with reasoning-decision alignment as RDA-Driver. Experimental evaluations on the nuScenes and DriveLM-nuScenes benchmarks demonstrate the effectiveness of our RDA-Driver in enhancing the performance of end-to-end AD systems. Specifically, our RDA-Driver achieves state-of-the-art planning performance on the nuScenes dataset with 0.80 L2 error and 0.32 collision rate, and also achieves leading results on challenging DriveLM-nuScenes benchmarks with 0.82 L2 error and 0.38 collision rate. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# SpeechCaps:マルチ話者音声スタイルキャプションによる命令ベースユニバーサル音声モデルの改善
SpeechCaps: Advancing Instruction-Based Universal Speech Models with Multi-Talker Speaking Style Captioning ( http://arxiv.org/abs/2408.13891v1 ) ライセンス: Link先を確認 | Chien-yu Huang, Min-Han Shih, Ke-Han Lu, Chi-Yuan Hsiao, Hung-yi Lee, | (参考訳) 命令に基づく音声処理が普及している。
研究によると、複数のタスクによるトレーニングによってパフォーマンスが向上するが、多様な大規模タスクやデータセットの収集は高価である。
したがって、他の下流タスクに利益をもたらす基本的なタスクを設計することが非常に望ましい。
本稿では,話者と韻律情報の理解を高めるために,複数話者の発話スタイルのキャプションタスクを提案する。
大規模言語モデルを用いて、多話者音声の記述を生成する。
そして,このキャプションタスクで事前学習を行い,次に指導訓練を行った。
Dynamic-SUPERBの評価は, 話者認識や感情認識において, 単一話者タスクにのみ事前学習されたベースラインよりも優れていることを示す。
さらに、マルチストーカーQAタスクのテストでは、現在のモデルは、性別、ピッチ、発話率などの属性に苦しむことが明らかになった。
コードとデータセットはhttps://github.com/cyhuang-tw/speechcaps.comで公開されている。
Instruction-based speech processing is becoming popular. Studies show that training with multiple tasks boosts performance, but collecting diverse, large-scale tasks and datasets is expensive. Thus, it is highly desirable to design a fundamental task that benefits other downstream tasks. This paper introduces a multi-talker speaking style captioning task to enhance the understanding of speaker and prosodic information. We used large language models to generate descriptions for multi-talker speech. Then, we trained our model with pre-training on this captioning task followed by instruction tuning. Evaluation on Dynamic-SUPERB shows our model outperforming the baseline pre-trained only on single-talker tasks, particularly in speaker and emotion recognition. Additionally, tests on a multi-talker QA task reveal that current models struggle with attributes such as gender, pitch, and speaking rate. The code and dataset are available at https://github.com/cyhuang-tw/speechcaps. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# ESGの分類と総因子生産性のコーポレート:推論と予測
ESG Rating Disagreement and Corporate Total Factor Productivity:Inference and Prediction ( http://arxiv.org/abs/2408.13895v1 ) ライセンス: Link先を確認 | Zhanli Li, | (参考訳) 本稿では、2015年から2022年までの中国の国内ESG評価機関のデータとA株上場企業の財務データに基づいて、ESG評価の不一致と総因子生産性(TFP)の関係について検討する。
一方、ESG評価の不一致は企業TFPを減少させ、複数のロバストネステストによって検証された結論を示す。
このメカニズム解析は、グリーンイノベーションとESG評価の不一致の相互作用効果を明らかにする。
具体的には、ESG評価の不一致のない企業では、グリーンイノベーションはTFPの改善を促進するが、ESG評価の不一致はグリーンイノベーションを促進するかもしれないが、TFPの増加には繋がらない。
さらに、ESG格付けは、融資制約の増大による企業TFPの低下に異を唱えている。
不均一性分析は、この効果が非国家所有、資産集約、低汚染企業においてより顕著であることを示している。
一方、XGBoost回帰は、ESG評価の不一致がTFPを予測する上で重要な役割を果たすことを示した。
This paper explores the relationship between ESG rating disagreement and total factor productivity (TFP) based on data from Chinese domestic ESG rating agencies and financial data of A-share listed companies in China from 2015 to 2022. On one hand, the empirical results show that ESG rating disagreement reduces corporate TFP, a conclusion that is validated through multiple robustness tests. The mechanism analysis reveals an interaction effect between green innovation and ESG rating disagreement. Specifically, in firms without ESG rating disagreement, green innovation promotes the improvement of TFP; however, in firms with disagreement, although ESG rating disagreement may drive green innovation, this does not lead to an increase in TFP. Furthermore, ESG rating disagreement lower corporate TFP by increasing financing constraints. The heterogeneity analysis indicates that this effect is more pronounced in non-state-owned, asset-intensive, and low-pollution enterprises. On the other hand, XGBoost regression demonstrates that ESG rating disagreement play a significant role in predicting TFP, with SHAP values showing that the main effects are more evident in firms with larger ESG rating disagreement. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# RT-Attack:ランダムトークンを使ってテキストと画像のモデルをジェイルブレイク
RT-Attack: Jailbreaking Text-to-Image Models via Random Token ( http://arxiv.org/abs/2408.13896v1 ) ライセンス: Link先を確認 | Sensen Gao, Xiaojun Jia, Yihao Huang, Ranjie Duan, Jindong Gu, Yang Liu, Qing Guo, | (参考訳) 近年,テキスト・ツー・イメージ(T2I)モデルは画像生成や編集において顕著な成功を収めているが,これらのモデルには多くの潜在的な問題があり,特に不適切なコンテンツやNot-Safe-For-Work(NSFW)を生成している。
攻撃の強化とそのような脆弱性の発見は、信頼性が高く実用的なT2Iモデルの開発を促進する可能性がある。
以前の研究のほとんどは、逆のプロンプトを生成するために勾配最適化を使用して、T2Iモデルをホワイトボックスシステムとして扱う。
しかし、実際のシナリオでは、モデルの勾配にアクセスすることはしばしば不可能である。
さらに,攻撃者が正確な勾配情報を得るのを防ぐために,グラデーションマスキングを用いた既存の防御手法が設計されている。
ブラックボックスのジェイルブレイク攻撃はいくつか検討されているが、それらは通常、単にセンシティブな単語を置き換えることに依存しており、最適以下の攻撃性能に繋がる。
この問題に対処するために,ランダム検索を利用した2段階のクエリベースのブラックボックス攻撃手法を提案する。
第1段階では、敵と標的の有害なプロンプト間の意味的類似性を最大化することにより、予備的なプロンプトを確立する。
第2段階では、この初期プロンプトを用いてアプローチを洗練し、このプロンプトから生成された画像とターゲットの有害プロンプトから生成された画像との類似性を最大化し、ジェイルブレイクを目的とした詳細な敵プロンプトを作成する。
大規模な実験により、最新のプロンプトチェッカー、ポストホック画像チェッカー、セキュアに訓練されたT2Iモデル、オンライン商用モデルに対する攻撃の有効性が検証された。
Recently, Text-to-Image(T2I) models have achieved remarkable success in image generation and editing, yet these models still have many potential issues, particularly in generating inappropriate or Not-Safe-For-Work(NSFW) content. Strengthening attacks and uncovering such vulnerabilities can advance the development of reliable and practical T2I models. Most of the previous works treat T2I models as white-box systems, using gradient optimization to generate adversarial prompts. However, accessing the model's gradient is often impossible in real-world scenarios. Moreover, existing defense methods, those using gradient masking, are designed to prevent attackers from obtaining accurate gradient information. While some black-box jailbreak attacks have been explored, these typically rely on simply replacing sensitive words, leading to suboptimal attack performance. To address this issue, we introduce a two-stage query-based black-box attack method utilizing random search. In the first stage, we establish a preliminary prompt by maximizing the semantic similarity between the adversarial and target harmful prompts. In the second stage, we use this initial prompt to refine our approach, creating a detailed adversarial prompt aimed at jailbreaking and maximizing the similarity in image features between the images generated from this prompt and those produced by the target harmful prompt. Extensive experiments validate the effectiveness of our method in attacking the latest prompt checkers, post-hoc image checkers, securely trained T2I models, and online commercial models. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# 大規模視覚言語モデルにおける属性理解の評価
Evaluating Attribute Comprehension in Large Vision-Language Models ( http://arxiv.org/abs/2408.13898v1 ) ライセンス: Link先を確認 | Haiwen Zhang, Zixi Yang, Yuanzhi Liu, Xinran Wang, Zheqi He, Kongming Liang, Zhanyu Ma, | (参考訳) 現在、多くの下流タスクにおいて大きなビジョン言語モデルが有望な進歩を遂げている。
しかし、それらはオブジェクト属性の理解など、きめ細かい視覚的理解タスクにおいて多くの課題を被っている。
さらに,大規模な視覚言語モデルの評価にも取り組み続けているが,属性理解の詳細な研究や視覚言語微調整プロセスの欠如が指摘されている。
本稿では,属性認識と属性階層理解という2つの観点から,大規模視覚言語モデルの属性理解能力を評価することを提案する。
視覚的質問応答、画像-テキストマッチング、画像-テキストのコサイン類似性を含む3つの視覚-言語間相互作用を評価する。
さらに,微調整時の属性理解に影響を及ぼす要因についても検討した。
1)大規模視覚言語モデルは属性認識能力に優れるが,その階層的理解能力は比較的限られている。
2)ITCと比較して,IMMは細部を捉える能力に優れており,属性理解作業に適している。
(3) 微調整に用いるキャプションの属性情報は属性理解において重要な役割を果たす。
この研究が、大きな視覚言語モデルのきめ細かな視覚的理解の今後の進歩を導くのに役立つことを願っている。
Currently, large vision-language models have gained promising progress on many downstream tasks. However, they still suffer many challenges in fine-grained visual understanding tasks, such as object attribute comprehension. Besides, there have been growing efforts on the evaluations of large vision-language models, but lack of in-depth study of attribute comprehension and the visual language fine-tuning process. In this paper, we propose to evaluate the attribute comprehension ability of large vision-language models from two perspectives: attribute recognition and attribute hierarchy understanding. We evaluate three vision-language interactions, including visual question answering, image-text matching, and image-text cosine similarity. Furthermore, we explore the factors affecting attribute comprehension during fine-tuning. Through a series of quantitative and qualitative experiments, we introduce three main findings: (1) Large vision-language models possess good attribute recognition ability, but their hierarchical understanding ability is relatively limited. (2) Compared to ITC, ITM exhibits superior capability in capturing finer details, making it more suitable for attribute understanding tasks. (3) The attribute information in the captions used for fine-tuning plays a crucial role in attribute understanding. We hope this work can help guide future progress in fine-grained visual understanding of large vision-language models. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# TraIL-Det: 教師なし事前学習による3次元LiDAR物体検出のための変換不変局所特徴ネットワーク
TraIL-Det: Transformation-Invariant Local Feature Networks for 3D LiDAR Object Detection with Unsupervised Pre-Training ( http://arxiv.org/abs/2408.13902v1 ) ライセンス: Link先を確認 | Li Li, Tanqiu Qiao, Hubert P. H. Shum, Toby P. Breckon, | (参考訳) 3Dポイントの雲は、特に自動運転の領域における屋外シーンの知覚に不可欠である。
3次元LiDARオブジェクト検出の最近の進歩は、主に正確な検出を保証するために点の空間的位置決めと分布に焦点を当てている。
しかし、変動条件下での頑健な性能にもかかわらず、これらの手法は座標と点強度にのみ依存しているため、不適切な等尺的不変性や準最適検出結果をもたらす。
この課題に対処するため、当社では、Transform-Invariant Local(TraIL)機能と関連するTraIL-Detアーキテクチャを導入しています。
我々のTraIL特徴は、厳密な変換不変性を示し、点密度の変動に効果的に適応し、隣り合う構造の局所化幾何を捉えることに重点を置いている。
それらは、LiDARの固有の等方性放射を利用して、局所表現を強化し、計算効率を向上し、検出性能を向上させる。
提案手法内の点間の幾何学的関係を効果的に処理するために,非対称な幾何学的特徴を持つマルチヘッド自己認識エンコーダ(MAE)を提案し,高次元のTraIL特徴を管理可能な表現に符号化する。
本手法は,KITTI (67.8, 20%ラベル, 中等度) とWaymo (68.9, 20%ラベル, 中等度) のmAPを, ラベル比 (20%, 50%, 100%) で比較した。
3D point clouds are essential for perceiving outdoor scenes, especially within the realm of autonomous driving. Recent advances in 3D LiDAR Object Detection focus primarily on the spatial positioning and distribution of points to ensure accurate detection. However, despite their robust performance in variable conditions, these methods are hindered by their sole reliance on coordinates and point intensity, resulting in inadequate isometric invariance and suboptimal detection outcomes. To tackle this challenge, our work introduces Transformation-Invariant Local (TraIL) features and the associated TraIL-Det architecture. Our TraIL features exhibit rigid transformation invariance and effectively adapt to variations in point density, with a design focus on capturing the localized geometry of neighboring structures. They utilize the inherent isotropic radiation of LiDAR to enhance local representation, improve computational efficiency, and boost detection performance. To effectively process the geometric relations among points within each proposal, we propose a Multi-head self-Attention Encoder (MAE) with asymmetric geometric features to encode high-dimensional TraIL features into manageable representations. Our method outperforms contemporary self-supervised 3D object detection approaches in terms of mAP on KITTI (67.8, 20% label, moderate) and Waymo (68.9, 20% label, moderate) datasets under various label ratios (20%, 50%, and 100%). | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# ConVis:マルチモーダル大言語モデルにおける幻覚の緩和のための幻覚可視化を用いたコントラストデコーディング
ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models ( http://arxiv.org/abs/2408.13906v1 ) ライセンス: Link先を確認 | Yeji Park, Deokyeong Lee, Junsuk Choe, Buru Chang, | (参考訳) マルチモーダル大言語モデル(MLLM)では、生成した応答が、与えられたイメージを正確に反映することができないため、その信頼性に重大な課題が生じる。
そこで本研究では,新しいトレーニングフリーコントラスト復号法であるConVisを紹介する。
ConVisはテキスト・ツー・イメージ(T2I)生成モデルを利用して、幻覚したキャプションから与えられた画像を意味的に再構築する。
オリジナル画像と再構成画像のコントラスト分布を比較することで、MLLMは幻覚生成をペナルティ化する視覚コントラスト信号をキャプチャすることができる。
特に、この方法はデコードプロセス内で純粋に動作し、追加のデータやモデルの更新を必要としない。
5つの人気のあるベンチマークに関する広範な実験により、ConVisは様々なMLLMの幻覚を効果的に低減し、モデルの信頼性を高める可能性を強調した。
Hallucinations in Multimodal Large Language Models (MLLMs) where generated responses fail to accurately reflect the given image pose a significant challenge to their reliability. To address this, we introduce ConVis, a novel training-free contrastive decoding method. ConVis leverages a text-to-image (T2I) generation model to semantically reconstruct the given image from hallucinated captions. By comparing the contrasting probability distributions produced by the original and reconstructed images, ConVis enables MLLMs to capture visual contrastive signals that penalize hallucination generation. Notably, this method operates purely within the decoding process, eliminating the need for additional data or model updates. Our extensive experiments on five popular benchmarks demonstrate that ConVis effectively reduces hallucinations across various MLLMs, highlighting its potential to enhance model reliability. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# LowCLIP:マルチモーダル画像検索タスクにおける低リソース言語に対するCLIPモデルアーキテクチャの適用
LowCLIP: Adapting the CLIP Model Architecture for Low-Resource Languages in Multimodal Image Retrieval Task ( http://arxiv.org/abs/2408.13909v1 ) ライセンス: Link先を確認 | Ali Asgarov, Samir Rustamov, | (参考訳) 本研究では,低リソース言語,特にアゼルバイジャン語における画像検索のためのマルチモーダル視覚言語モデルの開発について検討する。
既存の視覚言語モデルは、主に高リソース言語をサポートし、微調整は計算的に要求される。
低リソース言語における視覚言語検索の課題に対処するため、我々はCLIPモデルアーキテクチャを統合し、計算効率と性能のバランスをとるためにいくつかの手法を採用した。
これらの技術には、機械翻訳による合成データ生成、画像拡張、ドメイン固有データを用いたトランスフォーマーベースモデルの注意機構のトレーニングが含まれる。
我々は、Multilingual BERTをテキストエンコーダとして、ResNet50、EfficientNet0、Vit、Tiny Swin Transformerといった画像エンコーダと統合した。
我々の研究によると、EfficientNet0やTiny Swin Transformerのようなモデルは、訓練されたデータセット(COCO、Flickr30k、Flickr8kなど)で最高のパフォーマンスを発揮する。
Augmentation TechniqueはFlickr30kのEfficientNet0 MAPを0.84から0.87に、MSCOCOのResNet50 MAPを0.70から0.80に引き上げた。
私たちは、さらなる研究を支援するために、構成と結果を共有します。
コードと事前訓練されたモデルはhttps://github.com/aliasgerovs/azclip.comで入手できる。
This research explores the development of multimodal vision-language models for image retrieval in low-resource languages, specifically Azerbaijani. Existing vision-language models primarily support high-resource languages, and fine-tuning them remains computationally demanding. To address challenges in vision-language retrieval for low-resource languages, we integrated the CLIP model architecture and employed several techniques to balance computational efficiency with performance. These techniques include synthetic data generation through machine translation, image augmentation, and further training the attention mechanisms of transformer-based models with domain-specific data. We integrated Multilingual BERT as a text encoder with image encoders like ResNet50, EfficientNet0, Vision Transformer (ViT), and Tiny Swin Transformer. Our study found that models like EfficientNet0 and Tiny Swin Transformer perform best on the datasets they were trained on, such as COCO, Flickr30k, and Flickr8k. Augmentation techniques boosted EfficientNet0 MAP on Flickr30k from 0.84 to 0.87 and ResNet50 MAP on MSCOCO from 0.70 to 0.80, contributing to a new state of the art in vision-language retrieval. We share our configurations and results to support further research. Code and pre-trained models are available at https://github.com/aliasgerovs/azclip. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# Splatt3R:ゼロショット・ガウス・スプレイティング
Splatt3R: Zero-shot Gaussian Splatting from Uncalibarated Image Pairs ( http://arxiv.org/abs/2408.13912v1 ) ライセンス: Link先を確認 | Brandon Smart, Chuanxia Zheng, Iro Laina, Victor Adrian Prisacariu, | (参考訳) 本稿では,ポーズレスフィードフォワード方式であるSplatt3Rについて紹介する。
Splatt3Rは補正されていない自然画像から、カメラパラメータや深度情報を必要とせずに3Dガウススプラッターを予測できる。
一般化のために,3次元幾何再構成法MASt3Rから始まり,それを完全な3次元構造と外観再構成器に拡張する。
具体的には、3次元点雲のみを再構成する元のMASt3Rとは異なり、各点に対してガウス原始を構成するのに必要なガウス属性を予測する。
したがって、他の新しいビュー合成法とは異なり、Splatt3Rは最初に3Dポイント雲の幾何学的損失を最適化し、新しいビュー合成目的を最適化することで訓練される。
これにより、ステレオビューから3次元ガウススプラッターを訓練する際の局所的なミニマを避けることができる。
また,外挿視点における強靭なパフォーマンスには,経験的に重要な損失マスキング戦略を提案する。
ScanNet++データセット上でSplatt3Rをトレーニングし、未校正画像に優れた一般化を示す。
Splatt3Rは512 x 512の解像度で4FPSでシーンを再構築でき、その結果のスプラッターをリアルタイムでレンダリングできる。
In this paper, we introduce Splatt3R, a pose-free, feed-forward method for in-the-wild 3D reconstruction and novel view synthesis from stereo pairs. Given uncalibrated natural images, Splatt3R can predict 3D Gaussian Splats without requiring any camera parameters or depth information. For generalizability, we start from a 'foundation' 3D geometry reconstruction method, MASt3R, and extend it to be a full 3D structure and appearance reconstructor. Specifically, unlike the original MASt3R which reconstructs only 3D point clouds, we predict the additional Gaussian attributes required to construct a Gaussian primitive for each point. Hence, unlike other novel view synthesis methods, Splatt3R is first trained by optimizing the 3D point cloud's geometry loss, and then a novel view synthesis objective. By doing this, we avoid the local minima present in training 3D Gaussian Splats from stereo views. We also propose a novel loss masking strategy that we empirically find is critical for strong performance on extrapolated viewpoints. We train Splatt3R on the ScanNet++ dataset and demonstrate excellent generalisation to uncalibrated, in-the-wild images. Splatt3R can reconstruct scenes at 4FPS at 512 x 512 resolution, and the resultant splats can be rendered in real-time. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# LLMs is Superior Feedback Providers: Bootstrapping Reasoning for Lie Detection with Self-Generated Feedback
LLMs are Superior Feedback Providers: Bootstrapping Reasoning for Lie Detection with Self-Generated Feedback ( http://arxiv.org/abs/2408.13915v1 ) ライセンス: Link先を確認 | Tanushree Banerjee, Richard Zhu, Runzhe Yang, Karthik Narasimhan, | (参考訳) 大型言語モデル (LLM) は人間に似た対話やテキストの理解に優れる。
しかし、言語における複雑な交換の微妙さを理解することは依然として困難である。
本研究では,自己生成フィードバックを活用し,嘘検出のためのLPM推論能力を向上させるブートストラップフレームワークを提案する。
フレームワークは提案、フィードバック収集、修正の3段階で構成されている。
提案段階では、コスト効率の良い言語モデルがゲーム状態と対話に基づいて初期予測を生成する。
フィードバック収集段階には、これらの予測に対するフィードバックを提供する言語モデルが含まれる。
修正段階では、より高度な言語モデルにより、自動生成されたフィードバックを使用して初期予測が洗練される。
本稿では,外交ゲームにおける裏切・偽装検出のためのフレームワークの適用について検討し,プロの人間プレイヤーからのフィードバックと比較する。
LLM生成したフィードバックは優れた品質を示し、モデルの性能を大幅に向上させる。
提案手法は,F1のゼロショットベースラインよりも39%向上し,トレーニングデータも必要とせず,最先端の教師付き学習結果に匹敵する結果となった。
Large Language Models (LLMs) excel at generating human-like dialogues and comprehending text. However, understanding the subtleties of complex exchanges in language remains a challenge. We propose a bootstrapping framework that leverages self-generated feedback to enhance LLM reasoning capabilities for lie detection. The framework consists of three stages: suggestion, feedback collection, and modification. In the suggestion stage, a cost-effective language model generates initial predictions based on game state and dialogue. The feedback-collection stage involves a language model providing feedback on these predictions. In the modification stage, a more advanced language model refines the initial predictions using the auto-generated feedback. We investigate the application of the proposed framework for detecting betrayal and deception in Diplomacy games, and compare it with feedback from professional human players. The LLM-generated feedback exhibits superior quality and significantly enhances the performance of the model. Our approach achieves a 39% improvement over the zero-shot baseline in lying-F1 without the need for any training data, rivaling state-of-the-art supervised learning results. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# Geo-Llama:時空間制約による人体移動軌道生成のためのLLMの活用
Geo-Llama: Leveraging LLMs for Human Mobility Trajectory Generation with Spatiotemporal Constraints ( http://arxiv.org/abs/2408.13918v1 ) ライセンス: Link先を確認 | Siyu Li, Toan Tran, Haowen Lin, John Khrumm, Cyrus Shahabi, Li Xiong, | (参考訳) 人間のモビリティデータのシミュレーションは、交通、都市計画、疫病対策など、さまざまなアプリケーション領域において不可欠である。
いくつかの既存の深層生成ソリューションは、実際の軌道から学習して合成するものを生成することを提案している。
進捗にもかかわらず、そのほとんどはトレーニングの安定性の問題に悩まされ、データサイズが大きくなるとスケーラビリティが低下します。
さらに重要なのは、それらは一般的に、特定の訪問の修正のような時空間的制約に基づいて生成された軌跡を操縦する制御機構が欠如していることだ。
このような制約に対処するため、時空間制約による制御軌道生成問題を正式に定義し、Geo-Llamaを提案する。
LLMにインスパイアされたこの新しいフレームワークは、コンテキスト的に一貫性のある方法で明示的な訪問制約を強制する。
事前に訓練されたLPMを軌道上で微調整し、各訪問が時間と場所に対応するような訪問度順順順に戦略を定めている。
これにより、モデルが訪問順序に関係なく時空間パターンをキャプチャし、生成中のプロンプトを通じてフレキシブルでコンテキスト内制約の統合を可能にする。
実世界のデータセットと合成データセットに関する大規模な実験は、Geo-Llamaの有効性を検証し、既存の手法と比較してより現実的な軌道を生成するために、幅広い制約を扱うための汎用性と堅牢性を実証した。
Simulating human mobility data is essential for various application domains, including transportation, urban planning, and epidemic control, since real data are often inaccessible to researchers due to expensive costs and privacy issues. Several existing deep generative solutions propose learning from real trajectories to generate synthetic ones. Despite the progress, most of them suffer from training stability issues and scale poorly with growing data size. More importantly, they generally lack control mechanisms to steer the generated trajectories based on spatiotemporal constraints such as fixing specific visits. To address such limitations, we formally define the controlled trajectory generation problem with spatiotemporal constraints and propose Geo-Llama. This novel LLM-inspired framework enforces explicit visit constraints in a contextually coherent way. It fine-tunes pre-trained LLMs on trajectories with a visit-wise permutation strategy where each visit corresponds to a time and location. This enables the model to capture the spatiotemporal patterns regardless of visit orders and allows flexible and in-context constraint integration through prompts during generation. Extensive experiments on real-world and synthetic datasets validate the effectiveness of Geo-Llama, demonstrating its versatility and robustness in handling a broad range of constraints to generate more realistic trajectories compared to existing methods. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# 量子マルチモーダルコントラスト学習フレームワーク
Quantum Multimodal Contrastive Learning Framework ( http://arxiv.org/abs/2408.13919v1 ) ライセンス: Link先を確認 | Chi-Sheng Chen, Aidan Hung-Wen Tsai, Sheng-Chieh Huang, | (参考訳) 本稿では,脳波と画像データを統合するために量子エンコーダを用いたマルチモーダルコントラスト学習フレームワークを提案する。
この画期的な試みは、従来のマルチモーダル学習フレームワークにおける量子エンコーダの統合を探求するものである。
量子コンピューティングのユニークな特性を活用することで,表現学習能力を向上し,時系列と視覚情報を同時に分析するための堅牢なフレームワークを提供する。
量子エンコーダは脳波信号と画像特徴の複雑なパターンを効果的にキャプチャし、モダリティ間のコントラスト学習を改善することを実証する。
この研究は、特に時間的および視覚的なデータの同時解釈を必要とするアプリケーションにおいて、量子コンピューティングとマルチモーダルデータ分析を統合するための新たな道を開く。
In this paper, we propose a novel framework for multimodal contrastive learning utilizing a quantum encoder to integrate EEG (electroencephalogram) and image data. This groundbreaking attempt explores the integration of quantum encoders within the traditional multimodal learning framework. By leveraging the unique properties of quantum computing, our method enhances the representation learning capabilities, providing a robust framework for analyzing time series and visual information concurrently. We demonstrate that the quantum encoder effectively captures intricate patterns within EEG signals and image features, facilitating improved contrastive learning across modalities. This work opens new avenues for integrating quantum computing with multimodal data analysis, particularly in applications requiring simultaneous interpretation of temporal and visual data. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# COMPOSE: 総合的なポートレートシャドウ編集
COMPOSE: Comprehensive Portrait Shadow Editing ( http://arxiv.org/abs/2408.13922v1 ) ライセンス: Link先を確認 | Andrew Hou, Zhixin Shu, Xuaner Zhang, He Zhang, Yannick Hold-Geoffroy, Jae Shin Yoon, Xiaoming Liu, | (参考訳) 既存のポートレートリライティング手法は、特に方向光源からのハードシャドウの取り扱いや、既存の照明条件と調和しながらシャドウの調整といった課題に直面している場合、顔の影を正確に制御するのに苦労する。
多くの場合、完全に変化する入力照明は、ポートレート・リタッチのアプリケーションには望ましくない。
既存のシャドウ編集手法は、通常、その応用を単に顔領域に制限し、シャドウ軟化やローテーションのような限られた照明制御オプションを提供する。
本稿では,人間の肖像画のための新しい影編集パイプラインであるComposeを紹介し,画像の本来の環境照明を保ちながら,形状,強度,位置などの影特性を正確に制御する。
環境マップ表現を周囲の光と編集可能なガウス支配光源に分解したことにより、この非絡み合いと制御性が得られる。
COMPOSEは4段階のパイプラインで、光の推定と編集、光拡散、影の合成、最終的に影の編集で構成されている。
我々は、新しいガウス環境マップ表現を用いて符号化された、支配的な光源の結果として、顔の影を定義する。
OLATデータセットを用いて、(1)この光源表現を画像から予測し、(2)この表現を用いて現実的な影を生成するモデルを訓練した。
また、パイプラインによる包括的で直感的なシャドウ編集のデモも行います。
定量的および定性的な評価を通じて,影編集におけるシステムの堅牢性を実証した。
Existing portrait relighting methods struggle with precise control over facial shadows, particularly when faced with challenges such as handling hard shadows from directional light sources or adjusting shadows while remaining in harmony with existing lighting conditions. In many situations, completely altering input lighting is undesirable for portrait retouching applications: one may want to preserve some authenticity in the captured environment. Existing shadow editing methods typically restrict their application to just the facial region and often offer limited lighting control options, such as shadow softening or rotation. In this paper, we introduce COMPOSE: a novel shadow editing pipeline for human portraits, offering precise control over shadow attributes such as shape, intensity, and position, all while preserving the original environmental illumination of the portrait. This level of disentanglement and controllability is obtained thanks to a novel decomposition of the environment map representation into ambient light and an editable gaussian dominant light source. COMPOSE is a four-stage pipeline that consists of light estimation and editing, light diffusion, shadow synthesis, and finally shadow editing. We define facial shadows as the result of a dominant light source, encoded using our novel gaussian environment map representation. Utilizing an OLAT dataset, we have trained models to: (1) predict this light source representation from images, and (2) generate realistic shadows using this representation. We also demonstrate comprehensive and intuitive shadow editing with our pipeline. Through extensive quantitative and qualitative evaluations, we have demonstrated the robust capability of our system in shadow editing. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# ゼロショット量子化による赤外領域適応
Infrared Domain Adaptation with Zero-Shot Quantization ( http://arxiv.org/abs/2408.13925v1 ) ライセンス: Link先を確認 | Burak Sevsay, Erdem Akagündüz, | (参考訳) 量子化は計算時間を短縮し、モデルサイズを縮小する最も一般的な手法の1つである。
しかし、量子化されたモデルの正確性を保証するには、通常、プライバシー上の懸念からアクセスできないトレーニングデータを使用するキャリブレーションが必要となる。
このような場合、特定のトレーニングデータを必要としない事前訓練されたモデルと統計情報に依存するゼロショット量子化技術が有用になる。
赤外領域におけるゼロショット量子化の探索は、医療やセキュリティなどの機密分野における赤外線イメージングの頻度が高いため重要である。
本研究では,熱画像で再現された物体検出モデルにゼロショット量子化を適用する方法を示す。
モデルのバッチ正規化統計を用いて、キャリブレーションのためのデータを蒸留する。
ゼロショット量子化の文脈において、RGB画像学習モデルと熱画像学習モデルを比較した。
本研究は,ゼロショット量子化性能に対する平均偏差および標準偏差統計量の寄与に焦点を当てる。
さらに,ゼロショット量子化とポストトレーニング量子化を比較した。
我々は、ゼロショット量子化がオブジェクト検出モデルの量子化のためのトレーニングデータセットを表すデータを生成することを実証した。
我々のゼロショット量子化フレームワークは、トレーニングデータの欠如に有効であり、赤外線領域に適していることを示す。
Quantization is one of the most popular techniques for reducing computation time and shrinking model size. However, ensuring the accuracy of quantized models typically involves calibration using training data, which may be inaccessible due to privacy concerns. In such cases, zero-shot quantization, a technique that relies on pretrained models and statistical information without the need for specific training data, becomes valuable. Exploring zero-shot quantization in the infrared domain is important due to the prevalence of infrared imaging in sensitive fields like medical and security applications. In this work, we demonstrate how to apply zero-shot quantization to an object detection model retrained with thermal imagery. We use batch normalization statistics of the model to distill data for calibration. RGB image-trained models and thermal image-trained models are compared in the context of zero-shot quantization. Our investigation focuses on the contributions of mean and standard deviation statistics to zero-shot quantization performance. Additionally, we compare zero-shot quantization with post-training quantization on a thermal dataset. We demonstrated that zero-shot quantization successfully generates data that represents the training dataset for the quantization of object detection models. Our results indicate that our zero-shot quantization framework is effective in the absence of training data and is well-suited for the infrared domain. | 翻訳日:2024-08-27 15:32:15 公開日:2024-08-25 |
# FedGlu: 血糖除去領域のパフォーマンス向上のための個人化学習ベースのグルコース予測アルゴリズム
FedGlu: A personalized federated learning-based glucose forecasting algorithm for improved performance in glycemic excursion regions ( http://arxiv.org/abs/2408.13926v1 ) ライセンス: Link先を確認 | Darpit Dave, Kathan Vyas, Jagadish Kumaran Jayagopal, Alfredo Garcia, Madhav Erraguntla, Mark Lawley, | (参考訳) 連続血糖モニタリング(Continuous glucose monitoring, CGM)デバイスは、糖尿病患者の血糖値のリアルタイムモニタリングと血糖値のタイムリーな測定を行い、血糖値のコントロールを改善している。
しかし、低血糖や高血糖のような稀な事象を特定することは、その頻度が低いために難しいままである。
さらに、センシティブな患者データへのアクセス制限は、堅牢な機械学習モデルの開発を妨げます。
我々の目標は、データプライバシの懸念に対処しながら、グリセミックの抽出を正確に予測することである。
そこで本研究では,グリセミック抽出領域の性能を著しく向上させる新しいHH損失関数を提案する。
HH損失関数は平均二乗誤差(MSE)よりも46%改善した。
プライバシー問題に対処するために、フェデレーション学習(FL)フレームワークでトレーニングされた機械学習モデルであるFedGluを提案する。
FLは、モデルをローカルにトレーニングし、他の患者に対してのみモデルパラメータを共有することで、センシティブなデータを共有することなく、協調的な学習を可能にする。
FedGluは、局所モデルよりも35%優れたグリセマ性運動検出率を達成している。
この改善は、125例中105例において、低血糖と高血糖の両方を予測する能力の向上につながった。
これらの結果は,グルコース予測の予測能力を高めるために提案したHH損失関数の有効性を裏付けるものである。
さらに、フェデレートされた学習フレームワーク内でモデルを実装することにより、予測能力の向上だけでなく、センシティブなデータを同時に保護することが可能になる。
Continuous glucose monitoring (CGM) devices provide real-time glucose monitoring and timely alerts for glycemic excursions, improving glycemic control among patients with diabetes. However, identifying rare events like hypoglycemia and hyperglycemia remain challenging due to their infrequency. Moreover, limited access to sensitive patient data hampers the development of robust machine learning models. Our objective is to accurately predict glycemic excursions while addressing data privacy concerns. To tackle excursion prediction, we propose a novel Hypo-Hyper (HH) loss function, which significantly improves performance in the glycemic excursion regions. The HH loss function demonstrates a 46% improvement over mean-squared error (MSE) loss across 125 patients. To address privacy concerns, we propose FedGlu, a machine learning model trained in a federated learning (FL) framework. FL allows collaborative learning without sharing sensitive data by training models locally and sharing only model parameters across other patients. FedGlu achieves a 35% superior glycemic excursion detection rate compared to local models. This improvement translates to enhanced performance in predicting both, hypoglycemia and hyperglycemia, for 105 out of 125 patients. These results underscore the effectiveness of the proposed HH loss function in augmenting the predictive capabilities of glucose predictions. Moreover, implementing models within a federated learning framework not only ensures better predictive capabilities but also safeguards sensitive data concurrently. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# GeoPlant: 空間植物種予測データセット
GeoPlant: Spatial Plant Species Prediction Dataset ( http://arxiv.org/abs/2408.13928v1 ) ライセンス: Link先を確認 | Lukas Picek, Christophe Botella, Maximilien Servajean, César Leblanc, Rémi Palard, Théo Larcher, Benjamin Deneu, Diego Marcos, Pierre Bonnet, Alexis Joly, | (参考訳) 大規模・大規模での生物多様性のモニタリングの困難さは、生態学的な知識と保全の努力を制限している。
このギャップを埋めるために、種々分布モデル(SDM)は空間的に明示的な特徴から、空間を横断して種を予測する。
しかし、彼らは過去10年間に入手できた豊かだが異質なデータを統合するという課題に直面している。
それを踏まえて、我々は10k種以上の種を含む高空間分解能(10-50m)でSDMのための新しいヨーロッパ規模のデータセットを設計、開発しました。
このデータセットは、5Mの異質なPresence-Onlyレコードと90kの徹底的なPresence-Absenceサーベイレコードからなり、いずれも伝統的にSDMで使用される多様な環境ラスタ(例えば、標高、人足跡、土壌)を伴っている。
さらに10m解像度のSentinel-2 RGBとNIR衛星画像、気候変数の20年間の時系列、ランドサット計画からの衛星時系列も提供する。
データに加えて、オープンアクセス可能なSDMベンチマーク(Kaggleにホストされている)も提供しています。これは、すでにアクティブなコミュニティと、単一の予測/モダリティとマルチモーダルアプローチのための強力なベースラインのセットを惹きつけています。
データセット、トレーニング済みモデル、ベースラインメソッド(ノートブックの形式で)など、すべてのリソースがKaggleで利用可能です。
The difficulty of monitoring biodiversity at fine scales and over large areas limits ecological knowledge and conservation efforts. To fill this gap, Species Distribution Models (SDMs) predict species across space from spatially explicit features. Yet, they face the challenge of integrating the rich but heterogeneous data made available over the past decade, notably millions of opportunistic species observations and standardized surveys, as well as multi-modal remote sensing data. In light of that, we have designed and developed a new European-scale dataset for SDMs at high spatial resolution (10-50 m), including more than 10k species (i.e., most of the European flora). The dataset comprises 5M heterogeneous Presence-Only records and 90k exhaustive Presence-Absence survey records, all accompanied by diverse environmental rasters (e.g., elevation, human footprint, and soil) that are traditionally used in SDMs. In addition, it provides Sentinel-2 RGB and NIR satellite images with 10 m resolution, a 20-year time-series of climatic variables, and satellite time-series from the Landsat program. In addition to the data, we provide an openly accessible SDM benchmark (hosted on Kaggle), which has already attracted an active community and a set of strong baselines for single predictor/modality and multimodal approaches. All resources, e.g., the dataset, pre-trained models, and baseline methods (in the form of notebooks), are available on Kaggle, allowing one to start with our dataset literally with two mouse clicks. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# MobileQuant:オンデバイス言語モデルのためのモバイルフレンドリーな量子化
MobileQuant: Mobile-friendly Quantization for On-device Language Models ( http://arxiv.org/abs/2408.13933v1 ) ライセンス: Link先を確認 | Fuwen Tan, Royson Lee, Łukasz Dudziak, Shell Xu Hu, Sourav Bhattacharya, Timothy Hospedales, Georgios Tzimiropoulos, Brais Martinez, | (参考訳) 大規模言語モデル(LLM)は言語処理に革命をもたらし、複数のアプリケーションにまたがって優れた結果をもたらしている。
しかしながら、エッジデバイスにLSMをデプロイすることは、メモリ、エネルギ、計算コストに関していくつかの課題をもたらし、携帯電話などのデバイスでの利用を制限している。
期待できる解決策は、ウェイトとアクティベーションを表すために使われるビットの数を減らすことである。
既存の研究は、LLMを低ビット幅、eg 4ビットの重みに量子化することに部分的に成功し、16ビット以上のアクティベーションを量子化することは、デバイス上の量子化サポートの貧弱さや相当な精度低下による大きな計算オーバーヘッドにつながることがしばしばある。
しかし、8ビットのアクティベーションは、モバイルフレンドリーなハードウェア、例えばNeural Processing Units(NPU)をLLMが完全に活用できるようにするため、デバイス上でのデプロイメントにとって非常に魅力的なものだ。
本研究では、整数のみの量子化を用いたLCMのデバイス上での展開を容易にするための最初の試みを行う。
まず、オンデバイス展開における既存の量子化手法の限界について検討し、特にアクティベーション量子化に着目した。
この制限に対処するため、MobileQuantという簡単な後学習量子化手法を導入し、ウェイト変換とアクティベーションレンジパラメータをエンドツーエンドに最適化することで、従来のウェイト等価変換作業を拡張した。
MobileQuantが既存のメソッドよりも優れた機能をデモ
1) LLM ベンチマークの広い範囲でニアロスレス量子化を実現する。
2) 現在のオンデバイス量子化戦略と比較して, レイテンシとエネルギー消費を20~50%削減した。
3)計算予算の制限。
4)モバイルフレンドリーな計算ユニット,例えばNPUと互換性がある。
Large language models (LLMs) have revolutionized language processing, delivering outstanding results across multiple applications. However, deploying LLMs on edge devices poses several challenges with respect to memory, energy, and compute costs, limiting their widespread use in devices such as mobile phones. A promising solution is to reduce the number of bits used to represent weights and activations. While existing works have found partial success at quantizing LLMs to lower bitwidths, e.g. 4-bit weights, quantizing activations beyond 16 bits often leads to large computational overheads due to poor on-device quantization support, or a considerable accuracy drop. Yet, 8-bit activations are very attractive for on-device deployment as they would enable LLMs to fully exploit mobile-friendly hardware, e.g. Neural Processing Units (NPUs). In this work, we make a first attempt to facilitate the on-device deployment of LLMs using integer-only quantization. We first investigate the limitations of existing quantization methods for on-device deployment, with a special focus on activation quantization. We then address these limitations by introducing a simple post-training quantization method, named MobileQuant, that extends previous weight equivalent transformation works by jointly optimizing the weight transformation and activation range parameters in an end-to-end manner. MobileQuant demonstrates superior capabilities over existing methods by 1) achieving near-lossless quantization on a wide range of LLM benchmarks, 2) reducing latency and energy consumption by 20\%-50\% compared to current on-device quantization strategies, 3) requiring limited compute budget, 4) being compatible with mobile-friendly compute units, e.g. NPU. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# プロのカウンタ・ストライクプレイヤーのように動くことを学ぶ
Learning to Move Like Professional Counter-Strike Players ( http://arxiv.org/abs/2408.13934v1 ) ライセンス: Link先を確認 | David Durst, Feng Xie, Vishnu Sarukkai, Brennan Shacklett, Iuri Frosio, Chen Tessler, Joohwan Kim, Carly Taylor, Gilbert Bernstein, Sanjiban Choudhury, Pat Hanrahan, Kayvon Fatahalian, | (参考訳) マルチプレイヤーでは、Counter-Strike: Global Offensive (CS:GO)のようなファーストパーソンシューティングゲームでは、コーディネート・ムーブメントはハイレベル戦略プレイの重要な要素である。
しかし、チームのコーディネーションの複雑さと人気のあるゲームマップに存在する様々な条件は、あらゆるシナリオに対して手作りのムーブメントポリシーを書くのに実用的ではない。
CS:GO用の人型モーションコントローラを作成するためには,データ駆動型アプローチが可能であることを示す。
123時間のプロゲームプレイトレースからなるチームムーブメントデータセットをキュレートし、このデータセットを使用して、ゲームの「リテイク」ラウンドで全てのプレイヤーに対して人間のようなチームムーブメントを生成するトランスフォーマーベースのムーブメントモデルをトレーニングする。
重要なことは、動き予測モデルは効率的である。
すべてのプレイヤーに対する推論の実行には、単一のCPUコア上でのゲームステップ(調整コスト)あたり0.5ms以下で、今日の商用ゲームでの使用に適している。
人間の評価は、私たちのモデルは、市販のボットや専門家によってスクリプト化された手続き型モーションコントローラ(TrueSkillの評価では16%から59%)よりも人間らしく振る舞うと評価します。
ゲーム内ボットとボットの自己プレイを含む実験を用いて、我々のモデルは単純なチームワークを行い、共通の運動ミスを減らし、プロのCS:GOの試合で見られるような場所の移動分布、プレイヤー寿命、殺傷を行うことを示した。
In multiplayer, first-person shooter games like Counter-Strike: Global Offensive (CS:GO), coordinated movement is a critical component of high-level strategic play. However, the complexity of team coordination and the variety of conditions present in popular game maps make it impractical to author hand-crafted movement policies for every scenario. We show that it is possible to take a data-driven approach to creating human-like movement controllers for CS:GO. We curate a team movement dataset comprising 123 hours of professional game play traces, and use this dataset to train a transformer-based movement model that generates human-like team movement for all players in a "Retakes" round of the game. Importantly, the movement prediction model is efficient. Performing inference for all players takes less than 0.5 ms per game step (amortized cost) on a single CPU core, making it plausible for use in commercial games today. Human evaluators assess that our model behaves more like humans than both commercially-available bots and procedural movement controllers scripted by experts (16% to 59% higher by TrueSkill rating of "human-like"). Using experiments involving in-game bot vs. bot self-play, we demonstrate that our model performs simple forms of teamwork, makes fewer common movement mistakes, and yields movement distributions, player lifetimes, and kill locations similar to those observed in professional CS:GO match play. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# OpenNav: スマート車椅子ナビゲーションのための効率的なオープン語彙3Dオブジェクト検出
OpenNav: Efficient Open Vocabulary 3D Object Detection for Smart Wheelchair Navigation ( http://arxiv.org/abs/2408.13936v1 ) ライセンス: Link先を確認 | Muhammad Rameez ur Rahman, Piero Simonetto, Anna Polato, Francesco Pasti, Luca Tonin, Sebastiano Vascon, | (参考訳) オープンボキャブラリー3Dオブジェクト検出(OV3D)は、補助ロボット工学で遭遇する多様な環境に適応するために、正確で拡張可能な物体認識を可能にする。
本稿では、スマート車椅子用RGB-D画像に基づくゼロショット3Dオブジェクト検出パイプラインOpenNavを提案する。
我々のパイプラインは、オープン語彙の2Dオブジェクト検出器と、セマンティックセグメンテーションのためのマスクジェネレータを統合し、続いて深度分離と点雲の構築を行い、3Dバウンディングボックスを作成する。
スマート車椅子は、これらの3Dバウンディングボックスを利用して、潜在的なターゲットを特定し、安全にナビゲートする。
我々は、Replicaデータセットの実験を通してOpenNavのパフォーマンスを実証し、実際の車椅子で予備結果を報告する。
OpenNavは、mAP25(+9pts)とmAP50(+5pts)におけるReplicaデータセットの最先端性を大幅に改善し、mAPにおける限界改善を実現している。
コードは、このリンクで公開されている。 https://github.com/EasyWalk-PRIN/OpenNav。
Open vocabulary 3D object detection (OV3D) allows precise and extensible object recognition crucial for adapting to diverse environments encountered in assistive robotics. This paper presents OpenNav, a zero-shot 3D object detection pipeline based on RGB-D images for smart wheelchairs. Our pipeline integrates an open-vocabulary 2D object detector with a mask generator for semantic segmentation, followed by depth isolation and point cloud construction to create 3D bounding boxes. The smart wheelchair exploits these 3D bounding boxes to identify potential targets and navigate safely. We demonstrate OpenNav's performance through experiments on the Replica dataset and we report preliminary results with a real wheelchair. OpenNav improves state-of-the-art significantly on the Replica dataset at mAP25 (+9pts) and mAP50 (+5pts) with marginal improvement at mAP. The code is publicly available at this link: https://github.com/EasyWalk-PRIN/OpenNav. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# CoTリライラ:誤り検出と補正による複雑な推論タスクにおける大規模言語モデルの信頼性向上
CoT Rerailer: Enhancing the Reliability of Large Language Models in Complex Reasoning Tasks through Error Detection and Correction ( http://arxiv.org/abs/2408.13940v1 ) ライセンス: Link先を確認 | Guangya Wan, Yuqi Wu, Jie Chen, Sheng Li, | (参考訳) CoT(Chain-of-Thought)により、中間ステップを生成することで、LLM(Large Language Models)の複雑な推論能力が向上する。
しかし、これらのステップは幻覚を導入し、エラーを蓄積することができる。
我々は,これらの課題に対処するためにCoTリライラを提案し,自己整合性とマルチエージェントの議論システムを用いて推論過程における誤りを特定し,修正する。
CoT Rerailerは、整合性チェックと自動エージェントによる臨界評価を用いて、最も論理的に正しいReasoning Path(RP)を選択する。
その後、エラーのない中間論理経路の生成を保証するために、修正の提案と検証を行うためのマルチエージェントの議論システムに携わる。
修正されたステップは、さらに幻覚を減らし、回答の品質を高めるために修正された推論連鎖を生成するために使用される。
様々な知識領域における多様な質問応答データセットにまたがるアプローチの有効性を実証する。
CoT RerailerはLLM生成推論の信頼性を高め、より信頼性の高いAI駆動意思決定プロセスに寄与する。
Chain-of-Thought (CoT) prompting enhances Large Language Models (LLMs) complex reasoning abilities by generating intermediate steps. However, these steps can introduce hallucinations and accumulate errors. We propose the CoT Rerailer to address these challenges, employing self-consistency and multi-agent debate systems to identify and rectify errors in the reasoning process. The CoT Rerailer first selects the most logically correct Reasoning Path (RP) using consistency checks and critical evaluation by automated agents. It then engages a multi-agent debate system to propose and validate corrections to ensure the generation of an error-free intermediate logical path. The corrected steps are then used to generate a revised reasoning chain to further reduce hallucinations and enhance answer quality. We demonstrate the effectiveness of our approach across diverse question-answering datasets in various knowledge domains. The CoT Rerailer enhances the reliability of LLM-generated reasoning, contributing to more trustworthy AI driven decision-making processes. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# 工学的問題に対する量子科学計算アルゴリズムの概観
A Review of Quantum Scientific Computing Algorithms for Engineering Problems ( http://arxiv.org/abs/2408.13943v1 ) ライセンス: Link先を確認 | Osama Muhammad Raisuddin, Suvranu De, | (参考訳) 重ね合わせや絡み合いのような量子現象を活用する量子コンピューティングは、計算技術においてトランスフォーメーションの力として登場し、工学的応用に不可欠な計算速度と効率を約束している。
この進歩は機会と課題の両方を示し、技術者は量子原理、応用、複雑さに精通する必要がある。
本稿では, 量子力学の基礎的概念と, その計算発展への含意を体系的に検討し, 問題解決における量子アルゴリズムの優位性を強調した。
拡張性やコヒーレンスの問題に直面しながら、ゲートベースの量子コンピューティングが古典的手法を上回る可能性を秘めている分野を特定する。
量子物理学やハードウェア仕様に最小限依存した明確な例を提供することによって、量子コンピューティングをエンジニアに利用しやすくし、急勾配の学習曲線に対処し、量子ハードウェアがより堅牢で信頼性の高いものになるにつれて、複雑な問題解決と技術進歩への実践的採用を促進することを目的としている。
Quantum computing, leveraging quantum phenomena like superposition and entanglement, is emerging as a transformative force in computing technology, promising unparalleled computational speed and efficiency crucial for engineering applications. This advancement presents both opportunities and challenges, requiring engineers to familiarize themselves with quantum principles, applications, and complexities. This paper systematically explores the foundational concepts of quantum mechanics and their implications for computational advancements, emphasizing the superiority of quantum algorithms in solving engineering problems. It identifies areas where gate-based quantum computing has the potential to outperform classical methods despite facing scalability and coherence issues. By offering clear examples with minimal reliance on in-depth quantum physics or hardware specifics, the aim is to make quantum computing accessible to engineers, addressing the steep learning curve and fostering its practical adoption for complex problem-solving and technological advancement as quantum hardware becomes more robust and reliable. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# 心電図を用いた高能率心電図を用いた心電図を用いた心電図のパーソナライズ
Personalized Topology-Informed 12-Lead ECG Electrode Localization from Incomplete Cardiac MRIs for Efficient Cardiac Digital Twins ( http://arxiv.org/abs/2408.13945v1 ) ライセンス: Link先を確認 | Lei Li, Hannah Smith, Yilin Lyu, Julia Camps, Blanca Rodriguez, Abhirup Banerjee, Vicente Grau, | (参考訳) 心臓デジタル双生児(CDTs)は、心臓機構に結びついたマルチスケール特性の推測のために、パーソナライズされた \textit{in-silico} 心筋表現を提供する。
CDTの作成には、特にパーソナライズされた心電図(ECG)の校正のために、胴体上の電極位置に関する正確な情報が必要である。
しかし、近年の研究は、電離電極の局所化のためのトーソイメージングと手動/半自動法の追加に頼っているのが一般的である。
本研究では,2次元臨床標準心MRIから心電図電極位置を自動抽出する新規で効率的なトポロジインフォームドモデルを提案する。
具体的には、心筋MRIからスパース輪郭を取得し、その後、輪郭から電極を局在させる。
心臓MRIは、胴体の代わりに心臓を画像化することを目的としており、画像内に不完全な胴体形状をもたらす。
欠落したトポロジーに対処するために、電極をキーポイントのサブセットとして組み込む。
実験結果から,提案手法の精度(ユークリッド距離:1.24 pm 0.293$ cm vs. $1.48 pm 0.362$ cm)と効率($2$~s vs. 30$-35$~min)において,従来の手法よりも優れていることが示された。
さらに,検出した電極を用いた<textit{in-silico} ECGシミュレーションの有効性を実証し,CDTモデルの正確かつ効率的な生成の可能性を強調した。
コードは、原稿が出版に受け入れられた後、公開されます。
Cardiac digital twins (CDTs) offer personalized \textit{in-silico} cardiac representations for the inference of multi-scale properties tied to cardiac mechanisms. The creation of CDTs requires precise information about the electrode position on the torso, especially for the personalized electrocardiogram (ECG) calibration. However, current studies commonly rely on additional acquisition of torso imaging and manual/semi-automatic methods for ECG electrode localization. In this study, we propose a novel and efficient topology-informed model to fully automatically extract personalized ECG electrode locations from 2D clinically standard cardiac MRIs. Specifically, we obtain the sparse torso contours from the cardiac MRIs and then localize the electrodes from the contours. Cardiac MRIs aim at imaging of the heart instead of the torso, leading to incomplete torso geometry within the imaging. To tackle the missing topology, we incorporate the electrodes as a subset of the keypoints, which can be explicitly aligned with the 3D torso topology. The experimental results demonstrate that the proposed model outperforms the time-consuming conventional method in terms of accuracy (Euclidean distance: $1.24 \pm 0.293$ cm vs. $1.48 \pm 0.362$ cm) and efficiency ($2$~s vs. $30$-$35$~min). We further demonstrate the effectiveness of using the detected electrodes for \textit{in-silico} ECG simulation, highlighting their potential for creating accurate and efficient CDT models. The code will be released publicly after the manuscript is accepted for publication. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# 自律走行システムのテストのための実世界と合成画像のギャップを埋める
Bridging the Gap between Real-world and Synthetic Images for Testing Autonomous Driving Systems ( http://arxiv.org/abs/2408.13950v1 ) ライセンス: Link先を確認 | Mohammad Hossein Amini, Shiva Nejati, | (参考訳) 自律運転システム(ADS)のためのディープニューラルネットワーク(DNN)は通常、現実世界の画像に基づいて訓練され、合成シミュレータ画像を用いてテストされる。
このアプローチでは、異なる分布を持つデータセットのトレーニングとテストが行われ、誤ってテスト精度が低下する可能性がある。
この問題に対処するため、文献では、データセットをトレーニングデータセットに近づけるために、ドメインからドメインへのトランスレータを適用することを推奨している。
しかし、テストに使用される画像の翻訳は、テストプロセスの信頼性、有効性、効率に予測不可能な影響を及ぼす可能性がある。
ADS-DNN テストで使用される画像の有効性と ADS-DNN の欠陥を明らかにする能力は,トランスレータによって低下するのだろうか?
トランスレータは、シミュレーションベースのテスト中に過剰な時間オーバーヘッドをもたらすことができるか?
これらの問題に対処するために、文献からのCycleGANとニューラルスタイルのトランスレータと、提案したトランスレータであるSAEVAEの3つのドメイン間トランスレータを検討する。
2つの重要なADSタスク(車線保持と物体検出)の結果から,SAEVAEが他の2つのトランスレータを上回り,トレーニングデータとテストデータ間の分布の相違によるADSテスト精度のギャップが著しく狭まることが示唆された。
ディープラーニングシステムをテストするための最近の多様性、カバレッジ、欠陥検出能力のメトリクスに基づいて、トランスレータは、多様性とテストデータのカバレッジを損なうことなく、ADS-DNNの欠陥が少ないことも示している。
さらに、検討された翻訳者のうち、SAEVAEはシミュレーション時間において無視できないオーバーヘッドを発生させ、シミュレーションベースのテストに効率的に統合することができる。
最後に、トランスレータは、オフラインとシミュレーションベースのテスト結果の相関を増大させ、シミュレーションベースのテストのコスト削減に役立つことを示す。
Deep Neural Networks (DNNs) for Autonomous Driving Systems (ADS) are typically trained on real-world images and tested using synthetic simulator images. This approach results in training and test datasets with dissimilar distributions, which can potentially lead to erroneously decreased test accuracy. To address this issue, the literature suggests applying domain-to-domain translators to test datasets to bring them closer to the training datasets. However, translating images used for testing may unpredictably affect the reliability, effectiveness and efficiency of the testing process. Hence, this paper investigates the following questions in the context of ADS: Could translators reduce the effectiveness of images used for ADS-DNN testing and their ability to reveal faults in ADS-DNNs? Can translators result in excessive time overhead during simulation-based testing? To address these questions, we consider three domain-to-domain translators: CycleGAN and neural style transfer, from the literature, and SAEVAE, our proposed translator. Our results for two critical ADS tasks -- lane keeping and object detection -- indicate that translators significantly narrow the gap in ADS test accuracy caused by distribution dissimilarities between training and test data, with SAEVAE outperforming the other two translators. We show that, based on the recent diversity, coverage, and fault-revealing ability metrics for testing deep-learning systems, translators do not compromise the diversity and the coverage of test data, nor do they lead to revealing fewer faults in ADS-DNNs. Further, among the translators considered, SAEVAE incurs a negligible overhead in simulation time and can be efficiently integrated into simulation-based testing. Finally, we show that translators increase the correlation between offline and simulation-based testing results, which can help reduce the cost of simulation-based testing. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# InterTrack: オブジェクトテンプレートなしでのヒューマンオブジェクトのインタラクションを追跡する
InterTrack: Tracking Human Object Interaction without Object Templates ( http://arxiv.org/abs/2408.13953v1 ) ライセンス: Link先を確認 | Xianghui Xie, Jan Eric Lenssen, Gerard Pons-Moll, | (参考訳) ビデオから人間のオブジェクトのインタラクションを追跡することは、急速に成長するビデオデータの流れから人間の振る舞いを理解するために重要である。
以前のビデオベースのメソッドでは事前に定義されたオブジェクトテンプレートが必要であったが、単一イメージベースのメソッドはテンプレートなしだが時間的一貫性がない。
本稿では,物体形状のテンプレートを使わずに,人間の物体の相互作用を追跡する手法を提案する。
4次元トラッキング問題をフレーム単位のポーズトラッキングと標準形状最適化に分解する。
まず,時間的に一貫性のないフレーム単位のインタラクション再構築を実現するために,一視点再構成手法を適用した。
そして,人間に対しては,フレーム単位の再構成から直接SMPL頂点を予測し,時間的に一貫した対応を導入するための効率的なオートエンコーダを提案する。
対象物に対しては,時間情報を利用したポーズ推定器を導入し,閉塞下での滑らかな物体回転を予測する。
そこで,本研究では,合成対話ビデオを生成し,8.5kシーケンスの合計10時間ビデオをフル3Dで合成する手法を提案する。
BEHAVE と InterCap を用いた実験により,従来のテンプレートベースビデオ追跡法と単一フレーム再構成法よりも優れた性能を示した。
提案する合成ビデオデータセットでは,実世界のビデオに一般化するビデオベース手法の訓練も可能である。
コードとデータセットは公開されます。
Tracking human object interaction from videos is important to understand human behavior from the rapidly growing stream of video data. Previous video-based methods require predefined object templates while single-image-based methods are template-free but lack temporal consistency. In this paper, we present a method to track human object interaction without any object shape templates. We decompose the 4D tracking problem into per-frame pose tracking and canonical shape optimization. We first apply a single-view reconstruction method to obtain temporally-inconsistent per-frame interaction reconstructions. Then, for the human, we propose an efficient autoencoder to predict SMPL vertices directly from the per-frame reconstructions, introducing temporally consistent correspondence. For the object, we introduce a pose estimator that leverages temporal information to predict smooth object rotations under occlusions. To train our model, we propose a method to generate synthetic interaction videos and synthesize in total 10 hour videos of 8.5k sequences with full 3D ground truth. Experiments on BEHAVE and InterCap show that our method significantly outperforms previous template-based video tracking and single-frame reconstruction methods. Our proposed synthetic video dataset also allows training video-based methods that generalize to real-world videos. Our code and dataset will be publicly released. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# 機械学習, 臨床概要ノート, バイタルサインを用いた COPD の予測
Prediction of COPD Using Machine Learning, Clinical Summary Notes, and Vital Signs ( http://arxiv.org/abs/2408.13958v1 ) ライセンス: Link先を確認 | Negar Orangi-Fard, | (参考訳) 慢性閉塞性肺疾患(慢性閉塞性肺疾患、COPD)は、慢性の炎症性肺疾患である。
米国では1570万人以上のアメリカ人がPDと診断され、96%の人が他の1つの慢性疾患で生活している。
国内第4位の死因である。
COPDの悪化により、毎年2200万人以上の患者が病院に入院している。
患者の増悪をリアルタイムで監視し、予測することは、彼らの命を救える。
本稿では,AI と自然言語処理 (NLP) を用いて COPD の悪化を予測する2つの予測モデルを提案する。
これらのモデルは呼吸サマリーノート、症状、およびバイタルサインを使用する。
これらのモデルの訓練と試験には、生理的信号とバイタルサイン時系列を含むデータ記録が使用された。
これらの記録は、ICU(Intensive Care Unit)患者数万人を対象に、患者モニターおよび病院医療情報システムから得られた総合的な臨床データから得られた。
我々は, COPD増悪の検出と予測において, 受信器動作特性(ROC)曲線0.82の領域を達成した。
Chronic obstructive pulmonary disease (COPD) is a chronic inflammatory lung disease that causes obstructed airflow from the lungs. In the United States, more than 15.7 million Americans have been diagnosed with COPD, with 96% of individuals living with at least one other chronic health condition. It is the 4th leading cause of death in the country. Over 2.2 million patients are admitted to hospitals annually due to COPD exacerbations. Monitoring and predicting patient exacerbations on-time could save their life. This paper presents two different predictive models to predict COPD exacerbation using AI and natural language processing (NLP) approaches. These models use respiration summary notes, symptoms, and vital signs. To train and test these models, data records containing physiologic signals and vital signs time series were used. These records were captured from patient monitors and comprehensive clinical data obtained from hospital medical information systems for tens of thousands of Intensive Care Unit (ICU) patients. We achieved an area under the Receiver operating characteristic (ROC) curve of 0.82 in detection and prediction of COPD exacerbation. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# 自己回帰Seq2Seqモデルにおける双方向認識誘導
Bidirectional Awareness Induction in Autoregressive Seq2Seq Models ( http://arxiv.org/abs/2408.13959v1 ) ライセンス: Link先を確認 | Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi, | (参考訳) 自己回帰シーケンス(Autoregressive Sequence-To-Sequence)モデルは、視覚や自然言語処理といった主要な研究分野における多くのディープラーニングの成果の基礎となっている。
それにもかかわらず、それらは依然として大きな制限を呈している。
例えば、予測の初期段階でエラーが発生した場合、アウトプット全体が深刻な影響を受ける。
以前に予測されたトークンやシーケンシャルアルゴリズムの計算上の非友好性に依存していたため、研究者は双方向アプローチの探索において異なるアーキテクチャや手法を探索する動機となった。
本研究では,ネットワーク内の要素のサブセットであるPivotsを利用して,自己回帰的制約を破ることなく双方向学習を行う訓練手法である双方向認識誘導(BAI)を導入する。
その柔軟性を示すために、Transformer, ExpansionNet v2, GPTの3つのアーキテクチャに適用し、3つのタスクで実験を行う。
実験結果は,BAIが選択したすべてのタスクとアーキテクチャに対して有効であることを示す。
特に,画像キャプションでは2.4CIDEr,ニューラル機械翻訳では4.96BLEU,テキスト要約では1.16ROUGEの増加が観察された。
特に、BAIは、スクラッチからトレーニングされたモデルだけでなく、事前訓練されたモデルにも肯定的な影響を与える。
このような側面とアーキテクチャ要件の欠如が組み合わさって、LLMの現在のトレンドと相乗効果を生んでいる。
Autoregressive Sequence-To-Sequence models are the foundation of many Deep Learning achievements in major research fields such as Vision and Natural Language Processing. Despite that, they still present significant limitations. For instance, when errors occur in the early steps of the prediction, the whole output is severely affected. Such reliance on previously predicted tokens and the inherent computational unfriendliness of sequential algorithms, motivated researchers to explore different architectures and methods in the search for bidirectional approaches. In this work, we introduce the Bidirectional Awareness Induction (BAI), a training method that leverages a subset of elements in the network, the Pivots, to perform bidirectional learning without breaking the autoregressive constraints. To showcase its flexibility, we apply the method to three architectures, the Transformer, ExpansionNet v2 and GPT, then perform experiments over three tasks. Experimental results showcase BAI's effectiveness on all selected tasks and architectures. In particular, we observed an increase of up to 2.4 CIDEr in Image-Captioning, 4.96 BLEU in Neural Machine Translation, and 1.16 ROUGE in Text Summarization compared to the respective baselines. Notably, BAI not only has a positive impact on models trained from scratch but on pre-trained models as well. Such an aspect, combined with the absence of architectural requirements synergizes well with the current trend of LLMs. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# 教育のための時系列分析:方法,応用,今後の方向性
Time Series Analysis for Education: Methods, Applications, and Future Directions ( http://arxiv.org/abs/2408.13960v1 ) ライセンス: Link先を確認 | Shengzhong Mao, Chaoli Zhang, Yichi Song, Jindong Wang, Xiao-Jun Zeng, Zenglin Xu, Qingsong Wen, | (参考訳) 近年のシーケンシャルな教育データの収集・分析の進歩は、時系列分析を教育研究において重要な位置に押し上げ、データ駆動型意思決定の促進に欠かせない役割を浮き彫りにした。
しかし、これらの進歩をまとめる包括的な要約が欠如している。
本論文は,我々の知る限り,特に教育現場における時系列解析技術に関する総合的なレビューを初めて行ったものである。
まず、教育データ分析の展望を探求し、教育に関連するさまざまなデータソースとタイプを分類する。
次に, 予測, 分類, クラスタリング, 異常検出の4つの著名な時系列手法を, 教育環境における特定の応用点を推定する。
続いて、これらの手法が様々な教育課題にどのように適用されているかに注目し、複雑な教育課題を解決するために、複数の時系列手法の実践的な統合に焦点を当てた教育シナリオと応用について述べる。
最後に、パーソナライズされた学習分析、マルチモーダルデータ融合、教育時系列における大規模言語モデル(LLM)の役割など、今後の方向性について議論する。
本研究の貢献は,教育データの詳細な分類,特定の教育応用を用いた時系列手法の合成,教育分析における新たなトレンドと今後の研究機会の展望である。
関連する論文やリソースはプロジェクトページで定期的に更新されている。
Recent advancements in the collection and analysis of sequential educational data have brought time series analysis to a pivotal position in educational research, highlighting its essential role in facilitating data-driven decision-making. However, there is a lack of comprehensive summaries that consolidate these advancements. To the best of our knowledge, this paper is the first to provide a comprehensive review of time series analysis techniques specifically within the educational context. We begin by exploring the landscape of educational data analytics, categorizing various data sources and types relevant to education. We then review four prominent time series methods-forecasting, classification, clustering, and anomaly detection-illustrating their specific application points in educational settings. Subsequently, we present a range of educational scenarios and applications, focusing on how these methods are employed to address diverse educational tasks, which highlights the practical integration of multiple time series methods to solve complex educational problems. Finally, we conclude with a discussion on future directions, including personalized learning analytics, multimodal data fusion, and the role of large language models (LLMs) in educational time series. The contributions of this paper include a detailed taxonomy of educational data, a synthesis of time series techniques with specific educational applications, and a forward-looking perspective on emerging trends and future research opportunities in educational analysis. The related papers and resources are available and regularly updated at the project page. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# 乗用車Dealership Networksの最適化: サイト選択のためのグラフニューラルネットワークアプローチ
Optimizing Luxury Vehicle Dealership Networks: A Graph Neural Network Approach to Site Selection ( http://arxiv.org/abs/2408.13961v1 ) ライセンス: Link先を確認 | Luca Silvano Carocci, Qiwei Han, | (参考訳) 本研究では,米国における高級車メーカーのディーラーネットワークプランニングを最適化するためのグラフニューラルネットワーク(GNN)の新たな適用法を提案する。
34の変数の組み合わせと10の最先端のGNN演算子によるアブレーション研究は、様々な変数の予測力に関する重要な洞察を示し、特に、ディーラーの位置決定に影響を与える競合、人口統計学的要因、移動パターンの意義を浮き彫りにしている。
この分析は、7つの特定の郡をネットワーク拡大の有望な目標としている。
本研究は, 複雑な地理空間決定問題の解決におけるGNNの有効性を実証するだけでなく, 産業従事者に対して, 実用的なレコメンデーションと方法論的洞察を提供する。
This study presents a novel application of Graph Neural Networks (GNNs) to optimize dealership network planning for a luxury car manufacturer in the U.S. By conducting a comprehensive literature review on dealership location determinants, the study identifies 65 county-level explanatory variables, augmented by two additional measures of regional interconnectedness derived from social and mobility data. An ablation study involving 34 variable combinations and ten state-of-the-art GNN operators reveals key insights into the predictive power of various variables, particularly highlighting the significance of competition, demographic factors, and mobility patterns in influencing dealership location decisions. The analysis pinpoints seven specific counties as promising targets for network expansion. This research not only illustrates the effectiveness of GNNs in solving complex geospatial decision-making problems but also provides actionable recommendations and valuable methodological insights for industry practitioners. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# シフトしたウィンドウフーリエ変換と画像キャプションの保持
Shifted Window Fourier Transform And Retention For Image Captioning ( http://arxiv.org/abs/2408.13963v1 ) ライセンス: Link先を確認 | Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi, | (参考訳) Image Captioningは、医療から自動運転車まで、さまざまな状況において応用を見出す重要な言語とビジョンタスクである。
多くの現実世界のアプリケーションは限られたリソースを持つデバイスに依存しているため、この分野ではより軽量で高速なモデルの開発に多くの努力が注がれた。
しかしながら、現在の最適化の多くは、より効率的な方法の存在とは対照的に、Transformerアーキテクチャに焦点を当てている。
本研究では,Fourier TransformとRetentionをほぼ完全にベースとしたアーキテクチャであるSwiFTeRを導入し,現在の光画像キャプションモデルの主な効率ボトルネックに対処する。
SwiFTeRは20Mパラメータのみで構成され、単一の前方通過に3.1 GFLOPを必要とする。
さらに、キャプション長に優れたスケーラビリティを示し、その小さなメモリ要件により、従来のトランスフォーマーベースのアーキテクチャと比較して、より多くの画像を並列に処理することができる。
例えば、1秒で400のキャプションを生成することができる。
今のところ、キャプションの品質は低い(110.2 CIDEr-D)が、その減少の大部分はアーキテクチャによるものではなく、現在改善の余地がたくさんある不完全な訓練の実践によるものである。
全体として、SwiFTeRは、新しい効率的なアーキテクチャ設計への有望な方向に向かっている。
実装コードは将来的にリリースされる予定だ。
Image Captioning is an important Language and Vision task that finds application in a variety of contexts, ranging from healthcare to autonomous vehicles. As many real-world applications rely on devices with limited resources, much effort in the field was put into the development of lighter and faster models. However, much of the current optimizations focus on the Transformer architecture in contrast to the existence of more efficient methods. In this work, we introduce SwiFTeR, an architecture almost entirely based on Fourier Transform and Retention, to tackle the main efficiency bottlenecks of current light image captioning models, being the visual backbone's onerosity, and the decoder's quadratic cost. SwiFTeR is made of only 20M parameters, and requires 3.1 GFLOPs for a single forward pass. Additionally, it showcases superior scalability to the caption length and its small memory requirements enable more images to be processed in parallel, compared to the traditional transformer-based architectures. For instance, it can generate 400 captions in one second. Although, for the time being, the caption quality is lower (110.2 CIDEr-D), most of the decrease is not attributed to the architecture but rather an incomplete training practice which currently leaves much room for improvements. Overall, SwiFTeR points toward a promising direction to new efficient architectural design. The implementation code will be released in the future. | 翻訳日:2024-08-27 15:22:15 公開日:2024-08-25 |
# 知識グラフ埋め込みのための等角化解集合予測
Conformalized Answer Set Prediction for Knowledge Graph Embedding ( http://arxiv.org/abs/2408.08248v2 ) ライセンス: Link先を確認 | Yuqicheng Zhu, Nico Potyka, Jiarong Pan, Bo Xiong, Yunjie He, Evgeny Kharlamov, Steffen Staab, | (参考訳) 知識グラフ埋め込み(KGE)は、知識グラフ(KG)に機械学習手法を適用し、類似性や類似性に基づく非古典的推論機能を提供する。
学習されたKG埋め込みは、典型的には全ての潜在的な答えをランク付けすることでクエリーに答えるのに使用されるが、ランク付けはしばしば有意義な確率論的解釈を欠いている。
この制限は、医学のような高用量領域にKGE法を適用する上での課題を提起し、証明不可能な答えと区別することを困難にしている。
本稿では,確率的保証を含む正解集合を生成可能な共形予測理論を適用することで,この問題に対処する。
本稿では,リンク予測タスクに対して,共形予測を用いてそのような解集合を生成する方法について説明する。
6つの代表的KGE法による4つのベンチマークデータセットに対する実験的な評価により,生成した回答集合が共形予測理論によって与えられる確率的保証を満たすことが検証された。
また、生成した回答セットは、しばしば意味のあるサイズであり、クエリの難易度に関して、そのサイズが順応することを示した。
Knowledge graph embeddings (KGE) apply machine learning methods on knowledge graphs (KGs) to provide non-classical reasoning capabilities based on similarities and analogies. The learned KG embeddings are typically used to answer queries by ranking all potential answers, but rankings often lack a meaningful probabilistic interpretation - lower-ranked answers do not necessarily have a lower probability of being true. This limitation makes it difficult to distinguish plausible from implausible answers, posing challenges for the application of KGE methods in high-stakes domains like medicine. We address this issue by applying the theory of conformal prediction that allows generating answer sets, which contain the correct answer with probabilistic guarantees. We explain how conformal prediction can be used to generate such answer sets for link prediction tasks. Our empirical evaluation on four benchmark datasets using six representative KGE methods validates that the generated answer sets satisfy the probabilistic guarantees given by the theory of conformal prediction. We also demonstrate that the generated answer sets often have a sensible size and that the size adapts well with respect to the difficulty of the query. | 翻訳日:2024-08-27 12:52:18 公開日:2024-08-25 |
# 効率的な任意スケール画像超解像のためのタスク対応動的変換器
Task-Aware Dynamic Transformer for Efficient Arbitrary-Scale Image Super-Resolution ( http://arxiv.org/abs/2408.08736v2 ) ライセンス: Link先を確認 | Tianyi Xu, Yiji Zhou, Xiaotao Hu, Kai Zhang, Anran Zhang, Xingye Qiu, Jun Xu, | (参考訳) Arbitrary-scale Super- resolution (ASSR) は、任意の拡大スケールで画像超解像の1つのモデルを学ぶことを目的としている。
既存のASSRネットワークは、通常、既製のスケール非依存の特徴抽出器と任意のスケールアップサンプラーから構成される。
これらの特徴抽出器は、しばしば固定ネットワークアーキテクチャを用いて異なるASSR推論タスクに対処し、それぞれが入力画像とアップサンプリングスケールによって特徴付けられる。
しかし、これは、単純な画像や小さなSRスケールが難しい画像や大きなSRスケールよりも少ない計算労力で解決できるような、異なる推論シナリオにおける超解像の難解さを、見落としている。
本稿では,この難易度に対処するため,効率的な画像ASSRのための入力適応型特徴抽出器として,タスク認識動的変換器(TADT)を提案する。
我々のTADTは、マルチスケールトランスフォーマーブロック(MSTB)とタスク認識ルーティングコントローラ(TARC)からなるマルチスケール機能抽出バックボーンで構成されています。
TARCは特徴抽出バックボーン内の推論経路を予測し、特に入力画像とSRスケールに基づいてMSTBを選択する。
推論経路の予測は、SR精度と効率をトレードオフする新しい損失関数によって導かれる。
実験により,3つの一般的な任意のスケールアップサンプラーで作業する場合,TADTは主流の特徴抽出器と比較して最先端のASSR性能を実現するが,計算コストは比較的少ないことがわかった。
コードは公開されます。
Arbitrary-scale super-resolution (ASSR) aims to learn a single model for image super-resolution at arbitrary magnifying scales. Existing ASSR networks typically comprise an off-the-shelf scale-agnostic feature extractor and an arbitrary scale upsampler. These feature extractors often use fixed network architectures to address different ASSR inference tasks, each of which is characterized by an input image and an upsampling scale. However, this overlooks the difficulty variance of super-resolution on different inference scenarios, where simple images or small SR scales could be resolved with less computational effort than difficult images or large SR scales. To tackle this difficulty variability, in this paper, we propose a Task-Aware Dynamic Transformer (TADT) as an input-adaptive feature extractor for efficient image ASSR. Our TADT consists of a multi-scale feature extraction backbone built upon groups of Multi-Scale Transformer Blocks (MSTBs) and a Task-Aware Routing Controller (TARC). The TARC predicts the inference paths within feature extraction backbone, specifically selecting MSTBs based on the input images and SR scales. The prediction of inference path is guided by a new loss function to trade-off the SR accuracy and efficiency. Experiments demonstrate that, when working with three popular arbitrary-scale upsamplers, our TADT achieves state-of-the-art ASSR performance when compared with mainstream feature extractors, but with relatively fewer computational costs. The code will be publicly released. | 翻訳日:2024-08-27 12:52:18 公開日:2024-08-25 |
# ブール行列論理プログラミング
Boolean Matrix Logic Programming ( http://arxiv.org/abs/2408.10369v2 ) ライセンス: Link先を確認 | Lun Ai, Stephen H. Muggleton, | (参考訳) 本稿では,効率的かつ構成可能なブール行列操作モジュールに基づくデータログクエリ評価手法について述べる。
まず,ブール行列を代替計算として用い,データログプログラムの評価を行うBoolean Matrix Logic Programming (BMLP) を定義する。
線形Dyadic Recursive Datalogプログラムにおけるボトムアップ推論のための2つの新しいBMLPモジュールを開発した。
実験の結果,これらのモジュールは,大規模プログラムを数百万の事実で評価する際に,それぞれ30倍,9倍の係数で汎用システムと特殊システムを上回る性能を示した。
このブール行列アプローチは、論理プログラミング技術をサポートするためにデータログクエリの効率を大幅に向上させる。
We describe a datalog query evaluation approach based on efficient and composable boolean matrix manipulation modules. We first define an overarching problem, Boolean Matrix Logic Programming (BMLP), which uses boolean matrices as an alternative computation to evaluate datalog programs. We develop two novel BMLP modules for bottom-up inferences on linear dyadic recursive datalog programs, and show how additional modules can extend this capability to compute both linear and non-linear recursive datalog programs of arity two. Our empirical results demonstrate that these modules outperform general-purpose and specialised systems by factors of 30x and 9x, respectively, when evaluating large programs with millions of facts. This boolean matrix approach significantly enhances the efficiency of datalog querying to support logic programming techniques. | 翻訳日:2024-08-27 12:52:18 公開日:2024-08-25 |
# 時空間不均質をナビゲートするグラフ変換器による交通予測
Navigating Spatio-Temporal Heterogeneity: A Graph Transformer Approach for Traffic Forecasting ( http://arxiv.org/abs/2408.10822v2 ) ライセンス: Link先を確認 | Jianxiang Zhou, Erdong Liu, Wei Chen, Siru Zhong, Yuxuan Liang, | (参考訳) 交通予測はスマートシティの発展において重要な研究分野として浮上している。
複雑なアーキテクチャを持つさまざまなニューラルネットワークがこの問題を解決するために開発されたが、それでも2つの大きな課題に直面している。
一 時空間相関をモデル化するためのネットワーク設計の最近の進歩は、性能向上のリターンが低下し始めています。
ii) さらに, 交通データに固有の時空間的不均一性を考慮しないモデルが多く, 交通分布は地域によって大きく異なり, 交通フローパターンは時間帯によって変動する。
これらの課題に対処するために、時空間相関学習のためのトラフィックデータ固有の属性情報と構造情報を効果的に統合する時空間グラフ変換器(STGormer)と、時空間軸と時空間軸に沿った不均一性を取得するための試験モジュールを導入する。
具体的には、グラフ構造に基づく2つの単純かつ効果的な空間符号化法を設計し、時空間トラフィックパターンをキャプチャするためにバニラ変換器に時間位置符号化を統合する。
さらに、エキスパートの混合強化フィードフォワードニューラルネットワーク(FNN)モジュールは、時空間ゲーティングネットワークを介して、適切な専門家層を異なるパターンに適応的に割り当て、全体的な予測精度を向上する。
実世界のトラフィックデータセットの実験は、STGormerが最先端のパフォーマンスを達成することを示す。
Traffic forecasting has emerged as a crucial research area in the development of smart cities. Although various neural networks with intricate architectures have been developed to address this problem, they still face two key challenges: i) Recent advancements in network designs for modeling spatio-temporal correlations are starting to see diminishing returns in performance enhancements. ii) Additionally, most models do not account for the spatio-temporal heterogeneity inherent in traffic data, i.e., traffic distribution varies significantly across different regions and traffic flow patterns fluctuate across various time slots. To tackle these challenges, we introduce the Spatio-Temporal Graph Transformer (STGormer), which effectively integrates attribute and structure information inherent in traffic data for learning spatio-temporal correlations, and a mixture-of-experts module for capturing heterogeneity along spaital and temporal axes. Specifically, we design two straightforward yet effective spatial encoding methods based on the graph structure and integrate time position encoding into the vanilla transformer to capture spatio-temporal traffic patterns. Additionally, a mixture-of-experts enhanced feedforward neural network (FNN) module adaptively assigns suitable expert layers to distinct patterns via a spatio-temporal gating network, further improving overall prediction accuracy. Experiments on real-world traffic datasets demonstrate that STGormer achieves state-of-the-art performance. | 翻訳日:2024-08-27 12:52:18 公開日:2024-08-25 |
# ダイヤモンド量子センサを用いた大規模多重ナノスケール磁力計
Massively multiplexed nanoscale magnetometry with diamond quantum sensors ( http://arxiv.org/abs/2408.11666v2 ) ライセンス: Link先を確認 | Kai-Hung Cheng, Zeeshawn Kazi, Jared Rovny, Bichen Zhang, Lila Nassar, Jeff D. Thompson, Nathalie P. de Leon, | (参考訳) ダイヤモンド中の単一窒素空孔(NV)中心は高感度ナノスケールセンシングに広く用いられているが、従来の手法では共焦点顕微鏡を用いて個々の中心を逐次測定し、スループットを制限し、非局所的な物理的特性にアクセスしている。
ここでは,低ノイズカメラを用いて多数のNVセンターを同時に読み取ることのできる多重化NVセンシングプラットフォームの設計と実装を行う。
このプラットフォームを用いて、数百の個々のNV中心のスピン状態を並列に操作・読み出し、共焦点測定に匹敵する磁場感度を実現する。
また、低NV中心スピン状態読み出し雑音に対するスピン・チャージ・コンバージョン・リードアウトの並列化版を実装し、これを多重共分散磁気メトリーとして使用し、同時に4つのNV中心から6つの2点磁場相関器を計測した。
測定できる相関器の数は、利用可能なレーザーパワーによってのみ制限され、扉を非常に多重化された共分散磁気メトリーに開放する。
我々のプラットフォームはスループットを大幅に向上させ、ダイヤモンド量子センサを用いたナノスケールセンシングの応用を拡大する。
Single nitrogen vacancy (NV) centers in diamond have been used extensively for high-sensitivity nanoscale sensing, but conventional approaches use confocal microscopy to measure individual centers sequentially, limiting throughput and access to non-local physical properties. Here we design and implement a multiplexed NV sensing platform that allows us to read out many single NV centers simultaneously using a low-noise camera. Using this platform, we coherently manipulate and read out the spin states of hundreds of individual NV centers in parallel, achieving comparable magnetic field sensitivity to confocal measurements. We also implement a parallelized version of spin-to-charge-conversion readout for low NV center spin state readout noise and use it to demonstrate multiplexed covariance magnetometry, in which we measure six two-point magnetic field correlators from four NV centers simultaneously. The number of correlators we can measure is limited only by the available laser power, opening the door to massively multiplexed covariance magnetometry. Our platform significantly increases the throughput and broadens the applications of nanoscale sensing using diamond quantum sensors. | 翻訳日:2024-08-27 12:42:21 公開日:2024-08-25 |
# NuSegDG:領域一般化核分割のための不均一空間とガウス核の統合
NuSegDG: Integration of Heterogeneous Space and Gaussian Kernel for Domain-Generalized Nuclei Segmentation ( http://arxiv.org/abs/2408.11787v2 ) ライセンス: Link先を確認 | Zhenye Lou, Qing Xu, Zekun Jiang, Xiangjian He, Zhen Chen, Yi Wang, Chenxin Li, Maggie M. He, Wenting Duan, | (参考訳) ドメイン一般化核セグメンテーション(ドメイン一般化核セグメンテーション、Domain Generalized Nuclear segmentation)とは、ソースドメインから学んだ知識に基づいて、モデルが見えない領域に一般化可能であることをいう。
近年,Segment Anything Model (SAM) はインタラクティブなプロンプトモード(例えば,ポイント,ボックス)による画像分割において大きな成功を収めている。
その強さにもかかわらず、オリジナルのSAMは医療画像への適応が限られている。
さらにSAMは、各オブジェクトが良好なセグメンテーションマスクを生成するために、手動でバウンディングボックスプロンプトを提供する必要があるため、核セグメンテーションのシナリオでは精力的である。
これらの制約に対処するため、NuSegDGと略される核画像分割のためのドメイン一般化可能なフレームワークを提案する。
具体的には、まず、SAMの画像エンコーダに少数のトレーニング可能なパラメータを注入することにより、異なる核ドメインの多次元特徴表現を学習するために、異種空間適応器(HS-Adapter)を考案する。
手動プロンプトの労働集約的な要求を軽減するため,単一点で駆動される密度マップを生成するガウス・ケルネル・プロンプトエンコーダ(GKP-エンコーダ)を導入し,位置プロンプトと意味プロンプトを混合してセグメンテーション予測を導出する。
さらに,2段階マスクデコーダ(TSM-Decoder)を提案する。
実験により,提案したNuSegDGは,核インスタンス分割における最先端の性能を示し,ドメインの一般化能力に優れていた。
ソースコードはhttps://github.com/xq141839/NuSegDGで入手できる。
Domain-generalized nuclei segmentation refers to the generalizability of models to unseen domains based on knowledge learned from source domains and is challenged by various image conditions, cell types, and stain strategies. Recently, the Segment Anything Model (SAM) has made great success in universal image segmentation by interactive prompt modes (e.g., point and box). Despite its strengths, the original SAM presents limited adaptation to medical images. Moreover, SAM requires providing manual bounding box prompts for each object to produce satisfactory segmentation masks, so it is laborious in nuclei segmentation scenarios. To address these limitations, we propose a domain-generalizable framework for nuclei image segmentation, abbreviated to NuSegDG. Specifically, we first devise a Heterogeneous Space Adapter (HS-Adapter) to learn multi-dimensional feature representations of different nuclei domains by injecting a small number of trainable parameters into the image encoder of SAM. To alleviate the labor-intensive requirement of manual prompts, we introduce a Gaussian-Kernel Prompt Encoder (GKP-Encoder) to generate density maps driven by a single point, which guides segmentation predictions by mixing position prompts and semantic prompts. Furthermore, we present a Two-Stage Mask Decoder (TSM-Decoder) to effectively convert semantic masks to instance maps without the manual demand for morphological shape refinement. Based on our experimental evaluations, the proposed NuSegDG demonstrates state-of-the-art performance in nuclei instance segmentation, exhibiting superior domain generalization capabilities. The source code is available at https://github.com/xq141839/NuSegDG. | 翻訳日:2024-08-27 12:42:21 公開日:2024-08-25 |
# Epsilon: マルチラベルゼロショット学習のための総合的なビジュアルセマンティック投影
Epsilon: Exploring Comprehensive Visual-Semantic Projection for Multi-Label Zero-Shot Learning ( http://arxiv.org/abs/2408.12253v2 ) ライセンス: Link先を確認 | Ziming Liu, Jingcai Guo, Song Guo, Xiaocheng Lu, | (参考訳) 本稿では,マルチラベルシナリオ(MLZSL)におけるゼロショット学習(ゼロショット学習)の課題について考察する。このモデルでは,見知らぬクラスと補助知識,例えばセマンティック情報に基づいて,サンプル(例えば画像)内の複数の未確認クラスを認識できるように訓練されている。
既存の方法は、通常、空間的または意味的な特性の次元からサンプルに居住する様々なクラスの関係を分析し、学習したモデルを目に見えないクラスに転送する。
しかし、彼らは地域的特徴とグローバルな特徴の完全性を無視している。
注意構造の使用は、特にオブジェクトの局所的な特徴を正確に特定するが、その完全性は著しく失われ、クラス間の関係も影響を受ける。
グローバル機能の粗い処理は、包括性にも直接影響を与える。
この無視により、モデルは画像の主要なコンポーネントを把握できなくなる。
推論段階における授業の局所的な存在のみを考慮すれば、避けられないバイアスが生じる。
本稿では,エプシロンと呼ばれるMLZSLのための新しいビジュアル・セマンティック・フレームワークを提案し,それらの特性を完全に活用し,より正確で堅牢なビジュアル・セマンティック・プロジェクションを実現する。
空間情報の観点からは,画像特徴を複数の意味的プロンプトにグループ化することで,効果的な改善を実現する。
クラス情報ではなくセマンティック情報を集約し、セマンティックス間の相関を保存する。
グローバルセマンティクスの観点では、グローバルフォワードプロパゲーションを使用して可能な限り多くの情報を収集し、セマンティクスが省略されないことを保証する。
大規模なMLZSLベンチマークデータセットであるNAS-WideとOpen-Images-v4の実験は、提案されたEpsilonが、大きなマージンを持つ他の最先端の手法よりも優れていることを示した。
This paper investigates a challenging problem of zero-shot learning in the multi-label scenario (MLZSL), wherein the model is trained to recognize multiple unseen classes within a sample (e.g., an image) based on seen classes and auxiliary knowledge, e.g., semantic information. Existing methods usually resort to analyzing the relationship of various seen classes residing in a sample from the dimension of spatial or semantic characteristics and transferring the learned model to unseen ones. However, they neglect the integrity of local and global features. Although the use of the attention structure will accurately locate local features, especially objects, it will significantly lose its integrity, and the relationship between classes will also be affected. Rough processing of global features will also directly affect comprehensiveness. This neglect will make the model lose its grasp of the main components of the image. Relying only on the local existence of seen classes during the inference stage introduces unavoidable bias. In this paper, we propose a novel and comprehensive visual-semantic framework for MLZSL, dubbed Epsilon, to fully make use of such properties and enable a more accurate and robust visual-semantic projection. In terms of spatial information, we achieve effective refinement by group aggregating image features into several semantic prompts. It can aggregate semantic information rather than class information, preserving the correlation between semantics. In terms of global semantics, we use global forward propagation to collect as much information as possible to ensure that semantics are not omitted. Experiments on large-scale MLZSL benchmark datasets NUS-Wide and Open-Images-v4 demonstrate that the proposed Epsilon outperforms other state-of-the-art methods with large margins. | 翻訳日:2024-08-27 12:42:21 公開日:2024-08-25 |
# 視覚におけるG$-Biasesによる緩和回転等価性
Relaxed Rotational Equivariance via $G$-Biases in Vision ( http://arxiv.org/abs/2408.12454v2 ) ライセンス: Link先を確認 | Zhiqiang Wu, Licheng Sun, Yingjie Liu, Jian Yang, Hanlin Dong, Shing-Ho J. Lin, Xuan Tang, Jinpeng Mi, Bo Jin, Xian Wei, | (参考訳) 群同変畳み込み(GConv)は回転対称性データを効果的に扱うことができる。
彼らはすべての特徴に対して一様かつ厳密な回転対称性を仮定し、特定の群の下での変換を仮定する。
しかし、実世界のデータは、システムやデータセットで一般的には回転対称性と呼ばれる厳密な回転対称性に従わないため、GConvはこの現象に効果的に適応できない。
この問題に対して,厳密な群制約を破り, \textbf{R}elaxed \textbf{R}otational \textbf{E}quivarant \textbf{Conv}olution (RREConv) を達成するために, G$-Biases と呼ばれる一連の学習可能なバイアスを利用する,単純かつ高効率な手法を提案する。
回転対称群 $\mathcal{C}_n$ (eg $\mathcal{C}_2$, $\mathcal{C}_4$, $\mathcal{C}_6$ group) 上の緩和回転同値性を検証するための広範な実験を行う。
さらに,提案したRREConv法は,自然画像データセットの分類・検出タスクにおける既存のGConv法と比較して,優れた性能を示すことを示す。
Group Equivariant Convolution (GConv) can effectively handle rotational symmetry data. They assume uniform and strict rotational symmetry across all features, as the transformations under the specific group. However, real-world data rarely conforms to strict rotational symmetry commonly referred to as Rotational Symmetry-Breaking in the system or dataset, making GConv unable to adapt effectively to this phenomenon. Motivated by this, we propose a simple but highly effective method to address this problem, which utilizes a set of learnable biases called the $G$-Biases under the group order to break strict group constraints and achieve \textbf{R}elaxed \textbf{R}otational \textbf{E}quivarant \textbf{Conv}olution (RREConv). We conduct extensive experiments to validate Relaxed Rotational Equivariance on rotational symmetry groups $\mathcal{C}_n$ (e.g. $\mathcal{C}_2$, $\mathcal{C}_4$, and $\mathcal{C}_6$ groups). Further experiments demonstrate that our proposed RREConv-based methods achieve excellent performance, compared to existing GConv-based methods in classification and detection tasks on natural image datasets. | 翻訳日:2024-08-27 12:32:31 公開日:2024-08-25 |
# Show-o:マルチモーダル理解と生成を統一するシングルトランス
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation ( http://arxiv.org/abs/2408.12528v2 ) ライセンス: Link先を確認 | Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou, | (参考訳) マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。
完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。
統一されたモデルは、視覚的質問応答、テキスト・ツー・イメージ生成、テキスト誘導インペイント/抽出、混合モダリティ生成など、幅広い視覚言語タスクを柔軟にサポートする。
様々なベンチマークで、既存の個々のモデルに匹敵する、あるいは優れたパフォーマンスを示しており、同じまたは多くのパラメータが理解や生成用に調整されている。
これは次世代のファウンデーションモデルとしての可能性を著しく強調している。
コードとモデルはhttps://github.com/showlab/Show-o.comで公開されている。
We present a unified transformer, i.e., Show-o, that unifies multimodal understanding and generation. Unlike fully autoregressive models, Show-o unifies autoregressive and (discrete) diffusion modeling to adaptively handle inputs and outputs of various and mixed modalities. The unified model flexibly supports a wide range of vision-language tasks including visual question-answering, text-to-image generation, text-guided inpainting/extrapolation, and mixed-modality generation. Across various benchmarks, it demonstrates comparable or superior performance to existing individual models with an equivalent or larger number of parameters tailored for understanding or generation. This significantly highlights its potential as a next-generation foundation model. Code and models are released at https://github.com/showlab/Show-o. | 翻訳日:2024-08-27 12:32:31 公開日:2024-08-25 |
# MuMA-ToM:Multi-modal Multi-Agent Theory of Mind
MuMA-ToM: Multi-modal Multi-Agent Theory of Mind ( http://arxiv.org/abs/2408.12574v2 ) ライセンス: Link先を確認 | Haojun Shi, Suyu Ye, Xinyu Fang, Chuanyang Jin, Leyla Isik, Yen-Ling Kuo, Tianmin Shu, | (参考訳) 複雑な現実世界のシナリオにおける人々の社会的相互作用を理解することは、しばしば複雑な精神的推論に依存する。
人々がどのように、なぜ互いに相互作用するのかを真に理解するためには、社会的な相互作用を引き起こす基礎となる精神状態、すなわちマルチエージェント相互作用における心の理論を推論する必要がある。
人々の行動を見たり、会話を聞いたり、過去の行動について読んだりできます。
AIシステムが現実世界の環境で人々とうまく安全に対話するためには、対話に関するマルチモーダル情報に基づいて、人々の精神状態だけでなく、互いの精神状態に関する推論も理解する必要がある。
そこで本研究では,マルチモーダルなマルチエージェント理論である MuMA-ToM について紹介する。
MuMA-ToMは、インボディード・マルチエージェント相互作用における精神的推論を評価する最初のマルチモーダル・オブ・マインドベンチマークである。
In MuMA-ToM, we provide video and text descriptions of people's multi-modal behavior in real household environment。
その文脈に基づいて、他人の目標、信念、信念について質問する。
人体実験で MuMA-ToM を検証し,人体ベースラインを提供した。
また,LIMP(Language model-based Inverse Multi-agent Planning)という新しいマルチモーダル・マルチエージェントToMモデルも提案した。
実験の結果,LIMPは大規模マルチモーダルモデル (GPT-4o, Gemini-1.5 Pro) や最近のマルチモーダルToMモデル (BIP-ALM) など,最先端の手法よりも優れていた。
Understanding people's social interactions in complex real-world scenarios often relies on intricate mental reasoning. To truly understand how and why people interact with one another, we must infer the underlying mental states that give rise to the social interactions, i.e., Theory of Mind reasoning in multi-agent interactions. Additionally, social interactions are often multi-modal -- we can watch people's actions, hear their conversations, and/or read about their past behaviors. For AI systems to successfully and safely interact with people in real-world environments, they also need to understand people's mental states as well as their inferences about each other's mental states based on multi-modal information about their interactions. For this, we introduce MuMA-ToM, a Multi-modal Multi-Agent Theory of Mind benchmark. MuMA-ToM is the first multi-modal Theory of Mind benchmark that evaluates mental reasoning in embodied multi-agent interactions. In MuMA-ToM, we provide video and text descriptions of people's multi-modal behavior in realistic household environments. Based on the context, we then ask questions about people's goals, beliefs, and beliefs about others' goals. We validated MuMA-ToM in a human experiment and provided a human baseline. We also proposed a novel multi-modal, multi-agent ToM model, LIMP (Language model-based Inverse Multi-agent Planning). Our experimental results show that LIMP significantly outperforms state-of-the-art methods, including large multi-modal models (e.g., GPT-4o, Gemini-1.5 Pro) and a recent multi-modal ToM model, BIP-ALM. | 翻訳日:2024-08-27 12:32:31 公開日:2024-08-25 |
# 距離スーパービジョンのための微分可能論理プログラミング
Differentiable Logic Programming for Distant Supervision ( http://arxiv.org/abs/2408.12591v2 ) ライセンス: Link先を確認 | Akihiro Takemura, Katsumi Inoue, | (参考訳) 我々は,ニューラル・シンボリックAI(Near-Symbolic AI,NeSy)において,ニューラルネットワークと論理プログラミングを統合する新しい手法を提案する。
従来の手法とは違って,提案手法はラベルの欠落を推論するシンボリック・ソルバに依存しない。
代わりに、ニューラルネットワークの出力と論理プログラムの両方を行列に埋め込むことで、論理的含意と制約を異なる方法で評価する。
この方法は、遠隔の監督下でより効率的な学習を容易にする。
一定量のトレーニングデータを維持しながら,既存の手法に対するアプローチを評価した。
その結果,本手法は様々なタスクにまたがる他の手法の精度に適合するだけでなく,学習プロセスの高速化にも寄与することがわかった。
これらの結果は,NeSyアプリケーションにおける精度と学習効率を両立させるアプローチの可能性を強調している。
We introduce a new method for integrating neural networks with logic programming in Neural-Symbolic AI (NeSy), aimed at learning with distant supervision, in which direct labels are unavailable. Unlike prior methods, our approach does not depend on symbolic solvers for reasoning about missing labels. Instead, it evaluates logical implications and constraints in a differentiable manner by embedding both neural network outputs and logic programs into matrices. This method facilitates more efficient learning under distant supervision. We evaluated our approach against existing methods while maintaining a constant volume of training data. The findings indicate that our method not only matches or exceeds the accuracy of other methods across various tasks but also speeds up the learning process. These results highlight the potential of our approach to enhance both accuracy and learning efficiency in NeSy applications. | 翻訳日:2024-08-27 12:32:31 公開日:2024-08-25 |